当前位置: 首页 > news >正文

深入理解Redis整数集合(intset)的升级策略:内存优化的核心魔法

引言

作为Redis中最节省内存的数据结构之一,整数集合(intset) 专门用于高效存储整型数据。但你可能不知道,它背后藏着一个精妙的「动态升级」机制——能在不浪费内存的前提下,灵活适配不同大小的整数。今天我们就来扒开这层神秘面纱,彻底搞懂它的升级策略!


一、先搞清楚:intset到底是啥?

在Redis中,当存储的整型数据比较「紧凑」(比如都是小整数)时,不会直接用普通的数组或哈希表,而是用更高效的 intset。它的核心设计目标就一个:用最小的内存存最多的整数

1.1 intset的底层数组结构

整数集合的底层结构定义(简化版)如下:

typedef struct intset {uint32_t encoding;  // 编码类型,决定元素的实际类型(如 INTSET_ENC_INT16/INT32/INT64)uint32_t length;    // 集合中元素的个数int8_t contents[];  // 存储元素的数组(实际类型由 encoding 决定)
} intset;

intset 的底层是一个数组(contents[]),但和普通数组不同,它的元素类型不是固定的,而是由一个「编码标识」(encoding)动态决定的。这个 encoding 有三种可能:

  • INTSET_ENC_INT16:元素是16位有符号整数(范围:-32768 ~ 32767),每个元素占2字节;
  • INTSET_ENC_INT32:元素是32位有符号整数(范围:-2^31 ~ 2^31-1),每个元素占4字节;
  • INTSET_ENC_INT64:元素是64位有符号整数(范围:-2^63 ~ 2^63-1),每个元素占8字节。

举个栗子:如果一个 intsetencodingINTSET_ENC_INT16,那它的 contents 数组里存的每个数都是16位的,占2字节。

1.2 为什么需要升级?内存优化的核心

假设你有一个 intset,初始存储的都是1000以内的小整数(完全在int16范围内),这时候用int16编码,每个元素只占2字节,内存利用率极高。但如果突然要插入一个40000的数(超过int16的最大值32767),这时候怎么办?

直接扩容数组?不行! 因为int16的数组每个位置只能存2字节,40000用int16存会溢出(变成负数)。所以必须升级 encoding 到更大的类型(比如int32),让所有元素都能被正确存储。

这就是 intset 升级的核心意义:动态调整编码类型,用最小的内存兼容所有元素


二、升级什么时候触发?惰性策略的智慧

intset 的升级不是「每次插入都检查」,而是「按需触发」——只有当你插入一个「当前编码存不下」的整数时,才会触发升级。这种「惰性策略」能避免频繁的内存分配和数据迁移,提升性能。

触发条件示例:

  • 当前 encodingINTSET_ENC_INT16(存16位整数),插入一个32768(超过int16最大值32767)→ 触发升级到 INTSET_ENC_INT32
  • 当前 encodingINTSET_ENC_INT32,插入一个2^32(超过int32最大值2147483647)→ 触发升级到 INTSET_ENC_INT64
  • 插入的数在当前编码范围内(比如int16存20000)→ 不升级,直接插入。

三、升级全过程拆解:从int16到int32的「变身」

升级过程听起来简单,但背后涉及内存分配、数据类型转换、元素迁移等步骤。我们以「int16升级到int32」为例,一步步看:

3.1 步骤1:确定目标编码类型

首先得判断新插入的数需要多大的空间。比如插入40000,它超过了int16的范围(-3276832767),但能被int32容纳(-2^312^31-1),所以目标编码是 INTSET_ENC_INT32

3.2 步骤2:计算新内存大小

原来的 intset 有3个int16元素(每个2字节),总内存是3×2=6字节。现在要插入1个int32元素(4字节),所有元素都要转为int32(每个占4字节),所以新内存大小是(3+1)×4=16字节。

3.3 步骤3:分配新内存并迁移数据

这一步是关键!Redis会做两件事:

  1. 分配新内存:根据计算出的16字节,申请一块新的连续内存空间;
  2. 转换并复制旧数据:把原来的3个int16元素逐个转为int32(比如10→(int32_t)10,值不变但类型升级),复制到新内存中。

3.4 步骤4:插入新元素并保持有序

intset 中的元素始终是升序排列的(方便二分查找)。所以插入40000时,需要找到正确的位置(这里应该是最后),插入后数组变为 [10, 20, 30, 40000]

3.5 步骤5:更新元数据

最后,把 encoding 改为 INTSET_ENC_INT32length 加1(现在集合有4个元素)。至此,升级完成!


四、升级的三大关键特性:为什么这样设计?

4.1 类型一致性:升级后「一刀切」

升级完成后,集合里所有元素的类型都统一为目标编码。比如从int16升级到int32后,后续插入的元素如果超过int32范围,会再次触发升级到int64。这保证了数据存储的一致性,避免了混合类型的复杂处理。

4.2 内存优化:用多少,扩多少

升级只在必要时触发,避免了「为了存大数而预分配大内存」的浪费。比如存1000个int16整数,只需要2000字节;如果提前升级到int32,就需要4000字节——显然前者更省内存。

4.3 不可降级:升级容易,降级难

一旦升级到更大的编码(比如int16→int32),即使后续删除了所有大整数,encoding 也不会降回去。这是Redis的「性能妥协」:频繁检查是否可降级会增加开销,而保留大编码对后续插入大数更友好(不需要再次升级)。


五、示例演示:直观感受升级过程

假设我们有一个初始状态为 INTSET_ENC_INT16intset,存储 [10, 20, 30](3个元素,内存6字节):

场景1:插入int16范围内的数(如25)

  • 25在int16范围内(-32768~32767),无需升级;
  • 直接插入到正确位置(升序),集合变为 [10, 20, 25, 30]length=4,内存占用8字节(4×2)。

场景2:插入int32范围的数(如40000)

  • 40000超过int16最大值32767,触发升级到 INTSET_ENC_INT32
  • 新内存大小=(3+1)×4=16字节;
  • 旧数据转换为int32后复制到新内存,插入40000,集合变为 [10, 20, 30, 40000]
  • encoding 改为 INTSET_ENC_INT32length=4。

总结:intset升级策略的「得与失」

Redis的 intset 升级策略是一个典型的「空间换时间」与「时间换空间」的平衡设计:

  • 优点:通过动态升级,既保证了小整数的内存效率(用int16存小数),又能兼容大整数(升级到int32/int64);
  • 缺点:升级需要重新分配内存并复制数据,时间复杂度是O(N)(N是原元素数量),频繁插入大数可能影响性能。

理解这一策略后,我们在使用Redis时可以更「聪明」:如果确定要存储大量小整数(如1~1000),可以用 intset 节省内存;如果需要混合存储大整数,建议直接用 hashstring 类型,避免频繁升级带来的开销。

http://www.lqws.cn/news/521389.html

相关文章:

  • FPGA笔记——ZYNQ-7020运行PS端的USB 2.0端口作为硬盘
  • 基于大数据的社会治理与决策支持方案PPT(66页)
  • IE浏览器使用
  • 系统思考:预防重于治疗
  • 如何搭建CDN服务器?
  • 将 Docker的存储目录迁移到空间更大的磁盘
  • 搭建自己的WEB应用防火墙
  • mbedtls ssl handshake error,res:-0x2700
  • 数据库数据恢复—SQL Server数据库被加密如何恢复?
  • Fisco Bcos学习 - 搭建星形拓扑组网
  • python基础
  • Android14音频子系统-Linux音频子系统ASoC-ALSA
  • Linux RDMA网络配置手册
  • 2026-软件工程-《软件质量测试与保证》-期末复习—习题汇总
  • 【编程基本功】Win11中Git安装配置全攻略,包含Git以及图形化工具TortoiseGit
  • Qt开发1--Qt概述,安装,创建第一个Qt项目
  • 2 Qt中的空窗口外观设置和常用的基础部件
  • 【笔记】Docker 配置阿里云镜像加速(公共地址即开即用,无需手动创建实例)
  • C#高级:Winform桌面开发中DataGridView的详解(新)
  • 在 GitLab CI 中配置多任务
  • Tomcat
  • 用Rust写平衡三进制乘法器
  • Hoare逻辑与分离逻辑:从程序验证到内存推理的演进
  • ES10(ES2019)新特性整理
  • 华为运维工程师面试题(英语试题,内部资料)
  • mysql 5.1 升级 mysql 5.7 升级 mariadb10
  • RabbitMq中使用自定义的线程池
  • 基于R语言的亚组分析与森林图绘制1
  • 微算法科技融合Grover算法与统一哈希函数的混合经典-量子算法技术,可在多领域高效提升文本处理效率
  • win11搭建Python开发环境指南