当前位置：首页 > news >正文

深入理解Redis整数集合（intset）的升级策略：内存优化的核心魔法

news 2025/6/26 13:00:40

引言

作为Redis中最节省内存的数据结构之一，整数集合（intset） 专门用于高效存储整型数据。但你可能不知道，它背后藏着一个精妙的「动态升级」机制——能在不浪费内存的前提下，灵活适配不同大小的整数。今天我们就来扒开这层神秘面纱，彻底搞懂它的升级策略！

一、先搞清楚：intset到底是啥？

在Redis中，当存储的整型数据比较「紧凑」（比如都是小整数）时，不会直接用普通的数组或哈希表，而是用更高效的 intset。它的核心设计目标就一个：用最小的内存存最多的整数。

1.1 intset的底层数组结构

整数集合的底层结构定义（简化版）如下：

typedef struct intset {uint32_t encoding;  // 编码类型，决定元素的实际类型（如 INTSET_ENC_INT16/INT32/INT64）uint32_t length;    // 集合中元素的个数int8_t contents[];  // 存储元素的数组（实际类型由 encoding 决定）
} intset;

intset 的底层是一个数组（contents[]），但和普通数组不同，它的元素类型不是固定的，而是由一个「编码标识」（encoding）动态决定的。这个 encoding 有三种可能：

INTSET_ENC_INT16：元素是16位有符号整数（范围：-32768 ~ 32767），每个元素占2字节；
INTSET_ENC_INT32：元素是32位有符号整数（范围：-2^31 ~ 2^31-1），每个元素占4字节；
INTSET_ENC_INT64：元素是64位有符号整数（范围：-2^63 ~ 2^63-1），每个元素占8字节。

举个栗子：如果一个 intset 的 encoding 是 INTSET_ENC_INT16，那它的 contents 数组里存的每个数都是16位的，占2字节。

1.2 为什么需要升级？内存优化的核心

假设你有一个 intset，初始存储的都是1000以内的小整数（完全在int16范围内），这时候用int16编码，每个元素只占2字节，内存利用率极高。但如果突然要插入一个40000的数（超过int16的最大值32767），这时候怎么办？

直接扩容数组？不行！ 因为int16的数组每个位置只能存2字节，40000用int16存会溢出（变成负数）。所以必须升级 encoding 到更大的类型（比如int32），让所有元素都能被正确存储。

这就是 intset 升级的核心意义：动态调整编码类型，用最小的内存兼容所有元素。

二、升级什么时候触发？惰性策略的智慧

intset 的升级不是「每次插入都检查」，而是「按需触发」——只有当你插入一个「当前编码存不下」的整数时，才会触发升级。这种「惰性策略」能避免频繁的内存分配和数据迁移，提升性能。

触发条件示例：

当前 encoding 是 INTSET_ENC_INT16（存16位整数），插入一个32768（超过int16最大值32767）→ 触发升级到 INTSET_ENC_INT32；
当前 encoding 是 INTSET_ENC_INT32，插入一个2^32（超过int32最大值2147483647）→ 触发升级到 INTSET_ENC_INT64；
插入的数在当前编码范围内（比如int16存20000）→ 不升级，直接插入。