Redis Hash(散列表)是一种 field-value pAIrs(键值对)集合类型,类似于 Python/ target=_blank class=infotextkey>Python 中的字典、JAVA 中的 HashMap。一个 field 对应一个 value,你可以通过 field 在 O(1) 时间复杂度查 field 找关联的 field,也可以通过 field 来更新或者删除这个键值对。
Redis 的散列表 dict 由数组 + 链表构成,数组的每个元素占用的槽位叫做哈希桶,当出现散列冲突的时候就会在这个桶下挂一个链表,用“拉链法”解决散列冲突的问题。
简单地说就是将一个 key 经过散列计算均匀的映射到散列表上。
图 2-18
Hash 数据类型底层存储数据结构实际上有两种。
通常情况下使用 dict 数据结构存储数据,每个 field-value pairs 构成一个 dictEntry 节点来保存。
只有同时满足以下两个条件的时候,才会使用 listpack(7.0 版本之前使用 ziplist)数据结构来代替 dict 存储, 把 key-value 键值对按照 field 在前 value 在后,紧密相连的方式放到一次把每个键值对放到列表的表尾。
每次向散列表写数据的时候,都会调用 t_hash.c 中的hashTypeConvertListpack()函数来判断是否需要转换底层数据结构。
当插入和修改的数据不满足以上两个条件时,就把散列表底层存储结构转换成 dict结构。需要注意的是,不能由 dict 退化成 listpack。
虽然使用了 listpack 就无法实现 O(1) 时间复杂度操作数据,但是使用 listpack 能大大减少内存占用,而且数据量比较小,性能并不是有太大差异。
为了对上层屏蔽散列表底层使用了不同数据结构存储,所以抽象了一个 hashTypeIterator 迭代器来实现散列表的查询。
Hashes 数据类型使用 listpack 作为存储数据时的情况,如图 2-19 所示。
图 2-19
listpack 数据结构在之前的已经介绍过, 接下来带你揭秘 dict 到底长啥样。
Redis 数据库就是一个全局散列表。正常情况下,我只会使用 ht_table[0]
散列表,图 2-20 是一个没有进行 rehash 状态下的字典。
图 2-20
dict 字典在源代码 dict.h中使用 dict 结构体表示。
struct dict {
dictType *type;
// 真正存储数据的地方,分别存放两个指针
dictEntry **ht_table[2];
unsigned long ht_used[2];
long rehashidx;
int16_t pauserehash;
signed char ht_size_exp[2];
};
继续看 dictEntry,数组中每个元素都是 dictEntry 类型,就是这玩意存放了键值对,表示字典的一个节点。
typedef struct dictEntry {
void *key;
union {
void *val;
uint64_t u64;
int64_t s64;
double d;
} v;
struct dictEntry *next;
} dictEntry;
MySQL:“为啥 ht_table[2] 存放了两个指向散列表的指针?用一个散列表不就够了么。”
默认使用 ht_table [0] 进行读写数据,当散列表的数据越来越多的时候,哈希冲突严重会出现哈希桶的链表比较长,导致查询性能下降。
我为了唯快不破想了一个法子,当散列表保存的键值对太多或者太少的时候,需要通过 rehash(重新散列)对散列表进行扩容或者缩容。
MySQL:“什么时候会触发扩容?”
负载因子 = 散列表存储 dictEntry 节点数量 / 散列表桶个数。完美情况下,每个哈希桶存储一个 dictEntry 节点,这时候负载因子 = 1。
MySQL:“需要迁移数据量很大,rehash 操作岂不是会长时间阻塞主线程?”
为了防止阻塞主线程造成性能问题,我并不是一次性把全部的 key 迁移,而是分多次,将迁移操作分散到每次请求中,避免集中式 rehash 造成长时间阻塞,这个方式叫渐进式 rehash。
在执行渐进式 rehash 期间,dict 会同时使用 ht_table[0] 和 ht_table[1]两个散列表,rehash 具体步骤如下。
MySQL:“rehash 过程中,字典的删除、查找、更新和添加操作,要从两个 ht_table 都搞一遍么?”
删除、修改和查找可能会在两个散列表进行,第一个散列表没找到就到第二个散列表进行查找。但是增加操作只会在新的散列表上进行。
MySQL:“如果请求比较少,岂不是会很长时间都要使用两个散列表。”
好问题,在 Redis Server 初始化时,会注册一个时间事件,定时执行 serverCron 函数,其中包含 rehash 操作用于辅助迁移,避免这个问题。
serverCron 函数除了做 rehash 以外,主要处理如下工作。
是不是很贴心,既能保证性能,又能避免内存浪费。好了,今天散列表底层数据结构实现原理就到这里。后面我将给大家分享如何使用 Hash 实现购物车功能。