Redis布隆过滤器

时间：2019-10-08 11:14:13 来源：作者：

场景

在项目开发中，我们经常会遇到去重问题。比如：判断一个人有没有浏览过一篇文章，判断一个人当天是否登录过某个系统，判断一个ip是否发过一个请求，等等。

比较容易想到的是使用set来实现这个功能。但如果数据量较大，使用set会非常消耗内存，性能也不高。在前面的文章中，我们介绍了一种数据结构：BitMap来提高性能。但BitMap仍然比较消耗内存，尤其是在数据比较稀疏的情况下，使用BitMap并不划算。

实际上，对于“去重”问题，业界有另外一个更优秀的数据结构来解决这类问题，那就是——布隆过滤器(BloomFilter)。

原理

布隆过滤器与BitMap类似，底层也是一个位数组。1表示有，0表示无。但布隆过滤器比BitMap需要更少的内存，它是怎么办到的呢？答案是多个hash。

我们知道hash算法，是把一个数从较大范围的值，映射到较小范围值。比如我们有一个10位的数组，使用某个hash算法及其数组上的表示：

hash(“xy”) = 3;

hash(“技术圈”) = 5;

0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0

这样，我们使用这个hash算法就能快速的判断一个字符串是不是存在一个集合里面了。但众所周知，hash算法是有可能发生hash冲突的。比如可能有两个不同的字符串映射到同一个数：

hash(“xy”) = 3;

hash(“xy的技术圈”) = 3;

这种情况下，就不能准确得判断出某个字符串是不是存在于集合之中呢。

那怎么解决这个问题呢？答案是使用多个不同的hash算法。比如：

h1(“xy”) = 3, h2(“xy”) = 5, h3(“xy”) = 7;

h1(“技术圈”) = 5, h2(“技术圈”) = 6, h3(“技术圈”) = 7;

h1(“xy的技术圈”) = 3, h2(“xy的技术圈”) = 6, h3(“xy的技术圈”) = 9;

最开始，集合里没有元素，所有位都是0：

0, 0, 0, 0, 0, 0, 0, 0, 0, 0

然后，插入“xy”，利用多次hash，把每次hash的结果下标3, 5, 7都插入到相应的地方：

0, 0, 0, 1, 0, 1, 0, 1, 0, 0

然后，插入“技术圈”，利用多次hash，把每次hash的结果下标5, 6, 7都插入到相应的地方，已经是1的下标不变：

0, 0, 0, 1, 0, 1, 1, 1, 0, 0

这个时候，如果想要判断“xy”是否在集合中，只需要使用同样的3个hash算法，来计算出下标是3, 5, 7，发现这3个下标都为1，那么就认为“xy”这个字符串在集合中。而“xy的技术圈”计算出来的下标是3， 6， 9。发现这三个下标有不是1的地方，比如下标为9的地方是0，那就说明“xy的技术圈”这个字符串还不在集合中。

误差

从原理可以看得出来，布隆过滤器是有可能存在一定的误差的。尤其是当hash函数比较少的时候。布隆过滤器是根据多次hash计算下标后，数组的这些下标是否都为1来判断这个元素是否存在的。所以是存在一定的几率，要检查的元素实际上没有插入，但被其它元素插入影响，导致所有下标都为1。

所以布隆过滤器不能删除，因为一旦删除（即将相应的位置为0），就很大可能会影响其他元素。

如果使用布隆过滤器判断一个函数是否存在于一个集合，如果它返回true，则代表可能存在。如果它返回false，则代表一定不存在。

由此可见，布隆过滤器适合于一些需要去重，但不一定要完全精确的场景。比如：

判断一个用户访问了一篇文章
判断一个ip访问了本网站
判断一个key是否被访问过

相应的，布隆过滤器不适合一些要求零误差的场景，比如：

判断一个用户是否收藏了一篇文章
判断一个用户是否订购了一个课程

使用技巧

这就是布隆过滤器的基本原理。由上面的例子可以看出来，如果空间越大，hash函数越多，结果就越精确，但空间效率和查询效率就会越低。

这里有一个测试数据：

后面4列中的数据就是发生误差的数量。可见，空间大小和集合大小不变的情况下，增加hash函数可以显著减小误差。但一旦集合大小达到空间大小的25%左右后，增加hash函数带来的提神效果并不明显。这个时候应该增加空间大小。

redis中的布隆过滤器

Redis的布隆过滤器不是原生自带的，而是要通过module加载进去。Redis在4.0的版本中加入了module功能。具体使用可以直接看RedisBloom github的README：github.com/RedisBloom/…

Redis的布隆过滤器主要有两个命令：

bf.add 添加元素到布隆过滤器中：bf.add strs xy
bf.exists 判断某个元素是否在过滤器中：bf.exists strs xy

Redis中有一个命令可以来设置布隆过滤器的准确率：

bf.reserve strs 0.01 100
复制代码

三个参数的含义：

第一个值是过滤器的名字。
第二个值为error_rate的值：允许布隆过滤器的错误率。
第三个值为initial_size的值：初始化位数组的大小。

扩展学习

JAVA实现的布隆过滤器

如果你的项目没有使用Redis，那可以使用一些开源库，基于代码实现，直接存放在内存。比如google的guava包中提供了BloomFilter类，有兴趣的读者可以去了解一下，研究研究源码和使用。

布谷鸟过滤器

RedisBloom模块还实现了布谷鸟过滤器，它算是对布隆过滤器的增强版。解决了布隆过滤器的一些比较明显的缺点，比如：不能删除元素，不能计数等。除此之外，布谷鸟过滤器不用使用多个hash函数，所以查询性能更高。除此之外，在相同的误判率下，布谷鸟过滤器的空间利用率要明显高于布隆，空间上大概能节省40%多。

笔者个人觉得，对于大多数场景来说，布隆过滤器足以解决我们的问题。掘金上有一篇深度分析布谷鸟过滤器的文章，有兴趣的读者可以去了解一下：juejin.im/post/5cfb9c…

认真写文章，用心做分享。

个人网站：yasinshaw.com

公众号：xy的技术圈

Tags：Redis 布隆过滤器点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Redis布隆过滤器

在项目开发中，我们经常会遇到去重问题。比如：判断一个人有没有浏览过一篇文章，判断一个人当天是否登录过某个系统，判断一个ip是否发过一个请求，等等。...【详细内容】

2019-10-08　　Tags: Redis 布隆过滤器点击:(152)　　评论:(0)　　加入收藏

▌简易百科推荐

同事乱用 Redis 卡爆，我真是醉了...

来源： my.oschina.net/xiaomu0082/blog/2990388首先说下问题现象：内网sandbox环境API持续1周出现应用卡死，所有api无响应现象刚开始当测试抱怨环境响应慢的时候，我们重启一下应...【详细内容】

2021-12-08　　Java识堂　　　　Tags:Redis 　点击:(18)　　评论:(0)　　加入收藏

使用Redis时要避免的5个错误

我不知道为什么你会选择对特定数量的“错误”（或警告）如此具体。听起来您正在寻找将要发布到 Yahoo! 的某些文章的内容。 Insider (N Foos to Blah for the BlahBlah)。那说：...【详细内容】

2021-12-07　　富集云科技有限公司　　　　Tags:Redis 　点击:(14)　　评论:(0)　　加入收藏

redis主从同步参数repl_backlog_size测算

目录一、背景二、步骤 0.理论支持 1、获取数据 2、结果 3、分析数据并评估大小三、关于repl-backlog-size 一、背景 repl-backlog-size控制这个环形缓冲区. 主从断...【详细内容】

2021-11-05　　弈秋的美好生活　　　　Tags:redis 　点击:(41)　　评论:(0)　　加入收藏

Redis性能命令

Redis 性能测试是通过同时执行多个命令实现的。1，Redis-benchmarkRedis性能命令：redis性能命令格式: redis-benchmark [option] [option value] redis 性能测试工具可选参数如...【详细内容】

2021-11-02　　川石信息　　　　Tags:Redis 　点击:(41)　　评论:(0)　　加入收藏

华为架构师整理Redis数据结构的大厂最佳实践

1 概述数据结构和内部编码无传统关系型数据库的 Table 模型schema 所对应的db仅以编号区分。同一 db 内，key 作为顶层模型，它的值是扁平化的。即 db 就是key的命名空间。 key...【详细内容】

2021-11-01　　JavaEdge　　　　Tags:Redis 　点击:(28)　　评论:(0)　　加入收藏

极简Redis使用

普通java中使用引用Java redis 驱动，即可连接：import redis.clients.jedis.Jedis; public class RedisTestJava { public static void main(String[] args) { //连...【详细内容】

2021-10-13　　faesuite　　　　Tags:Redis 　点击:(34)　　评论:(0)　　加入收藏

Redis常用的数据结构

Redis常用的数据结构有 string list set zset hashstringstring 是 Redis 的基本的数据类型，一个 key 对应一个 value。string 类型是二进制安全的，Redis的string可以包含任...【详细内容】

2021-10-12　　语霖　　　　Tags:Redis 　点击:(36)　　评论:(0)　　加入收藏

Redis核心原理与实践--列表实现原理之ziplist

列表类型可以存储一组按插入顺序排序的字符串，它非常灵活，支持在两端插入、弹出数据，可以充当栈和队列的角色。> LPUSH fruit apple(integer) 1> RPUSH fruit banana(integer)...【详细内容】

2021-09-17　　深夜敲代码　　　　Tags:Redis 　点击:(54)　　评论:(0)　　加入收藏

超详细Redis内容整理

Redis持久化意义是做灾难恢复，数据恢复，也可以归类到高可用的一个环节里面去，比如你的redis整个挂了，然后redis就不可用了，你要做的事情是让redis变得可用，尽快变得可用大量的请...【详细内容】

2021-08-12　　小李说IT　　　　Tags:Redis 　点击:(77)　　评论:(0)　　加入收藏

缓存穿透解决方案

当查询Redis中没有的数据时，该查询会下沉到数据库层，同时数据库层也没有该数据，当这种情况大量出现或被恶意攻击时，接口的访问全部透过Redis访问数据库，而数据库中也没有这些数据...【详细内容】

2021-07-30　　随便t　　　　Tags:缓存穿透　点击:(91)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游