在项目开发中,我们经常会遇到去重问题。比如:判断一个人有没有浏览过一篇文章,判断一个人当天是否登录过某个系统,判断一个ip是否发过一个请求,等等。
比较容易想到的是使用set来实现这个功能。但如果数据量较大,使用set会非常消耗内存,性能也不高。在前面的文章中,我们介绍了一种数据结构:BitMap来提高性能。但BitMap仍然比较消耗内存,尤其是在数据比较稀疏的情况下,使用BitMap并不划算。
实际上,对于“去重”问题,业界有另外一个更优秀的数据结构来解决这类问题,那就是——布隆过滤器(BloomFilter)。
布隆过滤器与BitMap类似,底层也是一个位数组。1表示有,0表示无。但布隆过滤器比BitMap需要更少的内存,它是怎么办到的呢?答案是多个hash。
我们知道hash算法,是把一个数从较大范围的值,映射到较小范围值。比如我们有一个10位的数组,使用某个hash算法及其数组上的表示:
hash(“xy”) = 3;
hash(“技术圈”) = 5;
0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0
这样,我们使用这个hash算法就能快速的判断一个字符串是不是存在一个集合里面了。但众所周知,hash算法是有可能发生hash冲突的。比如可能有两个不同的字符串映射到同一个数:
hash(“xy”) = 3;
hash(“xy的技术圈”) = 3;
这种情况下,就不能准确得判断出某个字符串是不是存在于集合之中呢。
那怎么解决这个问题呢?答案是使用多个不同的hash算法。比如:
h1(“xy”) = 3, h2(“xy”) = 5, h3(“xy”) = 7;
h1(“技术圈”) = 5, h2(“技术圈”) = 6, h3(“技术圈”) = 7;
h1(“xy的技术圈”) = 3, h2(“xy的技术圈”) = 6, h3(“xy的技术圈”) = 9;
最开始,集合里没有元素,所有位都是0:
0, 0, 0, 0, 0, 0, 0, 0, 0, 0
然后,插入“xy”,利用多次hash,把每次hash的结果下标3, 5, 7都插入到相应的地方:
0, 0, 0, 1, 0, 1, 0, 1, 0, 0
然后,插入“技术圈”,利用多次hash,把每次hash的结果下标5, 6, 7都插入到相应的地方,已经是1的下标不变:
0, 0, 0, 1, 0, 1, 1, 1, 0, 0
这个时候,如果想要判断“xy”是否在集合中,只需要使用同样的3个hash算法,来计算出下标是3, 5, 7,发现这3个下标都为1,那么就认为“xy”这个字符串在集合中。而“xy的技术圈”计算出来的下标是3, 6, 9。发现这三个下标有不是1的地方,比如下标为9的地方是0,那就说明“xy的技术圈”这个字符串还不在集合中。
从原理可以看得出来,布隆过滤器是有可能存在一定的误差的。尤其是当hash函数比较少的时候。布隆过滤器是根据多次hash计算下标后,数组的这些下标是否都为1来判断这个元素是否存在的。所以是存在一定的几率,要检查的元素实际上没有插入,但被其它元素插入影响,导致所有下标都为1。
所以布隆过滤器不能删除,因为一旦删除(即将相应的位置为0),就很大可能会影响其他元素。
如果使用布隆过滤器判断一个函数是否存在于一个集合,如果它返回true,则代表可能存在。如果它返回false,则代表一定不存在。
由此可见,布隆过滤器适合于一些需要去重,但不一定要完全精确的场景。比如:
相应的,布隆过滤器不适合一些要求零误差的场景,比如:
这就是布隆过滤器的基本原理。由上面的例子可以看出来,如果空间越大,hash函数越多,结果就越精确,但空间效率和查询效率就会越低。
这里有一个测试数据:
后面4列中的数据就是发生误差的数量。可见,空间大小和集合大小不变的情况下,增加hash函数可以显著减小误差。但一旦集合大小达到空间大小的25%左右后,增加hash函数带来的提神效果并不明显。这个时候应该增加空间大小。
redis中的布隆过滤器
Redis的布隆过滤器不是原生自带的,而是要通过module加载进去。Redis在4.0的版本中加入了module功能。具体使用可以直接看RedisBloom github的README:github.com/RedisBloom/…
Redis的布隆过滤器主要有两个命令:
Redis中有一个命令可以来设置布隆过滤器的准确率:
bf.reserve strs 0.01 100 复制代码
三个参数的含义:
JAVA实现的布隆过滤器
如果你的项目没有使用Redis,那可以使用一些开源库,基于代码实现,直接存放在内存。比如google的guava包中提供了BloomFilter类,有兴趣的读者可以去了解一下,研究研究源码和使用。
布谷鸟过滤器
RedisBloom模块还实现了布谷鸟过滤器,它算是对布隆过滤器的增强版。解决了布隆过滤器的一些比较明显的缺点,比如:不能删除元素,不能计数等。除此之外,布谷鸟过滤器不用使用多个hash函数,所以查询性能更高。除此之外,在相同的误判率下,布谷鸟过滤器的空间利用率要明显高于布隆,空间上大概能节省40%多。
笔者个人觉得,对于大多数场景来说,布隆过滤器足以解决我们的问题。掘金上有一篇深度分析布谷鸟过滤器的文章,有兴趣的读者可以去了解一下:juejin.im/post/5cfb9c…
认真写文章,用心做分享。
个人网站:yasinshaw.com
公众号:xy的技术圈