您当前的位置:首页 > 互联网百科 > 大数据

Bitmap、RoaringBitmap原理分析

时间:2023-03-24 12:01:43  来源:  作者:京东云开发者

作者:京东科技 曹留界

在人群本地化实践中我们介绍了人群ID中所有的pin的偏移量可以通过Bitmap存储,而Bitmap所占用的空间大小只与偏移量的最大值有关系。假如现在要向Bitmap内存入两个pin对应的偏移量,一个偏移量为1,另一个偏移量为100w,那么Bitmap存储直接需要100w bit的空间吗?数据部将偏移量存入Bitmap时,又如何解决数据稀疏问题呢?本文将为大家解答这个问题。

一、BitMap

Bitmap的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此可以大大节省存储空间。

如果想将数字2存入位图中,则只需要将位图数组中下标为2的数组值置为1。

但是,如果现在要存储两个人群ID对应的偏移量,一个偏移量为1,另一个偏移量为100w,如果将这两个值直接放到位图数组中,那么位图数组所需要的空间就是100wbit,会产生大量的空间浪费。那么有什么方法可以避免空间浪费吗?答案就是RoaringBitMap

二、RoaringBitMap

RoaringBitMap是一种高效压缩位图,简称RBM。RBM的概念于2016年由S. Chambi、D. Lemire、O. Kaser等人在论文《Better bitmap performance with Roaring bitmaps》 《Consistently faster and smaller compressed bitmaps with Roaring》中提出。下面我们结合JAVA中的实现对其进行介绍。

2.1 实现思路

RBM主要将32位的整型(int)分为高16位和低16位(两个short),其中高16位对应的数字使用16位整型有序数组存储,低16位根据不同的情况选择三种不同的contAIner来存储,这三种container分别为:

•Array Container

底层数据结构为short类型的数组,直接将数字低16位的值存储到该数组中。short类型的数组始终保持有序,方便使用二分查找,且不会存储重复数值。因为这种Container存储数据没有任何压缩,因此只适合存储少量数据。其内部数组容量是动态变化的,当容量不够时会进行扩容,最大容量为4096。由于数组是有序的,存储和查询时都可以通过二分查找快速定位其在数组中的位置。

ArrayContainer占用的空间大小与存储的数据量为线性关系,每个short为2字节,因此存储了N个数据的ArrayContainer占用空间大致为2N字节。存储一个数据占用2字节,存储4096个数据占用8kb。

•Bitmap Container

底层实现为位图。这种Container使用long[]存储位图数据。我们知道,每个Container处理16位整形的数据,也就是0~65535,因此根据位图的原理,需要65536个比特来存储数据,每个比特位用1来表示有,0来表示无。每个long有64位,因此需要1024个long来提供65536个比特。

因此,每个BitmapContainer在构建时就会初始化长度为1024的long[]。这就意味着,不管一个BitmapContainer中只存储了1个数据还是存储了65536个数据,占用的空间都是同样的8kb。

•Run Container

RunContainer中的Run指的是行程长度压缩算法(Run Length Encoding),对连续数据有比较好的压缩效果。

它的原理是,对于连续出现的数字,只记录初始数字和后续数量。即:

•对于数列11,它会压缩为11,0;

•对于数列11,12,13,14,15,它会压缩为11,4;

•对于数列11,12,13,14,15,21,22,它会压缩为11,4,21,1;

源码中的short[] valueslength中存储的就是压缩后的数据。

这种压缩算法的性能和数据的连续性(紧凑性)关系极为密切,对于连续的100个short,它能从200字节压缩为4字节,但对于完全不连续的100个short,编码完之后反而会从200字节变为400字节。

如果要分析RunContainer的容量,我们可以做下面两种极端的假设:

最好情况,即只存在一个数据或只存在一串连续数字,那么只会存储2个short,占用4字节

最坏情况,0~65535的范围内填充所有的奇数位(或所有偶数位),需要存储65536个short,128kb

也就RBM在存入一个32位的整形数字时,会先按照该数字的高16位进行分桶,以确定该数字要存入到哪个桶中。确定好分桶位置后,再将该数字对应的低16位放入到当前桶所对应的container中。

举个栗子

以十进制数字131122为例,现在我们要将该数字放入到RBM中。第一步,先将该数字转换为16进制,131122对应的十六进制为0x00020032;其中,高十六位对应0x0002,首先我们找到0x0002所在的桶,再将131122的低16位存入到对应的container中,131122的低16位转换为10进制就是50,没有超过ArrayContainer的容量4096,所以将低16位直接放入到对应的ArrayContainer中。

如果要插入的数字低16位超过了4096,RBM会将ArrayContainer转换为BitMapContainer。反之,如果数据在删除之后,数组中的最大数据小于4096,RBM会将BitMapContainer转换回ArrayContainer。

RBM处理的是32位的数字,如果我们想处理Long类型的数字怎么办呢?这个时候可以使用Roaring64NavigableMap。Roaring64NavigableMap也是使用拆分模式,将一个long类型数据,拆分为高32位与低32位,高32位代表索引,低32位存储到对应RoaringBitmap中,其内部是一个TreeMap类型的结构,会按照signed或者unsigned进行排序,key代表高32位,value代表对应的RoaringBitmap。

三、空间占用对比

1、连续数据

分别向位图中插入1w、10w、100w、1000w条连续数据,并且对比BitMap和RoaringBitMap占用空间的大小。比较结果如下表所示:

10w数据占用空间 100w数据占用空间 1000w数据占用空间 BitMap 97.7KB 976.6KB 9.5MB RoaringBitMap 16KB 128KB 1.2MB @Test

public void testSizeOfBitMap() {

//对比占用空间大小 - 10w元素

RoaringBitmap roaringBitmap3 = new RoaringBitmap();

byte[] bits2 = new byte[100000];

for (int i = 0; i < 100000; i++) {

roaringBitmap3.add(i);

bits2[i] = (byte) i;

}

System.out.println("10w数据 roaringbitmap byte size:"+ roaringBitmap3.getSizeInBytes());

System.out.println("10w数据 位图数组 byte size:"+bits2.length);

RoaringBitmap roaringBitmap4 = new RoaringBitmap();

byte[] bits3 = new byte[1000000];

for (int i = 0; i < 1000000; i++) {

roaringBitmap4.add(i);

bits3[i] = (byte) i;

}

System.out.println("100w数据 roaringbitmap byte size:"+ roaringBitmap4.getSizeInBytes());

System.out.println("100w数据 位图数组 byte size:"+bits3.length);

RoaringBitmap roaringBitmap5 = new RoaringBitmap();

byte[] bits4 = new byte[10000000];

for (int i = 0; i < 10000000; i++) {

roaringBitmap5.add(i);

bits4[i] = (byte) i;

}

System.out.println("1000w数据 roaringbitmap byte size:"+ roaringBitmap5.getSizeInBytes());

System.out.println("1000w数据 位图数组 byte size:"+bits4.length);

}

运行截图:

2、稀疏数据

我们知道,位图所占用空间大小只和位图中索引的最大值有关系,现在我们向位图中插入1和999w两个偏移量位的元素,再次对比BitMap和RoaringBitMap所占用空间大小。

占用空间 BitMap 9.5MB RoaringBitMap 24Byte @Test

public void testSize() {

RoaringBitmap roaringBitmap5 = new RoaringBitmap();

byte[] bits4 = new byte[10000000];

for (int i = 0; i < 10000000; i++) {

if (i == 1 || i == 9999999) {

roaringBitmap5.add(i);

bits4[i] = (byte) i;

}

}

System.out.println("两个稀疏数据 roaringbitmap byte size:"+ roaringBitmap5.getSizeInBytes());

System.out.println("两个稀疏数据 位图数组 byte size:"+bits4.length);

}

运行截图:



Tags:Bitmap   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
关于Android图像Bitmap类,你要知道的一切
Bitmap介绍Bitmap是一种图像文件格式,它由像素阵列组成,每个像素都有自己的颜色信息。在计算机图形学中,Bitmap图像可以被描述为一个二维的矩阵,其中每个元素代表一个像素的颜色...【详细内容】
2023-12-19  Search: Bitmap  点击:(99)  评论:(0)  加入收藏
Redis高级数据类型:BitMap
导语在Redis中,BitMap(位图)是一种非常强大的高级数据类型,用于存储和处理大量布尔值信息。通过使用BitMap,您可以在节省内存的同时高效地执行各种位操作,如位的设置、清除、翻转...【详细内容】
2023-08-18  Search: Bitmap  点击:(190)  评论:(0)  加入收藏
Bitmap、RoaringBitmap原理分析
作者:京东科技 曹留界在人群本地化实践中我们介绍了人群ID中所有的pin的偏移量可以通过Bitmap存储,而Bitmap所占用的空间大小只与偏移量的最大值有关系。假如现在要向Bitmap内...【详细内容】
2023-03-24  Search: Bitmap  点击:(136)  评论:(0)  加入收藏
Redis 巧用 Bitmap 实现亿级海量数据统计
引言在海量数据处理领域,统计数据的数量是一个常见的问题。比如统计每个 IP 地址出现的次数,统计每个用户的活跃时段等等。这些问题的数据规模都很大,可能会达到亿级别,对于传统...【详细内容】
2023-03-16  Search: Bitmap  点击:(245)  评论:(0)  加入收藏
你居然不懂Bitmap和Drawable?相关知识大扫盲
Bitmap是什么Bitmap的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。Bitmap 是位图...【详细内容】
2022-08-02  Search: Bitmap  点击:(419)  评论:(0)  加入收藏
用什么算法可以快速检索数据?Bitmap了解一下
一个关于用户标签的需求为了帮助公司精准定位用户群体,咱们需要开发一个用户画像系统,实现用户信息的标签化。用户标签包括用户的社会属性、生活习惯、消费行为等信息,例如下面...【详细内容】
2021-08-30  Search: Bitmap  点击:(352)  评论:(0)  加入收藏
高效大数据开发之 bitmap 思想的应用
作者:xmxiong,PCG 运营开发工程师数据仓库的数据统计,可以归纳为三类:增量类、累计类、留存类。而累计类又分为历史至今的累计与最近一段时间内的累计(比如滚动月活跃天,滚动周活...【详细内容】
2020-09-15  Search: Bitmap  点击:(282)  评论:(0)  加入收藏
内存空间节约利器redis的bitmap(位图)应用场景有哪些你知道吗
在前面我们分享过一次Redis常用数据结构和使用场景,文章对Redis基本使用做了一个简单的API说明,但是对于其中String类型中的bitmap(位图)我们需要重点说明一下,因为他的作用真的...【详细内容】
2020-07-27  Search: Bitmap  点击:(1171)  评论:(0)  加入收藏
10亿数据如何快速找到某个数 | 经典算法BitMap详解
BitMap从字面的意思,很多人认为是位图,其实准确的来说,翻译成基于位的映射,怎么理解呢?问题引入有一个无序有界int数组{1,2,5,7},初步估计占用内存44=16字节,因为只有4个数,很容...【详细内容】
2020-06-15  Search: Bitmap  点击:(336)  评论:(0)  加入收藏
阿里工程师:谈一谈Bitmap 的四种压缩方式
Android 中图片是以 bitmap 形式存在的,那么 bitmap 所占内存,直接影响到了应用所占内存大小,首先要知道 bitmap 所占内存大小计算方式:像素数 x 像素大小=图片长度(单位为像素)x...【详细内容】
2019-09-24  Search: Bitmap  点击:(858)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注&mdash;&mdash;用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(32)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(51)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(41)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(65)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(63)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(62)  评论:(0)  加入收藏
站内最新
站内热门
站内头条