您当前的位置:首页 > 互联网百科 > 大数据

大数据的5V特征分别是什么?

时间:2022-11-22 18:09:32  来源:  作者:好程序员IT教育

大数据现在并不是一个陌生的名词了,这个词语已经“出圈”了,不仅仅是相关的从业人员对它很了解,即便是完全不懂IT技术的人,也都能够说出点大数据的东西来。我们在谈论大数据的时候,避不开的其实是大数据的特征,有些地方会提到大数据有4V的特征,而有些地方会提到有5V的特征。那么这里所谓的4V、5V都是什么呢?


 

其实这里所谓的4V、5V,是几个单词的缩写: Volume、Variety、Value、Velocity、Veracity,因为这几个单词的首字母都是V,因此被我们称为4V、5V的特征。在这里,我们就来聊一聊这5个V都表示什么含义:

Volume

中文翻译是“大量”的意思,顾名思义,就是数据量非常的庞大。而这也是大数据的字面含义。我们知道在表示数据大小的时候,生活中常见的计量单位有KB、MB、GB、TB等,但是在此之上还有其他的单位,例如: PB、EB、ZB、YB、BB、NB、DB等。这些单位之间的换算率都是1024,也正是因此,人们会把每年的10月24日定为程序员节。我们每一个人在互联网上进行各种各样的行为,都会留下数据,而这些数据量虽然不算大,但是在庞大的用户基数下,累计起来的还是非常庞大的。在一个中大型企业中,需要处理的数据规模是很容易达到PB、EB的级别的,而这也正是大数据的第一个特征: 大量。

Variety

中文翻译是“多样化”的意思。我们知道学习大数据就是来处理庞大的数据集的,那么组成这个庞大的数据集的数据是可以分为不同的类型的。我们把这些数据大致分为三类:结构化的数据、半结构化的数据和非结构化的数据。

结构化的数据,一般指的是关系型数据库中的数据,例如MySQL、Oracle中的表中的数据。这些数据中,每一行的数据都保持着相同的数据格式,有规律可循,非常容易处理。

半结构化的数据,指的是有一定的结构性,但是比起关系型数据库表中的结构化的数据来说,结构不是那么清晰,处理起来也比结构化的数据略微麻烦。常见的半结构化的数据有json、xml、html等。

非结构化的数据,指的就是没有丝毫结构性可言的数据了。数据没有固定的格式,通常需要我们单独设计程序来处理这些数据,从中提取出来有价值的信息。

而我们在工作中要处理的数据,往往都是以半结构化和非结构化的居多。

Value

中文翻译是“价值”的意思。这里其实有两点体现:价值密度低、商业价值高。

大数据相关的技术体系,需要处理的数据量是非常庞大的,动辄PB、EB规模的数据,但是真正具有价值的数据却非常稀少,只有100M,甚至更少。我们就需要从这么庞大的数据集中提取出来这些密度非常低的有价值的数据进行处理。

但是,也就是这些密度非常低的数据,能够发挥出来巨大的商业价值。这点其实也是来推动大数据发展的重要的特征之一,因为这些大数据相关的技术体系可以给商人带来巨大的利益,老板才愿意培养人来从事这个行业;越来越多的人涌入到这个行业,才能够推动这门技术不断地向前发展。

Velocity

中文翻译是“速度”的意思。我们要处理的数据集在很多情况下,并不是一潭死水,而是在不断增长的。对于一个企业来说,每天都会新增庞大的数据,这些数据可能来自于用户的操作、可能来自于智能家居、可能来自于各种传感器等,数据的来源非常多,而且数据量的增速也是非常可怕的。以淘宝、京东这类的电商来说,每日新增的数据量达到几百个GB是很正常的事情。在这样快速的数据增长的情况下,也对我们处理数据的速度有了较高的要求了。我们一定要优化我们的业务逻辑,提高处理的速度,才不会造成数据积压。

Veracity

中文翻译是“真实性”的意思。大规模的数据量,在处理的时候,对技术体系是有较高的要求的。在还没有形成现有的技术体系的年代,人们在处理庞大的数据集的时候,往往束手无策,要么实效性非常差,要么干脆无法处理。那个时代甚至流行一种做法:随机抽样。随机的从庞大的数据集中抽取一部分出来进行处理,以这样的处理结果,作为整个数据集的处理结果。追求真实性的,可能会多随机几次。但是这个结果其实是不准确的,并不能够体现出这些数据完整的价值,甚至还可能得到错误的结论。但是现在大数据的技术体系相对成熟,我们不再使用这样的随机抽样的方式了。我们就是要对所有的数据进行高效的处理,得出的结论自然也是正确的。

以上就是大数据的特征,有人在聊特征的时候会提到4V的说法,指的就是Volume、Variety、Value、Velocity。如果说到5V特征的话,那就把Veracity加上就可以咯。

优秀的你与大厂之间只差一个“好程序员”!



Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
智慧农业大数据是大数据理念,技术和方法在农业中的实践。智慧农业大数据平台可以将它们进行连接,从耕地、播种、施肥、杀虫、收割等环节通通数据化处理,再结合农业本身特点及农...【详细内容】
2022-11-23  Tags: 大数据  点击:(3)  评论:(0)  加入收藏
大数据现在并不是一个陌生的名词了,这个词语已经“出圈”了,不仅仅是相关的从业人员对它很了解,即便是完全不懂IT技术的人,也都能够说出点大数据的东西来。我们在谈论大数据的时...【详细内容】
2022-11-22  Tags: 大数据  点击:(0)  评论:(0)  加入收藏
大数据这个东西从2010年以后还是在社会普及,可能很多人都听说过,但都不知道是什么。大数据目前正不断的入侵我们的生活,只是你还后知后觉而已。 从网络时代在国内正式的普及到...【详细内容】
2022-11-22  Tags: 大数据  点击:(3)  评论:(0)  加入收藏
10月28日,国务院办公厅发布《全国一体化政务大数据体系建设指南》(以下简称《指南》),要求各地区各部门按照《指南》要求,加强数据汇聚融合、共享开放和开发利用,促进数据依法有...【详细内容】
2022-10-31  Tags: 大数据  点击:(18)  评论:(0)  加入收藏
引言 大数据统计是特别厉害的,举一个最为简单的例子,就像很多人在闲暇的时光里,都会选择看短视频。 当我们看到了同类型的短视频,并且点赞之后,就会发现在无形中推送出来的视频都...【详细内容】
2022-09-23  Tags: 大数据  点击:(43)  评论:(0)  加入收藏
现在是数码时代,手机可谓人手一部,长期随身携带。所以手机的移动轨迹也代表了人的行踪。可以说,在数字化、智能化的时代,一个人的轨迹是有“数字”可循的。很多人可能会被大数...【详细内容】
2022-09-23  Tags: 大数据  点击:(51)  评论:(0)  加入收藏
其实,在互联网时代,每个人都是透明的。你在注册各种账号时,基本已经把个人信息泄露出去了。当你看新闻,刷短视频,网络购物时,大数据就会根据你的平时喜欢,不断推送类似的内容和商品给你。...【详细内容】
2022-09-13  Tags: 大数据  点击:(78)  评论:(0)  加入收藏
最近,包括清华北大在内的北京不少大学都公布了大一新生的大数据,数据维度很丰富,但新生来源的高中学校分布数据并不是每个学校都公布了。今天将已有的信息给大家做一个简单的盘...【详细内容】
2022-09-01  Tags: 大数据  点击:(150)  评论:(0)  加入收藏
先说观点:因为还没找到更好的。接下来说原因,首先来看看大数据平台都在干什么。原因结构化数据计算仍是重中之重大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存...【详细内容】
2022-08-25  Tags: 大数据  点击:(70)  评论:(0)  加入收藏
可能大家都看过“留学花费50w,毕业月薪5k”类似的新闻,有人甚至算了一笔账,发现十几年都没办法把留学的钱挣回来?这是真的吗?如果是真的,为什么还有这么多人纷纷去留学呢?或许一...【详细内容】
2022-08-23  Tags: 大数据  点击:(44)  评论:(0)  加入收藏
▌简易百科推荐
智慧农业大数据是大数据理念,技术和方法在农业中的实践。智慧农业大数据平台可以将它们进行连接,从耕地、播种、施肥、杀虫、收割等环节通通数据化处理,再结合农业本身特点及农...【详细内容】
2022-11-23  山东仁科测控  搜狐号  Tags:大数据   点击:(3)  评论:(0)  加入收藏
大数据现在并不是一个陌生的名词了,这个词语已经“出圈”了,不仅仅是相关的从业人员对它很了解,即便是完全不懂IT技术的人,也都能够说出点大数据的东西来。我们在谈论大数据的时...【详细内容】
2022-11-22  好程序员IT教育     Tags:大数据   点击:(0)  评论:(0)  加入收藏
大数据这个东西从2010年以后还是在社会普及,可能很多人都听说过,但都不知道是什么。大数据目前正不断的入侵我们的生活,只是你还后知后觉而已。 从网络时代在国内正式的普及到...【详细内容】
2022-11-22  浅醉苏生  网易号  Tags:大数据   点击:(3)  评论:(0)  加入收藏
数据分析是诊断账户最基本的技能,通过数据的分析,发现问题、解决问题。首先我们要有一个清晰的逻辑:分析数据的目的,收集数据的途径,整理数据的方法,分析思路,最后得出结论。今天跟...【详细内容】
2022-10-12  学院小助手  搜狐号  Tags:数据分析   点击:(120)  评论:(0)  加入收藏
引言 大数据统计是特别厉害的,举一个最为简单的例子,就像很多人在闲暇的时光里,都会选择看短视频。 当我们看到了同类型的短视频,并且点赞之后,就会发现在无形中推送出来的视频都...【详细内容】
2022-09-23  互联网资讯看板   网易号  Tags:大数据   点击:(43)  评论:(0)  加入收藏
现在是数码时代,手机可谓人手一部,长期随身携带。所以手机的移动轨迹也代表了人的行踪。可以说,在数字化、智能化的时代,一个人的轨迹是有“数字”可循的。很多人可能会被大数...【详细内容】
2022-09-23  爱家临江1l9  今日头条  Tags:大数据   点击:(51)  评论:(0)  加入收藏
一、关联分析关联分析,也叫作“购物篮分析”,是一种通过研究用户消费数据,将不同商品之间进行关联,并挖掘二者之间联系的分析方法。关联分析目的是找到事务间的关联性,用以指导决...【详细内容】
2022-09-21  数据不吹牛   网易号  Tags:数据分析   点击:(97)  评论:(0)  加入收藏
目录 1. Shopee 数据系统建设中面临的典型问题 2. 为什么选择 Hudi 3. Shopee 在 Hudi 落地过程中的实践 4. 社区贡献 5. 总结与展望湖仓一体(LakeHouse)作为大数据领域的重...【详细内容】
2022-09-14  Lakehouse  今日头条  Tags:Apache Hudi   点击:(52)  评论:(0)  加入收藏
其实,在互联网时代,每个人都是透明的。你在注册各种账号时,基本已经把个人信息泄露出去了。当你看新闻,刷短视频,网络购物时,大数据就会根据你的平时喜欢,不断推送类似的内容和商品给你。...【详细内容】
2022-09-13  数字财经智库  搜狐网  Tags:大数据   点击:(78)  评论:(0)  加入收藏
数据开发技术方向主要有数据仓库、在线分析处理(OLAP)以及数据挖掘三部分组成。一、数据仓库:架构1.数据仓库 Data Warehouse,DW数据仓库是构建面向分析的集成化数据环境,为企业...【详细内容】
2022-08-29  华夏金领大数据  今日头条  Tags:数据开发   点击:(75)  评论:(0)  加入收藏
站内最新
站内热门
站内头条