大数据的5V特征分别是什么？

时间：2022-11-22 18:09:32 来源：作者：好程序员IT教育

大数据现在并不是一个陌生的名词了，这个词语已经“出圈”了，不仅仅是相关的从业人员对它很了解，即便是完全不懂IT技术的人，也都能够说出点大数据的东西来。我们在谈论大数据的时候，避不开的其实是大数据的特征，有些地方会提到大数据有4V的特征，而有些地方会提到有5V的特征。那么这里所谓的4V、5V都是什么呢？

其实这里所谓的4V、5V，是几个单词的缩写: Volume、Variety、Value、Velocity、Veracity，因为这几个单词的首字母都是V，因此被我们称为4V、5V的特征。在这里，我们就来聊一聊这5个V都表示什么含义：

Volume

中文翻译是“大量”的意思，顾名思义，就是数据量非常的庞大。而这也是大数据的字面含义。我们知道在表示数据大小的时候，生活中常见的计量单位有KB、MB、GB、TB等，但是在此之上还有其他的单位，例如: PB、EB、ZB、YB、BB、NB、DB等。这些单位之间的换算率都是1024，也正是因此，人们会把每年的10月24日定为程序员节。我们每一个人在互联网上进行各种各样的行为，都会留下数据，而这些数据量虽然不算大，但是在庞大的用户基数下，累计起来的还是非常庞大的。在一个中大型企业中，需要处理的数据规模是很容易达到PB、EB的级别的，而这也正是大数据的第一个特征: 大量。

Variety

中文翻译是“多样化”的意思。我们知道学习大数据就是来处理庞大的数据集的，那么组成这个庞大的数据集的数据是可以分为不同的类型的。我们把这些数据大致分为三类：结构化的数据、半结构化的数据和非结构化的数据。

结构化的数据，一般指的是关系型数据库中的数据，例如MySQL、Oracle中的表中的数据。这些数据中，每一行的数据都保持着相同的数据格式，有规律可循，非常容易处理。

半结构化的数据，指的是有一定的结构性，但是比起关系型数据库表中的结构化的数据来说，结构不是那么清晰，处理起来也比结构化的数据略微麻烦。常见的半结构化的数据有json、xml、html等。

非结构化的数据，指的就是没有丝毫结构性可言的数据了。数据没有固定的格式，通常需要我们单独设计程序来处理这些数据，从中提取出来有价值的信息。

而我们在工作中要处理的数据，往往都是以半结构化和非结构化的居多。

Value

中文翻译是“价值”的意思。这里其实有两点体现：价值密度低、商业价值高。

大数据相关的技术体系，需要处理的数据量是非常庞大的，动辄PB、EB规模的数据，但是真正具有价值的数据却非常稀少，只有100M，甚至更少。我们就需要从这么庞大的数据集中提取出来这些密度非常低的有价值的数据进行处理。

但是，也就是这些密度非常低的数据，能够发挥出来巨大的商业价值。这点其实也是来推动大数据发展的重要的特征之一，因为这些大数据相关的技术体系可以给商人带来巨大的利益，老板才愿意培养人来从事这个行业；越来越多的人涌入到这个行业，才能够推动这门技术不断地向前发展。

Velocity

中文翻译是“速度”的意思。我们要处理的数据集在很多情况下，并不是一潭死水，而是在不断增长的。对于一个企业来说，每天都会新增庞大的数据，这些数据可能来自于用户的操作、可能来自于智能家居、可能来自于各种传感器等，数据的来源非常多，而且数据量的增速也是非常可怕的。以淘宝、京东这类的电商来说，每日新增的数据量达到几百个GB是很正常的事情。在这样快速的数据增长的情况下，也对我们处理数据的速度有了较高的要求了。我们一定要优化我们的业务逻辑，提高处理的速度，才不会造成数据积压。

Veracity

中文翻译是“真实性”的意思。大规模的数据量，在处理的时候，对技术体系是有较高的要求的。在还没有形成现有的技术体系的年代，人们在处理庞大的数据集的时候，往往束手无策，要么实效性非常差，要么干脆无法处理。那个时代甚至流行一种做法：随机抽样。随机的从庞大的数据集中抽取一部分出来进行处理，以这样的处理结果，作为整个数据集的处理结果。追求真实性的，可能会多随机几次。但是这个结果其实是不准确的，并不能够体现出这些数据完整的价值，甚至还可能得到错误的结论。但是现在大数据的技术体系相对成熟，我们不再使用这样的随机抽样的方式了。我们就是要对所有的数据进行高效的处理，得出的结论自然也是正确的。

以上就是大数据的特征，有人在聊特征的时候会提到4V的说法，指的就是Volume、Variety、Value、Velocity。如果说到5V特征的话，那就把Veracity加上就可以咯。

优秀的你与大厂之间只差一个“好程序员”！

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

“霸王条款”“刷单炒信”“大数据杀熟”怎么破解？这部法规都明确了！

预付式消费、直播带货、“一老一小”、“霸王条款”、“刷单炒信”、“大数据杀熟”、自动续费、强制搭售……这些新领域的侵权你遇到过吗？消费者合法权益怎么保...【详细内容】

2024-04-11　　Search: 大数据点击:(3)　　评论:(0)　　加入收藏

市场监管总局：禁止“大数据杀熟”规范“自动续费”

本报讯（记者韩昱）近日，《中华人民共和国消费者权益保护法实施条例》（以下简称《条例》）正式发布。4月9日，国新办举行国务院政策例行吹风会，市场监管总局副局长柳军介绍《条例》有...【详细内容】

2024-04-10　　Search: 大数据点击:(2)　　评论:(0)　　加入收藏

大数据杀熟何时告别“人人喊打却无可奈何”？

2月7日郑州飞往珠海的航班，不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历，引发社会广泛关注——用3个账号买同一航班同...【详细内容】

2024-01-30　　Search: 大数据点击:(34)　　评论:(0)　　加入收藏

简易百科：到底什么是大数据？

随着互联网的快速发展，大数据已经成为了当今社会最热门的话题之一。那么，到底什么是大数据呢？首先，我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】

2024-01-30　　Search: 大数据点击:(40)　　评论:(0)　　加入收藏

挑战 Spark 和 Flink？大数据技术栈的突围和战争

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或...【详细内容】

2024-01-17　　Search: 大数据点击:(40)　　评论:(0)　　加入收藏

Java后端+Java大数据+前端

web前端开发主要涉及创建网页或网站的用户界面，包括布局、样式、动画、交互等。web前端开发需要掌握HTML、CSS、JavaScript等基础语言，以及各种框架和库，如React、Vue、Bootstr...【详细内容】

2023-12-28　　Search: 大数据点击:(104)　　评论:(0)　　加入收藏

分布式存储系统在大数据处理中扮演着怎样的角色？

如果存储节点本身可以定制，则通常会让其支持部分计算能力，以利用数据的亲和性，将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储，无法定制，则通常会将数据在计...【详细内容】

2023-12-19　　Search: 大数据点击:(48)　　评论:(0)　　加入收藏

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大，尤其是当电动汽车成为汽车市场新的增长引擎。问题是：用户的数据平台准备...【详细内容】

2023-12-19　　Search: 大数据点击:(41)　　评论:(0)　　加入收藏

MongoDB与大数据处理：构建高性能分布式数据库

MongoDB是一种非关系型数据库，具有高度灵活性和可扩展性。在处理大量数据时，索引的优化是提升查询性能的关键。下面将介绍一些MongoDB索引优化的指南，帮助用户更好地利用索引来...【详细内容】

2023-12-18　　Search: 大数据点击:(72)　　评论:(0)　　加入收藏

Java与MySQL大数据处理的技巧

处理海量数据是现代应用程序中常见的挑战之一，尤其是在Java与MySQL这样的技术栈中。下面将介绍一些处理海量数据的技巧和策略，并讨论如何通过Java与MySQL实现高效的大数据处理...【详细内容】

2023-11-29　　Search: 大数据点击:(213)　　评论:(0)　　加入收藏

▌简易百科推荐

大数据杀熟何时告别“人人喊打却无可奈何”？

2024-01-30　　　　中国青年网　　Tags:大数据杀熟　点击:(34)　　评论:(0)　　加入收藏

简易百科：到底什么是大数据？

2024-01-30　　　　简易百科　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

数据采集新篇章：AI与大模型的融合应用

开篇在AIGC（人工智能与通用计算）应用中，大型语言模型（LLM）占据着举足轻重的地位。这些模型，如GPT和BERT系列，通过处理和分析庞大的数据集，已经极大地推动了自然语言理解和生成的边界...【详细内容】

2024-01-17　　崔皓　　51CTO　　Tags:数据采集　点击:(52)　　评论:(0)　　加入收藏

挑战 Spark 和 Flink？大数据技术栈的突围和战争

2024-01-17　　InfoQ　　　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

分布式存储系统在大数据处理中扮演着怎样的角色？

2023-12-19　　木鸟杂记　　微信公众号　　Tags:大数据　点击:(48)　　评论:(0)　　加入收藏

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

2023-12-19　　　　51CTO　　Tags:大数据　点击:(41)　　评论:(0)　　加入收藏

利用生成对抗网络进行匿名化数据处理

在互联网时代，数据日益成为人们的生产资料。然而，在某些情况下，我们需要分享数据，但又需要保护个人隐私。这时，匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】

2023-12-18　　技巧达人小影　　　　Tags:数据处理　点击:(57)　　评论:(0)　　加入收藏

盘点那些常见的数据中心类型，你知道几个？

在数字化潮流的浪潮下，数据中心如同企业的神经系统，关系到业务的稳健运转。而在这个巨大的网络中，各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】

2023-12-07　　数据中心之家　　微信公众号　　Tags:数据中心　点击:(66)　　评论:(0)　　加入收藏

数据中心的七个关键特征

随着信息技术的不断演进，数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征，了解它们是如何影...【详细内容】

2023-12-06　　数据中心之家　　微信公众号　　Tags:数据　点击:(63)　　评论:(0)　　加入收藏

什么是数据解析？将数据转化为更好的决策

什么是数据解析？数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析（data analysis）和管理的流程、工具和技术，包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】

2023-12-06　　计算机世界　　　　Tags:数据解析　点击:(64)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对