大数据新人应该了解的Hadoop中的各种文件格式

时间：2020-04-27 15:04:20 来源：作者：

几周前，我写了一篇有关Hadoop的文章，并谈到了它的不同部分。以及它如何在数据工程中扮演重要角色。在本文中，我将总结Hadoop中不同的文件格式。本主题将是一个简短而快速的主题。如果您想了解Hadoop的工作原理以及它在数据工程师中的重要作用，请在此处访问我关于Hadoop的文章，或乐于跳过。

Hadoop中的文件格式大致分为两类：面向行和面向列：

面向行：在一起存储的同一行数据是连续存储：SequenceFile，MapFile，Avro Datafile。这样，如果仅需要访问该行的少量数据，则需要将整个行读入存储器。延迟序列化可以将问题减轻到一定程度，但是无法取消从磁盘读取整行数据的开销。面向行的存储适用于需要同时处理整行数据的情况。

面向列：整个文件分为几列数据，每列数据存储在一起：Parquet，RCFile，ORCFile。面向列的格式可以在读取数据时跳过不需要的列，适用于字段中只有一小部分行的情况。但是这种读取和写入格式需要更多的存储空间，因为高速缓存行需要位于内存中（以获取多行中的一列）。同时，它不适合流式传输，因为一旦写入失败，就无法恢复当前文件，并且在写入失败时，面向行的数据可以重新同步到最后一个同步点，因此Flume使用面向行的存储格式。

> Picture 1.(Left Side )Show the Logical Table and Picture 2. ( Right Side) Row-Oriented Layout(Sequ

> Picture 3. Column-oriented Layout (RC File)

如果仍不清楚行和列的方向，请不用担心，您可以访问此链接，了解它们之间的区别。

以下是在Hadoop系统上广泛使用的一些相关文件格式：

序列文件

存储格式取决于是否压缩以及使用记录压缩还是块压缩而有所不同：

> The Internal structure of a sequence file with no compression and with record compression.

不压缩：根据记录长度，键长，值程度，键值和值值顺序存储。范围是字节数。使用指定的序列化执行序列化。

记录压缩：仅压缩值，并将压缩的编解码器存储在标头中。

块压缩：将多个记录压缩在一起，以利用记录之间的相似性并节省空间。同步标记被添加在块之前和之后。该属性的最小值为io.seqfile.compress.blocksizeset。

> The internal structure of a sequence file with block compression

地图文件

MapFile是SequenceFile的变体。将索引添加到SequenceFile并对其进行排序后，它就是MapFile。索引存储为单独的文件，通常每128条记录存储一个索引。可以将索引加载到内存中以进行快速查找-存储按Key定义的顺序排列的数据的文件。 MapFile记录必须按顺序编写。否则，将引发IOException。

MapFile的派生类型：

· SetFile：一个特殊的MapFile，用于存储可写类型的键序列。密钥是按顺序写入的。

· ArrayFile：键是一个整数，表示数组中的位置，值是可写的。

· BloomMapFile：使用动态Bloom过滤器针对MapFile get（）方法进行了优化。过滤器存储在内存中，并且仅当键值存在时，才会调用常规的get（）方法来执行读取操作。

Hadoop系统下面列出的文件包括RCFile，ORCFile和Parquet。 Avro的面向列的版本是Trevni。

RC文件

Hive的Record Columnar File（记录列文件），这种类型的文件首先将数据按行划分为行组，然后在行组内部将数据存储在列中。其结构如下：

> Data Layout of RC File in an HDFS block

与纯面向行和面向列的比较：

> Row-Store in an HDFS Block

> Column Group in HDFS Block

ORC文件

ORCFile（优化的记录列文件）提供了比RCFile更有效的文件格式。它在内部将数据划分为默认大小为250M的Stripe。每个条带均包含索引，数据和页脚。索引存储每列的最大值和最小值以及列中每一行的位置。

> ORC File Layout

在Hive中，以下命令用于使用ORCFile：

CREATE TABLE ...STORED AAS ORC ALTER TABLE ... SET FILEFORMAT ORC SET hive.default.fileformat=ORC

Parquet

一种通用的基于列的存储格式，基于google的Dremel。特别擅长处理深度嵌套的数据。

> The internal Structure of Parquet File

对于嵌套结构，Parquet会将其转换为平面列存储，该存储由重复级别和定义级别（R和D）表示，并在读取数据以重建整个文件时使用元数据来重建记录。结构体。以下是R和D的示例：

AddressBook { contacts: { phoneNumber: "555 987 6543" } contacts: { } } AddressBook { }

就这样，现在，您知道了Hadoop中不同的文件格式。如果您发现任何错误并提出建议，请随时与我联系。您可以在我的LinkedIn上与我联系。

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

最近偷税漏税这么多，都是咋发现的？大数据查税到底咋查的？

为啥这几年偷税漏税的新闻这么多？不是偷的人多了，是因为国家有了查税大杀器： ...【详细内容】

2021-12-24　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　Tags: 大数据点击:(26)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　Tags: 大数据点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　Tags: 大数据点击:(15)　　评论:(0)　　加入收藏

北京薪酬大数据发布，含30个新职业，排名前五的行业是这些

日前，北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》，《报告》基于本市2020年度相关调研数据，按照行业、职位、群体等维度对薪酬数据进行了分析，首...【详细内容】

2021-11-04　　Tags: 大数据点击:(28)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　Tags: 大数据点击:(31)　　评论:(0)　　加入收藏

电话销售中，精准大数据获客的重要性。

如今社会，手机电话在中国的使用率已达到99%以上，大大的地增强了我们的生活水平。而电话不但用以日常生活，还可以用以工作中，例如电话营销，电话便是他们的武器装备，他们根据手机的...【详细内容】

2021-10-26　　Tags: 大数据点击:(45)　　评论:(0)　　加入收藏

个保法生效在即，大数据营销需制定怎样的标准？

《个人信息保护法》11月1日即将生效，在大数据营销充斥在网络上的现在，如何引导大数据为善，如何更好的使用开发大数据，变得既重要也有现实意义。...【详细内容】

2021-10-26　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

聊聊如何自定义数据脱敏

前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】

2021-12-28　　linyb极客之路　　　　Tags:数据脱敏　点击:(2)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(26)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(40)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游