您当前的位置:首页 > 互联网百科 > 大数据

Hadoop,HDFS,HBase,Hive 有什么不同?

时间:2020-05-21 13:40:30  来源:  作者:

Hadoop,HDFS,HBase,Hive 有什么不同?

> Photo by Mr Cup / Fabien Barral on Unsplash

 

随着技术的快速变化,越来越多的数据一直在生成。

据最新的全球数据领域估计,到2025年,全世界产生的数据量将增长到175 ZB。

公司现在需要改进的软件来管理这些海量数据。 他们一直在寻找处理和存储数据并将其分布在不同服务器上的方法,以便他们可以利用它们。

在本文中,我们将讨论特定的数据管理工具系列,这些工具在讨论时经常会引起混淆和互换使用。 今天,我们将讨论Hadoop,HDFS,HBase和Hive,以及它们如何帮助我们处理和存储大量数据。

Hadoop,HDFS,HBase,Hive 有什么不同?

 

Hadoop

Hadoop是指几种不同技术的统称。 但是,Hadoop还是特定的软件框架。 它使用户能够轻松管理分布式计算和存储。 它通过将文档划分到多个存储区和跨机器集群的块中来实现。

为了实现容错,Hadoop将这些存储复制到集群上。 然后,它通过将作业划分为几个较小的独立任务来执行分布式处理。 然后,此任务在计算机群集上并行运行。

Hadoop通过集群服务对大型数据集进行分布式处理,以同时在多台计算机上工作。 为了在Hadoop上处理任何数据,我们使用了几种服务,我们将讨论:

· HDFS:HDFS或Hadoop分布式文件系统是一种主要-次要拓扑,具有两个运行的守护程序:DataNode和NameNode。 稍后再详细介绍。

· MapReduce:这是一种在分布式集群上并行处理大数据的算法。 然后,MapReduce可以将此数据合并为结果。

· YARN:YARN的功能是将源管理,作业监视和计划任务划分为单独的守护程序。 它可以超越数千个节点。 这是因为YARN联合允许用户将多个群集通过到一个大群集中。 我们可以在一个较大的工作中同时使用许多独立的集群,这是通过较大规模的系统实现的。

HDFS

如前所述,HDFS是在两个守护程序(DataNode和NameNode)上运行的主次拓扑。

名称节点存储元数据,其中所有数据都存储在DataNodes中。 另外,如果您的NameNode发生故障并且没有任何备份,则整个Hadoop实例将无法访问。 就像在迭代链表时丢失指针一样。 如果您不知道接下来数据的存储位置,则无法访问。

另一方面,DataNode是实际存储数据的位置。 如果任何特定的DataNode关闭,这应该没问题,因为NameNode经常会跨数据节点管理同一数据块的多个实例(这在某种程度上取决于配置)。

借助Hadoop分布式文件系统,您可以在服务器上一次写入数据,然后多次读取。 HDFS是立即处理大量数据的理想选择。

原因是HDFS与硬件群集商品上的NameNode和DataNode一起使用。 实际上,这是Hadoop流行的主要原因之一。

您可以在廉价的硬件上运行HDFS并轻松地横向扩展(这意味着购买更多的机器来处理数据),这一事实使它成为非常受欢迎的选择。 以前,大多数公司都依靠垂直扩展(购买通常很昂贵但可以单独处理更多数据的服务器)。 这是昂贵的并且具有更多的计算限制。

HDFS和Hadoop与MapReduce等其他基础层组件相结合,使各种规模和能力的企业都可以扩展其数据处理,而无需购买昂贵的设备。

HBase

HDFS和Hadoop有点相同,我们可以互换使用术语来理解开发人员。

但是,HBase是非常不同的。

HBase是建立在Hadoop文件系统之上的开源,面向列的数据库。 在某种程度上,这是人们更熟悉的层,从某种意义上说,它与典型的数据库更加相似。

它是水平可扩展的。 HBase的数据模型类似于google大表设计的数据模型。 它不仅提供了对大量非结构化数据的快速随机访问,而且还利用了HDFS提供的相同的容错能力。

HBase是Hadoop生态系统的一部分,该生态系统实时提供对Hadoop文件系统中数据的读写访问。 由于相同的原因,许多大公司都将HBase用于其日常功能。 例如,Pinterest可与38个HBase群集一起工作,每秒执行约500万次操作!

更重要的是,HBase提供了对一百万条记录中的单个行的较低延迟访问。 为了正常工作,HBase在内部使用哈希表,然后提供对索引的HDFS文件的随机访问。

Hive

尽管Hadoop具有非常好的可扩展性和可靠性,并且非常适合提取数据,但是它的学习曲线过于陡峭,无法使其具有成本效益和时间效益。 另一个很好的替代方法是在MapReduce之上的Apache Hive。

Hive是一种数据仓库软件,允许用户快速轻松地编写类似SQL的查询以从Hadoop提取数据。

这个开源框架的主要目的是处理和存储大量数据。 对于Hadoop,您可以使用MapReduce JAVA API实施SQL查询。 对于Apache Hive,您可以轻松绕过Java,而仅使用类似SQL的查询访问数据。

Apache Hive的工作很简单。 它将用HiveQL编写的输入程序转换为一个或多个Java MapReduce和Spark作业。

然后,它将数据组织到HDFS表中,并在群集上运行作业以产生结果。 Hive是一种将结构应用于大量非结构化数据,然后对它们执行基于SQL的查询的简单方法。 由于它使用的接口熟悉JDBC(Java数据库连接),因此可以轻松地与传统数据中心技术集成。

Hive的一些最重要的组件是:

· MetaStore:这是存储Hive表的架构。 Hive Metastore主要用于保存有关仓库中分区和表的所有信息。 默认情况下,它运行与Hive服务相同的过程。

· SerDe:SerDe或序列化器/反序列化器是一项功能,向配置单元提供有关如何处理记录的指令

这些事情不尽相同-但它们可以协同工作

我们已经讨论了Hadoop,Hive,HBase和HDFS。 所有这些开源工具和软件都旨在帮助处理和存储大数据并从中获得有用的见解。

即使它们扮演的角色截然不同,它们也经常互换使用。

总而言之,Hadoop用作文件存储框架,该框架又将HDFS用作主要-次要拓扑,以将文件存储在Hadoop环境中。

然后,HBase位于HDFS之上,是基于列的分布式数据库系统,类似于Google的Big Table,它对于随机访问Hadoop文件非常有用。 另一方面,Hive提供了一个基于Hadoop的类似SQL的接口,以绕过JAVA编码。

希望这有助于澄清一些差异!

(本文翻译自SeattleDataGuy的文章《Hadoop vs. HDFS vs. HBase vs. Hive》,参考:https://medium.com/better-programming/hadoop-vs-hdfs-vs-hbase-vs-hive-ddfffd45d222)



Tags:Hadoop   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
查看当前目录信息 hadoop fs -ls /上传文件 hadoop fs -put /本地路径 /hdfs路径剪切文件 hadoop fs -moveFromLocal a.txt /aa.txt下载文件到本地 hadoop fs -get /hdfs路...【详细内容】
2021-07-04  Tags: Hadoop  点击:(75)  评论:(0)  加入收藏
一、SMP数据库架构SMP(对称多处理器结构,Symmetric Multi-Processor)数据库架构部署成本相对较低,可以运行从大型服务器到中型商用硬件的各种设备。它在提供合理的性能和吞吐量...【详细内容】
2020-12-01  Tags: Hadoop  点击:(534)  评论:(0)  加入收藏
一、MapReduce概述1、基本概念Hadoop核心组件之一:分布式计算的方案MapReduce,是一种编程模型,用于大规模数据集的并行运算,其中Map(映射)和Reduce(归约)。MapReduce既是一个编程模...【详细内容】
2020-11-23  Tags: Hadoop  点击:(136)  评论:(0)  加入收藏
将 MySQL 的数据导入到 HDFS 中/usr/local/service/sqoop/bin/sqoop-import \--connect jdbc:mysql://$mysqlIP/test \--username root \-P --table sqoop_test \-m 4 \--...【详细内容】
2020-10-21  Tags: Hadoop  点击:(162)  评论:(0)  加入收藏
一、存储机制1、基础描述NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,当元数据有更新或者添加元数据时,修改内存中的元数据会把操作记录追加到edit...【详细内容】
2020-10-12  Tags: Hadoop  点击:(70)  评论:(0)  加入收藏
本章大纲4.1 HDFS写数据流程4.1.1 剖析文件写入HDFS写数据流程,如图所示。HDFS写数据流程1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文...【详细内容】
2020-06-26  Tags: Hadoop  点击:(80)  评论:(0)  加入收藏
> Photo by Mr Cup / Fabien Barral on Unsplash 随着技术的快速变化,越来越多的数据一直在生成。据最新的全球数据领域估计,到2025年,全世界产生的数据量将增长到175 ZB。公...【详细内容】
2020-05-21  Tags: Hadoop  点击:(119)  评论:(0)  加入收藏
几周前,我写了一篇有关Hadoop的文章,并谈到了它的不同部分。 以及它如何在数据工程中扮演重要角色。 在本文中,我将总结Hadoop中不同的文件格式。 本主题将是一个简短而快速...【详细内容】
2020-04-27  Tags: Hadoop  点击:(75)  评论:(0)  加入收藏
本文的目的是讨论Hadoop 3.0的优缺点。随着Hadoop 3.0中引入了许多更改,它已成为更好的产品。Hadoop 3的主要优缺点Hadoop旨在存储和管理大量数据。Hadoop有许多优点,例如,它是...【详细内容】
2019-12-20  Tags: Hadoop  点击:(95)  评论:(0)  加入收藏
1. Spark是什么?Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。Spark包含了大数据领域常见的各种计算框架:比...【详细内容】
2019-12-11  Tags: Hadoop  点击:(118)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(3)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条