您当前的位置:首页 > 互联网百科 > 大数据

Hadoop 3的主要优缺点

时间:2019-12-20 13:17:40  来源:  作者:

本文的目的是讨论Hadoop 3.0的优缺点。随着Hadoop 3.0中引入了许多更改,它已成为更好的产品。

Hadoop 3的主要优缺点

Hadoop 3的主要优缺点

Hadoop旨在存储和管理大量数据。Hadoop有许多优点,例如,它是免费和开源的,易于使用的,其性能等。但是,另一方面,它也有一些缺点。因此,让我们开始探索Hadoop的主要优点和缺点。

Hadoop的优势

Hadoop易于使用,可扩展且具有成本效益。在这里,我们将讨论Hadoop的12大优势

Hadoop 3的主要优缺点

Hadoop的优势

1.各种数据源

Hadoop存储各种数据。数据可以来自各种来源,并且可以是结构化或非结构化的形式。Hadoop可以从各种数据中获取价值。Hadoop可以接受文本文件,XML文件,图像,CSV文件等中的数据。

2.高性价比

Hadoop是一种经济的解决方案,因为它使用集群来存储数据。而硬件是便宜的机器,因此将节点添加到框架的成本不是很高。在Hadoop 3.0中,只有50%的存储开销,而在Hadoop2.x中只有200%。由于冗余数据显着减少,因此需要较少的机器来存储数据。

3.表现

Hadoop及其分布式处理和分布式存储体系结构可高速处理大量数据。Hadoop甚至在2008年击败超级计算机成为最快的计算机。它将输入数据文件划分为多个块,并将数据存储在多个节点上的block块中。它还将用户提交的任务分为多个子任务,这些子任务分配给包含所需数据的这些工作节点,并且这些子任务并行运行,从而提高了性能。

4.容错

在Hadoop 3.0中,擦除编码提供了容错能力。例如,6个数据块通过使用擦除编码技术产生3个奇偶校验块,因此HDFS总共存储了这9个块。如果任何节点发生故障,可以使用这些奇偶校验块和其余数据块来恢复受影响的数据块。

5.高度可用

在Hadoop 2.x中,HDFS架构具有一个活动的NameNode和一个Standby NameNode,因此,如果NameNode发生故障,则我们可以依靠备用NameNode。但是Hadoop 3.0支持多个备用NameNode,从而使系统具有更高的可用性,因此如果两个或多个NameNode崩溃,它可以继续运行。

6.低网络流量

在Hadoop中,用户提交的每个作业都被分为多个独立的子任务,并且这些子任务被分配给数据节点,从而将少量代码移动到数据中,而不是将大量数据移动到代码中,从而导致低网络流量。

7.高通量

吞吐量是指单位时间内完成的工作。Hadoop以分布式方式存储数据,从而可以轻松地使用分布式处理。给定的作业分为多个小作业,这些作业并行处理数据块,从而提供高吞吐量。

8.开源

Hadoop是一种开源技术,即其源代码可免费获得。我们可以修改源代码以适合特定要求。

9.可扩展

Hadoop按照水平可伸缩性原理工作,即我们需要将整个计算机添加到节点群集中,而不要像添加RAM,磁盘等那样更改计算机的配置,这被称为垂直可伸缩性。可以将节点动态添加到Hadoop集群,使其成为可扩展的框架。

10.易于使用

Hadoop框架提供分布式编程模型,MapReduce的程序员只需按固定的模板编写分布式计算程序,而不需要关心他们如何实现分布式处理,它是在后台自动完成。

11.相容性

大数据的大多数新兴技术都与Hadoop兼容,例如Spark,Flink等。它们具有在Hadoop上作为后端工作的处理引擎,即我们将Hadoop用作它们的数据存储平台。

12.支持多种语言

开发人员可以在Hadoop上使用多种语言(例如C,C ++,Perl,Python,Ruby和Groovy)进行编码。

Hadoop的缺点

Hadoop 3的主要优缺点

Hadoop的缺点

1.小文件问题

Hadoop适用于处理相对较大的文件,但是涉及到处理大量小文件的时(小文件比Hadoop的块大小小得多的文件,默认情况下,该块大小可以为128MB或256MB),Hadoop效率不高。这些大量的小文件使Namenode过载,因为Namenode存储了系统的名称空间,并使Hadoop难以运行。

2.天生脆弱

Hadoop用JAVA编写,Java是一种广泛使用的编程语言,因此它容易被网络犯罪分子利用,这使得Hadoop容易受到安全漏洞的攻击。

3.处理费用

在Hadoop中,数据是从磁盘读取并写入磁盘的,这在我们处理兆兆字节和PB级数据时使读/写操作非常昂贵。Hadoop无法执行内存中计算,因此会增加处理开销。

4.仅支持批处理

Hadoop的核心是一个批处理引擎,该引擎在流处理方面效率不高。它不能以低延迟实时生成输出。它仅适用于我们在处理之前预先收集并存储在文件中的数据。

5.迭代处理

Hadoop本身无法进行迭代处理。机器学习 或迭代处理具有周期性的数据流,而Hadoop的数据是在多个阶段链中流动的,其中一个阶段的输出成为另一阶段的输入。

6.安全性

为了安全起见,Hadoop使用难以管理的Kerberos身份验证。它缺少存储和网络级别的加密,这是一个主要问题。
 

总结– Hadoop的优缺点

业界使用的每种软件都有其自身的缺点和好处。如果该软件对业务至关重要,则可以利用其优势并采取措施以最大程度地减少故障。我们可以看到Hadoop的优点大于缺点,这使其成为满足大数据需求的强大解决方案。



Tags:Hadoop 3   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
本文的目的是讨论Hadoop 3.0的优缺点。随着Hadoop 3.0中引入了许多更改,它已成为更好的产品。Hadoop 3的主要优缺点Hadoop旨在存储和管理大量数据。Hadoop有许多优点,例如,它是...【详细内容】
2019-12-20  Tags: Hadoop 3  点击:(95)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(3)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条