您当前的位置:首页 > 互联网百科 > 大数据

排名前6位的最流行的大数据框架,你在用哪一款?

时间:2019-11-27 17:07:24  来源:  作者:

市场上有许多可用的框架。其中一些更受欢迎,例如Spark,Hadoop,Hive和Storm。Presto在效用指数上得分很高,而Flink具有巨大的潜力。另外还有一些需要提及的其他内容,例如Samza,Impala,Apache Pig等。在这里,我们将讨论其中的一些。


1. Apache Hadoop

排名前6位的最流行的大数据框架,你在用哪一款?

 

Hadoop是基于JAVA的平台。这是一个开放源代码框架,可跨集群排列的一组硬件机器提供批处理数据处理和数据存储服务。Hadoop同样适用于可靠,可扩展和分布式的计算。但是,它也可以用作通用文件存储。它可以存储和处理PB的信息。Hadoop由三个主要组件组成。

  1. HDFS文件系统-负责Hadoop集群中的数据存储;
  2. MapReduce系统-用于处理集群中的大量数据;
  3. YARN-它是处理资源管理的核心。
  • 优点

它提供了经济高效的解决方案,高吞吐量,多语言支持以及与大数据服务中大多数新兴技术的兼容性。还通过出色的故障处理机制支持高可伸缩性,容错能力,更适合研发,高可用性。

  • 缺点

它包含安全漏洞的漏洞,不执行内存中的计算,因此会遭受处理开销,不适用于流处理和实时处理,这是处理大量小文件的问题。

像Amazon,Adobe,AOL,阿里巴巴,EBay和Facebook这样的组织也使用Hadoop。


2. Apache Spark

排名前6位的最流行的大数据框架,你在用哪一款?

 

Spark框架由加利福尼亚大学伯克利分校成立。它是具有改进的数据流处理的批处理框架。借助完整的内存计算以及处理优化,它保证了极其快速的集群计算系统。

Spark框架由五层组成。

  • HDFS和HBASE:它们构成了数据存储系统的第一层。
  • YARN和Mesos:它们形成资源管理层。
  • 核心引擎:这形成了第三层。
  • 库:构成第四层,其中包含用于流查询处理时的SQL查询的Spark SQL,用于处理图形数据的GraphX和Spark R实用程序以及用于机器学习算法的MLlib。
  • 第五层包含一个应用程序接口,例如Java或Scala。

Spark可以作为独立的集群与功能强大的存储层一起使用,也可以与Hadoop进行一致的集成。它也支持一些流行的语言,例如Python,R,Java和Scala。

  • 优点
  1. 速度
  2. 使用方便
  3. 进阶分析
  4. 自然动态
  5. 多种语言
  6. Apache Spark功能强大
  7. 增加对大数据的访问
  8. 对Spark开发人员的需求
  9. 开源社区
  • 缺点

Spark带来了一些弊端,例如设置和实现的复杂性,语言支持限制,而不是真正的流引擎。


3.Apache Storm

排名前6位的最流行的大数据框架,你在用哪一款?

 

Apache Storm是另一个引人注目的解决方案,专注于处理巨大的实时数据流。Storm的主要亮点是可伸缩性和停机后的迅速恢复能力。您可以在Java,Python,Ruby和Fancy的帮助下使用此解决方案。Storm包含一些使其在本质上与模拟产品不同的组件。第一个是Tuple,它是支持序列化的关键数据表示元素。然后是Stream,它在Tuple中合并了命名字段的方案。Spout从外部源获取数据,从它们中形成元组,然后将它们发送到Stream。另外还有Bolt(数据处理器)和Topology(拓扑),这是一整套元素及其相关描述。将所有这些元素组合在一起,可以帮助工程师监督大量的非结构化数据流。

谈到性能,Storm提供了比Flink和Spark更好的延迟。尽管如此,它的吞吐量却更糟。最近,Twitter移至另一个框架Heron。Yelp,Yahoo !、阿里巴巴等大型组织尚未利用Storm。到2020年,它将拥有庞大的客户群和支持。


4. Apache Flink

排名前6位的最流行的大数据框架,你在用哪一款?

 

Apache Flink是一个开源框架,同样适用于批处理和流数据处理。它最适合于集群环境。该框架基于转换–流概念。它也是大数据的4G。它比Hadoop – Map Reduce快100倍。

Flink框架由多层组成-

  • 部署层
  • 运行层
  • 图书馆层
  • 优点

低延迟,高吞吐量,容错,逐项输入,批处理轻松以及流数据处理,与Hadoop的兼容性。

  • 缺点

很少有可伸缩性问题。


5. Presto

排名前6位的最流行的大数据框架,你在用哪一款?

 

Presto是最适合较小数据集的开源分布式SQL工具。Presto配备了协调员以及各种工人。当客户提交查询时,将对这些查询进行解析,分析,计划执行并分配给协调员在工作人员之间进行处理。

优点

  1. 即使并发查询工作量增加,查询降级最少。
  2. 它的查询执行速度比Hive快三倍。
  3. 易于添加图像和嵌入链接。
  4. 高度用户友好。

缺点

  1. 可靠性问题

6. Samza

排名前6位的最流行的大数据框架,你在用哪一款?

 

Apache Samza是有状态的流,准备与Kafka共同开发的大数据系统。Kafka提供数据服务,缓冲和容错能力。两者结合起来被提议用于需要快速单级处理的地方。使用Kafka,可以以低延迟使用它。Samza还在处理过程中保存了局部状态,从而提供了更多的容错能力。它是为KAppa体系结构设计的,但可以在其他体系结构中使用。Samza使用YARN来安排资源。因此,它需要一个Hadoop集群才能工作,这意味着您可以依赖YARN提供的亮点。这个大数据处理框架是为Linkedin开发的,也被eBay和TripAdvisor使用,以进行欺诈发现。Kafka利用了相当一部分代码来创建竞争的数据处理框架Kafka流。


结论

没有一个最适合所有业务需求的框架。但是,以某些框架为特色,Storm似乎最适合流式传输,而Spark是批处理的赢家。对于每个组织或企业,自己的数据都是最重要的。将资源投入大数据结构包括支出。许多框架都是可自由访问的,而有些框架则需要付费。视项目需求而定,可提供初步版本。对于适当的选择,请了解业务目标。您可以在较小规模的项目上尝试使用该框架,以更精确地了解其功能。投资于正确的框架可以使企业成功。

点击关注,如果发现任何不正确的地方,或者想分享有关上述主题的更多信息,欢迎反馈。



Tags:大数据框架   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
市场上有许多可用的框架。其中一些更受欢迎,例如Spark,Hadoop,Hive和Storm。Presto在效用指数上得分很高,而Flink具有巨大的潜力。另外还有一些需要提及的其他内容,例如Samza,Impa...【详细内容】
2019-11-27  Tags: 大数据框架  点击:(140)  评论:(0)  加入收藏
Hadoop Distributed File System (HDFS): 分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用...【详细内容】
2019-04-24  Tags: 大数据框架  点击:(207)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(4)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条