大数据有哪些开源的框架和组件值得我们学习？

时间：2021-08-26 14:05:42 来源：作者：UFrank

大数据平台

Hadoop

离线数据的分布式存储和计算基础框架 
分布式存储HDFS
离线计算引擎MapReduce
资源调度Apache YARN

CDH

基于稳定版Hadoop及相关项目最成型的发行版本, 成为企业部署最广泛的大数据系统
可视化的UI界面中方便的管理
配置和监控Hadoop以及其它所有相关组件
简单来说将十几个hadoop开源项目集成在一起

HDP

基于hadoop生态系统开源组件构建的大数据分析平台

集群管理与监控

Cloudera Manager

用于部署和管理CDH集群的软件

Hadoop平台的管理软件，具备Hadoop组件的安装、管理、运维

文件系统

HDFS

分布式文件系统

资源调度

YARN

hadoop的资源管理和作业调度系统

协调框架

Zookeeper

 分布式协调服务，解决分布式数据一致性方案 实现诸如数据发布
订阅、负载均衡、命名、集群管理 master节点管理
 分布式锁和分布式队列

数据存储

Hbase

分布式面向列的NoSQL开源数据库

Cassandra

分布式的混合NoSQL数据库 ，还有C++版本ScyllaDB

MongDB

面向文档的开源分布式数据库

redis

开源的支持网络，基于内存可持久化日志，key-value数据库，可用于
数据库
缓存
消息中间件

Neo4j

开源高性能的NoSQL图形数据库

数据处理

MapReduce

分布式离线的计算框架
批处理 
日渐被spark和flink取代

Spark

通用的一站式计算框架
SparkCore批处理
SparkSQL交互式处理
SparkStreaming流处理
Spark Graphx图计算
Spark MLlib机器学习

Flink

流处理和批处理分布式数据处理框架
 核心是一个流式的数据流执行引擎 类似于Spark
批处理
数据流处理
交互处理
图形处理和机器学习

Storm

分布式实时大数据处理系统
毫秒级别的实时数据处理能力 
实时分析的领导者

数据查询分析

Hive

基于hadoop的数据仓库，结构化
SparkSQL
处理结构化数据的spark组件
分布式的SQL查询引擎

Impala

实时交互SQL大数据查询引擎

Druid

实时大数据分析引擎

Elastic Search

分布式可扩展的实时搜索和分析引擎，基于Apache Lucene搜索引擎

数据收集

Flume

分布式海量日志采集、聚合和传输系统

Logstash

具有实时管道功能的开源数据收集引擎

数据交换

sqoop

数据迁移工具，用来在不同数据存储软件之间进行数据传输的开源软件

DataX

阿里巴巴开源的离线数据同步工具，用于实现包括关系型数据库(MySQL、Oracle等)
HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步

消息系统

Pulsar

企业级分布式消息系统，有替代Kafka的趋势

Kafka

发布/订阅的消息系统，由Scala写成

RocketMQ

阿里巴巴分布式、队列模型的消息中间件

任务调度

Azkaban

批量工作流任务调度器，将所有正在运行的工作流的状态保存在其内存

Oozie

基于Hadoop的企业级工作流调度框架
将所有正在运行的工作流的状态保存SQL数据库
Cloudeara贡献给Apache的顶级项目

数据治理

Ranger

Hadoop 平台上并提供操作、监控、管理综合数据安全的框架
提供一个集中的管理机制，所有数据权限

Sentry

Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项目

数据可视化

Kibana

用于和 Elasticsearch 一起使用的开源的分析与可视化平台

数据挖掘

Mahout

基于hadoop的机器学习和数据挖掘的一个分布式框架

Spark MLlib

Spark的机器学习库

MADlib

基于SQL的数据库内置的可扩展的机器学习库

云平台技术

AWS S3

一种对象存储服务，提供行业领先的可扩展性、数据可用性、安全性和性能
存储和保护各种用例数据

GCP

google提供的一套云计算服务
注册一个帐号，在分布在全球各地数十个google机房使用所有的基础架构服务

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

最近偷税漏税这么多，都是咋发现的？大数据查税到底咋查的？

为啥这几年偷税漏税的新闻这么多？不是偷的人多了，是因为国家有了查税大杀器： ...【详细内容】

2021-12-24　　Tags: 大数据点击:(8)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　Tags: 大数据点击:(9)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　Tags: 大数据点击:(25)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　Tags: 大数据点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　Tags: 大数据点击:(15)　　评论:(0)　　加入收藏

北京薪酬大数据发布，含30个新职业，排名前五的行业是这些

日前，北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》，《报告》基于本市2020年度相关调研数据，按照行业、职位、群体等维度对薪酬数据进行了分析，首...【详细内容】

2021-11-04　　Tags: 大数据点击:(28)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 大数据点击:(34)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　Tags: 大数据点击:(31)　　评论:(0)　　加入收藏

电话销售中，精准大数据获客的重要性。

如今社会，手机电话在中国的使用率已达到99%以上，大大的地增强了我们的生活水平。而电话不但用以日常生活，还可以用以工作中，例如电话营销，电话便是他们的武器装备，他们根据手机的...【详细内容】

2021-10-26　　Tags: 大数据点击:(44)　　评论:(0)　　加入收藏

个保法生效在即，大数据营销需制定怎样的标准？

《个人信息保护法》11月1日即将生效，在大数据营销充斥在网络上的现在，如何引导大数据为善，如何更好的使用开发大数据，变得既重要也有现实意义。...【详细内容】

2021-10-26　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

浅谈大数据在电力营销系统中的应用及工程实例解析

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(9)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(25)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(39)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

如何使用贸易数据开发客户？

本人03年开始从事贸易行业，多年来一直致力于外贸获客和跨境电商选品等领域，最近有些小伙伴反馈海关数据演示的都挺好为啥用起来不是那么回事？大家看到数据时关注的有产品、采购...【详细内容】

2021-10-28　　QD云龙　　　　Tags:数据　点击:(33)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为