Hadoop
离线数据的分布式存储和计算基础框架
分布式存储HDFS
离线计算引擎MapReduce
资源调度Apache YARN
CDH
基于稳定版Hadoop及相关项目最成型的发行版本, 成为企业部署最广泛的大数据系统
可视化的UI界面中方便的管理
配置和监控Hadoop以及其它所有相关组件
简单来说将十几个hadoop开源项目集成在一起
HDP
基于hadoop生态系统开源组件构建的大数据分析平台
Cloudera Manager
用于部署和管理CDH集群的软件
Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维
HDFS
分布式文件系统
YARN
hadoop的资源管理和作业调度系统
Zookeeper
分布式协调服务,解决分布式数据一致性方案 实现诸如数据发布
订阅、负载均衡、命名、集群管理 master节点管理
分布式锁和分布式队列
Hbase
分布式面向列的NoSQL开源数据库
Cassandra
分布式的混合NoSQL数据库 ,还有C++版本ScyllaDB
MongDB
面向文档的开源分布式数据库
开源的支持网络,基于内存可持久化日志,key-value数据库,可用于
数据库
缓存
消息中间件
Neo4j
开源高性能的NoSQL图形数据库
MapReduce
分布式离线的计算框架
批处理
日渐被spark和flink取代
Spark
通用的一站式计算框架
SparkCore批处理
SparkSQL交互式处理
SparkStreaming流处理
Spark Graphx图计算
Spark MLlib机器学习
Flink
流处理和批处理分布式数据处理框架
核心是一个流式的数据流执行引擎 类似于Spark
批处理
数据流处理
交互处理
图形处理和机器学习
Storm
分布式实时大数据处理系统
毫秒级别的实时数据处理能力
实时分析的领导者
Hive
基于hadoop的数据仓库,结构化
SparkSQL
处理结构化数据的spark组件
分布式的SQL查询引擎
Impala
实时交互SQL大数据查询引擎
Druid
实时大数据分析引擎
Elastic Search
分布式可扩展的实时搜索和分析引擎,基于Apache Lucene搜索引擎
Flume
分布式海量日志采集、聚合和传输系统
Logstash
具有实时管道功能的开源数据收集引擎
sqoop
数据迁移工具,用来在不同数据存储软件之间进行数据传输的开源软件
DataX
阿里巴巴开源的离线数据同步工具,用于实现包括关系型数据库(MySQL、Oracle等)
HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步
Pulsar
企业级分布式消息系统,有替代Kafka的趋势
Kafka
发布/订阅的消息系统,由Scala写成
RocketMQ
阿里巴巴分布式、队列模型的消息中间件
Azkaban
批量工作流任务调度器,将所有正在运行的工作流的状态保存在其内存
Oozie
基于Hadoop的企业级工作流调度框架
将所有正在运行的工作流的状态保存SQL数据库
Cloudeara贡献给Apache的顶级项目
Ranger
Hadoop 平台上并提供操作、监控、管理综合数据安全的框架
提供一个集中的管理机制,所有数据权限
Sentry
Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项目
Kibana
用于和 Elasticsearch 一起使用的开源的分析与可视化平台
Mahout
基于hadoop的机器学习和数据挖掘的一个分布式框架
Spark MLlib
Spark的机器学习库
MADlib
基于SQL的数据库内置的可扩展的机器学习库
AWS S3
一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能
存储和保护各种用例数据
GCP
google提供的一套云计算服务
注册一个帐号,在分布在全球各地数十个google机房使用所有的基础架构服务