大数据之Hadoop初识篇

时间：2019-07-01 11:31:24 来源：作者：

Hadoop介绍（直奔主题）

开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。

Hadoop基本组件

HDFS组件：提供了一种跨服务器的弹性数据存储系统,在由普通PC组成的集群上提供高可靠的文件存储，通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。

存储结构如下图：

MapReduce组件：通过简单的MApper和Reducer的抽象提供一个编程模型，可以在一个由几十台上百台的PC组成的不可靠集群上并发地，分布式地处理大量的数据集，而把并发、分布式（如机器间通信）和故障恢复等计算细节隐藏起来。而Mapper和Reducer的抽象，又是各种各样的复杂数据处理都可以分解为的基本元素。这样，复杂的数据处理可以分解为由多个Job（包含一个Mapper和一个Reducer）组成的有向无环图（DAG）,然后每个Mapper和Reducer放到Hadoop集群上执行，就可以得出结果。

MapReduce工作原理图如下：

Hadoop 扩展组件

这些技术主要包括了Sqoop、Flume、Hive、Pig、ZooKeeper、Spark等。

Pig组件：Apache Pig也是Hadoop框架中的一部分，Pig提供类SQL语言（Pig Latin）通过MapReduce来处理大规模半结构化数据。而Pig Latin是更高级的过程语言，通过将MapReduce中的设计模式抽象为操作，如Filter，GroupBy，Join，OrderBy。

Hive组件：是一个基于 hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用 HQL （类 SQL ）语言对这些数据进行自动化管理和处理。我们可以把 Hive 中海量结构化数据看成一个个的表，而实际上这些数据是分布式存储在 HDFS 中的。 Hive 经过对语句进行解析和转换，最终生成一系列基于 hadoop 的 map/reduce 任务，通过执行这些任务完成数据处理。

Hbase组件：

HBase是一个构建在HDFS上的分布式列存储系统

HBase是基于google BigTable模型开发的，典型的key/value系统；

HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；

从逻辑上讲，HBase将数据按照表、行和列进行存储。

与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

与HDFS关系图如下：

Sqoop组件：Sqoop 工具是hadoop环境下连接关系数据库（如：MySQL ,Oracle），和hadoop存储系统的桥梁，支持多种关系数据源和hive,hdfs,hbase的相互导入。一般情况下，关系数据表存在于线上环境的备份环境，需要每天进行数据导入，根据每天的数据量而言，sqoop可以全表导入，对于每天产生的数据量不是很大的情形可以全表导入，但是sqoop也提供了增量数据导入的机制。

Flume组件：Flume是Cloudera提供的日志收集系统，Flume支持在日志系统中定制各类数据发送方，用于从网站服务器上收集数据。同时Flume提供对数据进行简单处理，并写到HDFS，HBase等集中存储器中。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

应用场景比如我们在做一个电子商务网站，然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快速的将他想要的推送到界面上，实现这一点，我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信息收集并移交给Hadoop平台上去分析.而Flume正是帮我们做到这一点。现在流行的内容推送，比如广告定点投放以及新闻私人定制也是基于次，不过不一定是使用FLume,毕竟优秀的产品很多，比如facebook的Scribe，还有Apache新出的另一个明星项目chukwa，还有淘宝Time Tunnel。

结构如下图所示：

ZooKeeper组件：一种集中服务，其用于维护配置信息，命名，提供分布式同步，以及提供分组服务。

ZooKeeper是一个典型的分布式数据一致性的解决方案，分布式程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调通知、集群管理、master选举、分布式锁、分布式队列等功能。ZooKeeper可以保证如下分布式一致性特性。

顺序一致性：从同一个客户端发起的事务请求，最终将严格按照其发起顺序被应用到ZooKeeper中。

原子性：更新操作要么成功要么失败，没有中间状态

单一视图：不管客户端连接哪一个服务器，客户端看到服务端的数据模型都是一致的（the same view of service）。

可靠性：一旦一个更新成功，那么那就会被持久化，直到客户端用新的更新覆盖这个更新。

实时性：Zookeeper仅保证在一定时间内，客户端最终一定能够从服务端读到最新的数据状态。

Spark组件：Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目之一。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop的MapReduce相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。去年，在100 TB Daytona GraySort比赛中，Spark战胜了Hadoop，它只使用了十分之一的机器，但运行速度提升了3倍。Spark也已经成为针对 PB 级别数据排序的最快的开源引擎。注：MapReduce适合历史数据分析计算，Spark适合实时数据分析计算。

Cloudera：100%开源的商业化Apache Hadoop发行版本（CDH, Cloudera’s Distribution including Apache Hadoop）和相关的组件，其中包括了各类安全高效的企业级数据管理工具，如Hive, HBase，Oozie, Zookeeper等。

Hortonworks：Hortonworks是一家基于Hadoop提供大数据服务的公司，致力于开发Hadoop框架内软件，提升大数据的处理能力。开发了很多增强特性并提交至核心主干，这使得Hadoop能够在包括windows Server和Azure在内平台上本地运行。

MapR：获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。提供诸如快照、镜像或有状态的故障恢复等高可用性特性。领导着Apache Drill项目，是Google的Dremel的开源实现，目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。

结合上面介绍来一张各组件整体结构图如下：

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

最近偷税漏税这么多，都是咋发现的？大数据查税到底咋查的？

为啥这几年偷税漏税的新闻这么多？不是偷的人多了，是因为国家有了查税大杀器： ...【详细内容】

2021-12-24　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　Tags: 大数据点击:(26)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　Tags: 大数据点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　Tags: 大数据点击:(15)　　评论:(0)　　加入收藏

北京薪酬大数据发布，含30个新职业，排名前五的行业是这些

日前，北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》，《报告》基于本市2020年度相关调研数据，按照行业、职位、群体等维度对薪酬数据进行了分析，首...【详细内容】

2021-11-04　　Tags: 大数据点击:(28)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　Tags: 大数据点击:(31)　　评论:(0)　　加入收藏

电话销售中，精准大数据获客的重要性。

如今社会，手机电话在中国的使用率已达到99%以上，大大的地增强了我们的生活水平。而电话不但用以日常生活，还可以用以工作中，例如电话营销，电话便是他们的武器装备，他们根据手机的...【详细内容】

2021-10-26　　Tags: 大数据点击:(45)　　评论:(0)　　加入收藏

个保法生效在即，大数据营销需制定怎样的标准？

《个人信息保护法》11月1日即将生效，在大数据营销充斥在网络上的现在，如何引导大数据为善，如何更好的使用开发大数据，变得既重要也有现实意义。...【详细内容】

2021-10-26　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

聊聊如何自定义数据脱敏

前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】

2021-12-28　　linyb极客之路　　　　Tags:数据脱敏　点击:(3)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(26)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(40)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游