您当前的位置：首页 > 电脑百科 > 数据库 > 百科

Hadoop基础知识总结

时间：2019-08-16 11:00:52 来源：作者：

+ 加入收藏

Hadoop概述

Hadoop这个单词本身并没有什么特殊的含义，而只是其作者Doug Cutting孩子的一个棕黄色的大象玩具的名字。

Hadoop是一个高可靠的(reliable)，规模可扩展的(scalable)，分布式(distributed computing)的开源软件框架。它使我们能用一种简单的编程模型来处理存储于集群上的大数据集。

Hadoop是Apache 基金会的一个开源项目，是一个提供了分布式存储和分布式计算功能的基础架构平台。可以应用于企业中的数据存储，日志分析，商业智能，数据挖掘等。

hadoop核心组件

1. hadoop包含的模块：

Hadoop common：提供一些通用的功能支持其他hadoop模块。
Hadoop Distributed File System：即分布式文件系统，简称HDFS。主要用来做数据存储，并提供对应用数据高吞吐量的访问。
Hadoop Yarn：用于作业调度和集群资源管理的框架。
Hadoop MapReduce：基于yarn的，能用来并行处理大数据集的计算框架。

2. HDFS：

HDFS是谷歌GFS的一个开源实现，具有扩展性，容错性，海量数据存储的特点：

扩展性，主要指很容易就可以在当前的集群上增加一台或者多台机器，扩展计算资源。
容错性，主要指其多副本的存储机制。HDFS将文件切分成固定大小的block(默认是128M)，并以多副本形式存储在多台机器上，当其中一台机器发生故障，仍然有其他副本供我们使用。但这个容错并不是绝对的，当所有节点都发生故障，文件就会丢失，不过这样的概率较小。
海量数据存储：多台机器构成了一个集群，相对单机能存储更多量的数据。这也是Hadoop解决的最主要问题之一。

数据切分，多副本，容错等机制都是Hadoop底层已经设计好的，对用户透明，用户不需要关系细节。只需要按照对单机文件的操作方式，就可以进行分布式文件的操作。如文件的上传，查看，下载等。

多副本存储示例：

HDFS多副本存储示意图

以part-1为例进行说明，它被分成三个block，block_id分别是2，4，5，且副本系数为3。可以看到在DataNode上，2，4，5都各存储在了三个节点上，这样当其中一个节点故障时，仍然能够保证文件的可用。block_id存在的必要性在于，在用户需要对文件进行操作时，相应的block能够按顺序进行“组合”起来。

3. YARN：

Yarn的全称是Yet Another Resource Negotiator，负责整个集群资源的管理和调度。例如对每个作业，分配CPU，内存等等，都由yarn来管理。它的特点是扩展性，容错性，多框架资源统一调度。

扩展性和HDFS的扩展性类似，yarn也很容易扩展其计算资源。

容错性，主要是指当某个任务出现异常，yarn会对其进行一定次数的重试。

多框架资源统一调度，这个是相对于hadoop1.0版本的一个优势。区别于hadoop1.0只支持MapReduce作业。而yarn之上可以运行不同类型的作业。如下图所示，很多应用都可以运行在yarn之上，由yarn统一进行调度。

运行在YARN上的多种应用

4. mapreduce：

是一个分布式计算框架，是googleMapReduce的克隆版。和HDFS、Yarn类似，也具有扩展性和容错性的特点，还将具有海量数据离线处理的特点：能够处理的数据量大，但并不是实时处理，具有较大的延时性。

MapReduce计算过程示意图

wordCount的MapReduce流程如图所示，主要分为Map和Reduce两个过程。Map阶段做映射，对所有输入的单词赋值为1，Reduce阶段做汇总，相同的单词分发到一个节点上并进行求和，最终就可以统计出单词的个数。

hadoop的优势

hadoop的优势主要体现在高可靠性，高扩展性等方面。

高可靠性是指多副本的存储机制和失败作业的重新调度计算。

高扩展性是指资源不够时很容易直接扩展机器。一个集群可以包含数以千计的节点。

其他优势还表现在：hadoop完全可以部署在普通廉价的机器上，成本低。同时它具有成熟的生态圈和开源社区。

狭义hadoop VS 广义hadoop：

狭义hadoop：指一个用于大数据分布式存储(HDFS)，分布式计算(MapReduce)和资源调度(YARN)的平台，这三样只能用来做离线批处理，不能用于实时处理，因此才需要生态系统的其他的组件。

广义的hadoop：指的是hadoop的生态系统，即其他各种组件在内的一整套软件。hadoop生态系统是一个很庞大的概念，hadoop只是其中最重要最基础的部分，生态系统的每一个子系统只结局的某一个特定的问题域。不是一个全能系统，而是多个小而精的系统。

hadoop生态系统

hadoop生态系统

上图是hadoop生态系统的一个构成。HDFS是基础的文件系统，用来存储数据，多副本，高容错。MapReduce用来进行并行计算，它运行在Yarn之上。这是前文提到过的三大核心组件，下面我们简要介绍图中的其他部分。

由于MapReduce的学习成本相对较高，这样就诞生了一些其他框架。

Hive 处理的是海量结构化日志数据的统计问题。它定义了一种类似SQL的语言Hive QL，借助于hive引擎能将其转换为MapReduce作业并提交到集群上进行运算。hive适用于离线处理。相比之下，SQL的门槛就低得多

Mahout是一个机器学习算法库，实现了很多数据挖掘的经典算法，帮助用户很方便地创建应用程序。

Pig可以将脚本任务转换为MapReduce作业，同样是适用于离线分析。

Oozie是一个工作流调度引擎，用来处理具有依赖关系的作业调度。类似的框架有Azkaban，airflow等。

Zookeeper：分布式协调服务，“动物园管理员”角色，是一个对集群服务进行管理的框架，如维护故障切换等。

Flume：日志收集框架。将多种应用服务器上的日志，统一收集到HDFS上，这样就可以使用hadoop进行处理

Sqoop：提供关系型数据库与HDFS数据相互传输的功能。

Hbase：面向列存储的数据库。适用于实时快速查询的场景。

除此之外，还有spark，kafka，flink，redis等新兴的一些实用框架。

Hadoop生态系统的特点：

开源，社区高活跃
开源意味着源码可获取，可以直接基于源码进行改造实现个性化需求。社区活跃高意味着迭代更新快，维护的人多。
囊括了大数据处理的方方面面
具有成熟的生态圈。

hadoop发行版本的选择

Apache hadoop：解决了单个框架的额问题，综合起来使用会有jar包冲突，不适合于生产环境。
CDH：Cloudera Distributed Hadoop。商业版本。使用Cloudera Manager对集群进行管理，通过浏览器，不需要通过linux就可以安装，与spark结合的很好。没有jar包冲突的问题。但Cloudera Manager不开源，企业版收费。
CDH的下载地址：http://archive.cloudera.com/cdh5/cdh/5/
HDP：Hortonworks Data Platform。商业版本之一，使用Ambari进行统一管理，对服务的用户收费。

总结

关于Hadoop概述的知识就讲解到这里。

Tags：Hadoop 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

大数据面试之hadoop最常用的命令

查看当前目录信息 hadoop fs -ls /上传文件 hadoop fs -put /本地路径 /hdfs路径剪切文件 hadoop fs -moveFromLocal a.txt /aa.txt下载文件到本地 hadoop fs -get /hdfs路...【详细内容】

2021-07-04　　Tags: Hadoop 点击:(75)　　评论:(0)　　加入收藏

SMP、MPP和Hadoop数据库架构方案

一、SMP数据库架构SMP（对称多处理器结构，Symmetric Multi-Processor）数据库架构部署成本相对较低，可以运行从大型服务器到中型商用硬件的各种设备。它在提供合理的性能和吞吐量...【详细内容】

2020-12-01　　Tags: Hadoop 点击:(535)　　评论:(0)　　加入收藏

Hadoop框架：MapReduce基本原理和入门案例

一、MapReduce概述1、基本概念Hadoop核心组件之一：分布式计算的方案MapReduce，是一种编程模型，用于大规模数据集的并行运算，其中Map（映射）和Reduce（归约）。MapReduce既是一个编程模...【详细内容】

2020-11-23　　Tags: Hadoop 点击:(136)　　评论:(0)　　加入收藏

使用sqoop在MySQL、hadoop、hive间同步数据

将 MySQL 的数据导入到 HDFS 中/usr/local/service/sqoop/bin/sqoop-import \--connect jdbc:mysql://$mysqlIP/test \--username root \-P --table sqoop_test \-m 4 \--...【详细内容】

2020-10-21　　Tags: Hadoop 点击:(162)　　评论:(0)　　加入收藏

Hadoop框架：NameNode工作机制详解

一、存储机制1、基础描述NameNode运行时元数据需要存放在内存中，同时在磁盘中备份元数据的fsImage，当元数据有更新或者添加元数据时，修改内存中的元数据会把操作记录追加到edit...【详细内容】

2020-10-12　　Tags: Hadoop 点击:(70)　　评论:(0)　　加入收藏

大数据技术之Hadoop（HDFS）第4章 HDFS的数据流（面试重点）

本章大纲4.1 HDFS写数据流程4.1.1 剖析文件写入HDFS写数据流程，如图所示。HDFS写数据流程1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文...【详细内容】

2020-06-26　　Tags: Hadoop 点击:(80)　　评论:(0)　　加入收藏

Hadoop，HDFS，HBase，Hive 有什么不同？

> Photo by Mr Cup / Fabien Barral on Unsplash 随着技术的快速变化，越来越多的数据一直在生成。据最新的全球数据领域估计，到2025年，全世界产生的数据量将增长到175 ZB。公...【详细内容】

2020-05-21　　Tags: Hadoop 点击:(119)　　评论:(0)　　加入收藏

大数据新人应该了解的Hadoop中的各种文件格式

几周前，我写了一篇有关Hadoop的文章，并谈到了它的不同部分。以及它如何在数据工程中扮演重要角色。在本文中，我将总结Hadoop中不同的文件格式。本主题将是一个简短而快速...【详细内容】

2020-04-27　　Tags: Hadoop 点击:(75)　　评论:(0)　　加入收藏

Hadoop 3的主要优缺点

本文的目的是讨论Hadoop 3.0的优缺点。随着Hadoop 3.0中引入了许多更改，它已成为更好的产品。Hadoop 3的主要优缺点Hadoop旨在存储和管理大量数据。Hadoop有许多优点，例如，它是...【详细内容】

2019-12-20　　Tags: Hadoop 点击:(95)　　评论:(0)　　加入收藏

大数据Spark和Hadoop以及区别

1. Spark是什么？Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。Spark包含了大数据领域常见的各种计算框架：比...【详细内容】

2019-12-11　　Tags: Hadoop 点击:(118)　　评论:(0)　　加入收藏

▌简易百科推荐

SQL常用增删改查语句

1增1.1【插入单行】insert [into] <表名> (列名) values (列值)例：insert into Strdents (姓名,性别,出生日期) values ('开心朋朋','男','1980/6/15&#3...【详细内容】

2021-12-27　　快乐火车9d3　　　　Tags:SQL 　点击:(2)　　评论:(0)　　加入收藏

以一个简单的查询存储过程为例，简单说一下sql的几种写法

最近发现还有不少做开发的小伙伴，在写存储过程的时候，在参考已有的不同的写法时，往往很迷茫，不知道各种写法孰优孰劣，该选用哪种写法，以及各种写法的优缺点，本文以一个简单的查询...【详细内容】

2021-12-23　　linux上的码农　　　　Tags:sql 　点击:(9)　　评论:(0)　　加入收藏

HasorDB 一个全功能数据库访问工具

《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的HasorDB 是一个全功能数据库访问工具，提供对象映射、丰...【详细内容】

2021-12-22　　GitHub精选　　　　Tags:HasorDB 　点击:(5)　　评论:(0)　　加入收藏

一文详解Liquibase如何自动化数据库脚本部署

作者丨Rafal Grzegorczyk译者丨陈骏策划丨孙淑娟【51CTO.com原创稿件】您是否还在手动对数据库执行各种脚本?您是否还在浪费时间去验证数据库脚本的正确性?您是否还需要将...【详细内容】

2021-12-22　　　　51CTO　　Tags:Liquibase 　点击:(4)　　评论:(0)　　加入收藏

SQL 中 on 和 where 条件放置的差异

场景描述：由于生产环境的表比较复杂，字段很多。这里我们做下简化，只为说明今天要聊的问题。有两张表 tab1，tab2： tab1 数据如下： tab2 数据如下：然后给你看下，我用来统计 name=&#3...【详细内容】

2021-12-20　　Bald　　　　Tags:SQL 　点击:(7)　　评论:(0)　　加入收藏

一文掌握SQL基础

前言知识无底，学海无涯，知识点虽然简单，但是比较多，所以将MySQL的基础写出来，方便自己以后查找，还有就是分享给大家。一、SQL简述1.SQL的概述Structure Query Language(结构化查...【详细内容】

2021-12-16　　谣言止于独立思考　　　　Tags:SQL基础　点击:(13)　　评论:(0)　　加入收藏

做测试不会 SQL？超详细的 SQL 查询语法教程来啦

前言作为一名测试工程师，工作中在对测试结果进行数据比对的时候，或多或少要和数据库打交道的，要和数据库打交道，那么一些常用的 SQL 查询语法必须要掌握。最近有部分做测试小伙...【详细内容】

2021-12-14　　柠檬班软件测试　　　　Tags:SQL 　点击:(15)　　评论:(0)　　加入收藏

C｜数据存储地址与字节偏移、数据索引

话说C是面向内存的编程语言。数据要能存得进去，取得出来，且要考虑效率。不管是顺序存储还是链式存储，其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表...【详细内容】

2021-12-08　　小智雅汇　　　　Tags:数据存储　点击:(18)　　评论:(0)　　加入收藏

数据库迁移有什么技巧？|分享强大的database迁移和同步工具

概述DBConvert Studio 是一款强大的跨数据库迁移和同步软件，可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的 DBConvert 和 DBSync 核心与改进的现...【详细内容】

2021-11-17　　雪竹聊运维　　　　Tags:数据库　点击:(26)　　评论:(0)　　加入收藏

谈谈执行一条SQL的流程

一、前言大家好,我是小诚,《从0到1-全面深刻理解MySQL系列》已经来到第四章,这一章节的主要从一条SQL执行的开始,由浅入深的解析SQL语句由客户端到服务器的完整执行流程,最...【详细内容】

2021-11-09　　woaker　　　　Tags:SQL 　点击:(35)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游