Hadoop是什么，能干什么，怎么使用

时间：2019-08-07 09:37:41 来源：作者：

Hadoop是什么，能干什么，怎么使用

1、Hadoop是什么

1.1、小故事版本的解释

小明接到一个任务：计算一个100M的文本文件中的单词的个数，这个文本文件有若干行，每行有若干个单词，每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务，小明感觉很轻松。他首先把这个100M的文件拷贝到自己的电脑上，然后写了个计算程序在他的计算机上执行后顺利输出了结果。

后来，小明接到了另外一个任务，计算一个1T（1024G）的文本文件中的单词的个数。再后来，小明又接到一个任务，计算一个1P(1024T)的文本文件中的单词的个数……

面对这样大规模的数据，小明的那一台计算机已经存储不下了，也计算不了这样大的数据文件中到底有多少个单词了。机智的小明上网百度了一下，他在百度的输入框中写下了：大数据存储和计算怎么办？按下回车键之后，出现了有关Hadoop的网页。

看了很多网页之后，小明总结一句话：Hadoop就是存储海量数据和分析海量数据的工具。

1.2、稍专业点的解释

Hadoop是由JAVA语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。

MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

1.3、记住下面的话：

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎，按照MapReduce的规则编写Map计算/Reduce计算的程序，可以完成计算任务。

2、Hadoop能干什么

大数据存储：分布式存储

日志处理：擅长日志分析

ETL:数据抽取到oracle、MySQL、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘：目前比较流行的广告推荐，个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。

实际应用：

（1）Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

（2）酷狗音乐的大数据平台

3、怎么使用Hadoop

3.1、Hadoop集群的搭建

无论是在windows上装几台虚拟机玩Hadoop，还是真实的服务器来玩，说简单点就是把Hadoop的安装包放在每一台服务器上，改改配置，启动就完成了Hadoop集群的搭建。

3.2、上传文件到Hadoop集群

Hadoop集群搭建好以后，可以通过web页面查看集群的情况，还可以通过Hadoop命令来上传文件到hdfs集群，通过Hadoop命令在hdfs集群上建立目录，通过Hadoop命令删除集群上的文件等等。

3.3、编写map/reduce程序

通过集成开发工具（例如eclipse）导入Hadoop相关的jar包，编写map/reduce程序，将程序打成jar包扔在集群上执行，运行后出计算结果。

Tags：Hadoop 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

大数据面试之hadoop最常用的命令

查看当前目录信息 hadoop fs -ls /上传文件 hadoop fs -put /本地路径 /hdfs路径剪切文件 hadoop fs -moveFromLocal a.txt /aa.txt下载文件到本地 hadoop fs -get /hdfs路...【详细内容】

2021-07-04　　Tags: Hadoop 点击:(75)　　评论:(0)　　加入收藏

SMP、MPP和Hadoop数据库架构方案

一、SMP数据库架构SMP（对称多处理器结构，Symmetric Multi-Processor）数据库架构部署成本相对较低，可以运行从大型服务器到中型商用硬件的各种设备。它在提供合理的性能和吞吐量...【详细内容】

2020-12-01　　Tags: Hadoop 点击:(535)　　评论:(0)　　加入收藏

Hadoop框架：MapReduce基本原理和入门案例

一、MapReduce概述1、基本概念Hadoop核心组件之一：分布式计算的方案MapReduce，是一种编程模型，用于大规模数据集的并行运算，其中Map（映射）和Reduce（归约）。MapReduce既是一个编程模...【详细内容】

2020-11-23　　Tags: Hadoop 点击:(136)　　评论:(0)　　加入收藏

使用sqoop在MySQL、hadoop、hive间同步数据

将 MySQL 的数据导入到 HDFS 中/usr/local/service/sqoop/bin/sqoop-import \--connect jdbc:mysql://$mysqlIP/test \--username root \-P --table sqoop_test \-m 4 \--...【详细内容】

2020-10-21　　Tags: Hadoop 点击:(162)　　评论:(0)　　加入收藏

Hadoop框架：NameNode工作机制详解

一、存储机制1、基础描述NameNode运行时元数据需要存放在内存中，同时在磁盘中备份元数据的fsImage，当元数据有更新或者添加元数据时，修改内存中的元数据会把操作记录追加到edit...【详细内容】

2020-10-12　　Tags: Hadoop 点击:(70)　　评论:(0)　　加入收藏

大数据技术之Hadoop（HDFS）第4章 HDFS的数据流（面试重点）

本章大纲4.1 HDFS写数据流程4.1.1 剖析文件写入HDFS写数据流程，如图所示。HDFS写数据流程1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文...【详细内容】

2020-06-26　　Tags: Hadoop 点击:(80)　　评论:(0)　　加入收藏

Hadoop，HDFS，HBase，Hive 有什么不同？

> Photo by Mr Cup / Fabien Barral on Unsplash 随着技术的快速变化，越来越多的数据一直在生成。据最新的全球数据领域估计，到2025年，全世界产生的数据量将增长到175 ZB。公...【详细内容】

2020-05-21　　Tags: Hadoop 点击:(119)　　评论:(0)　　加入收藏

大数据新人应该了解的Hadoop中的各种文件格式

几周前，我写了一篇有关Hadoop的文章，并谈到了它的不同部分。以及它如何在数据工程中扮演重要角色。在本文中，我将总结Hadoop中不同的文件格式。本主题将是一个简短而快速...【详细内容】

2020-04-27　　Tags: Hadoop 点击:(75)　　评论:(0)　　加入收藏

Hadoop 3的主要优缺点

本文的目的是讨论Hadoop 3.0的优缺点。随着Hadoop 3.0中引入了许多更改，它已成为更好的产品。Hadoop 3的主要优缺点Hadoop旨在存储和管理大量数据。Hadoop有许多优点，例如，它是...【详细内容】

2019-12-20　　Tags: Hadoop 点击:(95)　　评论:(0)　　加入收藏

大数据Spark和Hadoop以及区别

1. Spark是什么？Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。Spark包含了大数据领域常见的各种计算框架：比...【详细内容】

2019-12-11　　Tags: Hadoop 点击:(118)　　评论:(0)　　加入收藏

▌简易百科推荐

Java的面向对象

面向对象的特征之一封装面向对象的特征之二继承方法重写（override/overWrite）方法的重载(overload)和重写(override)的区别：面向对象特征之三：多态 Instanceof关键字...【详细内容】

2021-12-28　　顶顶架构师　　　　Tags:面向对象　点击:(2)　　评论:(0)　　加入收藏

Java业务开发常见错误

一、Redis使用过程中一些小的注意点1、不要把Redis当成数据库来使用二、Arrays.asList常见失误需求：把数组转成list集合去处理。方法：Arrays.asList 或者 Java8的stream流式处...【详细内容】

2021-12-27　　CF07　　　　Tags:Java 　点击:(3)　　评论:(0)　　加入收藏

JAVA 基础核心面试问题分析，看懂了轻

文章目录如何理解面向对象编程？ JDK 和 JRE 有什么区别？如何理解Java中封装，继承、多态特性？如何理解Java中的字节码对象？你是如何理解Java中的泛型的？说说泛型应用...【详细内容】

2021-12-24　　Java架构师之路　　　　Tags:JAVA 　点击:(5)　　评论:(0)　　加入收藏

JVM调优指南-工具篇：jps

大家好！我是老码农，一个喜欢技术、爱分享的同学，从今天开始和大家持续分享JVM调优方面的经验。JVM调优是个大话题，涉及的知识点很庞大 Java内存模型垃圾回收机制各种工具使用 ...【详细内容】

2021-12-23　　小码匠和老码农　　　　Tags:JVM调优　点击:(12)　　评论:(0)　　加入收藏

JDBC读写Postgresql jsonb类型数据最佳兼容方案

前言JDBC访问Postgresql的jsonb类型字段当然可以使用Postgresql jdbc驱动中提供的PGobject，但是这样在需要兼容多种数据库的系统开发中显得不那么通用，需要特殊处理。本文介绍...【详细内容】

2021-12-23　　dingle　　　　Tags:JDBC 　点击:(13)　　评论:(0)　　加入收藏

Java与Lua相互调用

Java与Lua相互调用案例比较少，因此项目使用需要做详细的性能测试，本内容只做粗略测试。目前已完成初版Lua-Java调用框架开发，后期有时间准备把框架进行抽象，并开源出来，感兴趣的...【详细内容】

2021-12-23　　JAVA小白　　　　Tags:Java 　点击:(11)　　评论:(0)　　加入收藏

JAVA并发之ReentrantLock原理解析

Java从版本5开始，在 java.util.concurrent.locks包内给我们提供了除了synchronized关键字以外的几个新的锁功能的实现，ReentrantLock就是其中的一个。但是这并不意味着我们可...【详细内容】

2021-12-17　　小西学JAVA　　　　Tags:JAVA并发　点击:(11)　　评论:(0)　　加入收藏

Java基础系列-final、finally关键字

一、概述final是Java关键字中最常见之一，表示“最终的，不可更改”之意，在Java中也正是这个意思。有final修饰的内容，就会变得与众不同，它们会变成终极存在，其内容成为固定的存在。...【详细内容】

2021-12-15　　唯一浩哥　　　　Tags:Java基础　点击:(17)　　评论:(0)　　加入收藏

再议java日志管理logback

1、问题描述关于java中的日志管理logback，去年写过关于logback介绍的文章，这次项目中又优化了下，记录下，希望能帮到需要的朋友。2、解决方案这次其实是碰到了一个问题，一般的情况...【详细内容】

2021-12-15　　软件老王　　　　Tags:logback 　点击:(19)　　评论:(0)　　加入收藏

JAVA并发之AtomicInteger原理分析

本篇文章我们以AtomicInteger为例子，主要讲解下CAS（Compare And Swap）功能是如何在AtomicInteger中使用的，以及提供CAS功能的Unsafe对象。我们先从一个例子开始吧。假设现在我们...【详细内容】

2021-12-14　　小西学JAVA　　　　Tags:JAVA 　点击:(22)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游