您当前的位置：首页 > 电脑百科 > 软件技术 > 软件技术

9个步骤，手把手教你在Windows上安装Hadoop

时间：2023-05-24 11:49:53 来源：作者：Java学研大本营

+ 加入收藏

在 Microsoft windows 上运行 Apache Hadoop 是比较繁琐的任务，在安装过程中会出现许多错误，最终，大多数用户放弃了通过 Windows 使用 Hadoop，并转而使用基于 linux 的操作系统。

本文讲述了有关如何在Windows上无误安装和运行Apache Hadoop所有组件的各个方面。请先为以下先决条件准备好PC/笔记本电脑：

1. JAVA开发工具包

Apache Hadoop 与最新版本的JDK不兼容。建议下载Java SE Development Kit版本15.0.x（可能需要注册Oracle帐户）。

安装链接：https://www.oracle.com/java/technologies/javase/jdk15-archive-downloads.html

2. 设置环境路径

（仅在未安装Java或从未设置Java路径时才执行此步骤）。

进入设置 -> 搜索 "环境变量" -> 选择 "编辑系统变量 "选项。出现以下对话框：

单击“环境变量…”按钮。出现以下窗口：

选择新按钮并在变量名称中键入“JAVA_HOME”，将值设置为Java SDK的bin文件夹的路径（通常为类型：C:Program FilesJavajdk-15.0.1bin）。对于用户和系统变量都执行此步骤。

从用户变量中选择路径选项（稍后同样适用于系统变量）。单击“编辑”并通过单击“新建”按钮（从右侧）添加Java bin路径。对于用户和系统变量都执行此步骤。

现在，通过满足先决条件，已准备好在Windows上安装Apache Hadoop。

从以下链接中下载tar.gz文件（注意-最可能需要下载的是底部的第三个文件）。

安装链接：https://downloads.apache.org/hadoop/common/hadoop-3.3.4/

确保将Hadoop文件夹提取到C：驱动器中（而不是任何文件夹或其他驱动器中）

提取后，请确保hadoop-3.3.4（文件夹名称）对用户具有写入权限。

下面我们进入安装步骤的关键部分，设置Hadoop的配置，请仔细遵循这些步骤。我们需要更改以下文件：

编辑文件C： Hadoop-3.3.4 etc hadoop core-site.xml，编辑xml代码并保存：

<configuration> 
<property> 
<name>fs.defaultFS</name> 
<value>hdfs://localhost:9000</value> 
</property> 
</configuration>

注意：如果端口正在使用，则可能需要更改端口（此处为9000）。

编辑文件C:Hadoop-3.3.4etchadoopmapred-site.xml，编辑xml代码并保存：

<configuration> 
<property> 
<name>mapreduce.framework.name</name> 
<value>yarn</value> 
</property> 
</configuration>

3. 编辑文件

编辑C:Hadoop-3.3.4etchadoophdfs-site.xml，编辑xml代码并保存：

<configuration> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 
<property> 
<name>dfs.namenode.name.dir</name> 
<value>/hadoop-3.3.4/data/namenode</value> 
</property> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>/hadoop-3.3.4/data/datanode</value> 
</property> 
</configuration>

4. 创建目录

创建以下目录

a. 在“C： hadoop-3.3.4 ”下创建文件夹“data”

b. 在“C： hadoop-3.3.4 data ”下创建文件夹“datanode”

c. 在“C： hadoopo-3.3.4 data ”下创建文件夹“namenode”

5. 编辑文件

编辑文件C： Hadoop-3.3.4 etc hadoop yarn-site.xml，编辑xml代码并保存：

<configuration> 
<property> 
<name>yarn.nodemanager.aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 
<property> 
<name>yarn.nodemanager.auservices.mapreduce.shuffle.class</name> 
<value>org.apache.hadoop.mapred.ShuffleHandler</value> 
</property> 
</configuration>

6. 编辑文件

编辑文件C:Hadoop-3.3.4etchadoophadoop-env.cmd，编辑以下行：

“JAVA_HOME=C:\Progra~1Javajdk-15.0.1bin” instead of set “JAVA_HOME=C:Java”

注意：可以使用JAVA_HOME变量，但由于路径地址(Program Files)中存在空格，会引发错误。

到这一步已经完成了编辑配置的工作。现在，我们将在cmd中执行命令以运行Hadoop。

从下面链接中的bin文件夹中粘贴文件到Hadoop bin文件夹中，注意不要替换整个bin文件夹，复制文件并仅替换选定的文件。确保bin文件夹总共有22个项目。这一步很关键，因为现有的bin文件夹具有不完整的文件集，这些文件集是运行资源管理器所需的。

安装链接：https://drive.google.com/drive/folders/1fDbblP61sUKmDqvQ8pfU98nMt_we4b5J?usp=share_link

7. 为Hadoop设置环境和路径变量

进入设置->打开环境变量->在用户变量中添加新变量：

变量名称：HADOOP_HOME，值：C： hadoop-3.3.4 bin（到hadoop bin文件夹的路径）。

进入用户变量中的路径，点击编辑，添加新路径：

路径值与上面相同（到Hadoop bin文件夹的路径）。

将以下路径值添加到系统变量中：

C： hadoop-3.3.4 bin

C： hadoop-3.3.4 sbin

以“管理员身份运行”打开cmd（或powershell），并使用cd命令导航到Hadoop的bin目录：

cd C:hadoop-3.3.4bin

8. 格式化目录

使用相同的cmd（powershell）命令格式化“namenode”目录；

hdfs namenode -format

9. 启动组件

要启动Hadoop组件，将当前目录改为sbin文件夹：

cd C:hadoop-3.3.4sbin

并运行“start-all.cmd”可执行文件。可以通过在文件资源管理器中导航到sbin目录中的start-all.cmd并选择“以管理员身份运行”来执行此操作。

注意：如果通过执行第8步，无法查看yarn终端（cmd），请从同一目录中以管理员身份打开“start-yarn.cmd”。

现在就能看到四个终端(cmd)同时运行。

确保所有四个组件都在运行，这些组件是：

a. hadoop namenode

b. hadoop datanode

c. yarn resourcemanager

d. yarn nodemanager

注意：可以使用终端中的“jps”命令进行验证。如果任何一个（或多个）进程“关闭”，请检查上一部分中的Hadoop配置步骤。

在成功运行组件后，可以通过在Web浏览器中打开http://localhost:8088来访问Hadoop默认创建的群集。

上图显示了具有值1的活动节点的突出显示字段，表示已创建一个节点并正在运行。

单击左侧栏上的“节点”以查看所创建节点的详细信息。

要检查namenode的状态，请在Web浏览器中打开http://localhost:9870。可以通过顶部导航栏下的“实用程序”部分在GUI下访问HDFS。

注意：图中显示 "localhost:9001"，因为端口号9000已经被我的电脑使用了。我已经在Hadoop配置步骤中改变了它。(在core-site.xml文件中)。

恭喜，已成功在PC上安装了Apache Hadoop。现在，可以从本地计算机执行map reduce任务，开始探索Hadoop Map Reduce的功能吧。

Tags：Hadoop 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

在Linux系统中实现容器化的大规模数据分析平台：Hadoop和Spark

在Linux系统中实现容器化的大规模数据分析平台，我们可以利用Hadoop和Spark这两个强大的开源工具。Hadoop是一个分布式计算框架，适用于处理大规模数据集。它提供了分布式文件系...【详细内容】

2023-12-15　　Search: Hadoop 点击:(154)　　评论:(0)　　加入收藏

Hadoop高可用集群部署

背景生产中Hadoop分布式集群中可能存在着单点故障问题，如果Namenode宕机或是软硬件升级，集群将无法使用，所以进行搭建高可用的来消除单点故障。Hadoop介绍Hadoop集群一般为一个...【详细内容】

2023-11-07　　Search: Hadoop 点击:(296)　　评论:(0)　　加入收藏

Hadoop所有命令详解

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是...【详细内容】

2023-09-26　　Search: Hadoop 点击:(316)　　评论:(0)　　加入收藏

Hadoop运行环境搭建

1 虚拟机环境准备采用前面的章节的方式准备三台虚拟机： 1）ymm工具（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况[root@hadoop100 ~]# ping www.b...【详细内容】

2023-08-21　　Search: Hadoop 点击:(247)　　评论:(0)　　加入收藏

9个步骤，手把手教你在Windows上安装Hadoop

在 Microsoft Windows 上运行 Apache Hadoop 是比较繁琐的任务，在安装过程中会出现许多错误，最终，大多数用户放弃了通过 Windows 使用 Hadoop，并转而使用基于 Linux 的操作系统...【详细内容】

2023-05-24　　Search: Hadoop 点击:(30)　　评论:(0)　　加入收藏

Hadoop 及Spark 分布式HA运行环境搭建

欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在...【详细内容】

2023-02-21　　Search: Hadoop 点击:(114)　　评论:(0)　　加入收藏

大数据基础架构Hadoop

导读：大数据正在成为经济社会发展的新的驱动力。随着云计算、移动互联网等网络新技术的应用和发展，社会信息化进程进入大数据时代，海量数据的产生与流转成为常态。而大数据技术...【详细内容】

2023-01-29　　Search: Hadoop 点击:(185)　　评论:(0)　　加入收藏

“后Hadoop时代”，大数据从业者如何应对新技术趋势带来的挑战?

作者 | 蔡芳芳采访嘉宾 | 刘京娟、贾扬清、王峰作为开源大数据项目的发端，Hadoop 兴起至今已经超过十五年。在过去这十数年里，开源大数据领域飞速发展，我们见证了多元化技术的...【详细内容】

2022-11-23　　Search: Hadoop 点击:(371)　　评论:(0)　　加入收藏

hadoop集群的搭建、完全分布式运行一看就会

前期准备模板机准备修改静态IPvim /etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"BOOTPROTO="static" //这里改成stati...【详细内容】

2022-08-27　　Search: Hadoop 点击:(412)　　评论:(0)　　加入收藏

大数据Hadoop之——Zookeeper鉴权认证

一、Zookeeper概述与安装Zookeeper概述与安装请参考我之前的文章：分布式开源协调服务——ZookeeperZookeeper的安装方式有两种，两种方式都会讲，其实大致配置都是一样...【详细内容】

2022-07-15　　Search: Hadoop 点击:(3147)　　评论:(0)　　加入收藏

▌简易百科推荐

Win10/Win11和 macOS用户反馈：谷歌云服务“捆绑”系统 DNS 设置

IT之家 4 月 6 日消息，谷歌公司承认旗下的 Google One 订阅服务中存在问题，在 Windows 10、Windows 11 以及 macOS 系统上会更改系统 DNS 设置，变更为 8.8.8.8 地址。Google On...【详细内容】

2024-04-08　　　　IT之家　　Tags:Win10 　点击:(4)　　评论:(0)　　加入收藏

微软 Edge 浏览器将迎来“内存限制器”功能，用户可自主控制 Edge 内存占用

IT之家 3 月 28 日消息，微软即将为其 Edge 浏览器带来一项实用新功能，据悉该公司正在测试一项内置的内存限制器，这项功能可以让用户限制 Edge 所占用的内存，防止浏览器超出内存...【详细内容】

2024-03-29　　　　IT之家　　Tags:Edge 　点击:(14)　　评论:(0)　　加入收藏

一寸照片的大小如何压缩？四个实测效果很好的方法

一寸照片作为生活中常见的尺寸之一，常用于各类证件照与证明文件的制作。然而，受限于其较为狭小的尺寸，上传及打印过程中很容易出现尺寸超限的情况。所以，这个时候就需要对其体积...【详细内容】

2024-03-18　　宠物小阿涛　　　　Tags:压缩　点击:(12)　　评论:(0)　　加入收藏

手机投屏到电脑/电视的方法

方法一：Win10自带的投影功能1、将手机和电脑连接同一个无线网络。2、选择【开始】>【设置】>【系统】>【投影到此电脑】3、将默认的始终关闭的选项更改为所有位置都可用。4、...【详细内容】

2024-03-18　　　　老吴讲I　　Tags:投屏　点击:(15)　　评论:(0)　　加入收藏

微软商店怎么卸载应用一分钟快速看懂！

微软商店怎么卸载应用一分钟快速看懂！微软公司（Microsoft Corporation）是一家全球领先的科技企业，总部位于美国华盛顿州的雷德蒙德。成立于1975年，由比尔·盖茨和保罗&mid...【详细内容】

2024-02-27　　婷婷说体育　　　　Tags:微软商店　点击:(35)　　评论:(0)　　加入收藏

微软Edge浏览器新功能：手机上传配对设备直接传文件

2月21日，微软最新的稳定版本Edge浏览器在Windows 11/10端加入了“手机上传”功能。这一功能允许用户直接从移动设备上上传文件，适用于所有网站，并且没有文件格式限制。要使用这...【详细内容】

2024-02-21　　　　中关村在线　　Tags:Edge 　点击:(127)　　评论:(0)　　加入收藏

什么是虚拟机？你知道吗？

谁都没想到 Sun 公司技术如此的强大，却在之后的岁月里逐渐走向陨落，因为不懂销售和运营，导致公司财务逐渐出现亏损，在 2009 年，Oracle 公司以现金方式收购 Sun 公司，交易价格达 74...【详细内容】

2024-02-19　　Java极客技术　　微信公众号　　Tags:虚拟机　点击:(44)　　评论:(0)　　加入收藏

怎么查看电脑使用记录

查看电脑使用记录是一项常见的操作，可以帮助用户了解自己或其他人在电脑上进行了哪些操作。下面是一个详细的解释，包括查看浏览历史、文件访问记录、应用程序使用记录以及其他...【详细内容】

2024-02-06　　编程资料站　　　　Tags:使用记录　点击:(81)　　评论:(0)　　加入收藏

电脑虚拟内存怎么设置？1分钟快速增加内存！

“我电脑里的内存好像不太够用，因此，我想在电脑里增加一些虚拟内存。不知道我应该怎么操作呢？有什么比较简单的此操作方法吗？” 虚拟内存是计算机系统内存管理的一种技术，它为程...【详细内容】

2024-02-06　　数据蛙恢复专家　　　　Tags:虚拟内存　点击:(61)　　评论:(0)　　加入收藏

新手制作ai写真都是用哪些工具？

春节即将来临，你的朋友圈是否已经被各种春节主题的个人写真刷屏了？看到那么多美照，你是否也心动了？其实，制作个人写真并不需要专门去拍摄，现在有很多AI写真软件可以轻松制作出自己...【详细内容】

2024-01-31　　雨后海棠　　　　Tags:ai写真　点击:(60)　　评论:(0)　　加入收藏

推荐资讯

在饭局上喝酒，要学会3	汽车不停能开多少公里
三证齐全，中国“飞的”	小米SU7被大卸八块，雷
视频号，从抖音挖来一个	0首付、0利息！多家车企
真正0首付、0利息来了	微信共享位置怎么换地