hadoop安装详细步骤（hadoop安装步骤命令）

by intanet.cn ca 大数据 on 2024-11-17

## Hadoop安装详细步骤

简介

Hadoop是一个用于存储和处理大型数据集的开源框架。它被广泛应用于大数据分析和处理领域。本指南将详细介绍如何在Linux系统上安装Hadoop，涵盖单机模式（Standalone Mode）和伪分布式模式（Pseudo-Distributed Mode）。选择哪种模式取决于你的学习和测试需求，单机模式简单易上手，伪分布式模式更接近实际集群环境。

一、准备工作

操作系统:

建议使用64位Linux操作系统，例如CentOS、Ubuntu等。确保你的系统已更新到最新版本。 `sudo yum update` (CentOS) 或 `sudo apt update && sudo apt upgrade` (Ubuntu)2.

Java:

Hadoop依赖于Java运行环境 (JRE)。确保你的系统已安装Java 8或更高版本(建议Java 11)。可以使用以下命令检查Java版本：`java -version`。如果没有安装，请根据你的操作系统下载并安装合适的JDK/JRE版本。配置JAVA_HOME环境变量，例如在bash中：```bashexport JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 替换为你的Java安装路径export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar```记得将以上命令添加到你的`.bashrc`或`.bash_profile`文件中，使配置永久生效。 `source ~/.bashrc` 或 `source ~/.bash_profile` 使其立即生效。3.

SSH:

在伪分布式模式下，Hadoop节点之间需要通过SSH进行通信。确保SSH服务已启动并无密码登录已配置好。你可以使用以下命令测试： `ssh localhost` (应该不需要输入密码)。如果需要设置无密码登录，请参考相关SSH配置教程。

二、下载Hadoop

1. 从Apache Hadoop官网下载你需要的Hadoop版本。选择合适的版本，例如Hadoop 3.x。2. 将下载的压缩包解压到指定目录，例如`/usr/local`：```bashtar -xzvf hadoop-3.x.x.tar.gz -C /usr/local```3. 设置环境变量：在你的`.bashrc`或`.bash_profile`文件中添加以下内容，将`/usr/local/hadoop-3.x.x`替换为你的Hadoop安装路径:```bashexport HADOOP_HOME=/usr/local/hadoop-3.x.xexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin```然后执行 `source ~/.bashrc` 或 `source ~/.bash_profile` 使配置生效。

三、Hadoop单机模式安装

配置`hadoop-env.sh`:

可选，但建议修改`$HADOOP_HOME/etc/hadoop/hadoop-env.sh`文件，设置JAVA_HOME环境变量，以确保Hadoop使用正确的Java版本。如果第一步已经设置了JAVA_HOME，这一步可以忽略。2.

运行Hadoop:

在终端中执行以下命令启动Hadoop：```bash$HADOOP_HOME/bin/hdfs namenode -format$HADOOP_HOME/sbin/start-dfs.sh````hdfs namenode -format` 命令会格式化命名节点，第一次运行必须执行。3.

验证:

在浏览器中打开`http://localhost:50070`，你应该可以看到Hadoop Namenode的Web UI。

四、Hadoop伪分布式模式安装

配置`core-site.xml`:

在`$HADOOP_HOME/etc/hadoop/core-site.xml`文件中添加以下配置：```xmlfs.defaultFShdfs://localhost:9000```2.

配置`hdfs-site.xml`:

在`$HADOOP_HOME/etc/hadoop/hdfs-site.xml`文件中添加以下配置：```xmldfs.replication1```3.

配置`mapred-site.xml`:

在`$HADOOP_HOME/etc/hadoop/mapred-site.xml`文件中添加以下配置（Hadoop 3.x）：```xmlmapreduce.framework.nameyarn```4.

配置`yarn-site.xml`:

在`$HADOOP_HOME/etc/hadoop/yarn-site.xml`文件中添加以下配置:```xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamelocalhost```5.

格式化命名节点:

```bash$HADOOP_HOME/bin/hdfs namenode -format```6.

启动Hadoop:

```bash$HADOOP_HOME/sbin/start-dfs.sh$HADOOP_HOME/sbin/start-yarn.sh```7.

验证:

在浏览器中打开`http://localhost:50070` (HDFS Namenode) 和 `http://localhost:8088` (YARN ResourceManager) 检查Hadoop是否正常运行。

五、验证Hadoop安装 (两种模式)

你可以使用 `hadoop fs -ls /` 命令来查看Hadoop的文件系统。如果一切正常，你应该可以看到Hadoop文件系统的根目录内容。

六、停止Hadoop

```bash $HADOOP_HOME/sbin/stop-dfs.sh $HADOOP_HOME/sbin/stop-yarn.sh ```

注意:

以上步骤仅供参考，具体的配置可能因Hadoop版本和操作系统而有所不同。请参考Hadoop官方文档获取最新最准确的信息。安装过程中遇到问题请仔细检查错误信息，并尝试在搜索引擎或Hadoop社区寻求帮助。记住替换路径和版本号为你实际的路径和版本号。

Hadoop安装详细步骤**简介**Hadoop是一个用于存储和处理大型数据集的开源框架。它被广泛应用于大数据分析和处理领域。本指南将详细介绍如何在Linux系统上安装Hadoop，涵盖单机模式（Standalone Mode）和伪分布式模式（Pseudo-Distributed Mode）。选择哪种模式取决于你的学习和测试需求，单机模式简单易上手，伪分布式模式更接近实际集群环境。**一、准备工作**1. **操作系统:** 建议使用64位Linux操作系统，例如CentOS、Ubuntu等。确保你的系统已更新到最新版本。 `sudo yum update` (CentOS) 或 `sudo apt update && sudo apt upgrade` (Ubuntu)2. **Java:** Hadoop依赖于Java运行环境 (JRE)。确保你的系统已安装Java 8或更高版本(建议Java 11)。可以使用以下命令检查Java版本：`java -version`。如果没有安装，请根据你的操作系统下载并安装合适的JDK/JRE版本。配置JAVA_HOME环境变量，例如在bash中：```bashexport JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

替换为你的Java安装路径export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar```记得将以上命令添加到你的`.bashrc`或`.bash_profile`文件中，使配置永久生效。 `source ~/.bashrc` 或 `source ~/.bash_profile` 使其立即生效。3. **SSH:** 在伪分布式模式下，Hadoop节点之间需要通过SSH进行通信。确保SSH服务已启动并无密码登录已配置好。你可以使用以下命令测试： `ssh localhost` (应该不需要输入密码)。如果需要设置无密码登录，请参考相关SSH配置教程。**二、下载Hadoop**1. 从Apache Hadoop官网下载你需要的Hadoop版本。选择合适的版本，例如Hadoop 3.x。2. 将下载的压缩包解压到指定目录，例如`/usr/local`：```bashtar -xzvf hadoop-3.x.x.tar.gz -C /usr/local```3. 设置环境变量：在你的`.bashrc`或`.bash_profile`文件中添加以下内容，将`/usr/local/hadoop-3.x.x`替换为你的Hadoop安装路径:```bashexport HADOOP_HOME=/usr/local/hadoop-3.x.xexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin```然后执行 `source ~/.bashrc` 或 `source ~/.bash_profile` 使配置生效。**三、Hadoop单机模式安装**1. **配置`hadoop-env.sh`:** 可选，但建议修改`$HADOOP_HOME/etc/hadoop/hadoop-env.sh`文件，设置JAVA_HOME环境变量，以确保Hadoop使用正确的Java版本。如果第一步已经设置了JAVA_HOME，这一步可以忽略。2. **运行Hadoop:** 在终端中执行以下命令启动Hadoop：```bash$HADOOP_HOME/bin/hdfs namenode -format$HADOOP_HOME/sbin/start-dfs.sh````hdfs namenode -format` 命令会格式化命名节点，第一次运行必须执行。3. **验证:** 在浏览器中打开`http://localhost:50070`，你应该可以看到Hadoop Namenode的Web UI。**四、Hadoop伪分布式模式安装**1. **配置`core-site.xml`:** 在`$HADOOP_HOME/etc/hadoop/core-site.xml`文件中添加以下配置：```xmlfs.defaultFShdfs://localhost:9000```2. **配置`hdfs-site.xml`:** 在`$HADOOP_HOME/etc/hadoop/hdfs-site.xml`文件中添加以下配置：```xmldfs.replication1```3. **配置`mapred-site.xml`:** 在`$HADOOP_HOME/etc/hadoop/mapred-site.xml`文件中添加以下配置（Hadoop 3.x）：```xmlmapreduce.framework.nameyarn```4. **配置`yarn-site.xml`:** 在`$HADOOP_HOME/etc/hadoop/yarn-site.xml`文件中添加以下配置:```xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamelocalhost```5. **格式化命名节点:**```bash$HADOOP_HOME/bin/hdfs namenode -format```6. **启动Hadoop:**```bash$HADOOP_HOME/sbin/start-dfs.sh$HADOOP_HOME/sbin/start-yarn.sh```7. **验证:** 在浏览器中打开`http://localhost:50070` (HDFS Namenode) 和 `http://localhost:8088` (YARN ResourceManager) 检查Hadoop是否正常运行。**五、验证Hadoop安装 (两种模式)**你可以使用 `hadoop fs -ls /` 命令来查看Hadoop的文件系统。如果一切正常，你应该可以看到Hadoop文件系统的根目录内容。**六、停止Hadoop**```bash $HADOOP_HOME/sbin/stop-dfs.sh $HADOOP_HOME/sbin/stop-yarn.sh ```**注意:** 以上步骤仅供参考，具体的配置可能因Hadoop版本和操作系统而有所不同。请参考Hadoop官方文档获取最新最准确的信息。安装过程中遇到问题请仔细检查错误信息，并尝试在搜索引擎或Hadoop社区寻求帮助。记住替换路径和版本号为你实际的路径和版本号。