虚拟机安装hadoop（虚拟机安装hadoop权限不够）

by intanet.cn ca 大数据 on 2024-09-08

## 虚拟机安装Hadoop### 简介Hadoop 是一款开源的分布式计算框架，可以有效地处理海量数据。安装 Hadoop 通常需要多台机器，但在开发和学习阶段，我们可以使用虚拟机来模拟集群环境。本文将详细介绍如何在虚拟机上安装 Hadoop。### 一、准备工作1.

虚拟机软件:

推荐使用 VMware Workstation 或 VirtualBox。 2.

操作系统:

建议使用 Linux 发行版，例如 Ubuntu 或 CentOS。 3.

Hadoop 版本:

根据实际需求选择合适的版本，官网 [https://hadoop.apache.org/](https://hadoop.apache.org/) 提供下载链接。 4.

网络环境:

确保虚拟机能够访问互联网，以便下载相关软件包。### 二、虚拟机设置1.

创建虚拟机:

在虚拟机软件中创建新的虚拟机，选择 Linux 操作系统，分配足够的内存和磁盘空间。 2.

网络配置:

根据需求配置虚拟机的网络模式，例如桥接模式、NAT 模式或主机模式。 3.

安装 SSH 服务:

为了方便远程连接虚拟机，需要安装 SSH 服务，例如 OpenSSH。### 三、Hadoop 安装#### 1. 下载 Hadoop从 Hadoop 官网下载对应版本的压缩包，例如 `hadoop-3.3.4.tar.gz`。#### 2. 解压缩 Hadoop将下载的压缩包解压缩到指定目录，例如 `/usr/local/hadoop`：```bash tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local/ ```#### 3. 配置环境变量在用户主目录下的 `.bashrc` 文件中添加以下环境变量：```bash export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ```保存并退出，然后执行 `source ~/.bashrc` 命令使环境变量生效。#### 4. 配置 Hadoop 配置文件

4.1 修改 `core-site.xml`:

打开 `$HADOOP_HOME/etc/hadoop/core-site.xml` 文件。

添加以下配置：```xml fs.defaultFShdfs://localhost:9000 hadoop.tmp.dir/tmp/hadoop ```

将 `/tmp/hadoop` 替换成你想要存放临时文件的路径。

4.2 修改 `hdfs-site.xml`:

打开 `$HADOOP_HOME/etc/hadoop/hdfs-site.xml` 文件。

添加以下配置：```xml dfs.replication1 ```

`dfs.replication` 表示数据块的副本数，这里设置为 1，因为现在只有单个节点。

4.3 修改 `mapred-site.xml`:

打开 `$HADOOP_HOME/etc/hadoop/mapred-site.xml` 文件。

添加以下配置：```xml mapreduce.framework.nameyarn ```

将 `mapreduce.framework.name` 设置为 `yarn`，启用 YARN 资源管理器。

4.4 修改 `yarn-site.xml`:

打开 `$HADOOP_HOME/etc/hadoop/yarn-site.xml` 文件。

添加以下配置：```xml yarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.yarn.server.nodemanager.auxservices.shuffle.ShuffleService yarn.nodemanager.aux-servicesmapreduce.shuffle ```

配置 YARN 资源管理器。#### 5. 格式化 NameNode

打开终端，执行以下命令格式化 NameNode：```bash hdfs namenode -format ```### 四、启动 Hadoop

启动 NameNode：```bash start-dfs.sh ```

启动 YARN 资源管理器：```bash start-yarn.sh ```### 五、验证 Hadoop

在终端输入 `jps` 命令，查看 Hadoop 进程是否已启动。

可以使用 `hdfs dfs -ls /` 命令查看 HDFS 文件系统。### 六、常见问题

端口冲突:

检查 Hadoop 各组件使用的端口是否被占用，并进行调整。

权限问题:

确保 Hadoop 用户具有足够的权限操作文件系统。

配置错误:

仔细检查配置文件，确保所有配置项都正确。### 七、总结本文介绍了如何在虚拟机上安装 Hadoop，并配置基本环境。在实际应用中，需要根据具体的需求调整配置，并进行更深入的学习和实践。

虚拟机安装Hadoop

简介Hadoop 是一款开源的分布式计算框架，可以有效地处理海量数据。安装 Hadoop 通常需要多台机器，但在开发和学习阶段，我们可以使用虚拟机来模拟集群环境。本文将详细介绍如何在虚拟机上安装 Hadoop。

一、准备工作1. **虚拟机软件:** 推荐使用 VMware Workstation 或 VirtualBox。 2. **操作系统:** 建议使用 Linux 发行版，例如 Ubuntu 或 CentOS。 3. **Hadoop 版本:** 根据实际需求选择合适的版本，官网 [https://hadoop.apache.org/](https://hadoop.apache.org/) 提供下载链接。 4. **网络环境:** 确保虚拟机能够访问互联网，以便下载相关软件包。

二、虚拟机设置1. **创建虚拟机:** 在虚拟机软件中创建新的虚拟机，选择 Linux 操作系统，分配足够的内存和磁盘空间。 2. **网络配置:** 根据需求配置虚拟机的网络模式，例如桥接模式、NAT 模式或主机模式。 3. **安装 SSH 服务:** 为了方便远程连接虚拟机，需要安装 SSH 服务，例如 OpenSSH。

三、Hadoop 安装

1. 下载 Hadoop从 Hadoop 官网下载对应版本的压缩包，例如 `hadoop-3.3.4.tar.gz`。

2. 解压缩 Hadoop将下载的压缩包解压缩到指定目录，例如 `/usr/local/hadoop`：```bash tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local/ ```

3. 配置环境变量在用户主目录下的 `.bashrc` 文件中添加以下环境变量：```bash export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ```保存并退出，然后执行 `source ~/.bashrc` 命令使环境变量生效。

4. 配置 Hadoop 配置文件**4.1 修改 `core-site.xml`:*** 打开 `$HADOOP_HOME/etc/hadoop/core-site.xml` 文件。 * 添加以下配置：```xml fs.defaultFShdfs://localhost:9000 hadoop.tmp.dir/tmp/hadoop ```* 将 `/tmp/hadoop` 替换成你想要存放临时文件的路径。**4.2 修改 `hdfs-site.xml`:*** 打开 `$HADOOP_HOME/etc/hadoop/hdfs-site.xml` 文件。 * 添加以下配置：```xml dfs.replication1 ```* `dfs.replication` 表示数据块的副本数，这里设置为 1，因为现在只有单个节点。**4.3 修改 `mapred-site.xml`:*** 打开 `$HADOOP_HOME/etc/hadoop/mapred-site.xml` 文件。 * 添加以下配置：```xml mapreduce.framework.nameyarn ```* 将 `mapreduce.framework.name` 设置为 `yarn`，启用 YARN 资源管理器。**4.4 修改 `yarn-site.xml`:*** 打开 `$HADOOP_HOME/etc/hadoop/yarn-site.xml` 文件。 * 添加以下配置：```xml yarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.yarn.server.nodemanager.auxservices.shuffle.ShuffleService yarn.nodemanager.aux-servicesmapreduce.shuffle ```* 配置 YARN 资源管理器。