hadoop集群（hadoop集群搭建实验报告）

by intanet.cn ca 大数据 on 2024-03-18

本篇文章给大家谈谈hadoop集群，以及hadoop集群搭建实验报告对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、VMware搭建完全分布式Hadoop集群
2、Hadoop集群及组件
3、hadoop集群中的几个重要概念
4、Hadoop集群配置
5、搭建hadoop集群,稳定运行多久

VMware搭建完全分布式Hadoop集群

环境：

修改名称和存储位置即可。

1.3.1 查看你PC上为VMware分配的IP地址段、子网掩码和网关。打开终端，输入如下命令：答伏搏

more /Library/Preferences/VMware\ Fusion/vmnet8/dhcpd.conf

添加以下信息：

重启机器即可完成静态IP的清祥修改。记得 ping 测试网络的连通性。

1.4.1 修改主机名称

sudo vim /etc/hostname

将文件修改为你的主机名，例如hadoop101

1.4.2 修改主机名和host的映射

sudo vim /etc/hosts

1.4.3 重启机器，并使用 ping hadoop10x 测试连通性。

如果你在第一台虚拟机上完成了伪分布模式的搭建，那么此时克隆的两台机器也同样拥有JDK和Hadoop。

scp命令

此时，如果只有一台机器完成了jdk和Hadoop的安装配置，我们可以使用 scp 命令完成数据的安全拷贝。

命令格式： scp -r 要拷贝的文件路径/名称 user@ip:目的路径/名称

rsync命令

与 scp 相同的还有一个命令时 rsync ，其主要用于备份和镜像。 rsync 做文件的复制要比 scp 的速度快， rsync 只对差异文件做更新。 scp 将所有文件都复制过去。使用方法和 scp 一样。

基本格式： rsync -rvl 源文件目的路径

集群分发脚本

脚本sxync.sh可以更好的同步数据到其他机器上

这个很重要，后面的所有配置都是按照这个来的

3.2.1 配置hadoop-env.sh

3.2.2 配置hdfs-site.xml文件

3.3.1 配置yarn-env.sh

3.3.2 配置yarn-site.xml文件

3.4.1 配置mapred-env.sh

3.4.2 配置mapred-site.xml文件

xsync /opt/module/hadoop-x.x.x/

rm -rf data/ logs/

根据集群配置图，我们可以发现NameNode在hadoop102上，所以我们连接hadoop102，并执行如下命令：

bin/hdfs namenode -format

此时，不允许有任何错，否则格式化失败

4.4.1 在hadoop101上启动DataNode。

sbin/hadoop-daemon.sh start datanode

4.4.2 在hadoop102上启动NameNode和DataNode。

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

4.4.3 在hadoop101上启动DataNode和SecondaryNode

sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh start secondarynamenode

在浏览器中输入查看集群是否启动成功。如果本机的hosts里边没有Hadoop102到ip地址的映射，此时会无法访问，两种办法：第一，使用过ip:端厅迅口号访问；第二，在本机hosts文件里加入三个节点的主机名到ip地址的映射。

5.1.1 在hadoop101上使用指令ssh-keygen -t rsa生成公钥和密钥

6.2.1 在hadoop102上启动HDFS

sbin/start-dfs.sh

7.1 一个大文件个一个小文件

bin/hdfs dfs -put wcinput/wc.input /

bin/hdfs dfs -put /opt/software/hadoop-x.x.x.tar.gz

7.2 在浏览器中输入查看上传结果：

大功告成，告别从入门到放弃！

[img]

Hadoop集群及组件

1、重启云主机 hadoop1,node-0001,node-0002,node-0003

2、在 hadoop1 上安装配置 zookeeper，并同步给其他主机

使用zookeeper-3.4.13.tar.gz

所有节点手工启动服务

当所有节点启动完成以后使用命令验证:

/usr/local/zookeeper/bin/zkServer.sh status

手册地址

1、安装配置 kafka，并同步给其他主机

拷贝云盘 public/hadoop/kafka_2.12-2.1.0.tgz 到 hadoop1

2、修改 node-0001,node-0002,node-0003 配置文件并启动服务

3、验证（在不同机器上执行）

购买云主机

hadoop1 上执行

hadoop2 上执行

在 hadoop1 上码消羡完成以下文件的配置

1、配置 hadoop-env.sh

2、配置 slaves

3、配置 core-site.xml

4、配置 hdfs-site.xml

5、配置 mapred-site.xml

6、配置 yarn-site.xml

1、重启机器、在 node-0001，node-0002，node-0003 启动 zookeeper

2、清空实验数桥昌据并同步配置文件（hadoop1 上执行）

3、在 node-0001，node-0002，node-0003 启动 journalnode 服务

4、初始迟拍化（hadoop1 上执行）

5、停止在 node-0001，node-0002，node-0003 上的 journalnode 服务

6、启动集群

hadoop集群中的几个重要概念

（1）journalnode：使两个namenode之间的数据实现共享（hadoop层面的）。系统层面的是NFS。

（2）zookeeper：实现namenode的切换，确保集群只有一个active

（3)格式化zkfc,让在zookeeper中生成ha节点

(4)格式化nn:就是格式化hdfs.

与普通文件系统一样，世袜HDFS文件系统必须要先格式化，创建元数据数据结构以后才能使用。

(5)conf下的一些配置文件的作用

hadoop-env.sh:用于定义hadoop运行环境相关的配置信息，比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等；

core-site.xml: 用于定义系统级别的参数，它作用于带团全部进程及客户端，如HDFS URL、Hadoop的临时目录以及用于rack-aware集群中的配置文件的配置等，此中的参数定义会覆盖core-default.xml文件中的默认配置；

hdfs-site.xml: HDFS的相关设定，如文件副本的个数、块大小及是否使用强制权限等，此中的参数定义会覆盖hdfs-default.xml文件中的默认配置；

mapred-site.xml：mapreduce的相关设定，如reduce任务的默认个数、任务所能够使用内存的默认上下限等，此中的参数定义会覆盖mapred-default.xml文件中的默认配置；

masters: hadoop的secondary-masters主机列表，当启动Hadoop时，其会在当前主机上启动NameNode和JobTracker，然后通过SSH连接此文件中的主机以作为备用NameNode;

slaves：Hadoop集群的slave(datanode)和tasktracker的主机列表，master启动时会通过SSH连接至此列表中的所有主机并为其启动DataNode和taskTracker进程；

Hadoop-metrics2.properties:控制metrics在hadoop上如何发布属性

Log4j.properties：系统日志文件、namenode审计日志、tarsktracker子进程的任务日志属性

（6）hadoop.tmp.dir属性用于定义Hadoop的临时目录，其默认为/tmp/hadoop-${username}。HDFS进程的许多目录默认都在此目录中，/hadoop/tmp目录，需要注意的是，要保证运行Hadoop进程的用户对其具有全部访问权限。

fs.default.name属性用于定义HDFS的名称节点和其默认的文件系统，其值是一个URI，即NameNode的RPC服务器监听的地址(可以是主机名)和端口(默认为8020)。其默认值为，即本地文件系统。

dfs.name.dir属性定义的HDFS元数据持久存储路径,默认为${hadoop.tmp.dir}/dfs/name

dfs.replication属性定义保存副本的数量，默认是保存3份,由于这里只有两台slave。所以设置2。

（7）可以通过修改下面几个参数对集群读写性能进行优化

dfs.datanode.handler.count（加大）DN的服务线程数。这些线程仅用于接收请求，处理业务命令

dfs.namenode.handler.count（加大） NN的服务线程数。用于处理RPC请求

dfs.namenode.avoid.read.stale.datanode（true）决定是否避开从脏DN上读数据。脏DN指在一个指定的时间间隔内没有收到心跳信息。脏DN将被移到可以蠢返橘读取(写入)节点列表的尾端。尝试开启

dfs.namenode.avoid.write.stale.datanode（true）和上面相似，是为了避免向脏DN写数据

Hadoop集群配置

切换到Hadoop解压目尘轿录的etc/hadoop/目录下，编辑hadoop-env.sh，修改如下内容：

该文件是Hadoop的核心配置文件，目的是配置HDFS地址、端口号以及临时文件目录。

该文件MapReduce的核心文件，用于指定MapReduce运行时框架。在etc/hadoop/目录没有该文件，需要将mapred-site.xml.template复制并重命名为mapred-site.xml。

该文件YARN的核心文件，需要指定YARN集群的管理者。

该文件记录Hadoop集群所有从节点(HDFSde DataNode和YARN的NodeManager所在主机)的主机名，用来配合一键启动脚本启动集群从节点(保证关联节点配置了SSH免密登录)。打开slaves文件，先删除里面的内容(默认localhost)，配置如下内容

完成Hadoop集群主节点hadoop01的配置后，还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上，具体指令：

scp /etc/profile hadoop02:/etc/profile

scp /etc/profile hadoop03:/etc/profile

scp -r /export/ hadoop02:/

scp -r /export/ hadoop03:/

完成后，在hadoop02和hadoop03节点做裂刷新配置文件：

source /etc/profile

初次启动HDFS集群时，必须对主节点进行格式化处理。注意：派胡肆格式化指令只需在Hadoop集群初次启动前执行即可。指令：

hdfs namenode –format

或

hadoop namenode -format

出现“successfully formatted"字样表示格式化成功。

针对Hadoop集群的启动，需要启动内部包含的HDFS集群和YARN集群两个集群框架。

启动：

（1）start-dfs.sh #启动所有HDFS服务进程

（2）start-yarn.sh #启动所有YARN服务进程

或者：

start-all.sh直接启动整个Hadoop集群服务

关闭则直接将上述指令中的start换成stop即可。

在整个Hadoop集群服务启动完成后，可以在各自机器上通过jps指令查看各节点的服务进程启动情况。

集群启动成功。

搭建hadoop集群,稳定运行多久

搭建Hadoop集群的稳定键唤升运行时间取决于集群的规模、硬件设备的质量、网络环链禅境的稳定性以及Hadoop集群的配置等因素。一般来说，如果集群的规模不大，硬件设备质量良好，网络环境稳定，Hadoop集群的配置合理，那么Hadoop集群可以稳定运行数月甚至稿老数年。

关于hadoop集群和hadoop集群搭建实验报告的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

代号鸢官网下载ios（代号鸢官网下载简中） unixlinux（unixlinux编程实践教程pdf）

hadoop集群（hadoop集群搭建实验报告）

VMware搭建完全分布式Hadoop集群

Hadoop集群及组件

hadoop集群中的几个重要概念

Hadoop集群配置

搭建hadoop集群,稳定运行多久

最近发表

文章归档

标签列表

hadoop集群（hadoop集群搭建实验报告）

VMware搭建完全分布式Hadoop集群

Hadoop集群及组件

hadoop集群中的几个重要概念

Hadoop集群配置

搭建hadoop集群,稳定运行多久

相关阅读

碧兴物联科技（碧兴物联什么时候上市）

库布里克人工智能（人工智能电影库布里克）

flink是什么（apacheflink是什么）

kafka多线程消费同一个topic（kafka多线程消费同一个分区）

人工智能的社会价值（人工智能的社会价值和挑战优秀作文）

数据安全能力建设（数据安全能力建设实施指南）

最近发表

文章归档

标签列表