hadoop集群(hadoop集群搭建实验报告)

本篇文章给大家谈谈hadoop集群,以及hadoop集群搭建实验报告对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

VMware搭建完全分布式Hadoop集群

环境 :

修改名称和存储位置即可。

1.3.1 查看你PC上为VMware分配的IP地址段、子网掩码和网关。打开终端,输入如下命令:答伏搏

more /Library/Preferences/VMware\ Fusion/vmnet8/dhcpd.conf

添加以下信息:

重启机器即可完成静态IP的清祥修改。记得 ping 测试网络的连通性。

1.4.1 修改主机名称

sudo vim /etc/hostname

将文件修改为你的主机名,例如hadoop101

1.4.2 修改主机名和host的映射

sudo vim /etc/hosts

1.4.3 重启机器,并使用 ping hadoop10x 测试连通性。

如果你在第一台虚拟机上完成了伪分布模式的搭建,那么此时克隆的两台机器也同样拥有JDK和Hadoop。

scp命令

此时,如果只有一台机器完成了jdk和Hadoop的安装配置,我们可以使用 scp 命令完成数据的安全拷贝。

命令格式: scp -r 要拷贝的文件路径/名称 user@ip:目的路径/名称

rsync命令

与 scp 相同的还有一个命令时 rsync ,其主要用于备份和镜像。 rsync 做文件的复制要比 scp 的速度快, rsync 只对差异文件做更新。 scp 将所有文件都复制过去。使用方法和 scp 一样。

基本格式: rsync -rvl 源文件 目的路径

集群分发脚本

脚本sxync.sh可以更好的同步数据到其他机器上

这个很重要,后面的所有配置都是按照这个来的

3.2.1 配置hadoop-env.sh

3.2.2 配置hdfs-site.xml文件

3.3.1 配置yarn-env.sh

3.3.2 配置yarn-site.xml文件

3.4.1 配置mapred-env.sh

3.4.2 配置mapred-site.xml文件

xsync /opt/module/hadoop-x.x.x/

rm -rf data/ logs/

根据集群配置图,我们可以发现NameNode在hadoop102上,所以我们连接hadoop102,并执行如下命令:

bin/hdfs namenode -format

此时,不允许有任何错,否则格式化失败

4.4.1 在hadoop101上启动DataNode。

sbin/hadoop-daemon.sh start datanode

4.4.2 在hadoop102上启动NameNode和DataNode。

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

4.4.3 在hadoop101上启动DataNode和SecondaryNode

sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh start secondarynamenode

在浏览器中输入 查看集群是否启动成功。如果本机的hosts里边没有Hadoop102到ip地址的映射,此时会无法访问,两种办法:第一,使用过ip:端厅迅口号访问;第二,在本机hosts文件里加入三个节点的主机名到ip地址的映射。

5.1.1 在hadoop101上使用指令ssh-keygen -t rsa生成公钥和密钥

6.2.1 在hadoop102上启动HDFS

sbin/start-dfs.sh

7.1 一个大文件个一个小文件

bin/hdfs dfs -put wcinput/wc.input /

bin/hdfs dfs -put /opt/software/hadoop-x.x.x.tar.gz

7.2 在浏览器中输入 查看上传结果:

大功告成,告别从入门到放弃!

[img]

Hadoop集群及组件

1、重启云主机 hadoop1,node-0001,node-0002,node-0003

2、在 hadoop1 上安装配置 zookeeper,并同步给其他主机

使用zookeeper-3.4.13.tar.gz

所有节点手工启动服务

当所有节点启动完成以后使用命令验证:

/usr/local/zookeeper/bin/zkServer.sh status

手册地址

1、安装配置 kafka,并同步给其他主机

拷贝云盘 public/hadoop/kafka_2.12-2.1.0.tgz 到 hadoop1

2、修改 node-0001,node-0002,node-0003 配置文件并启动服务

3、验证(在不同机器上执行)

购买云主机

hadoop1 上执行

hadoop2 上执行

在 hadoop1 上码消羡完成以下文件的配置

1、配置 hadoop-env.sh

2、配置 slaves

3、配置 core-site.xml

4、配置 hdfs-site.xml

5、配置 mapred-site.xml

6、配置 yarn-site.xml

1、重启机器、在 node-0001,node-0002,node-0003 启动 zookeeper

2、清空实验数桥昌据并同步配置文件(hadoop1 上执行)

3、在 node-0001,node-0002,node-0003 启动 journalnode 服务

4、初始迟拍化(hadoop1 上执行)

5、停止在 node-0001,node-0002,node-0003 上的 journalnode 服务

6、启动集群

hadoop集群中的几个重要概念

(1)journalnode:使两个namenode之间的数据实现共享(hadoop层面的)。系统层面的是NFS。

(2)zookeeper:实现namenode的切换,确保集群只有一个active

(3)格式化zkfc,让在zookeeper中生成ha节点

 (4)格式化nn:就是格式化hdfs.

与普通文件系统一样,世袜HDFS文件系统必须要先格式化,创建元数据数据结构以后才能使用。

(5)conf下的一些配置文件的作用

hadoop-env.sh:用于定义hadoop运行环境相关的配置信息,比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等;

core-site.xml: 用于定义系统级别的参数,它作用于带团全部进程及客户端,如HDFS URL、Hadoop的临时目录以及用于rack-aware集群中的配置文件的配置等,此中的参数定义会覆盖core-default.xml文件中的默认配置;

hdfs-site.xml: HDFS的相关设定,如文件副本的个数、块大小及是否使用强制权限等,此中的参数定义会覆盖hdfs-default.xml文件中的默认配置;

mapred-site.xml:mapreduce的相关设定,如reduce任务的默认个数、任务所能够使用内存的默认上下限等,此中的参数定义会覆盖mapred-default.xml文件中的默认配置;

masters: hadoop的secondary-masters主机列表,当启动Hadoop时,其会在当前主机上启动NameNode和JobTracker,然后通过SSH连接此文件中的主机以作为备用NameNode;

slaves:Hadoop集群的slave(datanode)和tasktracker的主机列表,master启动时会通过SSH连接至此列表中的所有主机并为其启动DataNode和taskTracker进程;

Hadoop-metrics2.properties:控制metrics在hadoop上如何发布属性

Log4j.properties:系统日志文件、namenode审计日志、tarsktracker子进程的任务日志属性

(6)hadoop.tmp.dir属性用于定义Hadoop的临时目录,其默认为/tmp/hadoop-${username}。HDFS进程的许多目录默认都在此目录中,/hadoop/tmp目录,需要注意的是,要保证运行Hadoop进程的用户对其具有全部访问权限。

fs.default.name属性用于定义HDFS的名称节点和其默认的文件系统,其值是一个URI,即NameNode的RPC服务器监听的地址(可以是主机名)和端口(默认为8020)。其默认值为,即本地文件系统。

dfs.name.dir属性定义的HDFS元数据持久存储路径,默认为${hadoop.tmp.dir}/dfs/name

dfs.replication属性定义保存副本的数量,默认是保存3份,由于这里只有两台slave。所以设置2。

(7)可以通过修改下面几个参数对集群读写性能进行优化

dfs.datanode.handler.count(加大)DN的服务线程数。这些线程仅用于接收请求,处理业务命令

dfs.namenode.handler.count(加大)  NN的服务线程数。用于处理RPC请求

dfs.namenode.avoid.read.stale.datanode(true)决定是否避开从脏DN上读数据。脏DN指在一个指定的时间间隔内没有收到心跳信息。脏DN将被移到可以蠢返橘读取(写入)节点列表的尾端。尝试开启

dfs.namenode.avoid.write.stale.datanode(true)  和上面相似,是为了避免向脏DN写数据

Hadoop集群配置

切换到Hadoop解压目尘轿录的etc/hadoop/目录下,编辑hadoop-env.sh,修改如下内容:

该文件是Hadoop的核心配置文件,目的是配置HDFS地址、端口号以及临时文件目录。

该文件MapReduce的核心文件,用于指定MapReduce运行时框架。在etc/hadoop/目录没有该文件,需要将mapred-site.xml.template复制并重命名为mapred-site.xml。

该文件YARN的核心文件,需要指定YARN集群的管理者。

该文件记录Hadoop集群所有从节点(HDFSde DataNode和YARN的NodeManager所在主机)的主机名,用来配合一键启动脚本启动集群从节点(保证关联节点配置了SSH免密登录)。打开slaves文件,先删除里面的内容(默认localhost),配置如下内容

完成Hadoop集群主节点hadoop01的配置后,还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上,具体指令:

  scp /etc/profile hadoop02:/etc/profile

  scp /etc/profile hadoop03:/etc/profile

  scp -r /export/ hadoop02:/

  scp -r /export/ hadoop03:/

完成后,在hadoop02和hadoop03节点做裂刷新配置文件:

  source /etc/profile

初次启动HDFS集群时,必须对主节点进行格式化处理。注意:派胡肆格式化指令只需在Hadoop集群初次启动前执行即可。指令:

hdfs namenode –format

hadoop namenode -format

出现“successfully formatted"字样表示格式化成功。

针对Hadoop集群的启动,需要启动内部包含的HDFS集群和YARN集群两个集群框架。

启动:

(1)start-dfs.sh  #启动所有HDFS服务进程

(2)start-yarn.sh  #启动所有YARN服务进程

或者:

start-all.sh直接启动整个Hadoop集群服务

关闭则直接将上述指令中的start换成stop即可。

在整个Hadoop集群服务启动完成后,可以在各自机器上通过jps指令查看各节点的服务进程启动情况。

集群启动成功。

搭建hadoop集群,稳定运行多久

搭建Hadoop集群的稳定键唤升运行时间取决于集群的规模、硬件设备的质量、网络环链禅境的稳定性以及Hadoop集群的配置等因素。一般来说,如果集群的规模不大,硬件设备质量良好,网络环境稳定,Hadoop集群的配置合理,那么Hadoop集群可以稳定运行数月甚至稿老数年。

关于hadoop集群和hadoop集群搭建实验报告的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

标签列表