hadoop组件（Hadoop组件环境配置）

by intanet.cn ca 大数据 on 2024-03-20

本篇文章给大家谈谈hadoop组件，以及Hadoop组件环境配置对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、hadoop三大组件不包括
2、Hadoop集群及组件
3、hadoop及其组件安装
4、hadoop三大组件是什么？

hadoop三大组件不包括

hadoop三大组件不包括所有分布式结构。广义上的Hadoop是指Hadoop的整个技术生态圈但不包括所有分布式。狭义上的Hadoop指的是其核心三大组件，包括HDFS、YARN及MapReduce.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的宽芦情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存慎宴带储及海祥稿量数据的分析计算问题。

[img]

Hadoop集群及组件

1、重启云主机 hadoop1,node-0001,node-0002,node-0003

2、在 hadoop1 上安装配置 zookeeper，并同步给其他主机

使用zookeeper-3.4.13.tar.gz

所有节点手工启动服务

当所有节点启动完成以后使用命令验证:

/usr/local/zookeeper/bin/zkServer.sh status

手册地址

1、安装配置 kafka，并同步给其他主机

拷贝云盘 public/hadoop/kafka_2.12-2.1.0.tgz 到 hadoop1

2、修改 node-0001,node-0002,node-0003 配置文件并启动服务

3、验证（在不同机器上执行）

购买云主机

hadoop1 上执行

hadoop2 上执行

在 hadoop1 上码消羡完成以下文件的配置

1、配置 hadoop-env.sh

2、配置 slaves

3、配置 core-site.xml

4、配置 hdfs-site.xml

5、配置 mapred-site.xml

6、配置 yarn-site.xml

1、重启机器、在 node-0001，node-0002，node-0003 启动 zookeeper

2、清空实验数桥昌据并同步配置文件（hadoop1 上执行）

3、在 node-0001，node-0002，node-0003 启动 journalnode 服务

4、初始迟拍化（hadoop1 上执行）

5、停止在 node-0001，node-0002，node-0003 上的 journalnode 服务

6、启动集群

hadoop及其组件安装

操作系统集群配置

搭建3节点完全分布式集群，即1个nameNode，2个dataNode，分别如下:

1、创建虚拟机CentOS7并安装配置JDK，克隆两台

2、修改主机名：master、slave1、slave2

3、设置静态：10.221.101.1、10.221.101.2、10.221.101.3

4、关闭防火墙

5、免密设置

每台皮羡笑节点生成公钥：

master中将公钥id_dsa.pub添加进keys，实现master免密：

将master中公钥分别添加到slave1及slave2的keys中，实现master对slave1及slave2节点免密：

master执行如下命令，进行验证

6、组件所用版本

安装路径：mkdir /usr/local/hadoop/hadoop-2.7.3/bin/

1、解压hadoop

2、执行命令检查hadoop是否可用

查看是否显示hadoop版本信息Hadoop 2.7.3 显示即正常

3、创建所需目录

4、设置hadoop环境变量

任意目录输入 hado，然后按Tab，如果自动补全为hadoop，则说明环境变量配正确

同步到其他节点上

5、修改hadoop配置文件

—hadoop-env.sh

—core-site.xml

—hdfs-site.xml

—mapred-site.xml

—yarn-env.sh

—燃含yarn-site.xml

— slaves

将localhost删掉，加入如下内容，即dataNode节点的hostname

6、以上配置同步到slave1，slave2中

7、启动hadoop

— 首次启动需要先在 master 节点进行 NameNode 的格式化：

— 在master机器上，进入hadoop的sbin目录

8、查看是否启动成功

—jps 查看当前java的进程

输入jps 查看当前java的进程，列出当前java进程的PID和Java主类名，nameNode节点除了JPS，有3个进程

在slave1和slave2节点上分别输入派敏 jps 查看进程如下，说明配置成功

— 查看运行状况

在浏览器访问nameNode节点的8088端口和50070端口可以查看hadoop的运行状况

192.168.1.110:50070

192.168.1.110:8088

zookeeper集群搭建要至少3个节点(master，slave1, slave2)，所以三台服务器都要部署zookeeper

1、解压到安装目录

2、添加环境变量

同步到其他节点上

3、修改配置文件

/usr/local/hadoop/zookeeper-3.4.10/conf

删除原有内容

4 、根据以上配置创建zookeeper的数据文件和日志存放目录

同步到其它节点

5 、在三台zookeeper的/usr/local/storage/zookeeper/data目录下分别创建并编辑myid

—创建

—编辑

6 、将以上配置同步到其他hadoop节点

7、启动zookeeper

如果zookeeper集群还没有启动的话, 首先把各个zookeeper起来。最好三个节点上同时启动

（1个leader,2个follower）

输入jps，会显示启动进程：QuorumPeerMain

前提安装mysql

1、解压到安装目录

2、添加环境变量

同步到其他节点上

3 、配置文件修改

—hive-env.sh

—hive-site.xml

4、 hive lib中添加所需jar包

—添加mysql驱动

【以下可不配置】

—从hbase/lib下复制必要jar包

—同步hive和hadoop的jline版本

查看版本

若有低版本则删除

例如：jline 0.9 rm jline-0.9.94.jar

—复制jdk的tools.jar

5 、在配置的mysql中创建hive库

【需外界可连接上】

6 、hdfs创建存储数据的目录

7、启动hive

hive 远程服务 (端口号10000) 启动方式[metastore和hiveserver2在同一台上启动即可]

hive 命令行模式

或者输入

查看进程为：2个RunJar

注意：可以在任意一台服务器上启动hive，都可以。

8 、查看启动进程

通过命令 jps 可以查看各个节点所启动的进程。正确的话，在 Master 节点上可以看到 NameNode、ResourceManager、SecondrryNameNode进程

Master上：

在 Slave 节点可以看到 DataNode 和 NodeManager 进程

Slave上：

程序启动成功后可以在任意一台启动hive

可以在启动MR-JobHistory服务，

Hadoop2 MR-JobHistory服务介绍

1）MR-JobHistory服务目标

主要是向用户提供历史的mapred Job 查询

详细解释：

a）在运行MR Job时，MR 的 ApplicationMaster会根据mapred-site.xml配置文件中的配置，将MR Job的job history信息保存到指定的hdfs路径（首先保存到临时目录，然后mv到最终目录）

b）如果在yarn-site.xml中，没有配置nodemanage的LogAggregation功能，则historyserver无法提供mr日志明细查询的功能（在提交mr job时，yarn和mapred的配置都是必须的）

c）historyserver向外提供两个接口，web接口可以提供jobhistory和明细日志查询的功能，而restApi只提供jobhistory查询的功能

1、解压到安装目录

2、添加环境变量

同步到其他节点上

3、配置文件修改

/usr/local/hadoop/hbase-1.3.1/conf

—regionservers 文件

—hbase-env.sh

—hbase-site.xml

4、创建hbase-site.xml配置文件中的hbase目录

同步软件到其他节点

5、同步上述配置到其他节点

6、启动Hbase

—启动

—验证安装成功

—查看进程为：HMaster，HRegionServer

主节点：HMaster，HRegionServer

从节点：HRegionServer

—通过web UI访问hbase状态

hadoop三大组件是什么？

目前开源局源hadoop只包含hdfs,mr,和yarn，yarn是hadoop2新增组件。

hdfs是hadoop分布式文件系统，主要采用多备份方式存储文件，可以对接hive和hbase等产品并存储对应数据。

mapreduce是大数据处理并行框架，用户可以编写自己的程序调用mr框架并行的处理大数据，在调用过程中可以调整m和r的数目。不过总的来说编程相对复杂，因此诞生了hive。

yarn作为新生控件，主要管理hadoop各个模块运行过程中的任务调度，目前主前兆要有公平调度与容量调度两种模型。如果需要其他组件，需要单独下载安装。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。

充分利用集群的威力进雹悔让行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。

关于hadoop组件和Hadoop组件环境配置的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

oracle监听（oracle监听日志超过4g） vuebabel的简单介绍