spark集群（spark集群启动命令）

by intanet.cn ca 大数据 on 2024-03-19

本篇文章给大家谈谈spark集群，以及spark集群启动命令对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、spark不支持在各种集群管理器上运行
2、Hadoop与spark集群安装
3、Spark提交任务，两个集群kerberos互信

spark不支持在各种集群管理器上运行

支持。spark自带独立集群管理器，慎庆因此支宽宏握持，比较灵活。spark是专为大规模数据处理而设计的快速通用的计算引擎绝桥，是在Scala语言中实现的，将Scala用作其应用程序框架。

Hadoop与spark集群安装

jdk:jdk1.8.0

hadoop:hadoop-2.10.1

spark:spark-3.0.1

将jdk解压缩

之后在/etc/profile里面添加环境变量

注意每次都要source /etc/profile

解压Hadoop

并配置环境变量，将Hadoop的路径写入~/.bashrc

需要source ~/.bashrc

修改hostname,

sudo vim /etc/hostname

修改hosts的名字

sudo vim /etc/hosts

以下是master的hostname和hosts

slave1和slave2的hostname也需要改。

配置免密登录

ssh-keygen -t rsa # 一直按回车就可以薯悉

cat ./id_rsa.pub ./authorized_keys

需要修改Hadoop安装目录下/etc/hadoop中的5个配置文件。slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

configuration

property

namefs.defaultFS/name

valuehdfs://master:9000/value

/property

property

namehadoop.tmp.dir/name

valuefile:/home/zkx/hadoop-2.10.1/tmp/value

descriptionAbase for other temporary directories./description

/property

/configuration

这文件记录备份相关。我们有2个 slave 节点，因此可以将 dfs.replication 的值设为 2

configuration

property

namedfs.namenode.secondary.http-address/name

valuemaster:50090/value

/property

property

namedfs.replication/name

数拆乎value2/value

/property

property

namedfs.namenode.name.dir/name

valuefile:/home/zkx/hadoop-2.10.1/tmp/dfs/name/value

/property

property

namedfs.datanode.data.dir/name

valuefile:/home/zkx/hadoop-2.10.1/tmp/dfs/data/value

/property

/configuration

如果是mapred-site.xml.template ，此时需要重命名

configuration

property

namemapreduce.framework.name御让/name

valueyarn/value

/property

property

namemapreduce.jobhistory.address/name

valuemaster:10020/value

/property

property

namemapreduce.jobhistory.webapp.address/name

valuemaster:19888/value

/property

/configuration

configuration

!-- Site specific YARN configuration properties --

property

nameyarn.resourcemanager.hostname/name

valuemaster/value

/property

property

nameyarn.nodemanager.aux-services/name

valuemapreduce_shuffle/value

/property

/configuration

先删除logs和tmp里的文件

之后压缩

tar -zcf ~/hadoop.master.tar.gz ./hadoop-2.10.1

使用scp命令发送到slave1和slave2

scp ./hadoop.master.tar.gz zkx@slave1:/home/zkx

之后解压

master节点格式化

hdfs namenode -format # 首次运行需要执行初始化，之后不需要

启动和结束脚本在sbin目录下

start-all.sh

mr-jobhistory-daemon.sh start historyserver #启动历史服务器

jps 查看master和slave

worker是spark的，不用参考

hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar pi 100 1000

结果如下

解压压缩包

目录如下

修改conf下的spark-env.sh

export SPARK_DIST_CLASSPATH=$(/home/zkx/hadoop-2.10.1/bin/hadoop classpath)

export JAVA_HOME=/home/zkx/jdk1.8.0_241

SPARK_MASTER_HOST=master

SPARK_MASTER_PORT=7077

修改slaves

之后将整个目录压缩，scp发送到slave上，解压

启动spark

./sbin/start-all.sh

之后打开浏览器输入maste的spark的URL，节点的端口是8080。

可以看到有三个worker

[img]

Spark提交任务，两个集群kerberos互信

spark向集群1中芹渗的yarn提交任务，任务运行在集群1的yarn容器中。数据写入集群2的hdfs。局首团集群1与集群2开通kerberos互信操作。

关于大数据方面技术问题可以咨询，替你解决你的苦恼。桐橘参考：

关于spark集群和spark集群启动命令的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

windows是基于unix还是linux（window是linux写的吗）网络安全公司排名（北京网络安全公司排名）

spark集群（spark集群启动命令）

spark不支持在各种集群管理器上运行

Hadoop与spark集群安装

Spark提交任务，两个集群kerberos互信

最近发表

文章归档

标签列表

spark集群（spark集群启动命令）

spark不支持在各种集群管理器上运行

Hadoop与spark集群安装

Spark提交任务，两个集群kerberos互信

相关阅读

国家网络安全应急响应预案（国家网络安全应急预案应急处置包括）

cpo人工智能龙头股（人工智能龙头股票前五名）

spark招聘（spark薪资）

电商数据仓库设计（电商数据仓库设计论文）

数据挖掘分类（数据挖掘分类聚类）

包含数据后台的词条

最近发表

文章归档

标签列表