spark集群(spark集群启动命令)
本篇文章给大家谈谈spark集群,以及spark集群启动命令对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
spark不支持在各种集群管理器上运行
支持。spark自带独立集群管理器,慎庆因此支宽宏握持,比较灵活。spark是专为大规模数据处理而设计的快速通用的计算引擎绝桥,是在Scala语言中实现的,将Scala用作其应用程序框架。
Hadoop与spark集群安装
jdk:jdk1.8.0
hadoop:hadoop-2.10.1
spark:spark-3.0.1
将jdk解压缩
之后在/etc/profile里面添加环境变量
注意每次都要source /etc/profile
解压Hadoop
并配置环境变量,将Hadoop的路径写入~/.bashrc
需要source ~/.bashrc
修改hostname,
sudo vim /etc/hostname
修改hosts的名字
sudo vim /etc/hosts
以下是master的hostname和hosts
slave1和slave2的hostname也需要改。
配置免密登录
ssh-keygen -t rsa # 一直按回车就可以薯悉
cat ./id_rsa.pub ./authorized_keys
需要修改Hadoop安装目录下/etc/hadoop中的5个配置文件。slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
configuration
property
namefs.defaultFS/name
valuehdfs://master:9000/value
/property
property
namehadoop.tmp.dir/name
valuefile:/home/zkx/hadoop-2.10.1/tmp/value
descriptionAbase for other temporary directories./description
/property
/configuration
这文件记录备份相关。我们有2个 slave 节点,因此可以将 dfs.replication 的值设为 2
configuration
property
namedfs.namenode.secondary.http-address/name
valuemaster:50090/value
/property
property
namedfs.replication/name
数拆乎value2/value
/property
property
namedfs.namenode.name.dir/name
valuefile:/home/zkx/hadoop-2.10.1/tmp/dfs/name/value
/property
property
namedfs.datanode.data.dir/name
valuefile:/home/zkx/hadoop-2.10.1/tmp/dfs/data/value
/property
/configuration
如果是mapred-site.xml.template ,此时需要重命名
configuration
property
namemapreduce.framework.name御让/name
valueyarn/value
/property
property
namemapreduce.jobhistory.address/name
valuemaster:10020/value
/property
property
namemapreduce.jobhistory.webapp.address/name
valuemaster:19888/value
/property
/configuration
configuration
!-- Site specific YARN configuration properties --
property
nameyarn.resourcemanager.hostname/name
valuemaster/value
/property
property
nameyarn.nodemanager.aux-services/name
valuemapreduce_shuffle/value
/property
/configuration
先删除logs和tmp里的文件
之后压缩
tar -zcf ~/hadoop.master.tar.gz ./hadoop-2.10.1
使用scp命令发送到slave1和slave2
scp ./hadoop.master.tar.gz zkx@slave1:/home/zkx
之后解压
master节点格式化
hdfs namenode -format # 首次运行需要执行初始化,之后不需要
启动和结束脚本在sbin目录下
start-all.sh
mr-jobhistory-daemon.sh start historyserver #启动历史服务器
jps 查看master和slave
worker是spark的,不用参考
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar pi 100 1000
结果如下
解压压缩包
目录如下
修改conf下的spark-env.sh
export SPARK_DIST_CLASSPATH=$(/home/zkx/hadoop-2.10.1/bin/hadoop classpath)
export JAVA_HOME=/home/zkx/jdk1.8.0_241
SPARK_MASTER_HOST=master
SPARK_MASTER_PORT=7077
修改slaves
之后将整个目录压缩,scp发送到slave上,解压
启动spark
./sbin/start-all.sh
之后打开浏览器输入maste的spark的URL,节点的端口是8080。
可以看到有三个worker
[img]Spark提交任务,两个集群kerberos互信
spark向集群1中芹渗的yarn提交任务,任务运行在集群1的yarn容器中。数据写入集群2的hdfs。局首团集群1与集群2开通kerberos互信操作。
关于大数据方面技术问题可以咨询,替你解决你的苦恼。桐橘 参考:
关于spark集群和spark集群启动命令的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。