让你学会Spark全部文档格式.docx
《让你学会Spark全部文档格式.docx》由会员分享,可在线阅读,更多相关《让你学会Spark全部文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
![让你学会Spark全部文档格式.docx](https://file1.bdocx.com/fileroot1/2022-12/16/7f483a7b-701e-4631-80e1-79f3a17bdfad/7f483a7b-701e-4631-80e1-79f3a17bdfad1.gif)
Generatingpublic/privatersakeypair.
Enterfileinwhichtosavethekey(/root/.ssh/id_rsa):
/root/.ssh/id_rsaalreadyexists.
Overwrite(y/n)?
y
Enterpassphrase(emptyfornopassphrase):
Entersamepassphraseagain:
Youridentificationhasbeensavedin/root/.ssh/id_rsa.
Yourpublickeyhasbeensavedin/root/.ssh/id_rsa.pub.
Thekeyfingerprintis:
SHA256:
Nn0sHWtXvvMtgVaDyr2NlBha3RCDiHo4MNgpWkxFUOgroot@VM_10_45_centos
Thekey'
srandomartimageis:
+---[RSA2048]----+
|=oB+...o.|
|oO.....|
|.+oo..+.|
|.E+..oooo+o|
|oS+o=*+...|
|...++*...|
|o++|
|oo+|
|.o|
+----[SHA256]-----+
[root@spark-master/]#
4.
将上一步中生成的公钥文件分别复制到slave1和slave2服务器上
[root@spark-masterdata]#scp/root/.ssh/id_rsa.pubroot@10.10.11.18:
/data/
[root@spark-masterdata]#scp/root/.ssh/id_rsa.pubroot@10.10.11.19:
分别进入slave1和slave2服务器器,将公钥导入授权文件中
[root@spark-slave1/]#cddata
[root@spark-slave1data]#ls
id_rsa.pub
[root@spark-slave1data]#catid_rsa.pub>
>
/root/.ssh/authorized_keys
返回master服务器,测试授权是否成功
#测试slave1
[root@spark-master~]#sshspark-slave1
Lastlogin:
MonOct1515:
46:
272018from10.10.10.88
#测试slave2
[root@spark-master~]#sshspark-slave2
56:
302018from10.10.10.88
5.安装jdk
检查一下是否安装jdk,如果没有请先安装,我这里因为已经安装好jdk,所以就略去了安装的步骤,如果没有安装过的请自己上网查找。
[root@spark-master~]#java-version
javaversion"
1.8.0_152"
Java(TM)SERuntimeEnvironment(build1.8.0_152-b16)
JavaHotSpot(TM)64-BitServerVM(build25.152-b16,mixedmode)
[root@spark-master_centos~]#
6.scala安装与配置
1.下载
scala官网下载地址:
https:
//www.scala-lang.org/download/,找到要下载的版本,我这里选择的是scala-2.12.7.tgz。
我在下载过程中一直失败,然后网上查了下,有人说把地址换成
2.安装与配置
#切换到scala安装目录
[root@spark-master~]#cd/opt/scala/
#解压安装包
[root@spark-masterscala]#tar-xvfscala-2.12.7.tgz-C/opt/scala/
scala-2.12.7/
scala-2.12.7/man/
scala-2.12.7/man/man1/
scala-2.12.7/man/man1/fsc.1
scala-2.12.7/man/man1/scalac.1
scala-2.12.7/man/man1/scalap.1
scala-2.12.7/man/man1/scaladoc.1
scala-2.12.7/man/man1/scala.1
scala-2.12.7/doc/
scala-2.12.7/doc/licenses/
scala-2.12.7/doc/licenses/mit_tools.tooltip.txt
scala-2.12.7/doc/licenses/mit_jquery.txt
scala-2.12.7/doc/licenses/bsd_asm.txt
scala-2.12.7/doc/licenses/bsd_jline.txt
scala-2.12.7/doc/licenses/apache_jansi.txt
scala-2.12.7/doc/License.rtf
scala-2.12.7/doc/README
scala-2.12.7/doc/LICENSE.md
scala-2.12.7/doc/tools/
scala-2.12.7/doc/tools/scala.html
scala-2.12.7/doc/tools/css/
scala-2.12.7/doc/tools/css/style.css
scala-2.12.7/doc/tools/index.html
scala-2.12.7/doc/tools/scaladoc.html
scala-2.12.7/doc/tools/scalap.html
scala-2.12.7/doc/tools/scalac.html
scala-2.12.7/doc/tools/images/
scala-2.12.7/doc/tools/images/external.gif
scala-2.12.7/doc/tools/images/scala_logo.png
scala-2.12.7/doc/tools/fsc.html
scala-2.12.7/bin/
scala-2.12.7/bin/scalap.bat
scala-2.12.7/bin/scala
scala-2.12.7/bin/scalac.bat
scala-2.12.7/bin/fsc.bat
scala-2.12.7/bin/scaladoc.bat
scala-2.12.7/bin/scala.bat
scala-2.12.7/bin/scalap
scala-2.12.7/bin/scalac
scala-2.12.7/bin/fsc
scala-2.12.7/bin/scaladoc
scala-2.12.7/lib/
scala-2.12.7/lib/scala-library.jar
scala-2.12.7/lib/scala-compiler.jar
scala-2.12.7/lib/jline-2.14.6.jar
scala-2.12.7/lib/scala-reflect.jar
scala-2.12.7/lib/scalap-2.12.7.jar
scala-2.12.7/lib/scala-swing_2.12-2.0.3.jar
scala-2.12.7/lib/scala-parser-combinators_2.12-1.0.7.jar
scala-2.12.7/lib/scala-xml_2.12-1.0.6.jar
#编辑配置文件
[root@spark-masterscala]#vim/etc/profile
#在文件中增加如下环境变量的配置
exportSCALA_HOME=/opt/scala/scala-2.12.7
exportPATH=$PATH:
$SCALA_HOME/bin
#然后ESC,并wq!
保存后退出编辑
#使环境变量生效
[root@spark-masterscala]#source/etc/profile
#检查配置是否成功
[root@spark-masterscala]#scala-version
Scalacoderunnerversion2.12.7--Copyright2002-2018,LAMP/EPFLandLightbend,Inc.
[root@spark-masterscala]#
安装配置完成之后,按照同样的步骤安装到另外两台slave机器上。
二、hadoop分布式安装与配置
1.下载hadoop
hadoop可以通过Apache的官网进行下载,我这里选择的是2.8.5版本https:
//www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz,下载时请选择hadoop-2.x.y.tar.gz这个格式的文件,这是编译好的,另一个包含src的则是Hadoop源代码,需要进行编译才可使用。
2.把安装文件上传到目标服务器
首先把hadoop安装文件上传到master服务器的/opt/hadoop目录里,然后再分别拷贝到slave1和slave2服务器上
#从master服务器拷贝到slave1服务器上
[root@spark-master~]#scp/opt/hadoop/hadoop-2.8.5.tar.gzroot@spark-slave1:
/opt/hadoop/hadoop-2.8.5.tar.gz 100%235MB117.1MB/s00:
02
#从master服务器拷贝到slave2服务器上
[root@spark-master~]#scp/opt/hadoop/hadoop-2.8.5.tar.gzroot@spark-slave2:
/opt/hadoop/hadoop-2.8.5.tar.gz 100%235MB108.0MB/s00:
[root@spark-master~]#
3.解压并安装文件
#解压安装包到/opt/hadoop目录下
[root@spark-master~]#tar-xvf/opt/hadoop/hadoop-2.8.5.tar.gz-C/opt/hadoop/
4.配置hadoop环境变量
#编辑/etc/profile文件
[root@spark-master~]#vi/etc/profile
#在文件后面增加以下配置项
exportHADOOP_HOME=/opt/hadoop/hadoop-2.8.5
exportPATH==$PATH:
$HADOOP_HOME/bin
5.修改配置文件
一共需要修改6个配置文件,位于安装路径下etc/hadoop目录下.
分别是hadoop-env.sh、core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml和slaves文件
(1).修改hadoop-env.sh文件
#编辑hadoop-env.sh文件
[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/hadoop-env.sh
[root@spark-master~]#
#修改JAVA_HOME为本机配置的jdk路径
exportJAVA_HOME=/usr/java/jdk1.8.0_152
(2).修改core-site.xml文件
[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/core-site.xml
#增加如下配置
<
configuration>
<
!
--指定HDFS老大(namenode)的通信地址-->
property>
name>
fs.defaultFS<
/name>
value>
hdfs:
//spark-master:
9100<
/value>
/property>
--指定hadoop运行时产生文件的存储路径-->
hadoop.tmp.dir<
/tmp/hadoop-dir<
/configuration>
(3).修改hdfs-site.xml文件
[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/hdfs-site.xml
dfs.name.dir<
file:
/tmp/hdfs/name<
description>
namenode上存储hdfs名字空间元数据<
/description>
dfs.data.dir<
/tmp/hdfs/data<
datanode上数据块的物理存储位置<
--设置hdfs副本数量-->
dfs.replication<
1<
<
--如果没有配置以下项则启动时会出现类似secondarynamenodes[0.0.0.0]
0.0.0.0:
startingsecondarynamenode这种错误-->
dfs.namenode.secondary.http-address<
spark-master:
50090<
(4).修改mapred-site.xml文件
[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml
mapreduce.framework.name<
yarn<
--history服务器信息-->
mapreduce.jobhistory.address<
10020<
mapreduce.jobhistory.webapp.address<
19888<
(5).修改yarn-site.xml文件
[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/yarn-site.xml
#增加如下配置项
--SitespecificYARNconfigurationproperties-->
--是否开启聚合日志-->
yarn.log-aggregation-enable<
true<
--配置日志服务器的地址,work节点使用-->
yarn.log.server.url<
http:
19888/jobhistory/logs/<
--配置日志过期时间,单位秒-->
yarn.log-aggregation.retain-seconds<
86400<
yarn.nodemanager.aux-services<
mapreduce_shuffle<
yarn.resourcemanager.webapp.address<
8099<
yarn.resourcemanager.hostname<
spark-master<
(6).修改slaves文件
[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/slaves
spark-slave1
spark-slave2
(7).以上6个文件修改好之后把master服务器上最新文件同步到slave1和slave2的安装目录下,并覆盖掉之前的
[root@spark-masterhadoop]#scphadoop-env.shroot@spark-slave1:
/opt/hadoop/hadoop-2.8.5/etc/hadoop/hadoop-env.sh100%462.3MB/s00:
00
[root@spark-masterhadoop]#scphadoop-env.shroot@spark-slave2:
/opt/hadoop/hadoop-2.8.5/etc/hadoop/hadoop-env.sh
[root@spark-masterhadoop]#scpcore-site.xmlroot@spark-slave1:
/opt/hadoop/hadoop-2.8.5/etc/hadoop/core-site.xml100%462.1MB/s00:
[root@spark-masterhadoop]#scpcore-site.xmlroot@spark-slave2:
/opt/hadoop/hadoop-2.8.5/etc/hadoop/core-site.xml100%1114683.1KB/s00:
[root@spark-masterhadoop]#scphdfs-site.xmlroot@spark-slave2:
/opt/hadoop/hadoop-2.8.5/etc/hadoop/hdfs-site.xml100%1278750.7KB/s00:
[root@spark-masterhadoop]#scphdfs-site.xmlroot@spark-slave1:
/opt/hadoop/hadoop-2.8.5/etc/hadoop/hdfs-site.xml100%12782.0MB/s00:
[root@spark-masterhadoop]#scpmapred-site.xmlroot@spark-slave1:
/opt/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml100%11462.3MB/s00:
[root@spark-masterhadoop]#scpmapred-site.xmlroot@spark-slave2:
/opt/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml100%1146699.1KB/s00:
[root@spark-masterhadoop]