让你学会Spark全部文档格式.docx

资源描述

让你学会Spark全部文档格式.docx

《让你学会Spark全部文档格式.docx》由会员分享，可在线阅读，更多相关《让你学会Spark全部文档格式.docx（13页珍藏版）》请在冰豆网上搜索。

让你学会Spark全部文档格式.docx

Generatingpublic/privatersakeypair.

Enterfileinwhichtosavethekey（/root/.ssh/id_rsa）:

/root/.ssh/id_rsaalreadyexists.

Overwrite（y/n）?

Enterpassphrase（emptyfornopassphrase）:

Entersamepassphraseagain:

Youridentificationhasbeensavedin/root/.ssh/id_rsa.

Yourpublickeyhasbeensavedin/root/.ssh/id_rsa.pub.

Thekeyfingerprintis:

SHA256:

Nn0sHWtXvvMtgVaDyr2NlBha3RCDiHo4MNgpWkxFUOgroot@VM_10_45_centos

Thekey'

srandomartimageis:

+---[RSA2048]----+

|=oB+...o.|

|oO.....|

|.+oo..+.|

|.E+..oooo+o|

|oS+o=*+...|

|...++*...|

|o++|

|oo+|

|.o|

+----[SHA256]-----+

[root@spark-master/]#

将上一步中生成的公钥文件分别复制到slave1和slave2服务器上

[root@spark-masterdata]#scp/root/.ssh/id_rsa.pubroot@10.10.11.18:

/data/

[root@spark-masterdata]#scp/root/.ssh/id_rsa.pubroot@10.10.11.19:

　　　　分别进入slave1和slave2服务器器,将公钥导入授权文件中

[root@spark-slave1/]#cddata

[root@spark-slave1data]#ls

id_rsa.pub

[root@spark-slave1data]#catid_rsa.pub>

/root/.ssh/authorized_keys

　　　　返回master服务器，测试授权是否成功

#测试slave1

[root@spark-master~]#sshspark-slave1

Lastlogin:

MonOct1515:

46:

272018from10.10.10.88

#测试slave2

[root@spark-master~]#sshspark-slave2

56:

302018from10.10.10.88

　　　　5.安装jdk

　　　　检查一下是否安装jdk，如果没有请先安装，我这里因为已经安装好jdk，所以就略去了安装的步骤，如果没有安装过的请自己上网查找。

[root@spark-master~]#java-version

javaversion"

1.8.0_152"

Java（TM）SERuntimeEnvironment（build1.8.0_152-b16）

JavaHotSpot（TM）64-BitServerVM（build25.152-b16,mixedmode）

[root@spark-master_centos~]#

　　　6.scala安装与配置

　　　　1.下载

　　　　scala官网下载地址：

https:

//www.scala-lang.org/download/，找到要下载的版本，我这里选择的是scala-2.12.7.tgz。

我在下载过程中一直失败，然后网上查了下，有人说把地址换成

　　　　2.安装与配置

#切换到scala安装目录

[root@spark-master~]#cd/opt/scala/

#解压安装包

[root@spark-masterscala]#tar-xvfscala-2.12.7.tgz-C/opt/scala/

scala-2.12.7/

scala-2.12.7/man/

scala-2.12.7/man/man1/

scala-2.12.7/man/man1/fsc.1

scala-2.12.7/man/man1/scalac.1

scala-2.12.7/man/man1/scalap.1

scala-2.12.7/man/man1/scaladoc.1

scala-2.12.7/man/man1/scala.1

scala-2.12.7/doc/

scala-2.12.7/doc/licenses/

scala-2.12.7/doc/licenses/mit_tools.tooltip.txt

scala-2.12.7/doc/licenses/mit_jquery.txt

scala-2.12.7/doc/licenses/bsd_asm.txt

scala-2.12.7/doc/licenses/bsd_jline.txt

scala-2.12.7/doc/licenses/apache_jansi.txt

scala-2.12.7/doc/License.rtf

scala-2.12.7/doc/README

scala-2.12.7/doc/LICENSE.md

scala-2.12.7/doc/tools/

scala-2.12.7/doc/tools/scala.html

scala-2.12.7/doc/tools/css/

scala-2.12.7/doc/tools/css/style.css

scala-2.12.7/doc/tools/index.html

scala-2.12.7/doc/tools/scaladoc.html

scala-2.12.7/doc/tools/scalap.html

scala-2.12.7/doc/tools/scalac.html

scala-2.12.7/doc/tools/images/

scala-2.12.7/doc/tools/images/external.gif

scala-2.12.7/doc/tools/images/scala_logo.png

scala-2.12.7/doc/tools/fsc.html

scala-2.12.7/bin/

scala-2.12.7/bin/scalap.bat

scala-2.12.7/bin/scala

scala-2.12.7/bin/scalac.bat

scala-2.12.7/bin/fsc.bat

scala-2.12.7/bin/scaladoc.bat

scala-2.12.7/bin/scala.bat

scala-2.12.7/bin/scalap

scala-2.12.7/bin/scalac

scala-2.12.7/bin/fsc

scala-2.12.7/bin/scaladoc

scala-2.12.7/lib/

scala-2.12.7/lib/scala-library.jar

scala-2.12.7/lib/scala-compiler.jar

scala-2.12.7/lib/jline-2.14.6.jar

scala-2.12.7/lib/scala-reflect.jar

scala-2.12.7/lib/scalap-2.12.7.jar

scala-2.12.7/lib/scala-swing_2.12-2.0.3.jar

scala-2.12.7/lib/scala-parser-combinators_2.12-1.0.7.jar

scala-2.12.7/lib/scala-xml_2.12-1.0.6.jar

#编辑配置文件

[root@spark-masterscala]#vim/etc/profile

#在文件中增加如下环境变量的配置

exportSCALA_HOME=/opt/scala/scala-2.12.7

exportPATH=$PATH:

$SCALA_HOME/bin

#然后ESC，并wq！

保存后退出编辑

#使环境变量生效

[root@spark-masterscala]#source/etc/profile

#检查配置是否成功

[root@spark-masterscala]#scala-version

[root@spark-masterscala]#

　　　　安装配置完成之后，按照同样的步骤安装到另外两台slave机器上。

二、hadoop分布式安装与配置

　　　　1.下载hadoop

　　　　hadoop可以通过Apache的官网进行下载，我这里选择的是2.8.5版本https:

//www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz，下载时请选择hadoop-2.x.y.tar.gz这个格式的文件，这是编译好的，另一个包含src的则是Hadoop源代码，需要进行编译才可使用。

2.把安装文件上传到目标服务器

　　　　首先把hadoop安装文件上传到master服务器的/opt/hadoop目录里，然后再分别拷贝到slave1和slave2服务器上

#从master服务器拷贝到slave1服务器上

[root@spark-master~]#scp/opt/hadoop/hadoop-2.8.5.tar.gzroot@spark-slave1:

/opt/hadoop/hadoop-2.8.5.tar.gz　　100%235MB117.1MB/s00:

#从master服务器拷贝到slave2服务器上

[root@spark-master~]#scp/opt/hadoop/hadoop-2.8.5.tar.gzroot@spark-slave2:

/opt/hadoop/hadoop-2.8.5.tar.gz　　　100%235MB108.0MB/s00:

[root@spark-master~]#

　　　　3.解压并安装文件

#解压安装包到/opt/hadoop目录下

[root@spark-master~]#tar-xvf/opt/hadoop/hadoop-2.8.5.tar.gz-C/opt/hadoop/

　　　　4.配置hadoop环境变量

#编辑/etc/profile文件

[root@spark-master~]#vi/etc/profile

#在文件后面增加以下配置项

exportHADOOP_HOME=/opt/hadoop/hadoop-2.8.5

exportPATH==$PATH:

$HADOOP_HOME/bin

5.修改配置文件

　　　　一共需要修改6个配置文件,位于安装路径下etc/hadoop目录下.

分别是hadoop-env.sh、core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml和slaves文件

（1）.修改hadoop-env.sh文件

#编辑hadoop-env.sh文件

[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/hadoop-env.sh

[root@spark-master~]#

#修改JAVA_HOME为本机配置的jdk路径

exportJAVA_HOME=/usr/java/jdk1.8.0_152

（2）.修改core-site.xml文件

[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/core-site.xml

#增加如下配置

configuration>

--指定HDFS老大（namenode）的通信地址-->

property>

name>

fs.defaultFS<

/name>

value>

hdfs:

//spark-master:

9100<

/value>

/property>

--指定hadoop运行时产生文件的存储路径-->

hadoop.tmp.dir<

/tmp/hadoop-dir<

/configuration>

　　　　（3）.修改hdfs-site.xml文件

[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/hdfs-site.xml

dfs.name.dir<

file:

/tmp/hdfs/name<

description>

namenode上存储hdfs名字空间元数据<

/description>

dfs.data.dir<

/tmp/hdfs/data<

datanode上数据块的物理存储位置<

--设置hdfs副本数量-->

dfs.replication<

--如果没有配置以下项则启动时会出现类似secondarynamenodes[0.0.0.0]

0.0.0.0:

startingsecondarynamenode这种错误-->

dfs.namenode.secondary.http-address<

spark-master:

50090<

　　　　（4）.修改mapred-site.xml文件

[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml

mapreduce.framework.name<

yarn<

--history服务器信息-->

mapreduce.jobhistory.address<

10020<

mapreduce.jobhistory.webapp.address<

19888<

　　　　（5）.修改yarn-site.xml文件

[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/yarn-site.xml

#增加如下配置项

--SitespecificYARNconfigurationproperties-->

--是否开启聚合日志-->

yarn.log-aggregation-enable<

true<

--配置日志服务器的地址,work节点使用-->

yarn.log.server.url<

http:

19888/jobhistory/logs/<

--配置日志过期时间,单位秒-->

yarn.log-aggregation.retain-seconds<

86400<

yarn.nodemanager.aux-services<

mapreduce_shuffle<

yarn.resourcemanager.webapp.address<

8099<

yarn.resourcemanager.hostname<

spark-master<

　　　　（6）.修改slaves文件

[root@spark-master~]#vi/opt/hadoop/hadoop-2.8.5/etc/hadoop/slaves

spark-slave1

spark-slave2

（7）.以上6个文件修改好之后把master服务器上最新文件同步到slave1和slave2的安装目录下，并覆盖掉之前的

[root@spark-masterhadoop]#scphadoop-env.shroot@spark-slave1:

/opt/hadoop/hadoop-2.8.5/etc/hadoop/hadoop-env.sh100%462.3MB/s00:

[root@spark-masterhadoop]#scphadoop-env.shroot@spark-slave2:

/opt/hadoop/hadoop-2.8.5/etc/hadoop/hadoop-env.sh

[root@spark-masterhadoop]#scpcore-site.xmlroot@spark-slave1:

/opt/hadoop/hadoop-2.8.5/etc/hadoop/core-site.xml100%462.1MB/s00:

[root@spark-masterhadoop]#scpcore-site.xmlroot@spark-slave2:

/opt/hadoop/hadoop-2.8.5/etc/hadoop/core-site.xml100%1114683.1KB/s00:

[root@spark-masterhadoop]#scphdfs-site.xmlroot@spark-slave2:

/opt/hadoop/hadoop-2.8.5/etc/hadoop/hdfs-site.xml100%1278750.7KB/s00:

[root@spark-masterhadoop]#scphdfs-site.xmlroot@spark-slave1:

/opt/hadoop/hadoop-2.8.5/etc/hadoop/hdfs-site.xml100%12782.0MB/s00:

[root@spark-masterhadoop]#scpmapred-site.xmlroot@spark-slave1:

/opt/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml100%11462.3MB/s00:

[root@spark-masterhadoop]#scpmapred-site.xmlroot@spark-slave2:

/opt/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml100%1146699.1KB/s00:

[root@spark-masterhadoop]

展开阅读全文