1、Spark单词统计实验Spark单词统计实验【实验名称】 Spark单词统计实验【实验目的】 熟悉Scala语言,基于Spark思想,编写SparkWordCount程序【实现要求】熟悉Scala语言,理解Spark编程思想,并编写Spark版本的WordCount,然后能够在spark-shell中执行代码和分析执行过程【实验环境】 【实验步骤】 1、检查hadoop集群环境在3台hadoop节点上执行jps命令查看hadoop进程注意 :如果hadoop节点都没启动的话请按照第1课Hadoop3.1分布式集群按照课程中的3.1步骤进行启动注意 :如果hadoop没有安装完成请安装第1课进行
2、安装或执行自动部署脚本hadoop1运行jps命令的截图:hadoop2运行jps命令的截图:hadoop3运行jps命令的截图:2、创建项目我们进入hadoop1主节点的桌面,找到eclipse的图标双击打开2.1创建java maven项目按照下图步骤依次打开File New Other在弹出的页面中按下图步骤操作2.2更改JDK版本右击项目名称选择Properties2.3配置pom.xml文件在创建好的项目中双击打开pom.xml文件点击打开pom.xml在打开的pom.xml文件中在28行附近找到,然后在这一行的最前面回车换行换好行的截图:打开桌面的【b环境配置文件】文件夹,再进入【
3、8.3 Spark单词统计实验】文件夹,双击打开【8.3 Spark单词统计实验源码.docx】文件复制【8.3 Spark单词统计实验源码.docx】文件里面的pom.xml配置代码开始到结束中间的代码回到eclipse中将复制好的代码黏贴到刚刚pom.xml文件换行的位置黏贴好的截图:保存2.4创建SparkWordCount类在SparkWordCount-test项目中的src/main/java右击创建类输入类名称SparkWordCount删除里面的内容删除后的截图:打开桌面的【b环境配置文件】文件夹,再进入【8.3 Spark单词统计实验】文件夹,双击打开【8.3 Spark单词
4、统计实验源码.docx】文件复制【8.3 Spark单词统计实验源码.docx】文件里面的SparkWordCount类代码开始到结束中间的代码在SparkWord.java中黏贴保存4、打包项目右击项目名称SparkWordCount-test,选择Export选中JAR file,然后Next下一步选择要打包的项目和地址,然后Next下一步选择打包的class,选择OK 然后Finish点击OK点击OK5、运行打包好的jar程序5.1 运行程序在hadoo1上打开终端,进入spark的bin目录在终端执行命令:cd /opt/spark-2.3.1/bin/运行程序在终端执行命令:spark-submit -class SparkWordCount /root/SparkWordCount.jar file:/root/wordcount.txt 执行成功如图:至此,本实验结束