Spark资源Spark单词统计实验文档格式.docx
《Spark资源Spark单词统计实验文档格式.docx》由会员分享,可在线阅读,更多相关《Spark资源Spark单词统计实验文档格式.docx(28页珍藏版)》请在冰豆网上搜索。
![Spark资源Spark单词统计实验文档格式.docx](https://file1.bdocx.com/fileroot1/2022-10/8/b7ce1e47-76eb-4330-88a4-953bf2121b6e/b7ce1e47-76eb-4330-88a4-953bf2121b6e1.gif)
熟悉Scala语言,理解Spark编程思想,并编写Spark版本的WordCount,然后能够在spark-shell中执行代码和分析执行过程
【实验环境】
【实验步骤】
1、检查hadoop集群环境
在3台hadoop节点上执行jps命令查看hadoop进程
注意:
如果hadoop节点都没启动的话请按照第1课Hadoop3.1分布式集群按照课程中的3.1步骤进行启动
如果hadoop没有安装完成请安装第1课进行安装或执行自动部署脚本
hadoop1运行jps命令的截图:
hadoop2运行jps命令的截图:
hadoop3运行jps命令的截图:
2、创建项目
我们进入hadoop1主节点的桌面,找到eclipse的图标双击打开
2.1创建javamaven项目
按照下图步骤依次打开File>
>
New>
Other
在弹出的页面中按下图步骤操作
2.2更改JDK版本
右击项目名称选择Properties
2.3配置pom.xml文件
在创建好的项目中双击打开pom.xml文件
点击打开pom.xml
在打开的pom.xml文件中在28行附近找到<
/dependency>
,然后在这一行的最前面回车换行
换好行的截图:
打开桌面的【b环境配置文件】文件夹,再进入【8.3Spark单词统计实验】文件夹,双击打开【8.3Spark单词统计实验源码.docx】文件
复制【8.3Spark单词统计实验源码.docx】文件里面的pom.xml配置代码开始到结束中间的代码
回到eclipse中将复制好的代码黏贴到刚刚pom.xml文件换行的位置
黏贴好的截图:
保存
2.4创建SparkWordCount类
在SparkWordCount-test项目中的src/main/java右击创建类
输入类名称SparkWordCount
删除里面的内容
删除后的截图:
复制【8.3Spark单词统计实验源码.docx】文件里面的SparkWordCount类代码开始到结束中间的代码
在SparkWord.java中黏贴
4、打包项目
右击项目名称SparkWordCount-test,选择Export
选中JARfile,然后Next下一步
选择要打包的项目和地址,然后Next下一步
选择打包的class,选择OK然后Finish
点击OK
5、运行打包好的jar程序
5.1运行程序
在hadoo1上打开终端,进入spark的bin目录
在终端执行命令:
cd/opt/spark-2.3.1/bin/
运行程序
spark-submit--classSparkWordCount/root/SparkWordCount.jarfile:
/root/wordcount.txt
执行成功如图:
至此,本实验结束