（全国职业技能比赛：高职）GZ033大数据应用开发赛题第06套.docx

资源描述

（全国职业技能比赛：高职）GZ033大数据应用开发赛题第06套.docx

《（全国职业技能比赛：高职）GZ033大数据应用开发赛题第06套.docx》由会员分享，可在线阅读，更多相关《（全国职业技能比赛：高职）GZ033大数据应用开发赛题第06套.docx（24页珍藏版）》请在冰豆网上搜索。

（全国职业技能比赛：高职）GZ033大数据应用开发赛题第06套.docx

2023年全国职业院校技能大赛

赛题第06套

赛项名称：

大数据应用开发

英文名称：

BigDataApplicationDevelopment

赛项组别：

高等职业教育组

赛项编号：

GZ033

背景描述

大数据时代背景下，电商经营模式发生很大改变。

在传统运营模式中，缺乏数据积累，人们在做出一些决策行为过程中，更多是凭借个人经验和直觉，发展路径比较自我封闭。

而大数据时代，为人们提供一种全新的思路，通过大量的数据分析得出的结果将更加现实和准确。

商家可以对客户的消费行为信息数据进行收集和整理，比如消费者购买产品的花费、选择产品的渠道、偏好产品的类型、产品回购周期、购买产品的目的、消费者家庭背景、工作和生活环境、个人消费观和价值观等。

通过数据追踪，知道顾客从哪儿来，是看了某网站投放的广告还是通过朋友推荐链接，是新访客还是老用户，喜欢浏览什么产品，购物车有无商品，是否清空，还有每一笔交易记录，精准锁定一定年龄、收入、对产品有兴趣的顾客，对顾客进行分组、标签化，通过不同标签组合运用，获得不同目标群体，以此开展精准推送。

因数据驱动的零售新时代已经到来，没有大数据，我们无法为消费者提供这些体验，为完成电商的大数据分析工作，你所在的小组将应用大数据技术，以Scala作为整个项目的基础开发语言，基于大数据平台综合利用Hudi、Spark、Flink、Vue.js等技术，对数据进行处理、分析及可视化呈现，你们作为该小组的技术人员，请按照下面任务完成本次工作。

任务A：

大数据平台搭建（容器环境）（15分）

环境说明：

服务端登录地址详见各任务服务端说明。

补充说明：

宿主机及各容器节点可通过Asbru工具或SSH客户端进行SSH访问。

子任务一：

Hadoop完全分布式安装配置

本任务需要使用root用户完成相关配置，安装Hadoop需要配置前置环境。

命令中要求使用绝对路径，具体要求如下:

1、从宿主机/opt目录下将文件hadoop-3.1.3.tar.gz、jdk-8u212-linux-x64.tar.gz复制到容器Master中的/opt/software路径中（若路径不存在，则需新建），将Master节点JDK安装包解压到/opt/module路径中（若路径不存在，则需新建），将JDK解压命令复制并粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

2、修改容器中/etc/profile文件，设置JDK环境变量并使其生效，配置完毕后在Master节点分别执行“java-version”和“javac”命令，将命令行执行结果分别截图并粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

3、请完成host相关配置，将三个节点分别命名为master、slave1、slave2，并做免密登录，用scp命令并使用绝对路径从Master复制JDK解压后的安装文件到slave1、slave2节点（若路径不存在，则需新建），并配置slave1、slave2相关环境变量，将全部scp复制JDK的命令复制并粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

4、在Master将Hadoop解压到/opt/module（若路径不存在，则需新建）目录下，并将解压包分发至slave1、slave2中，其中master、slave1、slave2节点均作为datanode，配置好相关环境，初始化Hadoop环境namenode，将初始化命令及初始化结果截图（截取初始化结果日志最后20行即可）粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

5、启动Hadoop集群（包括hdfs和yarn），使用jps命令查看Master节点与slave1节点的Java进程，将jps命令与结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下。

子任务二：

SparkonYarn安装配置

本任务需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

1、从宿主机/opt目录下将文件spark-3.1.1-bin-hadoop3.2.tgz复制到容器Master中的/opt/software（若路径不存在，则需新建）中，将Spark包解压到/opt/module路径中（若路径不存在，则需新建），将完整解压命令复制粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

2、修改容器中/etc/profile文件，设置Spark环境变量并使环境变量生效，在/opt目录下运行命令spark-submit--version，将命令与结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

3、完成onyarn相关配置，使用sparkonyarn的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar运行的主类为org.apache.spark.examples.SparkPi，将运行结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下（截取Pi结果的前后各5行）。

（运行命令为：

spark-submit--masteryarn--classorg.apache.spark.examples.SparkPi$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar）

子任务三：

Hudi安装配置

本任务需要使用root用户完成相关配置，具体要求如下：

1、从宿主机/opt目录下将maven相关安装包复制到容器Master中的/opt/software（若路径不存在，则需新建）中，将maven相关安装包解压到/opt/module/目录下（若路径不存在，则需新建）并配置maven本地库为/opt/software/RepMaven/，远程仓库使用阿里云镜像，配置maven的环境变量，并在/opt/下执行mvn-v，将运行结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

nexus-aliyun

central

Nexusaliyun

2、从宿主机/opt目录下将Hudi相关安装包复制到容器Master中的/opt/software（若路径不存在，则需新建）中，将Hudi相关安装包解压到/opt/module/目录下（若路径不存在，则需新建），将命令复制并粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

3、完成解压安装及配置后使用maven对Hudi进行构建（spark3.1,scala-2.12），编译完成后与Spark集成，集成后使用spark-shell操作Hudi，将spark-shell启动使用spark-shell运行下面给到的案例，并将最终查询结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下。

（提示：

编译需要替换以下内容：

1.将父模块pom.xml替换；

2.hudi-common/src/main/java/org/apache/hudi/common/table/log/block/HoodieParquetDataBlock.java替换；

2.将packaging/hudi-spark-bundle/pom.xml替换；

3.将packaging/hudi-utilities-bundle/pom.xml替换）

importorg.apache.hudi.QuickstartUtils._

importscala.collection.JavaConversions._

importorg.apache.spark.sql.SaveMode._

importorg.apache.hudi.DataSourceReadOptions._

importorg.apache.hudi.DataSourceWriteOptions._

importorg.apache.hudi.config.HoodieWriteConfig._

importmon.model.HoodieRecord

valtableName="hudi_trips_cow"

valbasePath="file:

///tmp/hudi_trips_cow"

valdataGen=newDataGenerator

valinserts=convertToStringList（dataGen.generateInserts（10））

valdf=spark.read.json（spark.sparkContext.parallelize（inserts,2））

df.write.format（"hudi"）.

options（getQuickstartWriteConfigs）.

option（PRECOMBINE_FIELD_OPT_KEY,"ts"）.

option（RECORDKEY_FIELD_OPT_KEY,"uuid"）.

option（PARTITIONPATH_FIELD_OPT_KEY,"partitionpath"）.

option（TABLE_NAME,tableName）.

mode（Overwrite）.

save（basePath）

valtripsSnapshotDF=spark.read.format（"hudi"）.load（basePath+"/*/*/*/*"）

tripsSnapshotDF.createOrReplaceTempView（"hudi_trips_snapshot"）

spark.sql（"selectfare,begin_lon,begin_lat,tsfromhudi_trips_snapshotwherefare>20.0"）.show（）

任务B：

离线数据处理（25分）

环境说明：

服务端登录地址详见各任务服务端说明。

补充说明：

各节点可通过Asbru工具或SSH客户端进行SSH访问；

主节点MySQL数据库用户名/密码：

root/123456（已配置远程连接）；

Spark任务在Yarn上用Client运行，方便观察日志。

子任务一：

数据抽取

编写Scala代码，使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hudi的ods_ds_hudi库（路径为/user/hive/warehouse/ods_ds_hudi.db）的user_info、sku_info、base_province、base_region、order_info、order_detail中。

（若ods_ds_hudi库中部分表没有数据，正常抽取即可）

1、抽取shtd_store库中user_info的增量数据进入Hudi的ods_ds_hudi库中表user_info。

根据ods_ds_hudi.user_info表中operate_time或create_time作为增量字段（即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods_ds_hudi里的这两个字段中较大的时间进行比较），只将新增的数据抽入，字段名称、类型不变，同时添加分区，若operate_time为空，则用create_time填充，分区字段为etl_date，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。

id作为primaryKey，operate_time作为preCombineField。

使用spark-shell执行showpartitionsods_ds_hudi.user_info命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

2、抽取shtd_store库中sku_info的增量数据进入Hudi的ods_ds_hudi库中表sku_info。

根据ods_ds_hudi.sku_info表中create_time作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加分区，分区字段为etl_date，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。

id作为primaryKey，operate_time作为preCombineField。

使用spark-shell执行showpartitionsods_ds_hudi.sku_info命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

3、抽取shtd_store库中base_province的增量数据进入Hudi的ods_ds_hudi库中表base_province。

根据ods_ds_hudi.base_province表中id作为增量字段，只将新增的数据抽入，字段名称、类型不变并添加字段create_time取当前时间，同时添加分区，分区字段为etl_date，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。

id作为primaryKey，create_time作为preCombineField。

使用spark-shell执行showpartitionsods_ds_hudi.base_province命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

4、抽取shtd_store库中base_region的增量数据进入Hudi的ods_ds_hudi库中表base_region。

根据ods_ds_hudi.base_region表中id作为增量字段，只将新增的数据抽入，字段名称、类型不变并添加字段create_time取当前时间，同时添加分区，分区字段为etl_date，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。

id作为primaryKey，create_time作为preCombineField。

使用spark-shell执行showpartitionsods_ds_hudi.base_region命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

5、抽取shtd_store库中order_info的增量数据进入Hudi的ods_ds_hudi库中表order_info，根据ods_ds_hudi.order_info表中operate_time或create_time作为增量字段（即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods_ds_hudi里的这两个字段中较大的时间进行比较），只将新增的数据抽入，字段名称、类型不变，同时添加分区，分区字段为etl_date，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。

id作为primaryKey，operate_time作为preCombineField。

使用spark-shell执行showpartitionsods_ds_hudi.order_info命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

6、抽取shtd_store库中order_detail的增量数据进入Hudi的ods_ds_hudi库中表order_detail，根据ods_ds_hudi.order_detail表中create_time作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加分区，分区字段为etl_date，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。

id作为primaryKey，create_time作为preCombineField。

使用spark-shell执行showpartitionsods_ds_hudi.order_detail命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下。

子任务二：

数据清洗

编写Scala代码，使用Spark将ods_ds_hudi库中相应表数据全量抽取到Hudi的dwd_ds_hudi库（路径为/user/hive/warehouse/dwd_ds_hudi.db）中对应表中。

表中有涉及到timestamp类型的，均要求按照yyyy-MM-ddHH:

mm:

ss，不记录毫秒数，若原数据中只有年月日，则在时分秒的位置添加00:

00:

00，添加之后使其符合yyyy-MM-ddHH:

mm:

ss。

（若dwd_ds_hudi库中部分表没有数据，正常抽取即可）

1、抽取ods_ds_hudi库中user_info表中昨天的分区（子任务一生成的分区）数据，并结合dim_user_info最新分区现有的数据，根据id合并数据到dwd_ds_hudi库中dim_user_info的分区表（合并是指对dwd层数据进行插入或修改，需修改的数据以id为合并字段，根据operate_time排序取最新的一条），分区字段为etl_date且值与ods_ds_hudi库的相对应表该值相等，并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“user1”。

若该条记录第一次进入数仓dwd层则dwd_insert_time、dwd_modify_time均存当前操作时间，并进行数据类型转换。

若该数据在进入dwd层时发生了合并修改，则dwd_insert_time时间不变，dwd_modify_time存当前操作时间，其余列存最新的值。

id作为primaryKey，operate_time作为preCombineField。

使用spark-shell执行showpartitionsdwd_ds_hudi.dim_user_info命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

2、抽取ods_ds_hudi库sku_info表中昨天的分区（子任务一生成的分区）数据，并结合dim_sku_info最新分区现有的数据，根据id合并数据到dwd_ds_hudi库中dim_sku_info的分区表（合并是指对dwd层数据进行插入或修改，需修改的数据以id为合并字段，根据create_time排序取最新的一条），分区字段为etl_date且值与ods_ds_hudi库的相对应表该值相等，并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“user1”。

若该条数据第一次进入数仓dwd层则dwd_insert_time、dwd_modify_time均填写当前操作时间，并进行数据类型转换。

若该数据在进入dwd层时发生了合并修改，则dwd_insert_time时间不变，dwd_modify_time存当前操作时间，其余列存最新的值。

id作为primaryKey，dwd_modify_time作为preCombineField。

使用spark-shell查询表dim_sku_info的字段id、sku_desc、dwd_insert_user、dwd_modify_time、etl_date，条件为最新分区的数据，id大于等于15且小于等于20，并且按照id升序排序，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

3、抽取ods_ds_hudi库base_province表中昨天的分区（子任务一生成的分区）数据，并结合dim_province最新分区现有的数据，根据id合并数据到dwd_ds_hudi库中dim_province的分区表（合并是指对dwd层数据进行插入或修改，需修改的数据以id为合并字段，根据create_time排序取最新的一条），分区字段为etl_date且值与ods_ds_hudi库的相对应表该值相等，并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“user1”。

若该条数据第一次进入数仓dwd层则dwd_insert_time、dwd_modify_time均填写当前操作时间，并进行数据类型转换。

若该数据在进入dwd层时发生了合并修改，则dwd_insert_time时间不变，dwd_modify_time存当前操作时间，其余列存最新的值。

id作为primaryKey，dwd_modify_time作为preCombineField。

使用spark-shell在表dwd_ds_hudi.dim_province最新分区中，查询该分区中数据的条数，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

4、抽取ods_ds_hudi库base_region表中昨天的分区（子任务一生成的分区）数据，并结合dim_region最新分区现有的数据，根据id合并数据到dwd_ds_hudi库中dim_region的分区表（合并是指对dwd层数据进行插入或修改，需修改的数据以id为合并字段，根据create_time排序取最新的一条），分区字段为etl_date且值与ods_ds_hudi库的相对应表该值相等，并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“user1”。

若该条数据第一次进入数仓dwd层则dwd_insert_time、dwd_modify_time均填写当前操作时间，并进行数据类型转换。

若该数据在进入dwd层时发生了合并修改，则dwd_insert_time时间不变，dwd_modify_time存当前操作时间，其余列存最新的值。

id作为primaryKey，dwd_modify_time作为preCombineField。

使用spark-she

展开阅读全文