高职 大数据技术与应用 任务书7赛项赛题.docx

上传人:b****5 文档编号:3428893 上传时间:2022-11-23 格式:DOCX 页数:18 大小:287.17KB
下载 相关 举报
高职 大数据技术与应用 任务书7赛项赛题.docx_第1页
第1页 / 共18页
高职 大数据技术与应用 任务书7赛项赛题.docx_第2页
第2页 / 共18页
高职 大数据技术与应用 任务书7赛项赛题.docx_第3页
第3页 / 共18页
高职 大数据技术与应用 任务书7赛项赛题.docx_第4页
第4页 / 共18页
高职 大数据技术与应用 任务书7赛项赛题.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

高职 大数据技术与应用 任务书7赛项赛题.docx

《高职 大数据技术与应用 任务书7赛项赛题.docx》由会员分享,可在线阅读,更多相关《高职 大数据技术与应用 任务书7赛项赛题.docx(18页珍藏版)》请在冰豆网上搜索。

高职 大数据技术与应用 任务书7赛项赛题.docx

高职大数据技术与应用任务书7赛项赛题

 

2021年全国职业院校技能大赛

高职组

 

“大数据技术与应用”

赛项赛卷(GZ-xxxxxxx-X卷)

 

参赛队编号:

 

背景描述

 

企业消费服务平台,为大中小型企业提供基于云化的消费场景一站式智能消费、智能管控,帮助企业获得更高效、简单、美好的消费管理。

从“费控+支付”出发,到覆盖全场景支出的创新模式,让员工在数字化平台上直接完成所有消费,从员工下单、到财务入账,全流程实现自动化统一结算、统一数据分析。

解决传统差旅系统面临的场景覆盖不全、员工体验差、消费体验割裂等情况,真正做成一套让企业节省支出,让员工满意的差旅平台。

企业消费服务平台的出现将原来传统的差旅行程放到网络平台上,更广泛的传递差旅信息,互动式的交流更方便客人的咨询和订购,越来越多的人在出行的时候使用企业消费服务平台预订机票、火车票、住宿等,使得更多的商家愿意与企业消费服务平台建立合作,提升住宿场所的营业额,这也为企业消费服务平台的发展带来新的机遇,为了抓住这个机会,“企业消费服务平台”需要从地域、订单来源等多种维度进行分析,明确未来重点拓展合作商家的方向。

公司要求多个小组进行分析,并提出相应建议,你所在的小组也在其中,需要通过数据采集、数据清洗、数据分析和数据可视化获得相关论据,提出未来重点拓展合作住宿场所的方向。

你们作为该小组的技术人员,是这次技术方案的核心成员,请按照下面步骤完成本次技术展示任务,并提交分析报告,祝你们成功!

模块A:

Hadoop平台及组件的部署管理(15分)

环境要求:

编号

主机名

类型

用户

密码

1

master

主节点

root

passwd

2

slave1

从节点

root

passwd

3

slave2

从节点

root

passwd

master01-1主机上MySQL数据库用户名密码是root/Password123$

相关软件安装包在/chinaskills目录下

任务一:

Hadoop全分布部署管理

本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部署要求如下:

1、将/chinaskills下的JDK包解压到/usr/local/src,将命令(使用绝对路径)复制粘贴到报告中;

2、设置JDK环境变量,并使环境变量只对当前root用户生效,将环境变量配置内容复制粘贴至对应报告中;

3、从master复制JDK环境变量文件到slave1、slave2节点,将命令(使用绝对路径)复制粘贴到报告中;

4、根据环境中已配置完成的SSH密钥登录,实现从master登录到slave1,将命令和结果复制粘贴至对应报告中;

5、将/chinaskills下的Hadoop包解压到/usr/local/src,不修改解压后文件夹名称,配置Hadoop全局环境变量,并使环境变量只对当前root用户生效,将命令(使用绝对路径)及环境变量内容复制粘贴至对应报告中;

6、根据要求修改Hadoop相关文件,使用Hadoop命令初始化namenode,启动Hadoop,使用相关命令查看所有节点Hadoop进程,并将结果内容复制粘贴至对应报告中。

任务二:

Hive组件部署管理

本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体部署要求如下:

1、解压Hive安装包到“/usr/local/src”路径,并使用相关命令,修改解压后文件夹名为Hive,进入Hive文件夹,并将查看内容复制粘贴至对应报告中;

2、设置Hive环境变量,并使环境变量只对当前用户生效,将环境变量内容复制粘贴至对应报告中;

3、新建并配置hive-site.xml文件,实现“Hive元存储”的存储位置为MySQL数据库,并将hive-site.xml配置文件内容复制粘贴至对应报告中;

4、初始化Hive元数据(将MySQL数据库JDBC驱动拷贝到Hive安装目录的lib下),并将初始化结果内容复制粘贴至对应报告中;

5、启动Hive,检查是否安装成功,并将结果内容复制粘贴至对应报告中。

任务三:

Kafka组件部署管理

本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体部署要求如下:

1、将Zookeeper配置完毕后,在各节点启动Zookeeper,查看Zookeeper状态,并将命令和Zookeeper运行状态结果复制粘贴至对应报告中;

2、修改Kafkaserver.properties文件,并将修改的内容复制粘贴至对应报告中;

3、启动Kafka,并将Kafka启动命令和输出结果前10行复制粘贴至报告中。

模块B:

数据采集与处理(20分)

1、网站解析,利用Chrome查看网页源码,分析企业消费平台网站网页结构。

1)打开企业消费平台网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;

2)检查网站:

浏览网站源码查看所需内容。

2、从企业消费平台网站中爬取需要数据,按照要求使用Python语言编写爬虫代码,爬取指定数据项,并对结果数据集进行数据探索、以及必要的数据处理操作。

请将符合题目要求的代码答案复制粘贴至对应报告中。

具体步骤如下:

1)创建爬虫项目

2)构建爬虫请求

3)按要求定义相关字段

4)获取有效数据

5)将爬取到的数据保存到指定位置

至此已从住宿场所网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作。

详细数据描述:

1)请创建Scrapy项目chinaskills_accommodation(C:

\chinaskills_accommodation),从网站(网站地址在竞赛平台模块B中给出)中爬取页面相关字段(包括name,seq,业务部门,拒单率是否小于等于直销城市均值,是否为客栈,房间价格,用户点评数,省份,住宿场所实住订单,住宿场所实住间夜);将抓取结果保存为json格式文件,并命名为accommodations.json。

每条信息请以Key:

Value格式单独保存为一行数据。

例如:

{“name”:

”***”,”seq”:

”***”,…….}

任务中要求将“以下内容及答案完整复制粘贴至对应报告中。

”,粘贴到对应报告中的内容举例如下:

“中国”网页源码对应字段为:

Country

“四川”网页源码对应字段为:

Province

2)爬取数据量不少于28万条。

具体任务要求:

任务一:

网页源码对应字段

使用Chrome浏览器,查找网站异步请求的数据,并将以下内容及答案完整复制粘贴至对应报告中。

“业务部门”网页源码对应字段为:

“房间价格”网页源码对应字段为:

“是否为客栈”网页源码对应字段为:

“住宿场所实住订单”网页源码对应字段为:

任务二:

创建Scrapy工程

自行创建Scrapy工程编写爬虫代码,爬取“name、seq、业务部门有效数据项包括:

业务部门,房间数,国家,图片数,城市,城市平均实住间夜,城市直销拒单率,处于商圈”页面相关数据,通过爬虫代码分页爬取,以合理的程序逻辑判断相关数据包含的页数并将程序代码复制粘贴至对应报告中。

任务三:

在MySQL中创建数据库表

根据爬取字段,在MySQL中创建crawl数据库,在该数据库中创建accommodations1表(包含name,seq,业务部门,拒单率是否小于等于直销城市均值,是否为客栈,房间价格),创建accommodations2表(包含name,seq,业务部门,用户点评数,省份,住宿场所实住订单,住宿场所实住间夜)将爬取数据写入相应数据表中,并分别统计accommodations1表和accommodations2表的总行数,将统计结果复制粘贴至对应报告中。

任务四:

对数据库表排序

爬虫程序运行结束后查看MySQL数据库accommodations1表,按seq倒序排序,返回前100行数据,将命令与查看结果复制粘贴至对应报告中。

任务五:

对数据表填充处理

请根据步骤3中accommodations1表中的数据,对数据集中“房间价格”字段的缺失值,使用平均值进行填充。

查看填充后的数据集前5条记录,将查看结果复制粘贴至对应报告中。

任务六:

对数据表删除处理

请根据步骤3中accommodations2表中的数据,对数据集中存在空值的记录进行删除。

查看删除后的数据集条数,将查看结果复制粘贴至对应报告中。

accommodations2表删除后条数为:

模块C:

数据清洗与挖掘分析(25分)

现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。

在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。

相关数据文件中已经包含了数据采集阶段从企业消费平台网站上爬取的数据集,其中包含了来自不同城市的多家住宿场所的销售信息,你的小组需要通过编写代码或脚本完成对相关数据文件中住宿场所销售管理数据的清洗和整理,并完成数据计算和分析任务。

综合利用MapReduce、Spark、Storm、分布式存储系统、数据仓库Hive、数据推送工具等技术,使用Java、Python、Scala等开发语言,完成本阶段数据清洗、处理、分析及数据挖掘等任务。

通过多个维度分析住宿场所的销售信息,并以此评价住宿场所销售业绩、区域的游客接纳能力、接纳质量等指标。

初始数据集来自多个网站及平台系统,且为多次采集汇总结果,因此数据集中不可避免地存在一些脏数据,即源数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。

请分析相关数据集,根据题目规定要求实现数据清洗及分析。

任务一:

数据清洗

住宿场所销售数据涉及到多个平台及数据库对接,个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。

缺失值是一种常见的脏数据情况,由于粗糙数据中缺少信息而造成的数据缺失或截断。

现有数据集中某个或某些属性的值是不完全的。

对于缺失值的处理,从总体上来说分为缺失值删除和缺失值插补。

当缺失值过多时,信息条目本身的价值也会随之降低,此时如果对缺失值进行填补则将产生结果的人为干预。

结合行业数据本身特点及上述考虑,请你根据题目具体参数要求实现以下功能:

将缺失值大于n个的数据条目从原始数据集中剔除,并输出剔除的条目数量。

详细描述:

数据源文件存放于/chinaskills/accommodationdata.csv,请编写MapReduce程序,按照如下要求实现对数据的清洗,并将结果输出至HDFS文件系统中/accommodationoutput1:

1)解析该文件;

2)按照题目要求剔除缺失数据信息(n=3),并以打印语句输出删除条目数;

3)程序打包并在Hadoop平台运行,结果输出至HDFS文件系统中/accommodationoutput1。

具体任务要求:

1、将accommodationdata.csv文件上传至HDFS新建目录/file3_1中;运行代码,删除数据源中缺失值大于3个字段的数据,打印输出删除条目数,将运行结果复制粘贴至对应报告中;

2、查看清洗后输出的结果文件总行数(/accommodationoutput1),将运行结果复制粘贴至对应报告中。

对于数据集字段缺失情况,通常可以采用填充固定值、均值、众数、KNN填充、以及把缺失值作为新的label等方式处理。

同时,不当的填充可能会令后续的分析结果出现导向性偏差,当缺失信息较少时可采用删除的方式来进行处理。

下面请根据题目具体参数要求处理关键字段缺失,复制粘贴至对应报告中结果。

详细描述:

数据源使用HDFS文件系统中的accommodationdata.csv,请编写MapReduce程序,按照如下要求实现对数据的清洗,并将结果输出至HDFS文件系统中/accommodationoutput2:

1)解析该文件;

2)将任意关键字段为空的条目剔除,关键字段定义为{星级、评论数、评分},并以打印语句输出删除条目数;

3)程序打包并在Hadoop平台运行,结果输出至HDFS文件系统中/accommodationoutput2。

具体任务要求:

3、运行代码,将字段{星级、评论数、评分}中任意字段为空的数据删除,并打印输出删除条目数,将运行结果复制粘贴至对应报告中;

4、查看清洗后输出的结果文件(accommodationoutput2)总行数,将运行结果复制粘贴至对应报告中。

任务二:

数据挖掘分析

城市游客接纳能力是城市规划建设中的重要指标,其中城市的住宿场所数量和房间数量是城市游客接纳能力的关键要素。

请编写程序或脚本根据住宿场所管理网站中的数据统计各城市的相关信息,并写入指定的数据库或数据文件。

详细描述:

请根据数据清洗的输出数据集,编写HQL语句统计各城市的住宿场所出租率,以各城市住宿场所出租率降序排列并输出前10条统计结果,同时创建并写入数据表a_4。

要求输出字段包含:

省份、城市、住宿场所出租率。

数据定义如下:

数据项

字段名

备注

省份

province

城市

city

住宿场所出租率

lease

要求保留6位小数

数据样式如下:

province

city

lease

贵州

贵阳

0.123456

具体任务要求:

1、创建表table3_4

2、统计各城市住宿场所出租率,将出租率前10的数据降序排列并写入数据表table3_4中,将命令复制粘贴至对应报告中。

企业消费平台是住宿场所营销的主要途径之一,不仅降低销售成本,同时也提高了顾客体验满意度。

当顾客通过企业消费平台进行住宿场所预订时,住宿场所就拥有了用户的相关数据。

通过这些数据,能够更好地收集用户需求,从而可以提供更有针对性和个性化的服务,最终能够产生更多的忠诚会员并带来更多订单。

但企业消费平台销售也存在用户拒单等情况,拒单原因有很多:

例如,平台信息不同步,信息更新不及时;分销层次过多,导致无法及时查证订单;住宿场所违反企业消费规则擅自以低价让客户取消订单,这种情况又叫做“切单”。

企业消费平台需要统计用户订单的分布情况,以此发现平台缺陷及用户、商家的行为模式,企业消费平台据此调整营销策略。

根据现有数据及给定参数完成订单数据统计,并写入指定的数据库或数据文件,复制粘贴至对应报告中结果。

详细描述:

1)请根据数据清洗的输出数据集,编写HQL语句统计各省直销拒单率,以直销拒单率升序排列并输出前10条统计结果,同时创建并写入数据表table3_5。

要求输出字段包含:

省份、直销拒单率。

数据定义如下:

数据项

字段名

备注

省份

province

直销拒单率

norate

要求保留6位小数

数据样式如下:

province

norate

贵州

0.123456

具体任务要求:

3、创建表table3_5,将命令复制粘贴至对应报告中;

4、统计各省拒单率,将统计的拒单率升序排列并将前10条统计结果写入数据表table3_5中,将命令复制粘贴至对应报告中。

模块D:

数据可视化(20分)

MySQL数据库中的相关数据集包含了城市、省份、评分、评论数等多项基础信息字段。

请使用Flask框架,结合Echarts完成下列题目。

数据库账号:

takeout密码:

takeout

自行创建代码工程路径为:

C:

\chinaskills_hotel

每个可视化图中需要添加图片作为背景水印。

任务一:

全国地图热力图呈现各省订单数量

住宿场所订单量是反映住宿场所入住数量的重要指标之一,某省订单数量一定程度上可以反应出该省住宿场所入住情况,为了更好地分析全国各省住宿场所订单量,请根据指定表中数据统计出全国各省住宿场所订单量的情况,并以指定图例进行呈现。

详细描述:

请以数据库中相关表格为数据源,分析并统计各省订单数量,绘制全国地图,并使用热力图表达。

具体任务要求:

1)提取表格相关字段,分别统计各省的订单数量,在控制台按照“订单数量”降序排列,打印输出各省份的订单数量;

打印语句格式如下:

==省份:

***=订单数量:

**个==

……

2)使用Flask框架,结合Echarts绘制“订单数量”的全国地图热力图,标题为“各省订单数量”(字体颜色:

红色,加粗),并将可视化结果复制粘贴至对应报告中。

任务二:

多个饼图呈现各省份不同等级住宿场所占比

企业消费平台为了更好地发展企业业务,向企业客户推荐符合其定位的协议住宿场所,需要分析上题中Top5省份的“三星级/舒适”、“四星级/高档”和“五星级/豪华”住宿场所以及“其它类别”住宿场所(除上述三类外,其余类型住宿场所均归为“其它类别”)的占比情况。

请根据指定表中数据,以指定图例进行呈现。

详细描述:

请根据数据库中相关数据集中省份、星级等相关字段统计各省份不同等级住宿场所的占比,绘制多个饼图。

具体任务要求:

1)根据表格相关字段分别统计上题Top5省份不同星级住宿场所的占比,打印输出各省份名称以及各类型住宿场所的占比情况;

打印语句格式如下:

==省份:

A=舒适型住宿占比:

**===

==省份:

A=高档型住宿占比:

**===

==省份:

A=豪华型住宿占比:

**===

==省份:

B=舒适型住宿占比:

**===

==省份:

B=高档型住宿占比:

**===

==省份:

B=豪华型住宿占比:

**===

……

2)使用Flask框架,结合Echarts在组合图中绘制多个饼图,每个城市各星级住宿场所占比情况分别用一个饼图进行呈现,将可视化结果截图并保存。

任务三:

柱状图呈现城市出租率

出租率是反映住宿场所经营状况的一项重要指标,它是已出租的客房数与住宿场所可以提供租用的房间总数的百分比。

住宿场所出租率的情况可以在一定程度上反应出该住宿场所的整体运营的情况,为了更好的分析指定住宿场所的入住情况,请根据相关表中数据完成出租率分析,通过指定图例进行呈现。

详细描述:

请以数据库相关表作格为数据源,以柱状图呈现城市出租率。

具体任务要求:

1)提取表格相关字段,在控制台按照“各省住宿场所出租率”降序排列,打印输出各省名称及包含的住宿场所数量以及出租率;

打印语句格式如下:

==1.***省=住宿场所数为***个=出租率为:

***===

==2.***省=住宿场所数为***个=出租率为:

***===

……

2)使用Flask框架,结合Echarts绘制柱状图。

柱状图主标题为“各省住宿场所出租率”(字体要求:

红色、加粗、斜体),副标题为出租率前十的省份;纵坐标为出租率,横坐标为省份名称(按照出租率降序排列);将可视化结果复制粘贴至对应报告中。

任务四:

玫瑰饼图呈现各地区高端场所占比

高端住宿场所的数量,能够从一个侧面反映当地的经济水平,据国家旅游和文化部统计境内31个省市(不含港澳台)共有860家五星级住宿场所,但分布很不均衡,其中东部沿海所占有的五星级数量,接近了全国一半。

请你根据题目要求统计各地区的高端住宿场所数量及各地区高端住宿场所占全国所有高端住宿的比例。

请按题目要求,输出相关图例。

详细描述:

1)数据库中相关表已保存了各地区的高端住宿场所信息;

2)要求统计以下指定地区住宿场所相关信息,指定地区包括:

东北、华北、华东、华中、西北、西南、华南;

3)指定地区省份映射表,如表1。

表1:

地区省份映射表

地区

省份

华东地区

山东、江苏、安徽、浙江、江西、福建、上海

华南地区

广东、广西、海南

华中地区

湖北、湖南、河南

华北地区

北京、天津、河北、山西、内蒙古

西北地区

宁夏、新疆、青海、陕西、甘肃

西南地区

四川、云南、贵州、西藏、重庆

东北地区

辽宁、吉林、黑龙江

具体任务要求:

1)根据表格相关字段分别统计各地区高端住宿场所(五星级)的数量,以及各地区高端住宿场所占全国住宿场所总量的比例,并按“高端住宿场所”降序进行排列;

打印语句格式如下:

==1.地区:

***,高端住宿场所数量:

***,所占比例:

***===

==2.地区:

***,高端住宿场所数量:

***,所占比例:

***===

……

2)使用Flask框架,结合Echarts根据各地区高端场所数量占全国总量比例绘制玫瑰图,标题为“各地区高端场所数量所占比例”(字体要求:

红色、加粗、斜体),并标识各分类占比,输出玫瑰饼图,将可视化结果截图并保存。

任务五:

条形统计图呈现各省直销拒单率

企业消费平台是住宿场所营销的主要途径之一,不仅降低销售成本,同时也提高了顾客体验满意度。

当顾客通过企业消费平台进行住宿场所预订时,住宿场所就拥有了用户的相关数据。

通过这些数据,能够更好地收集用户需求,从而可以提供更有针对性和个性化的服务,最终能够产生更多的忠诚会员并带来更多订单。

但企业消费平台销售也存在用户拒单等情况,拒单原因有很多:

例如,平台信息不同步,信息更新不及时;分销层次过多,导致无法及时查证订单;住宿场所违反企业消费规则擅自以低价让客户取消订单,这种情况又叫做“切单”。

企业消费平台需要统计用户订单的分布情况,以此发现平台缺陷及用户、商家的行为模式,企业消费平台据此调整营销策略。

根据现有数据统计订单数据,并以指定图例进行呈现。

详细描述:

请根据数据库中相关数据集中统计各省直销拒单率,以直销拒单率降序排列,并绘制条形统计图。

具体任务要求:

1)根据表格相关字段分别统计各省份的直销拒单率(保留6位小数),在控制台按照“直销拒单率”降序排列,打印输出各省名称以及直销拒单率;

打印语句格式如下:

==1.***省,直销拒单率为***===

==2.***省,直销拒单率为***===

……

2)使用Flask框架,结合Echarts绘制直销拒单率最高的5个省份条形图,主标题为“直销拒单率最高的5个省份”(字体要求:

红色、加粗、斜体),纵坐标为省份名称,横坐标直销拒单率;输出条形图,将可视化结果截图并保存。

任务六:

多线雷达图呈现各省份住宿场所综合情况

企业消费平台需要综合评判一个城市住宿场所运营情况,会涉及到多方面住宿场所数据,例如像高端住宿场所数量、订单数量、住客评分、评论数量、出租率、200元/晚以下快捷住宿场所数量等信息,请根据指定表中数据统计相关数据,并以指定图例进行呈现。

详细描述:

请根据数据库中相关表格,统计各城市住宿场所综合运营情况,并以多线雷达图表达。

具体任务要求:

1)根据数据库中相关表格分别统计北京、上海、广东、四川、海南各地平均评分、评论数、各省住宿场所出租率、直销拒单率,在控制台按照“省份”名称升序排列,打印输出各城市住宿场所的多项运营指标;

打印语句格式如下:

==省份:

A,平均评分为:

***===

==省份:

A,评论数:

***===

……

==省份:

A,平均评分为:

***===

==省份:

A,评论数:

***===

……

2)使用Flask框架,结合Echarts绘制多线雷达图,标题为各省份住宿场所综合情况(字体要求:

红色、加粗、斜体);输出多线雷达图,将可视化结果复制粘贴至对应报告中。

模块E:

综合分析(20分)

假定你为企业消费平台平台的管理者,在综合理解住宿场所业务数据的基础上,通过以上模块A、B、C、D的相关结论,对未来拓展合作住宿场所方向做出预测,根据题目要求进行分析,并编写输出分析报告。

根据上述任务中的结

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 学科竞赛

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1