ImageVerifierCode 换一换
格式:DOCX , 页数:18 ,大小:287.17KB ,
资源ID:3428893      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3428893.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(高职 大数据技术与应用 任务书7赛项赛题.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

高职 大数据技术与应用 任务书7赛项赛题.docx

1、高职 大数据技术与应用 任务书7赛项赛题2021年全国职业院校技能大赛高职组“大数据技术与应用”赛项赛卷(GZ-xxxxxxx-X卷)任务书参赛队编号: 背景描述企业消费服务平台,为大中小型企业提供基于云化的消费场景一站式智能消费、智能管控,帮助企业获得更高效、简单、美好的消费管理。从“费控+支付”出发,到覆盖全场景支出的创新模式,让员工在数字化平台上直接完成所有消费,从员工下单、到财务入账,全流程实现自动化统一结算、统一数据分析。解决传统差旅系统面临的场景覆盖不全、员工体验差、消费体验割裂等情况,真正做成一套让企业节省支出,让员工满意的差旅平台。企业消费服务平台的出现将原来传统的差旅行程放到

2、网络平台上,更广泛的传递差旅信息,互动式的交流更方便客人的咨询和订购,越来越多的人在出行的时候使用企业消费服务平台预订机票、火车票、住宿等,使得更多的商家愿意与企业消费服务平台建立合作,提升住宿场所的营业额,这也为企业消费服务平台的发展带来新的机遇,为了抓住这个机会,“企业消费服务平台”需要从地域、订单来源等多种维度进行分析,明确未来重点拓展合作商家的方向。公司要求多个小组进行分析,并提出相应建议,你所在的小组也在其中,需要通过数据采集、数据清洗、数据分析和数据可视化获得相关论据,提出未来重点拓展合作住宿场所的方向。你们作为该小组的技术人员,是这次技术方案的核心成员,请按照下面步骤完成本次技术

3、展示任务,并提交分析报告,祝你们成功!模块A:Hadoop平台及组件的部署管理(15分)环境要求:编号主机名类型用户密码1master主节点rootpasswd2slave1从节点rootpasswd3slave2从节点rootpasswdmaster01-1主机上MySQL数据库用户名密码是root/Password123$相关软件安装包在/chinaskills目录下任务一:Hadoop 全分布部署管理本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部署要求如下:1、将/chinaskills下的JDK包解压到/usr/local/src,将命令(使用绝对路径

4、)复制粘贴到报告中;2、设置JDK环境变量,并使环境变量只对当前root用户生效,将环境变量配置内容复制粘贴至对应报告中;3、从master复制JDK环境变量文件到slave1、slave2节点,将命令(使用绝对路径)复制粘贴到报告中;4、根据环境中已配置完成的SSH密钥登录,实现从master登录到slave1,将命令和结果复制粘贴至对应报告中;5、将/chinaskills下的Hadoop包解压到/usr/local/src,不修改解压后文件夹名称,配置Hadoop全局环境变量,并使环境变量只对当前root用户生效,将命令(使用绝对路径)及环境变量内容复制粘贴至对应报告中;6、根据要求修改

5、Hadoop相关文件,使用Hadoop命令初始化namenode,启动Hadoop,使用相关命令查看所有节点Hadoop进程,并将结果内容复制粘贴至对应报告中。任务二:Hive组件部署管理本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体部署要求如下:1、解压Hive安装包到“/usr/local/src”路径,并使用相关命令,修改解压后文件夹名为Hive,进入Hive文件夹,并将查看内容复制粘贴至对应报告中;2、设置Hive环境变量,并使环境变量只对当前用户生效,将环境变量内容复制粘贴至对应报告中;3、新建并配置hive-site.xml文件,实现“Hive元

6、存储”的存储位置为MySQL数据库,并将hive-site.xml配置文件内容复制粘贴至对应报告中;4、初始化Hive元数据(将MySQL数据库JDBC驱动拷贝到Hive安装目录的lib下),并将初始化结果内容复制粘贴至对应报告中;5、启动Hive,检查是否安装成功,并将结果内容复制粘贴至对应报告中。任务三:Kafka组件部署管理本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体部署要求如下:1、将Zookeeper配置完毕后,在各节点启动Zookeeper,查看Zookeeper状态,并将命令和Zookeeper运行状态结果复制粘贴至对应报告中;2、修改Kaf

7、kaserver.properties文件,并将修改的内容复制粘贴至对应报告中;3、启动Kafka,并将Kafka启动命令和输出结果前10行复制粘贴至报告中。模块B:数据采集与处理(20分)1、网站解析,利用Chrome查看网页源码,分析企业消费平台网站网页结构。1)打开企业消费平台网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;2)检查网站:浏览网站源码查看所需内容。2、从企业消费平台网站中爬取需要数据,按照要求使用Python语言编写爬虫代码,爬取指定数据项,并对结果数据集进行数据探索、以及必要的数据处理操作。请将符合题目要求的代码答案复制粘贴至对应报告中。具体步骤如下:1)创

8、建爬虫项目2)构建爬虫请求3)按要求定义相关字段4)获取有效数据5)将爬取到的数据保存到指定位置至此已从住宿场所网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作。详细数据描述:1)请创建Scrapy项目chinaskills_accommodation(C: chinaskills_accommodation),从网站(网站地址在竞赛平台模块B中给出)中爬取页面相关字段(包括name, seq, 业务部门, 拒单率是否小于等于直销城市均值, 是否为客栈, 房间价格, 用户点评数, 省份, 住宿场所实住订单, 住宿场所实住间夜);将抓取结果保存为json格式文件,并命名为acc

9、ommodations.json。每条信息请以Key:Value格式单独保存为一行数据。例如:“name”:”*”, ”seq”:”*”,.任务中要求将“以下内容及答案完整复制粘贴至对应报告中。”,粘贴到对应报告中的内容举例如下:“中国”网页源码对应字段为:Country“四川”网页源码对应字段为:Province2)爬取数据量不少于28万条。具体任务要求:任务一:网页源码对应字段使用Chrome浏览器,查找网站异步请求的数据,并将以下内容及答案完整复制粘贴至对应报告中。“业务部门”网页源码对应字段为:“房间价格”网页源码对应字段为:“是否为客栈”网页源码对应字段为:“住宿场所实住订单”网页源

10、码对应字段为:任务二:创建Scrapy工程自行创建Scrapy工程编写爬虫代码,爬取“name、seq、业务部门有效数据项包括:业务部门, 房间数, 国家, 图片数, 城市, 城市平均实住间夜, 城市直销拒单率,处于商圈”页面相关数据,通过爬虫代码分页爬取,以合理的程序逻辑判断相关数据包含的页数并将程序代码复制粘贴至对应报告中。任务三:在MySQL中创建数据库表根据爬取字段,在MySQL中创建crawl数据库,在该数据库中创建accommodations1表(包含name, seq, 业务部门, 拒单率是否小于等于直销城市均值, 是否为客栈, 房间价格),创建accommodations2表(

11、包含name, seq, 业务部门,用户点评数, 省份, 住宿场所实住订单, 住宿场所实住间夜)将爬取数据写入相应数据表中,并分别统计accommodations1表和accommodations2表的总行数,将统计结果复制粘贴至对应报告中。任务四:对数据库表排序爬虫程序运行结束后查看MySQL数据库accommodations1表,按seq倒序排序,返回前100行数据,将命令与查看结果复制粘贴至对应报告中。任务五:对数据表填充处理请根据步骤3中accommodations1表中的数据,对数据集中“房间价格”字段的缺失值,使用平均值进行填充。查看填充后的数据集前5条记录,将查看结果复制粘贴至对

12、应报告中。任务六:对数据表删除处理请根据步骤3中accommodations2表中的数据,对数据集中存在空值的记录进行删除。查看删除后的数据集条数,将查看结果复制粘贴至对应报告中。accommodations2表删除后条数为: 模块C:数据清洗与挖掘分析(25分)现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。 相关数据文件中已

13、经包含了数据采集阶段从企业消费平台网站上爬取的数据集,其中包含了来自不同城市的多家住宿场所的销售信息,你的小组需要通过编写代码或脚本完成对相关数据文件中住宿场所销售管理数据的清洗和整理,并完成数据计算和分析任务。综合利用MapReduce、Spark、Storm、分布式存储系统、数据仓库Hive、数据推送工具等技术,使用Java、Python、Scala等开发语言,完成本阶段数据清洗、处理、分析及数据挖掘等任务。通过多个维度分析住宿场所的销售信息,并以此评价住宿场所销售业绩、区域的游客接纳能力、接纳质量等指标。初始数据集来自多个网站及平台系统,且为多次采集汇总结果,因此数据集中不可避免地存在一

14、些脏数据,即源数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。 请分析相关数据集,根据题目规定要求实现数据清洗及分析。任务一:数据清洗住宿场所销售数据涉及到多个平台及数据库对接,个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。缺失值是一种常见的脏数据情况,由于粗糙数据中缺少信息而造成的数据缺失或截断。现有数据集中某个或某些属性的值是不完全的。对于缺失值的处理,从总体上来说分为缺失值删除和缺失值插补。当缺失值过多时,信息条目本身的价值也会随之降低,此时如果对缺失值进行填补则将产生结果的人为干预。结合行业数据本身特点及上述考

15、虑,请你根据题目具体参数要求实现以下功能:将缺失值大于n个的数据条目从原始数据集中剔除,并输出剔除的条目数量。详细描述:数据源文件存放于/chinaskills/accommodationdata.csv,请编写MapReduce程序,按照如下要求实现对数据的清洗,并将结果输出至HDFS文件系统中/accommodationoutput1:1)解析该文件;2)按照题目要求剔除缺失数据信息(n=3),并以打印语句输出删除条目数;3)程序打包并在Hadoop平台运行,结果输出至HDFS文件系统中/accommodationoutput1。具体任务要求:1、将accommodationdata.cs

16、v文件上传至HDFS新建目录/file3_1中;运行代码,删除数据源中缺失值大于3个字段的数据,打印输出删除条目数,将运行结果复制粘贴至对应报告中;2、查看清洗后输出的结果文件总行数(/accommodationoutput1),将运行结果复制粘贴至对应报告中。对于数据集字段缺失情况,通常可以采用填充固定值、均值、众数、KNN填充、以及把缺失值作为新的label等方式处理。同时,不当的填充可能会令后续的分析结果出现导向性偏差,当缺失信息较少时可采用删除的方式来进行处理。下面请根据题目具体参数要求处理关键字段缺失,复制粘贴至对应报告中结果。详细描述:数据源使用HDFS文件系统中的accommod

17、ationdata.csv,请编写MapReduce程序,按照如下要求实现对数据的清洗,并将结果输出至HDFS文件系统中/accommodationoutput2:1)解析该文件;2)将任意关键字段为空的条目剔除,关键字段定义为星级、评论数、评分,并以打印语句输出删除条目数;3)程序打包并在Hadoop平台运行,结果输出至HDFS文件系统中/accommodationoutput2。具体任务要求:3、运行代码,将字段星级、评论数、评分中任意字段为空的数据删除,并打印输出删除条目数,将运行结果复制粘贴至对应报告中;4、查看清洗后输出的结果文件(accommodationoutput2)总行数,将

18、运行结果复制粘贴至对应报告中。任务二:数据挖掘分析城市游客接纳能力是城市规划建设中的重要指标,其中城市的住宿场所数量和房间数量是城市游客接纳能力的关键要素。请编写程序或脚本根据住宿场所管理网站中的数据统计各城市的相关信息,并写入指定的数据库或数据文件。详细描述:请根据数据清洗的输出数据集,编写HQL语句统计各城市的住宿场所出租率,以各城市住宿场所出租率降序排列并输出前10条统计结果,同时创建并写入数据表a_4。要求输出字段包含:省份、城市、住宿场所出租率。数据定义如下:数据项字段名备注省份province城市city住宿场所出租率lease要求保留6位小数数据样式如下: provincecit

19、ylease贵州贵阳0.123456具体任务要求:1、创建表table3_42、统计各城市住宿场所出租率,将出租率前10的数据降序排列并写入数据表table3_4中,将命令复制粘贴至对应报告中。企业消费平台是住宿场所营销的主要途径之一,不仅降低销售成本,同时也提高了顾客体验满意度。当顾客通过企业消费平台进行住宿场所预订时,住宿场所就拥有了用户的相关数据。通过这些数据,能够更好地收集用户需求,从而可以提供更有针对性和个性化的服务,最终能够产生更多的忠诚会员并带来更多订单。但企业消费平台销售也存在用户拒单等情况,拒单原因有很多:例如,平台信息不同步,信息更新不及时;分销层次过多,导致无法及时查证订

20、单;住宿场所违反企业消费规则擅自以低价让客户取消订单,这种情况又叫做“切单”。企业消费平台需要统计用户订单的分布情况,以此发现平台缺陷及用户、商家的行为模式,企业消费平台据此调整营销策略。根据现有数据及给定参数完成订单数据统计,并写入指定的数据库或数据文件,复制粘贴至对应报告中结果。详细描述:1)请根据数据清洗的输出数据集,编写HQL语句统计各省直销拒单率,以直销拒单率升序排列并输出前10条统计结果,同时创建并写入数据表table3_5。要求输出字段包含:省份、直销拒单率。数据定义如下:数据项字段名备注省份province直销拒单率norate要求保留6位小数数据样式如下:provinceno

21、rate贵州0.123456具体任务要求:3、创建表table3_5,将命令复制粘贴至对应报告中;4、统计各省拒单率,将统计的拒单率升序排列并将前10条统计结果写入数据表table3_5中,将命令复制粘贴至对应报告中。模块D:数据可视化(20分)MySQL数据库中的相关数据集包含了城市、省份、评分、评论数等多项基础信息字段。请使用Flask框架,结合Echarts完成下列题目。数据库账号:takeout 密码:takeout自行创建代码工程路径为:C:chinaskills_hotel每个可视化图中需要添加图片作为背景水印。任务一:全国地图热力图呈现各省订单数量住宿场所订单量是反映住宿场所入住

22、数量的重要指标之一,某省订单数量一定程度上可以反应出该省住宿场所入住情况,为了更好地分析全国各省住宿场所订单量,请根据指定表中数据统计出全国各省住宿场所订单量的情况,并以指定图例进行呈现。详细描述:请以数据库中相关表格为数据源,分析并统计各省订单数量,绘制全国地图,并使用热力图表达。具体任务要求:1)提取表格相关字段,分别统计各省的订单数量,在控制台按照“订单数量”降序排列,打印输出各省份的订单数量;打印语句格式如下:=省份:* =订单数量:*个=2)使用Flask框架,结合Echarts绘制“订单数量”的全国地图热力图,标题为“各省订单数量”(字体颜色:红色,加粗),并将可视化结果复制粘贴至

23、对应报告中。任务二:多个饼图呈现各省份不同等级住宿场所占比企业消费平台为了更好地发展企业业务,向企业客户推荐符合其定位的协议住宿场所,需要分析上题中Top5省份的“三星级/舒适”、“四星级/高档”和“五星级/豪华”住宿场所以及“其它类别”住宿场所(除上述三类外,其余类型住宿场所均归为“其它类别”)的占比情况。请根据指定表中数据,以指定图例进行呈现。详细描述: 请根据数据库中相关数据集中省份、星级等相关字段统计各省份不同等级住宿场所的占比,绘制多个饼图。具体任务要求:1)根据表格相关字段分别统计上题Top5省份不同星级住宿场所的占比,打印输出各省份名称以及各类型住宿场所的占比情况;打印语句格式如

24、下:=省份:A=舒适型住宿占比:*=省份:A=高档型住宿占比:*=省份:A=豪华型住宿占比:*=省份:B=舒适型住宿占比:*=省份:B=高档型住宿占比:*=省份:B=豪华型住宿占比:*=2)使用Flask框架,结合Echarts在组合图中绘制多个饼图,每个城市各星级住宿场所占比情况分别用一个饼图进行呈现,将可视化结果截图并保存。任务三:柱状图呈现城市出租率出租率是反映住宿场所经营状况的一项重要指标,它是已出租的客房数与住宿场所可以提供租用的房间总数的百分比。住宿场所出租率的情况可以在一定程度上反应出该住宿场所的整体运营的情况,为了更好的分析指定住宿场所的入住情况,请根据相关表中数据完成出租率分

25、析,通过指定图例进行呈现。详细描述:请以数据库相关表作格为数据源,以柱状图呈现城市出租率。具体任务要求:1)提取表格相关字段,在控制台按照“各省住宿场所出租率”降序排列,打印输出各省名称及包含的住宿场所数量以及出租率;打印语句格式如下:=1.*省=住宿场所数为*个=出租率为:*=2.*省=住宿场所数为*个=出租率为:*=2)使用Flask框架,结合Echarts绘制柱状图。柱状图主标题为“各省住宿场所出租率”(字体要求:红色、加粗、斜体),副标题为出租率前十的省份;纵坐标为出租率,横坐标为省份名称(按照出租率降序排列);将可视化结果复制粘贴至对应报告中。任务四:玫瑰饼图呈现各地区高端场所占比高

26、端住宿场所的数量,能够从一个侧面反映当地的经济水平,据国家旅游和文化部统计境内31个省市(不含港澳台)共有860家五星级住宿场所,但分布很不均衡,其中东部沿海所占有的五星级数量,接近了全国一半。请你根据题目要求统计各地区的高端住宿场所数量及各地区高端住宿场所占全国所有高端住宿的比例。请按题目要求,输出相关图例。详细描述:1)数据库中相关表已保存了各地区的高端住宿场所信息;2)要求统计以下指定地区住宿场所相关信息,指定地区包括:东北、华北、华东、华中、西北、西南、华南;3)指定地区省份映射表,如表1。表1:地区省份映射表地区省份华东地区山东、江苏、安徽、浙江、江西、福建、上海华南地区广东、广西、

27、海南华中地区湖北、湖南、河南华北地区北京、天津、河北、山西、内蒙古西北地区宁夏、新疆、青海、陕西、甘肃西南地区四川、云南、贵州、西藏、重庆东北地区辽宁、吉林、黑龙江具体任务要求:1)根据表格相关字段分别统计各地区高端住宿场所(五星级)的数量,以及各地区高端住宿场所占全国住宿场所总量的比例,并按“高端住宿场所”降序进行排列;打印语句格式如下:=1.地区:*, 高端住宿场所数量:*,所占比例:*=2.地区:*, 高端住宿场所数量:*,所占比例:*=2)使用Flask框架,结合Echarts根据各地区高端场所数量占全国总量比例绘制玫瑰图,标题为“各地区高端场所数量所占比例”(字体要求:红色、加粗、斜

28、体),并标识各分类占比,输出玫瑰饼图,将可视化结果截图并保存。任务五:条形统计图呈现各省直销拒单率企业消费平台是住宿场所营销的主要途径之一,不仅降低销售成本,同时也提高了顾客体验满意度。当顾客通过企业消费平台进行住宿场所预订时,住宿场所就拥有了用户的相关数据。通过这些数据,能够更好地收集用户需求,从而可以提供更有针对性和个性化的服务,最终能够产生更多的忠诚会员并带来更多订单。但企业消费平台销售也存在用户拒单等情况,拒单原因有很多:例如,平台信息不同步,信息更新不及时;分销层次过多,导致无法及时查证订单;住宿场所违反企业消费规则擅自以低价让客户取消订单,这种情况又叫做“切单”。企业消费平台需要统

29、计用户订单的分布情况,以此发现平台缺陷及用户、商家的行为模式,企业消费平台据此调整营销策略。根据现有数据统计订单数据,并以指定图例进行呈现。详细描述:请根据数据库中相关数据集中统计各省直销拒单率,以直销拒单率降序排列,并绘制条形统计图。具体任务要求:1)根据表格相关字段分别统计各省份的直销拒单率(保留6位小数),在控制台按照“直销拒单率”降序排列,打印输出各省名称以及直销拒单率;打印语句格式如下:=1.*省, 直销拒单率为*=2.*省,直销拒单率为*=2)使用Flask框架,结合Echarts绘制直销拒单率最高的5个省份条形图,主标题为“直销拒单率最高的5个省份”(字体要求:红色、加粗、斜体)

30、,纵坐标为省份名称,横坐标直销拒单率;输出条形图,将可视化结果截图并保存。任务六:多线雷达图呈现各省份住宿场所综合情况企业消费平台需要综合评判一个城市住宿场所运营情况,会涉及到多方面住宿场所数据,例如像高端住宿场所数量、订单数量、住客评分、评论数量、出租率、200元/晚以下快捷住宿场所数量等信息,请根据指定表中数据统计相关数据,并以指定图例进行呈现。详细描述:请根据数据库中相关表格,统计各城市住宿场所综合运营情况,并以多线雷达图表达。具体任务要求:1)根据数据库中相关表格分别统计北京、上海、广东、四川、海南各地平均评分、评论数、各省住宿场所出租率、直销拒单率,在控制台按照“省份”名称升序排列,打印输出各城市住宿场所的多项运营指标;打印语句格式如下:=省份:A,平均评分为:*=省份:A,评论数:*=省份:A,平均评分为:*=省份:A,评论数:*=2)使用Flask框架,结合Echarts绘制多线雷达图,标题为各省份住宿场所综合情况(字体要求:红色、加粗、斜体);输出多线雷达图,将可视化结果复制粘贴至对应报告中。模块E:综合分析(20分)假定你为企业消费平台平台的管理者,在综合理解住宿场所业务数据的基础上,通过以上模块A、B、C、D的相关结论,对未来拓展合作住宿场所方向做出预测,根据题目要求进行分析,并编写输出分析报告。根据上述任务中的结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1