高职大数据技术与应用任务书10赛项赛题Word下载.docx

资源描述

高职大数据技术与应用任务书10赛项赛题Word下载.docx

《高职大数据技术与应用任务书10赛项赛题Word下载.docx》由会员分享，可在线阅读，更多相关《高职大数据技术与应用任务书10赛项赛题Word下载.docx（17页珍藏版）》请在冰豆网上搜索。

高职大数据技术与应用任务书10赛项赛题Word下载.docx

passwd

slave1

从节点

slave2

master01-1主机上MySQL数据库用户名密码是root/Password123$

相关软件安装包在/chinaskills目录下

任务一：

Hadoop伪分布部署

本环节需要使用root用户完成相关配置，安装Hadoop需要配置前置环境，具体部署要求如下：

1、解压JDK安装包到“/usr/local/src”路径，并配置环境变量，将命令（使用绝对路径）及环境变量内容复制粘贴至对应报告中；

2、环境中已创建ssh密钥，实现主节点与从节点的无密码登录；

截取主节点登录其中一个从节点的结果，将命令和结果复制粘贴至对应报告中；

3、根据要求修改每台主机host文件，将hosts配置文件内容复制粘贴至对应报告中；

4、在主节点修改Hadoop环境变量，并将（/etc/profile）配置文件内容复制粘贴至对应报告中；

5、根据要求修改Hadoop相关文件（hadoop-env.sh、core-site.xml、HDFS-site.xml、mapred-site.xml、yarn-site.xml），初始化Hadoop，并将初始化结果内容复制粘贴至对应报告中；

6、启动Hadoop，使用相关命令查看所有节点Hadoop进程，并将结果内容复制粘贴至对应报告中。

任务二：

Hive组件部署

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体部署要求如下：

1、解压Hive安装包到“/usr/local/src”路径，并使用相关命令，修改解压后文件夹名为Hive，进入Hive文件夹，并将查看内容复制粘贴至对应报告中；

2、配置Hive环境变量，并使环境变量只对当前用户生效，将环境变量内容复制粘贴至对应报告中；

3、新建并配置hive-site.xml文件，实现“Hive元存储”的存储位置为MySQL数据库，并将hive-site.xml配置文件内容复制粘贴至对应报告中；

4、初始化Hive元数据（将MySQL数据库JDBC驱动拷贝到Hive安装目录的lib下），并将初始化结果内容复制粘贴至对应报告中；

5、启动Hive，检查是否安装成功，并将结果内容复制粘贴至对应报告中。

任务三、Kafka组件部署

1、将Zookeeper配置完毕后，在各节点启动Zookeeper，查看Zookeeper状态，并将命令和Zookeeper运行状态结果复制粘贴至对应报告中；

2、修改Kafkaserver.properties文件，并将修改的内容复制粘贴至对应报告中；

3、启动Kafka，并将Kafka启动命令和输出结果前10行复制粘贴至报告中。

模块B：

数据采集与处理（20分）

1、网站解析，利用Chrome查看网页源码，分析企业消费平台网站网页结构。

1）打开企业消费平台网站，在网页中右键点击检查，或者F12快捷键，查看元素页面；

2）检查网站：

浏览网站源码查看所需内容。

2、从企业消费平台网站中爬取需要数据，按照要求使用Python语言编写爬虫代码，爬取指定数据项，并对结果数据集进行数据探索、以及必要的数据处理操作。

请将符合题目要求的代码答案复制粘贴至对应报告中。

具体步骤如下：

1）创建爬虫项目

2）构建爬虫请求

3）按要求定义相关字段

4）获取有效数据

5）将爬取到的数据保存到指定位置

至此已从住宿场所网站中爬取了所需数据，下一步我们要将爬取结果进一步进行相关数据操作。

详细数据描述：

1）请创建Scrapy项目chinaskills_accommodation（C:

\chinaskills_accommodation），从网站（网站地址在竞赛平台模块B中给出）中爬取页面相关字段（包括name,seq,业务部门,拒单率是否小于等于直销城市均值、,是否为客栈,房间价格,用户点评数,省份,酒店实住订单,酒店实住间夜）；

将抓取结果保存为json格式文件，并命名为accommodations.json。

每条信息请以Key：

Value格式单独保存为一行数据。

例如：

{“name”:

”***”,”seq”:

”***”,…….}

……

任务中要求将“以下内容及答案完整复制粘贴至对应报告中。

”，粘贴到对应报告中的内容举例如下：

“中国”网页源码对应字段为：

Country

“四川”网页源码对应字段为：

Province

2）爬取数据量不少于28万条。

具体任务要求：

网页源码应字段

使用Chrome浏览器，查找网站异步请求的数据，并将以下内容及答案完整复制粘贴至对应报告中。

“城市平均实住间夜”网页源码对应字段为：

“房间数”网页源码对应字段为：

“城市直销拒单率”网页源码对应字段为：

“处于商圈”网页源码对应字段为：

任务二、自行创建Scrapy工程

自行创建Scrapy工程编写爬虫代码，爬取“name、seq、业务部门有效数据项包括：

业务部门,房间数,国家,图片数,城市,城市平均实住间夜,城市直销拒单率,处于商圈”页面相关数据，通过爬虫代码分页爬取，以合理的程序逻辑判断相关数据包含的页数并将程序代码复制粘贴至对应报告中。

任务三：

在MySQL中创建数据库表

根据爬取字段，在MySQL中创建crawl数据库，在该数据库中创建accommodations1表（包含name,seq,业务部门,拒单率是否小于等于直销城市均值,是否为客栈,房间价格），创建accommodations2表（包含name,seq,业务部门,用户点评数,省份,酒店实住订单,酒店实住间夜），将爬取数据写入相应数据表中，并分别统计accommodations1表和accommodations2表的总行数，将统计结果复制粘贴至对应报告中。

任务四：

对数据库表排序

爬虫程序运行结束后查看MySQL数据库accommodations1表，按seq倒序排序，返回前100行数据，将命令与查看结果复制粘贴至对应报告中。

任务五：

对数据表填充处理

请根据步骤3中accommodations1表中的数据，对数据集中“房间价格”字段的缺失值，使用平均值进行填充。

查看填充后的数据集前5条记录，将查看结果复制粘贴至对应报告中。

任务六：

对数据表删除处理

请根据步骤3中accommodations2表中的数据，对数据集中存在空值的记录进行删除。

查看删除后的数据集条数，将查看结果复制粘贴至对应报告中。

accommodations2表删除后条数为：

模块C：

数据清洗与挖掘分析（25分）

现已从相关网站及平台获取到原始数据集，为保障用户隐私和行业敏感信息，已进行数据脱敏。

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。

在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号等个人信息都需要进行数据脱敏。

相关数据文件中已经包含了数据采集阶段从企业消费平台网站上爬取的数据集，其中包含了来自不同城市的多家住宿场所的销售信息，你的小组需要通过编写代码或脚本完成对相关数据文件中住宿场所销售管理数据的清洗和整理，并完成数据计算和分析任务。

综合利用MapReduce、Spark、Storm、分布式存储系统、数据仓库Hive、数据推送工具等技术，使用Java、Python、Scala等开发语言，完成本阶段数据清洗、处理、分析及数据挖掘等任务。

通过多个维度分析住宿场所的销售信息，并以此评价住宿场所销售业绩、区域的游客接纳能力、接纳质量等指标。

初始数据集来自多个网站及平台系统，且为多次采集汇总结果，因此数据集中不可避免地存在一些脏数据，即源数据不在给定的范围内或对于实际业务毫无意义，或是数据格式非法，以及在源系统中存在不规范的编码和含糊的业务逻辑。

请分析相关数据集，根据题目规定要求实现数据清洗及分析。

任务一、数据清洗

住宿场所销售数据涉及到多个平台及数据库对接，个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。

缺失值是一种常见的脏数据情况，由于粗糙数据中缺少信息而造成的数据缺失或截断。

现有数据集中某个或某些属性的值是不完全的。

对于缺失值的处理，从总体上来说分为缺失值删除和缺失值插补。

当缺失值过多时，信息条目本身的价值也会随之降低，此时如果对缺失值进行填补则将产生结果的人为干预。

结合行业数据本身特点及上述考虑，请你根据题目具体参数要求实现以下功能：

将缺失值大于n个的数据条目从原始数据集中剔除,并输出剔除的条目数量。

详细描述：

数据源文件存放于/chinaskills/accommodationdata.csv，请编写MapReduce程序，按照如下要求实现对数据的清洗，并将结果输出至HDFS文件系统中/accommodation_output1：

1）解析该文件；

2）按照题目要求剔除缺失数据信息（n=3），并以打印语句输出删除条目数；

3）程序打包并在Hadoop平台运行，结果输出至HDFS文件系统中/accommodation_output1。

1、将accommodationdata.csv文件上传至HDFS新建目录/file3_1中；

运行代码，删除数据源中缺失值大于3个字段的数据记录，打印输出删除条目数，将运行结果复制粘贴至对应报告中；

2、查看清洗后输出的结果文件总行数（/accommodation_output1），将运行结果复制粘贴至对应报告中。

对于数据集字段缺失情况，通常可以采用填充默认值、均值、众数、KNN填充、以及把缺失值作为新的label等方式处理。

同时，不当的填充可能会令后续的分析结果出现导向性偏差，当缺失信息较少时可采用删除的方式来进行处理。

下面请根据题目具体参数要求处理关键字段缺失，复制粘贴至对应报告中结果。

数据源使用HDFS文件系统中的accommodationdata.csv，请编写MapReduce程序，按照如下要求实现对数据的清洗，并将结果输出至HDFS文件系统中/accommodation_output2：

2）将任意关键字段为空的条目剔除，关键字段定义为{星级、评论数、评分}，并以打印语句输出删除条目数；

3）程序打包并在Hadoop平台运行，结果输出至HDFS文件系统中/accommodation_output2。

3、运行代码，将字段{星级、评论数、评分}中任意字段为空的数据删除，并打印输出删除条目数，将运行结果复制粘贴至对应报告中；

4、查看清洗后输出的结果文件（accommodation_output2）总行数，将运行结果复制粘贴至对应报告中。

任务二、数据挖掘分析

城市游客接纳能力是城市规划建设中的重要指标，其中城市的住宿场所数量和房间数量是城市游客接纳能力的关键要素。

请编写程序或脚本根据住宿场所管理网站中的数据统计各城市的相关信息，并写入指定的数据库或数据文件。

请根据数据清洗的输出数据集，编写HQL语句统计各城市的酒店出租率，以各城市酒店出租率降序排列并输出前10条统计结果，同时创建并写入数据表a_4。

要求输出字段包含：

省份、城市、酒店出租率。

数据定义如下：

数据项

字段名

备注

省份

province

城市

city

酒店出租率

lease

要求保留6位小数

数据样式如下：

贵州

贵阳

0.123456

1、创建表table3_4

2、统计各城市酒店出租率，将出租率前10的数据降序排列并写入数据表table3_4中，将命令复制粘贴至对应报告中。

企业消费平台是酒店营销的主要途径之一，不仅降低销售成本，同时也提高了顾客体验满意度。

当顾客通过企业消费平台进行酒店预订时，酒店就拥有了用户的相关数据。

通过这些数据，能够更好地收集用户需求，从而可以提供更有针对性和个性化的服务，最终能够产生更多的忠诚会员并带来更多订单。

但企业消费平台销售也存在用户拒单等情况，拒单原因有很多：

例如，平台信息不同步，信息更新不及时；

分销层次过多，导致无法及时查证订单；

酒店违反企业消费规则擅自以低价让客户取消订单，这种情况又叫做“切单”。

企业消费平台需要统计用户订单的分布情况，以此发现平台缺陷及用户、商家的行为模式，企业消费平台据此调整营销策略。

根据现有数据及给定参数完成订单数据统计，并写入指定的数据库或数据文件，复制粘贴至对应报告中结果。

1）请根据数据清洗的输出数据集，编写HQL语句统计各省直销拒单率，以直销拒单率升序排列并输出前10条统计结果，同时创建并写入数据表table3_5。

省份、直销拒单率。

直销拒单率

norate

3、创建表table3_5，将命令复制粘贴至对应报告中；

4、统计各省拒单率，将统计的拒单率升序排列并将前10条统计结果写入数据表table3_5中，将命令复制粘贴至对应报告中。

模块D：

数据可视化（20分）

MySQL数据库中的相关数据集包含了城市、省份、评分、评论数等多项基础信息字段。

请使用Flask框架，结合Echarts完成下列题目。

数据库账号：

takeout密码：

takeout

自行创建代码工程路径为：

\chinaskills_hotel

每个可视化图中需要添加图片作为背景水印。

柱状图呈现城市出租率

出租率是反映住宿场所经营状况的一项重要指标，它是已出租的客房数与住宿场所可以提供租用的房间总数的百分比。

住宿场所出租率的情况可以在一定程度上反应出该住宿场所的整体运营的情况，为了更好的分析指定住宿场所的入住情况，请根据相关表中数据完成出租率分析，通过指定图例进行呈现。

请以数据库相关表作格为数据源，以柱状图呈现城市出租率。

1）提取表格相关字段，在控制台按照“各省住宿场所出租率”降序排列，打印输出各省名称及包含的住宿场所数量；

打印语句格式如下：

==1.***省=住宿场所数为***个=出租率为：

***===

==2.***省=住宿场所数为***个=出租率为：

2）使用Flask框架，结合Echarts绘制柱状图。

主标题为“各省住宿场所出租率”（字体要求：

红色、加粗、斜体），副标题为出租率前十的省份；

纵坐标为出租率，横坐标为省份名称（按照出租率降序排列）；

将可视化结果复制粘贴至对应报告中。

折线图呈现连锁住宿场所出租率

连锁住宿场所一般都具有全国统一的品牌形象识别系统、全国统一的会员体系和营销体系、价格相比较很有优势，更适合大众化消费。

连锁住宿场所无论在装修、服务还是信誉上都有较大的竞争优势，所以连锁住宿场所是出差、旅游住宿的首选。

但是由于三线城市会员流动差、高素质管理人员相对短缺、营销环境与消费特点存在差异等问题，一些已经成熟住宿场所管理模式在三线城市可能并不受用，甚至会出现水土不服的现象。

请根据现有数据及给定参数，统计指定连锁住宿场所的经营状况，并以指定图例进行呈现。

1）数据库中相关表格已保存了指定地区的某连锁住宿场所销售信息。

请根据地区划分，统计题中某连锁住宿场所的出租率（保留6位小数），并以折线图呈现；

2）要求统计以下指定地区住宿场所相关信息，指定地区包括：

东北、华北、华东、华中、西北、西南、华南；

3）指定地区省份映射表，如表1。

表1：

地区省份映射表

地区

华东地区

山东、江苏、安徽、浙江、江西、福建、上海

华南地区

广东、广西、海南

华中地区

湖北、湖南、河南

华北地区

北京、天津、河北、山西、内蒙古

西北地区

宁夏、新疆、青海、陕西、甘肃

西南地区

四川、云南、贵州、西藏、重庆

东北地区

辽宁、吉林、黑龙江

1）根据表格相关字段分别统计某连锁住宿场所在各地区的出租率（保留6位小数），在控制台按照“出租率”降序排列，打印输出各地区名称以及出租率；

==1.***地区,出租率为***===

==2.***地区，出租率为***===

2）使用Flask框架，结合Echarts绘制折线图，主标题为“指定地区的住宿场所出租率“（字体要求：

红色、加粗、斜体），副标题为“某连锁住宿场所的出租率”,纵坐标为出租率，横坐标为地区；

输出折线图，将可视化结果复制粘贴至对应报告中。

散点地图呈现各城市住宿场所间夜数

住宿场所的间夜量也叫间夜数，是住宿场所在某个时间段内，房间出租率的计算单位，关于住宿场所间夜量的计算公式为间夜量=入住房间数*入住天数。

例如某住宿场所今天入住的房间数为500，则今天的间夜量=500*1=500，而又比如某住宿场所这个月（30天）的平均每天入住房间数为400，则这个月的间夜量=400*1*30=12000。

请根据指定表中数据统计住宿场所间夜数相关数据，并以指定图例进行呈现。

请以数据库相关表格中相关表作为数据源，各城市住宿场所间夜数散点地图。

1）根据表格相关字段分别统计各城市住宿场所间夜数，打印输出各城市的间夜数，在控制台按照“间夜数”降序排列，打印输出各地区名称以及间夜数；

==***市：

间夜数为***===

2）使用Flask框架，结合Echarts绘制散点地图，标题为“各城市住宿场所间夜数”（字体要求：

红色、加粗、斜体）；

输出各城市住宿场所间夜数散点地图，将可视化结果复制粘贴至对应报告中。

堆叠柱状图呈现直销和分销直销和分销

订单数据是考量企业消费平台直销住宿场所经营业绩的重要指标，由于某些酒店资源无法内部消化，也会出现订单分销至其它企业消费平台的情况，此时称为分销。

一般情况下，直销和分销是同时存在的。

但当某些住宿场所或区域分销数量过多时，则表明企业消费平台经营推广能力不足。

请根据指定表中数据，以指定图例进行呈现。

根据相关负责人反馈，以下住宿场所的分销数量占比较大：

山水时尚酒店北京梨园店，北京大宝饭店，北京普乐门白领公寓798精品店，北京长得福宾馆，北京中联鑫华酒店西客站店，北京瑞祥居宾馆，北京花神假日酒店。

请使用数据库中相关数据，以堆叠柱状图呈现直销和分销，并辅以分销比率折线说明平台应对哪些酒店加强维护及推广力度。

1）根据表格相关字段分别统计以上各家酒店的直销订单数量、分销订单数量以及分销比例，在控制台按照“分销比例”升序排列，打印输出各地区名称以及间夜数；

==“酒店名称：

***直销订单数：

***分销订单数：

***分销比例:

***”==

2）使用Flask框架，结合Echarts绘制堆叠柱状图，并辅以分销比率折线，标题为“酒店直销，分销订单及比率”（字体要求：

横坐标为酒店名称，纵坐标为销售数量和分销比例，将可视化结果截图并保存。

使用sklearn库中方法构建线性回归模型

企业消费平台为了能在更多省份扩展业务，与更多酒店建立合作关系，为了赢得更多酒店的合作，在合作谈判过程中会通过同区域、同等级销售情况对比，需要提供同类酒店相关经营数据。

企业消费平台希望与住宿场所A进行线上销售合作，需要制作一份销售预测报告来说明酒店将在平台收获的间夜预期。

住宿场所A信息{广东省、广州市、北京路商圈、非客栈，评论数100，房间数200}

请以根据表格相关字段：

是否客栈、评论数、房间数为特征变量，构建线性回归模型，给出明年同期住宿场所A在本平台总间夜数的预期值。

输出预测模型相关指标，同时给出预期结果。

1）请使用sklearn库中方法构建线性回归模型，并在控制台输出住宿场所A总间夜的预测值；

==“住宿场所A明年同期总间夜数预期值为：

***”===

2）使用Flask框架，结合Echarts绘制散点线性回归图，标题为“住宿场所A总间夜数预测”（字体要求：

红色、加粗、斜体），横坐标为时间，纵坐标为总间夜数，将可视化结果截图并保存。

多线雷达图呈现各省份住宿场所综合情况

企业消费平台需要综合评判一个城市住宿场所运营情况，会涉及到多方面住宿场所数据，例如像高端住宿场所数量、订单数量、住客评分、评论数量、出租率、200元/晚以下快捷住宿场所数量等信息，请根据指定表中数据统计相关数据，并以指定图例进行呈现。

请根据数据库中相关表格，统计各城市住宿场所综合运营情况，并以多线雷达图表达。

1）根据数据库中相关表格分别统计北京、上海、广东、四川、海南各地四星/五星住宿场所的数量、平均评分、评论数、各省住宿场所出租率、直销拒单率，在控制台按照“省份”名称升序排列，打印输出各城市住宿场所的多项运营指标；

==省市：

A，四星/五星住宿场所数量为：

A，平均评分为：

B，四星/五星住宿场所数量为：

B，平均评分为：

2）使用Flask框架，结合Echarts绘制多线雷达图，标题为各省份住宿场所综合情况（字体要求：

输出多线雷达图，将可视化结果复制粘贴至对应报告中。

模块E：

综合分析（20分）

假定你为企业

展开阅读全文

高职 大数据技术与应用 任务书10赛项赛题Word下载.docx

高职大数据技术与应用任务书10赛项赛题Word下载.docx