河北省职业院校技能大赛高职组大数据技术与应用赛项.docx
《河北省职业院校技能大赛高职组大数据技术与应用赛项.docx》由会员分享,可在线阅读,更多相关《河北省职业院校技能大赛高职组大数据技术与应用赛项.docx(8页珍藏版)》请在冰豆网上搜索。
河北省职业院校技能大赛高职组大数据技术与应用赛项
2021年河北省职业院校技能大赛高职组“大数
据技术与应用”赛项
任务书(B卷)
项目背景
餐饮行业历史悠久,伴随看互联网的兴起f餐饮行业不得不从"酒香不怕巷子深〃转变
为服务至上.用户体验至上的运营模式。
外卖行业更是直接把传统的餐饮行业拉进了互联网时代,无论是对外寻找精准客户群,还是对内逬销存管理r都需要I艮据数据分析调整运营策略。
越来越多的餐饮广告出现在视频广告,交通工具W城市大街小巷,然而也从来没有哪个时代的餐饮业像今天这样竞争激烈、快进快出,餐饮竞争的加剧使得餐饮品类在持续分化。
大数据在这种变化中起到了至关重要的作用如今的餐饮行业很多都会在抢购热潮来临之前,
使用大;
来分析消费趋势,以此在美食热潮中获得更多收益。
随着社会经济的快速发展r消费者的需求和偏好一直在改变。
餐饮行业需要对地域、受众人群、流行趋势进行总体分析,通过不同类型店铺的地理分布、店铺经营主类与受众人群相契合、把握美食流行趋势对顾客
做出分析,设走未来市场经营策略,以便获得更好的发展。
为完成该项任务■你所在的小组计划选用在业界广泛应用的Python和JAVA语言,作为整个项目的基础语言,并综合利用scrapy框架、MapReduce.MySQL、Flask框架(Jinja2模板引擎)、ECharts组件等技术,提高开发效率并实现项目要求,通过在离线网站上爬取
到的相关信息,使用Python等手段对匚
进行爬取、清洗、整理、计算、表达、分析,力
求实现对未来餐饮重点战略方向提出建议。
作为该小组的技术人员,你们是这次技术方案的核心成员,请按照下面步骤完成本次技
术展示任务,并逬行综合分析。
祝你们成功!
坏境参考信息:
编号
任务
类型
用户
密码
1
Hadoop平台部署
master主节点
root
passwd
2
slavel从节点
root
passwd
3
slave2从节点
root
passwd
4
数据采集
网站
5
数据清洗分析
节点
hadoop
passwd
6
数据可视化
节点
restaurant
restaurant
相关软件安装包在/h3cu目录下。
任务中涉及的所有命令请均使用绝对路径。
相关提交报告模板在桌面文件夹"竞赛提交文档"下,文件名为"2020年山东省大数据技术与应用省赛提交结果文档“工位XX.docx",根据实际工位号修改文件名中的“XX",另存为PDF格式提交。
任务一环境搭建(15分)
—.HadoopHA部署
本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部署要求如下:
1.在master节点将/h3cu下的JDK包解®ij/usr/local/src,将执行命令复制粘贴至提交结果文档。
2.设置JDK环境变星,并使环境变星只对当前root用户生效;将环境变呈配置内容
复制粘贴至提交结果文档。
3.从master节点复制JDK环境变臺文件bash_profile到slavel.slave2节点,命令和结果复制粘贴至提交结果文档。
4.酉8置SSH密钥登录,实现从master节点登录到slavel节点,配置完成后,使用SSH免密登陆slavel节点的命令和结果复制粘贴至提交结果文档。
5.Zookeeper配置完毕后,启动Zookeeper,在slave2节点启动Zookeeper,查看Zookeeper状态,将命令和结果复制粘贴至提交结果文档。
6.在Zookeeper、HadoopHA配置完毕后,在master节点启动(同时启动datanode节点)并查看逬程状态,将命令和结果复制粘贴至提交结果文档。
7.HadoopHA配置完毕后,在slavel节点查看进程(slavel节点作为namenodestandby节点),将命令及结果复制粘贴至提交结果文档。
二、Sqoop咅卩署
说明:
master节点MySQL数据库用户名/密码:
root/Passwordl23$
1.解压/h3cu路径下的Sqoop安装包到"/usr/local/src"路径下并使用相关命令,修改解压后文件夹名为sqoop,进入sqoop文件夹,查看文件夹内容,并将查看命令及结果复制粘贴至提交结果文档;
2.修改只对当前root生效的环境变呈眉坏境变呈配置内容复制粘贴至提交结果文档;
3.修改并配置sqoop-env.sh文件,编辑配置文件命令及配置文件内容,将配置文件内容复制粘贴至提交结果文档;
4.测试Sqoop连接MySQL数据库是否成功。
使用sqoop命令连接MySQL数据库,查询MySQL中所有数据库名称,将命令和结果复制粘贴至提交结果文档。
任务二数据采集(20分)
1.网站解析,利用chrome查看网页源码,分析餐饮网站网页结构。
1)打开餐饮网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;
2)检查网站:
浏览网站源码查看所需内容。
2.从餐饮网站中爬取需要数据,按照要求使用Java或Python语言编写并完善爬虫代码,爬取指走数据项,并:
!
各代码复制粘贴至提交结果文档。
具体步骤如下:
1)创建爬虫项目;
2)构建爬虫请求;
3)按要求走义相关字段;
4)获取有效数据;
5)将爬取到的数据保存到指走位置。
至此已从餐饮网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作。
详细数据描述:
已创建scrapy项目CateringScrapy(路径:
C:
\catering_crawl)。
本任务要求从餐饮网站(网站地址在竞塞平台任务二中给岀)中抓取数据,提取有效数据项包括实现所属年月、商家名称、主营类型、特色菜、累计评论数、累计销售人次、店铺评分、本月销呈、本月销售额、城市、商家地址、电话字段。
每条信息请以单独一行保存,信息存储格式为key:
value.将相关内容复制并粘贴至提交结果文档。
任务三数据清洗与分析(25分)
现已从相关网站及平台获取到原始数据集『为保障商户隐私和行业敏感信息,已经对数
1逬行改造并提
据脱敏。
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
在不违反系统规则条彳牛下,对涉及客户安全或商业敏感的真实:
供测试使用,如身份证号、手机号等个人敏感信息都需要逬行数据脱敏。
本任务已将脱敏后的数据存放于/h3cu°工程所需配置文件pom.xml存放于〃C:
\任务三程序配置文件〃。
3丄数据清洗
步骤一
餐饮行业中销呈是对经营状况最直观的体现,商家的成本会随看销呈的上升而上升,但—些隐性成本会有所下降r例如人工成本、基础物料成本,所以在利润增加的状况下,成本比例将会下降。
增加利润、降低成本是商家的普遍追求,同时销星能够反馈经营策略的有效性、商家在当前形势下的竞争力。
因此密切关注订单销星能够使商家对当前经营状况明确走位,在销呈下滑时及时分析原因调整经营策略,在销呈上升时加强优势倾斜,乘胜追击。
请根据任务要求实现对给定源数据中销售数据进行清洗,并写入指走的数据库或数据文件,将相关内容复制并粘贴至提交结果文档。
腳描述:
数据源文件存放于平台/h3cu/data・csv°请编写spark程序,按照如下要求实现对数据的清洗,并将结果输出至hdfs文件系统中/foodsparktaskl,将结果复制并粘贴至提交结果文档。
•解析数据源文件
•剔除"本月销星"为空值或0,且"本月销售额"不为空值或0的记录
•剔除字符串首尾的双引号
•程序打包并在spark平台上运行,结果输岀至hdfs文件系统中
/foodsparktaskl
步骤二
店铺评分是综合计算商户名下的用户评分得到商户基评分。
来自不同渠道、不同业务、不同时间的用户评分,可能享有各不相同的计算权重。
用户的满意度是影响商家综合评分的重要因素,用户满意才会给出较高的评价分数,为了提高用户的满意度,可以从提高店铺餐品服勢和及时解决用户问题两方面入手。
同时商家可以安排专人负责店铺的评价管理,发现用户给了较低分数,及时沟通采取方法逬行补救,从根本上提高店铺评分。
同时,积极引导客户留下满意的评价,提升店铺的好评率。
请根据任^要求实现对评分数据进行清洗,并写入指走的数据库或数据文件,并保存结果至提交结果文档。
删描述:
请编写spark程序,按照如下要求实现对数据的清洗,并将结果输岀至hdfs文件系统中/foodsparktask2,将结果复制并粘贴至提交结果文档。
•解析数据源文件
•剔除"店铺评分"为非数字及空值的记录
•程序打包并在spark平台上运行,结果输出至hdfs文件系统中
/foodsparktask2
3.2数据分析
步骤一
店铺评分是综合计算商户名下的用户评分得到商户基础评分。
来自不同渠道、不同业务、不同时间的用户评分,可能享有各不相同的计算权重。
用户的满意度是影响商家综合评分的重要因素,用户满意才会给出较高的评价分数,为了提高用户的满意度,可以从提高店铺餐品服务和及时解决用户问题两方面入手。
同时商家可以安排专人负责店铺的评价管理,发现用户给了较低分数,及时沟通采取方法逬行补救r从根本上提高店铺评分。
同时,积极引导客户留下满意的评价,提升店铺的好评率。
请根据相关数据集完成分析任务,并保存结果至提交结果文档。
详细描述:
清洗结果数据集,使用HIVE自定义函数及HQL语句,按要求汇
总数据集中的本月销呈,销售人次,本月销售额『并将数据存入表tablel中。
将相关内容复制并粘贴至提交结果文档。
步骤二
餐饮商铺密度反映了地区美食行业的繁茉程度。
特走区域内商铺数呈多,一方面说明该区域对餐饮消费需求呈大,可能是车站等交通枢纽,也可能是公司密集的高新区域,另一方面商铺数呈众多既是机遇、也是挑战,需求带动的高商铺密度很可能已经造成商户饱和,新
兴店铺难以生存。
餐饮行业有着自己的行业特色和要求,不同地段的特征对餐饮业的要求不
同。
请根据相关t
集完成任务具体要求,并保存结果至握交结果文档。
详细描述:
请根据分析步骤一的结果数据集r使用HIVE自走义函数及HQL语句,汇总数据集中不同城市中各区的店铺数星,并将数据存入表table2中。
梅命令及结果复制并粘贴至提交结果文档。
任务四
数据可视化(20分)
请根据Mysql
库中相关数据表格,使用flask框架,结合echarts完成下列任务。
数据库账号:
restaurant密码:
restaurant
代码路径:
C:
\restaurant_visual
注意:
代码中临时循坏变量请使用I•表示。
1.城市餐饮消费情况一走程度上反映了该地区的当下的经济状况、就业形势和发展潜力。
对于餐饮行业来说,主动贴合客户需求、迎合地方口味,因地制宜地走位店铺经营方向及消费层次至关重要。
按任务要求,输出相关图例说明不同城市的餐饮销售情况。
详细描述:
MySQL
库中的数据集city_sale_apri,city_sale_may分别为各城市4月份、5月
份的餐饮销量,包含id、城市、区、销量4个字段,请根据相关数据各城市餐饮销售表现,并以双柱图例呈现。
将结果截图并粘贴至提交结果文档。
2.店铺评分是综合计算商户名下的用户评分得到商户基础评分,是顾客对商家出品及
服务态度等因素综合满意度的体现,在用户进行消费选择时起到非常重要的作用。
痴坯要求,输出相关图例,说明不同评分的商铺占比情况。
详细描述:
MySQL
库中的数据集restaurant_score_num包含序号id、店铺评分、店铺数量
3个字段,请根据相关数据展现不同评分区间店铺的数星对比r并以饼图例呈现。
将结果截图并粘贴至提交结果文档。
3.餐饮商铺数量反映了地区美食行业的繁荣程度。
区域内商铺数星多,说明该区域对餐饮消费需求臺大,但商铺数臺众多既是机遇、也是挑战,需求带动的高商铺密度很可能已经造成商户饱和,新兴店铺难以生存。
按任务要求,输出相关图例对比说明不同地区的商铺
详细描述:
MySQL
库中的数据集cityjestauranLnum包含序号id、城市、店铺数呈3个字
段,请根据相关数据展现不同地区的店铺数星对比,并以柱状图例呈现。
将结果截图并粘贴
至提交结果文档。
4.餐饮行业需要对地域、受众人群、流行趋势逬行总体分析,通过不同类型店铺的地理分布、店铺经营主类与受众人群相契合、把握美食流行趋势对顾客的消费数据做出分析,设定未来市场经营策略,以便获得更好的发展。
痴坯要求,输出相关图例说明不同主营类型的餐饮销售情况。
详细描述:
展现各种类型
MySQL数据库中的数据集restaurantJype.count为各城市中包含的不同餐饮主营类
型的店铺数呈,包含序号城市、主营类型、数呈3个字段,请根据相关f餐饮占比情况,并以雷达图例呈现。
将结果截图并粘贴至提交结果文档。
任务五
综合分析(15分)
通过以上任务的完成,至此我们已经清晰地了解了餐饮行业的业务背景,得到了相关数
据。
现在需要在综合理解餐饮行业数据的基础上,进行综合分析,并编写分析报告。
分析结果需要以上面任勢中的结论作为佐证材料。
分析报告要求:
1.从餐饮店铺的餐饮类别、销呈、销售额、高分店铺占比等维度,对经营情况进行分析。
每个维度均以图例和文字描述分别进行说明;
2.通过对影响餐饮经营的因素进行分析,对未来餐饮店铺规划及经营策略提出建议(不少于3条建议)。