ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:27.07KB ,
资源ID:5794419      下载积分:2 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5794419.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(河北省职业院校技能大赛高职组大数据技术与应用赛项.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

河北省职业院校技能大赛高职组大数据技术与应用赛项.docx

1、河北省职业院校技能大赛高职组大数据技术与应用赛项2021年河北省职业院校技能大赛高职组“大数据技术与应用”赛项任务书(B卷)项目背景餐饮行业历史悠久,伴随看互联网的兴起f餐饮行业不得不从酒香不怕巷子深转变为服务至上.用户体验至上的运营模式。外卖行业更是直接把传统的餐饮行业拉进了互联网 时代,无论是对外寻找精准客户群,还是对内逬销存管理r都需要I艮据数据分析调整运营策 略。越来越多的餐饮广告出现在视频广告,交通工具W城市大街小巷,然而也从来没有哪个 时代的餐饮业像今天这样竞争激烈、快进快出,餐饮竞争的加剧使得餐饮品类在持续分化。大数据在这种变化中起到了至关重要的作用如今的餐饮行业很多都会在抢购热

2、潮来临之前,使用大;来分析消费趋势,以此在美食热潮中获得更多收益。随着社会经济的快速发展r 消费者的需求和偏好一直在改变。餐饮行业需要对地域、受众人群、流行趋势进行总体分析, 通过不同类型店铺的地理分布、店铺经营主类与受众人群相契合、把握美食流行趋势对顾客做出分析,设走未来市场经营策略,以便获得更好的发展。为完成该项任务你所在的小组计划选用在业界广泛应用的Python和JAVA语言,作为 整个项目的基础语言,并综合利用scrapy框架、MapReduce. MySQL、Flask框架(Jinja2 模板引擎)、ECharts组件等技术,提高开发效率并实现项目要求,通过在离线网站上爬取到的相关信

3、息,使用Python等手段对匚进行爬取、清洗、整理、计算、表达、分析,力求实现对未来餐饮重点战略方向提出建议。作为该小组的技术人员,你们是这次技术方案的核心成员,请按照下面步骤完成本次技术展示任务,并逬行综合分析。祝你们成功!坏境参考信息:编号任务类型用户密码1Hadoop平台部署master主节点rootpasswd2slavel从节点rootpasswd3slave2从节点rootpasswd4数据采集网站5数据清洗分析节点hadooppasswd6数据可视化节点restaurantrestaurant相关软件安装包在/h3cu目录下。任务中涉及的所有命令请均使用绝对路径。相关提交报告模板

4、在桌面文件夹竞赛提交文档下,文件名为2020年山东省大数 据技术与应用省赛提交结果文档“工位XX.docx,根据实际工位号修改文件名中的“XX, 另存为PDF格式提交。任务一环境搭建(15分).Hadoop HA 部署本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部 署要求如下:1.在master节点将/h3cu下的JDK包解ij/usr/local/src ,将执行命令复制粘贴至 提交结果文档。2.设置JDK环境变星,并使环境变星只对当前root用户生效;将环境变呈配置内容 复制粘贴至提交结果文档。3.从master节点复制JDK环境变臺文件bash_prof

5、ile到slavel. slave2节点,命 令和结果复制粘贴至提交结果文档。4.酉8置SSH密钥登录,实现从master节点登录到slavel节点,配置完成后,使用 SSH免密登陆slavel节点的命令和结果复制粘贴至提交结果文档。5.Zookeeper配置完毕后,启动Zookeeper,在slave2节点启动Zookeeper,查看 Zookeeper状态,将命令和结果复制粘贴至提交结果文档。6.在Zookeeper、HadoopHA配置完毕后,在master节点启动(同时启动datanode 节点)并查看逬程状态,将命令和结果复制粘贴至提交结果文档。7.Hadoop HA配置完毕后,在s

6、lavel节点查看进程(slavel节点作为namenode standby节点),将命令及结果复制粘贴至提交结果文档。二、Sqoop咅卩署说明:master节点MySQL数据库用户名/密码:root/Passwordl23$1.解压/h3cu路径下的Sqoop安装包到/usr/local/src路径下并使用相关命令, 修改解压后文件夹名为sqoop ,进入sqoop文件夹,查看文件夹内容,并将查看命令及结 果复制粘贴至提交结果文档;2.修改只对当前root生效的环境变呈眉坏境变呈配置内容复制粘贴至提交结果文档;3.修改并配置sqoop-env.sh文件,编辑配置文件命令及配置文件内容,将配置

7、文件 内容复制粘贴至提交结果文档;4.测试Sqoop连接MySQL数据库是否成功。使用sqoop命令连接MySQL数据库, 查询MySQL中所有数据库名称,将命令和结果复制粘贴至提交结果文档。任务二数据采集(20分)1.网站解析,利用chrome查看网页源码,分析餐饮网站网页结构。1)打开餐饮网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;2)检查网站:浏览网站源码查看所需内容。2.从餐饮网站中爬取需要数据,按照要求使用Java或Python语言编写并完善爬虫代 码,爬取指走数据项,并:!各代码复制粘贴至提交结果文档。具体步骤如下:1) 创建爬虫项目;2) 构建爬虫请求;3)按要求

8、走义相关字段;4)获取有效数据;5)将爬取到的数据保存到指走位置。至此已从餐饮网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操 作。详细数据描述:已创建scrapy项目CateringScrapy (路径:C:catering_crawl)。本任务要求从餐 饮网站(网站地址在竞塞平台任务二中给岀)中抓取数据,提取有效数据项包括实现所属年 月、商家名称、主营类型、特色菜、累计评论数、累计销售人次、店铺评分、本月销呈、本 月销售额、城市、商家地址、电话字段。每条信息请以单独一行保存,信息存储格式为key : value.将相关内容复制并粘贴至提交结果文档。任务三 数据清洗与分析(2

9、5分)现已从相关网站及平台获取到原始数据集为保障商户隐私和行业敏感信息,已经对数1逬行改造并提据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的 可靠保护。在不违反系统规则条彳牛下,对涉及客户安全或商业敏感的真实: 供测试使用,如身份证号、手机号等个人敏感信息都需要逬行数据脱敏。本任务已将脱敏后 的数据存放于/h3cu工程所需配置文件pom.xml存放于C:任务三程序配置文件。3丄数据清洗步骤一餐饮行业中销呈是对经营状况最直观的体现,商家的成本会随看销呈的上升而上升,但 些隐性成本会有所下降r例如人工成本、基础物料成本,所以在利润增加的状况下,成本 比例将会下降。

10、增加利润、降低成本是商家的普遍追求,同时销星能够反馈经营策略的有效 性、商家在当前形势下的竞争力。因此密切关注订单销星能够使商家对当前经营状况明确走 位,在销呈下滑时及时分析原因调整经营策略,在销呈上升时加强优势倾斜,乘胜追击。请 根据任务要求实现对给定源数据中销售数据进行清洗,并写入指走的数据库或数据文件,将 相关内容复制并粘贴至提交结果文档。腳描述:数据源文件存放于平台/h3cu/datacsv请编写spark程序,按照如下要求实现对数 据的清洗,并将结果输出至hdfs文件系统中/foodsparktaskl ,将结果复制并粘贴至提交 结果文档。解析数据源文件剔除本月销星为空值或0 ,且本

11、月销售额不为空值或0的记录剔除字符串首尾的双引号程序打包并在spark平台上运行,结果输岀至hdfs文件系统中/foodspa rktaskl步骤二店铺评分是综合计算商户名下的用户评分得到商户基评分。来自不同渠道、不同业务、 不同时间的用户评分,可能享有各不相同的计算权重。用户的满意度是影响商家综合评分的 重要因素,用户满意才会给出较高的评价分数,为了提高用户的满意度,可以从提高店铺餐 品服勢和及时解决用户问题两方面入手。同时商家可以安排专人负责店铺的评价管理,发现 用户给了较低分数,及时沟通采取方法逬行补救,从根本上提高店铺评分。同时,积极引导 客户留下满意的评价,提升店铺的好评率。请根据任

12、要求实现对评分数据进行清洗,并写 入指走的数据库或数据文件,并保存结果至提交结果文档。删描述:请编写spark程序,按照如下要求实现对数据的清洗,并将结果输岀至hdfs文件系统 中/foodsparktask2 ,将结果复制并粘贴至提交结果文档。解析数据源文件剔除店铺评分为非数字及空值的记录程序打包并在spark平台上运行,结果输出至hdfs文件系统中/foodspa rktask23.2数据分析步骤一店铺评分是综合计算商户名下的用户评分得到商户基础评分。来自不同渠道、不同业务、 不同时间的用户评分,可能享有各不相同的计算权重。用户的满意度是影响商家综合评分的 重要因素,用户满意才会给出较高的

13、评价分数,为了提高用户的满意度,可以从提高店铺餐 品服务和及时解决用户问题两方面入手。同时商家可以安排专人负责店铺的评价管理,发现 用户给了较低分数,及时沟通采取方法逬行补救r从根本上提高店铺评分。同时,积极引导 客户留下满意的评价,提升店铺的好评率。请根据相关数据集完成分析任务,并保存结果至 提交结果文档。详细描述:清洗结果数据集,使用HIVE自定义函数及HQL语句,按要求汇总数据集中的本月销呈,销售人次,本月销售额并将数据存入表tablel中。将相关内容复制并粘贴至提交结果文档。步骤二餐饮商铺密度反映了地区美食行业的繁茉程度。特走区域内商铺数呈多,一方面说明该 区域对餐饮消费需求呈大,可能

14、是车站等交通枢纽,也可能是公司密集的高新区域,另一方 面商铺数呈众多既是机遇、也是挑战,需求带动的高商铺密度很可能已经造成商户饱和,新兴店铺难以生存。餐饮行业有着自己的行业特色和要求,不同地段的特征对餐饮业的要求不同。请根据相关t集完成任务具体要求,并保存结果至握交结果文档。详细描述:请根据分析步骤一的结果数据集r使用HIVE自走义函数及HQL语句,汇总数据集中 不同城市中各区的店铺数星,并将数据存入表table2中。梅命令及结果复制并粘贴至提交 结果文档。任务四数据可视化(20分)请根据Mysql库中相关数据表格,使用flask框架,结合echarts完成下列任务。数据库账号:restaur

15、ant 密码:restaurant代码路径:C:restaurant_visual注意:代码中临时循坏变量请使用I表示。1.城市餐饮消费情况一走程度上反映了该地区的当下的经济状况、就业形势和发展潜 力。对于餐饮行业来说,主动贴合客户需求、迎合地方口味,因地制宜地走位店铺经营方向 及消费层次至关重要。按任务要求,输出相关图例说明不同城市的餐饮销售情况。详细描述:MySQL库中的数据集city_sale_apri , city_sale_may分别为各城市4月份、5月份的餐饮销量,包含id、城市、区、销量4个字段,请根据相关数据各城市餐饮销售表现, 并以双柱图例呈现。将结果截图并粘贴至提交结果文档

16、。2.店铺评分是综合计算商户名下的用户评分得到商户基础评分,是顾客对商家出品及服务态度等因素综合满意度的体现,在用户进行消费选择时起到非常重要的作用。痴坯要 求,输出相关图例,说明不同评分的商铺占比情况。详细描述:MySQL库中的数据集restaurant_score_num包含序号id、店铺评分、店铺数量3个字段,请根据相关数据展现不同评分区间店铺的数星对比r并以饼图例呈现。将结果截 图并粘贴至提交结果文档。3.餐饮商铺数量反映了地区美食行业的繁荣程度。区域内商铺数星多,说明该区域对 餐饮消费需求臺大,但商铺数臺众多既是机遇、也是挑战,需求带动的高商铺密度很可能已 经造成商户饱和,新兴店铺难

17、以生存。按任务要求,输出相关图例对比说明不同地区的商铺详细描述:MySQL库中的数据集cityjestauranLnum包含序号id、城市、店铺数呈3个字段,请根据相关数据展现不同地区的店铺数星对比,并以柱状图例呈现。将结果截图并粘贴至提交结果文档。4.餐饮行业需要对地域、受众人群、流行趋势逬行总体分析,通过不同类型店铺的地 理分布、店铺经营主类与受众人群相契合、把握美食流行趋势对顾客的消费数据做出分析, 设定未来市场经营策略,以便获得更好的发展。痴坯要求,输出相关图例说明不同主营类 型的餐饮销售情况。详细描述:展现各种类型MySQL数据库中的数据集restaurant Jype.count为

18、各城市中包含的不同餐饮主营类型的店铺数呈,包含序号城市、主营类型、数呈3个字段,请根据相关f 餐饮占比情况,并以雷达图例呈现。将结果截图并粘贴至提交结果文档。任务五综合分析(15分)通过以上任务的完成,至此我们已经清晰地了解了餐饮行业的业务背景,得到了相关数据。现在需要在综合理解餐饮行业数据的基础上,进行综合分析,并编写分析报告。分析结 果需要以上面任勢中的结论作为佐证材料。分析报告要求:1.从餐饮店铺的餐饮类别、销呈、销售额、高分店铺占比等维度,对经营情况进行分 析。每个维度均以图例和文字描述分别进行说明;2.通过对影响餐饮经营的因素进行分析,对未来餐饮店铺规划及经营策略提出建议(不 少于3条建议)。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1