ImageVerifierCode 换一换
格式:DOCX , 页数:19 ,大小:30.89KB ,
资源ID:13413299      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/13413299.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(全国职业院校技能大赛大数据题库任务书1文档格式.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

全国职业院校技能大赛大数据题库任务书1文档格式.docx

1、为完成该项工作,你所在的小组将应用大数据技术,以Python、Java、Scala作为整个项目的基础开发语言,基于大数据平台综合利用MapReduce、Spark、MySQL、Scrapy、Flask、ECharts等,对数据进行获取、处理、清洗、挖掘、分析、可视化呈现,力求实现对公司未来的重点战略方向提出建议。 你们作为该小组的技术人员,请按照下面任务完成本次工作,并编制综合报告。模块A:Hadoop平台及组件的部署管理(15分)环境说明:编号主机名类型用户密码1master主节点root1234562slave1从节点3slave2补充说明:主节点MySQL数据库用户名/密码:root/1

2、23456相关软件安装包在/chinaskills目录下所有模块中应用命令必须采用绝对路径任务一:Hadoop HA部署管理本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部署要求如下:1、将/chinaskills下的JDK包解压到/usr/local/src路径下,命令复制并粘贴至对应报告中;2、设置JDK环境变量,并使环境变量只对当前root用户生效;将环境变量配置内容复制并粘贴至对应报告中;3、从master复制JDK环境变量文件到slave1、slave2节点,命令和结果复制并粘贴至对应报告中;4、配置SSH密钥登录,实现从master登录到slave1

3、,命令和结果复制并粘贴至对应报告中;5、Zookeeper配置完毕后,在slave2节点启动Zookeeper,查看Zookeeper运行状态,将命令和结果复制并粘贴至对应报告中;6、Zookeeper、Hadoop HA配置完毕后,在master节点启动Hadoop,并查看服务进程状态,并将结果复制并粘贴至对应报告中;7、Hadoop HA配置完毕后,在slave1节点查看服务进程,将命令及结果复制并粘贴至对应报告中。任务二:Hive部署管理本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体部署要求如下:1、将指定路径下的Hive安装包解压到(/usr/loc

4、al/src)下,使用绝对路径,将命令复制并粘贴至对应报告中;2、把解压后的apache-hive-1.2.2-bin文件夹更名为hive;进入hive文件夹,并将查看命令及结果复制并粘贴至对应报告中;3、设置Hive环境变量,并使环境变量只对当前root用户生效;并将环境变量配置内容复制并粘贴至对应报告中;4、将Hive安装目录里hive-default.xml.template文件更名为hive-site.xml;并将更改命令复制并粘贴至对应报告中;5、通过VI编辑器配置hive-site.xml文件,将MySQL数据库作为Hive元数据库。将配置文件“Hive元存储”相关内容复制并粘贴至

5、对应报告中;6、初始化Hive元数据,将MySQL数据库JDBC驱动拷贝到Hive安装目录的lib文件夹下;并通过schematool命令执行初始化,将初始化结果复制粘贴至对应报告中;7、启动Hive并保存命令输出结果,将结果输出复制粘贴至对应报告中。任务三:Sqoop组件部署管理1、解压/chinaskills路径下的Sqoop安装包到/usr/local/src路径下,并使用相关命令,修改解压后文件夹名为sqoop,进入sqoop文件夹,并将查看内容复制粘贴至对应报告中;2、修改Sqoop环境变量,并使环境变量只对当前root用户生效,并将变量内容复制粘贴至对应报告中;3、修改并配置sqo

6、op-env.sh文件,并将修改内容复制粘贴至对应报告中;4、测试Sqoop连接MySQL数据库是否成功,结果复制粘贴至对应报告中。模块B:数据采集与处理(20分)项目背景说明1、查看餐饮外送统计平台网站源码结构。1)打开网站,在网页中右键点击检查,或者F12快捷键,查看源码页面;2)检查网站:浏览网站源码查看所需内容。2、从餐饮外送统计平台中采集需要数据,按照要求使用Python语言编写代码工程,获取指定数据项,并对结果数据集进行必要的数据处理。请将符合任务要求的结果复制粘贴至对应报告中。具体步骤如下:1)创建工程工程项目:C:food_delivery_crawl2)构建采集请求3)按要求

7、定义相关字段4)获取有效数据5)将获取到的数据保存到指定位置6)对数据集进行基础的数据处理至此已从餐饮外送统计平台中获取所需数据,并完成了必要的基础的数据处理。3、每条数据记录请以单独一行保存,信息存储格式为key:value。文件保存路径为:output。示例: rest_id : *, rest_name ,,爬取网页信息自行创建Scrapy工程编写爬虫代码,爬取“配送平台数据”与“店铺运营数据”页面相关数据,通过爬虫代码分页爬取,将使用re解析分页链接的程序源代码复制粘贴至对应报告中。爬取指定文件运行代码,爬取“配送平台数据”与“店铺运营数据”页面相关数据分别至range_audited

8、.json、grey_value.json文件。查看文件并填写采集到的记录行数,并将答案复制粘贴至对应报告中。 示例格式:range_audited.json行数为:grey_value.json行数为:属性判断审查爬取的range_audited数据,判断属性“申请递交时间”与“申请时间”是否为重复属性。如果为重复属性,则删除“申请时间”,并输出前10条数据记录;如果不是重复属性,请输出数据集中数值不相同的记录条数。并将答案复制粘贴至对应报告中。任务四:数据探索针对爬取的grey_value数据,利用DataFrame.describe方法探索数据基本情况,将输出结果复制粘贴至对应报告中。任

9、务五:缺失值统计针对缺失值较多的属性“推单数-8日”,“有效完成率-8日”,“超时率-8日”,请分别计算下列任务,并将正确答案复制粘贴至对应报告中。(1)属性“推单数-8日”空值记录条数为: ,中位数为: 。(2)属性“有效完成率-8日”空值记录条数为: ,平均值为:(3)属性“超时率-8日”空值记录条数为: 。任务六:缺失值处理请根据任务5中计算的结果,对数据集中存在空值的字段使用均值进行填充。查看填充后的数据集前5条记录,将查看结果复制粘贴至对应报告中。模块C:数据清洗与挖掘分析(25分)餐饮外卖平台的核心价值体现在配送,而配送的价值则依赖于商家与客户的双向选择。外卖平台通常会通过内容激活

10、消费者和商家两个群体的活跃度。消费者会参考平台展示的内容选择商家,商家也会以消费者评价与平台统计数据为依据调整策略,由此再吸引更多的用户下单、评论、形成正向循环。保证配送的时效与品质是从优化用户体验的角度,吸引更多的用户参与,进而带动商家不断入驻。由此,商家、消费者、骑手在平台上形成越来越多的真实可靠的数据,帮助消费者更好的做出消费决策,同时促进商家提高服务质量。而平台通过数据,不断调整优化服务,从而不断提升这种多边网络效应。提升网络效应的直接结果就是用户和商家规模大幅提升,进而形成规模效应降低获客成本、提高效益,并且不断提升自己的行业壁垒。为探索各大外卖平台的市场策略与经营模式,现已从平台获

11、取到了原始数据集,包含“餐厅id,retailer_id,餐厅名称,城市,商户业务包,配送范围,客单价,推单数,接单数,有效完成单数,投诉率,异常率,欺诈单数,拒单数,商户取消数,客户取消数,系统取消数,配送取消异常数,整体时长,接单时长,到店时长,取餐时长,送达时长,商户投诉数,用户投诉数,差评数,好评数,评价数,最远订单距离,该订单整体时效,该订单接单时效,该订单到店时效,该订单取餐时效,该订单送达时效,该订单评价”字段。为保障用户隐私和行业敏感信息,已经对数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或一些商业性敏感数据的情

12、况下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人敏感信息都需要进行数据脱敏。本题已将脱敏后的数据存放于平台对应任务/chinaskills目录下。工程所需配置文件pom.xml存放于“C:清洗配置文件”。任务中所有命令务必使用绝对路径。数据清洗子任务1任务背景:数据源为众多网站及平台的数据汇总,且为多次采集的结果,在整合多来源数据时可能遇到数据冲突,或数据拼接导致的属性列矛盾等情况。请根据任务具体参数要求,针对原始数据集中不符合业务逻辑的属性列进行清洗,并写入指定的数据库或数据文件,复制并保存结果。任务描述:数据源文件存放于平台对应任务/chinaskills目录下,其中属性“

13、推单数”是指外卖平台通过顾客点单向商家推送的订单数量,“接单数”为商家根据自身情况,最终选择接受订单的数量。一般来说,商家对于平台推送的订单,排除自身原因,例如原材料耗尽、用户下单时店铺已经打烊等特殊情况,都会选择接单。请按照如下要求编写Spark程序对数据进行清洗,并将结果输出/diliveryoutput1。1)分析/chinaskills中json数据文件2)针对属性列“推单数”、“接单数”,排查并删除异常数据条目3)程序打包并在Spark平台运行,结果输出至HDFS文件系统/diliveryoutput1具体任务要求:1、将相关文件上传至HDFS新建目录/platform_data中,编写Spark程序,剔除属性列“推单数”小于“接单数”的异常数据条目,并在程序中以打印语句输出异常条数。将打印输出结果复制并保存至对应报告中。(复制内容需包含打印语句输出结果的上下各 5 行运行日志)。示例格式:=“推单数”小于“接单数”的异常数据条数为*条=2、程序打包并在Spark平台运行,将剔除异常数据后的结果数据集json文件输出至HDFS文件系统/diliveryoutput1(将分区数设置为1)。并查看输出文件前5条记录,将查看命令与执行结果复制粘贴至对应报告中。子任务2客单价是指客户在该商铺

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1