ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:346.54KB ,
资源ID:7575871      下载积分:12 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/7575871.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(最新大众点评网数据分析.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

最新大众点评网数据分析.docx

1、最新大众点评网数据分析大众点评网数据分析 广西大学数学与信息科学学院商务智能课程论文题目:商务智能在大众点评中的应用 小组成员:1111200139 蓝承妙 1111200202 刘金香 摘要:大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站,它不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购及餐厅预订等O2O(Online To Offline)交易服务。本文通过分类回归树和关联规则挖掘出大众点评数据中关于全国各地美食商家的可用信息。关键字:大众点评 分类回归树 关联规则 SPSS一、背景 随着互联网的出现与飞速发展,人们的生活方式一直

2、在发生着巨大的变化。特别是交通、购物、饮食、住宿、教育等各方面均受到来自互联网的极大的影响。大众点评便是一个影响人们日常生活,方便人们娱乐、饮食的点评网站。大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站。大众点评不仅为网友提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购、电子会员卡及餐厅预订等O2O(Online To Offline)交易服务。大众点评是国内最早开发本地生活移动应用的企业,已经成长为一家移动互联网公司,大众点评移动客户端已成为本地生活必备工具。本文使用的数据为大众点评网在2014年4月份更新后的商家数据,其中包含全国各地区100

3、0家美食店相关数据,包括商户ID(shop_id)、商户名称(name)、所处省份(province)、城市(city)、区(area)、具体地址(address)、联系电话(phone)、营业时间(hours)、平均物价(avg_price)、会员卡服务、大众对其产品的各类评价等级、环境、服务等级等数据项。为了有效的使用该数据,本文运用分类回归树、关联规则两种数据挖掘方法对该数据进行分析。二、分类回归树(C&RT) 2.1 C&Rtree 分类回归树(C&Rtree,全称为theclassificationandregressiontree)是一种基于树的分类和预测方法,模型使用简单,易于理

4、解(规则解释起来更简明易),该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。 2.2 目的 通过分析数据中存在的预测因子变量,如店铺的环境等级、产品等级和服务等级等预测并分类,为新用户在选择是否光顾某家店铺提供决策依据。 2.3 数据整理原始数据中包含的内容多而繁杂,为了方便研究,我们从中筛选了涉及店家评价的数据项avg_price、product_rating、environment_rating、service_rating、very_good_remarks、good_remarks、common_remarks、bad_remarks、very_bad_re

5、marks进行整理,将very_good_remarks、good_remarks、common_remarks这三个字段处理为积极评价,字段jiji的值为这三个字段的总和,视为对该店家的积极评价,将bad_remarks、very_bad_remarks这二个字段处理为消极评价,字段xiaoji的值为这二个字段的总和,为该店家的消极评价。新增字段hh取值为0和1,判定该店铺是否值得新客户选择,如果该店铺消极评价(xiaoji)的值小于总评价(jiji+xiaoji)的10%,则认为该店铺值得选择,hh的值为1;反之,则为0,该店铺不值得选择。整理后的数据:avg_price、product_

6、rating、environment_rating、service_rating、hh。 2.4 创建决策树将整理后的数据添加到SPSS工作区域,再添加一个类型节点。在类型节点中,选择Read Value来为指定的字段读取数据。选择hh字段,将其type设为Flag,Direction设为Out,如图1所示。其余所有字段都作为预测因子变量,将Direction设为In。图1 在类型节点中设置相关参数 在类型节点上连接一个C&RT节点,设置其参数,选择简单模式(Simple Mode),如图2所示。图2 Simple标签 运行C&RT节点,出现交互式窗口,完全展开的决策树如图3所示。图3 C&R

7、T决策树2.4 分析决策树从图3可以看到第一层的划分是根据product_rating,第二层的划分根据environment_rating,第三层service_rating。从节点1中,可以看出若大众对某店家product的综合评分在8.25分以上,那么该店家值得光顾;product的综合评分在8.25分以下,则可以参考其环境评分,若environment_rating大于6.75分,说明其环境优美,值得光顾;同理,若其环境评分低于6.75,则可参考其员工服务质量。从店铺角度也能通过该决策树以及其自身在大众点评网上的各项评分来做相应的调整,以提高自身的收益。2.5 评估模型根据创建当前决策

8、树生成评估模型(Generate Model)hh1,工作区中将hh1与类型节点连接起来,在模型设置标签中选择“Calculate confidence”和“Rule identifier”,如图4所示。最后,连接一个数据表节点,并运行当前数据流,如图5所示。图4 计算置信度与规则识别图5 数据流示意图 运行后的数据表列出了那些有可能大众点评中总评价好的美食店家记录,如图6所示。$R-hh列的值表明预测结果,若其值为1,预测该店家值得新用户光顾。图6 数据表 2.6 小结通过整理原始数据中大众对1000家全国各地的店家的积极、消极评价,分析预测因子变量,例如avg_price、product_

9、rating、environment_rating、service_rating,可以预测并分类1000家店铺是否值得光顾,并且能够为提高店家自身评价、收益做出决策。三、关联规则分析3.1 目的根据大众点评网上提及的店铺提供的美食分类来研究各省份受欢迎的美食,从而可以得出该省份的饮食习惯。3.2 数据整理 选取原始数据中的province、city、area、small_cate字段,进行筛选。记录所有的small_cate,若某省某市某地区的店铺提供该类食物,标记为1,否则为0。合成一个新的表格,将数据导入到SPSS中,连接数据集,读取字段名,然后连接一个类型节点,运行,显示结果如图7所示。

10、图7 整理后的数据(部分截图) 用GRI算法生产关联规则来了解各省的饮食习惯,选择在建模过程中使用到的字段变量,将province与所有食物类别的Direction值设为Both编辑类型节点如图8所示。图8 在类型节点中设置字段的Direction值 添加一个GRI节点,编辑该节点,选择“Only true values for flags”运行,浏览新生成的模型,查看它所包含的关联规则。这些规则显示了某省与某食物类型之间的关联规则,选择按照置信度排序方式,结果如图9所示,例如北京与北京菜置信度为1,表明北京人喜欢吃北京菜;广州与茶餐厅置信度为1,表明广州人喜欢喝早茶或下午茶等。图9 使用GR

11、I模型各个省份与食物分类之间的关联关系四、总结我们合理利用现有的大众点评网上全国1000家美食店铺的相关信息,通过决策树与关联规则方法挖掘潜在的商业信息,为苦于寻找美食的广大的“吃货”们提供可参考的店铺数据,同时也为各个商家提高自身客户源与收益做出决策。从顾客方面考虑,利用大众点评网中大众对美食店铺的各项评价,通过数据收集、分类并存放到数据仓库之后,建立模型,进行分析,运用决策树方法,分别从食物等级、环境等级和员工服务等级方面判定该店铺是否值得光顾,为顾客提供便利。 从商家方便考虑,零售企业管理中知识化的管理模式是企业获得持续竞争优势的源泉,而数据挖掘技术是挖掘企业潜在的、有用的、有价值信息的有力工具,为从数据海洋中挖掘相关知识提供了技术保障。通过大众点评网获取的某美食店铺累积的大量数据,运用关联规则方法,从而识别全国各地区的广大群众的口味,了解顾客消费行为,发现顾客选择光顾店铺模式和趋势,可以提供各商家为满足大众需求的创业机会,为制定营销策略提供科学依据,从而取得更好的顾客保持力和满意程度,进一步推动整个行业不断发展。参考文献1 徐羡文,郑厦君.关联规则支持下的营销策略研究J.大观周刊,2011,28,203-203.2 姚伟星.决策树在产品满意因素分析中的应用J.东京文学.2011,2,188-189.3 卢东标.基于决策树的数据挖掘算法研究与应用D.武汉理工大学.2008.

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1