1、姚丹妮 商务智能课设报告DOCdoc商务智能课程设计报告 班 级: 信管131 学 号: 3130561025 姓 名: 姚丹妮 同 组 人: 赵咪 杨乔 指导教师: 王建仁/李明 日 期:2016.01.04-2016.01.08 1需求分析 32数据理解 33挖掘(或分析)数据准备 44数据挖掘(或分析)过程 54.1挖掘算法与挖掘软件选择 54.2 数据预处理 54.3挖掘过程说明 65结果展示与评价 186总结 196.1 设计中遇到的主要问题及解决方法 196.2设计方案的主要优点及不足 196.3 收获及建议 19参考文献 19连锁酒店顾客信用度分析方案设计1需求分析 一个连锁酒店
2、的经营与不同客户息息相关。酒店不仅需要每天面对不同的新增客户,也需要维系老客户。所以对于已消费的顾客的信用度的分析尤为重要。不同顾客信用度之间存在诸多差异。好坏之分也影响了酒店的经营状况。一个信用度良好的客户对于酒店来说是好事,但如果一个顾客信用度底下,则极有可能出现拖欠房费等状况,这会严重损坏酒店利益。因此我会采用分类分析的方法。利用决策树模型构建顾客信用度分析体系,并进行相关预测,以便于酒店日后的经营以及对顾客的服务,对于那些信用度良好的顾客可以给予一定优惠,而对于那些信用度较差的顾客,则要避免在酒店再次进行消费而又不付款的情况。2数据理解为建立决策树,需要事先建立数据挖掘所需数据库或数据
3、表,即顾客信用数据表。将顾客相关信用度的信息输入表中,以便分析。输入的信息均具有代表性。不重复不冗余,如若不然,可再进行数据预处理。所需数据如下图所示:3挖掘(或分析)数据准备首先需要在数据库中建立“数据挖掘实验“数据库,并在数据库中建立表“顾客信用数据表1”(1)设计“顾客信用数据表1”,表结构如下图所示:设置“顾客编号”为主键。 (2)编辑表的前200行,输入表中信息。(注意输入的信息一定要具有代表性,避免冗余与重复)4数据挖掘(或分析)过程 4.1挖掘算法与挖掘软件选择 算法:分类分析算法(决策树) 软件:microsoft visual studio 20084.2 数据预处理由于表“
4、顾客信用数据表1”中的数据存在冗余缺失等问题,所以需要对表中数据进行数值化处理,离散化处理等相应的预处理操作,并将预处理之后的信息存入新表“顾客信用数据表2”中。具体步骤如下所示:(1)将年龄属性列的数据进行离散化处理,设置区域范围,分别为30、=50三个范围,并将表中“年龄”属性列中的信息按照其对应的范围进行修改,以便于决策树的生成(2)将年收入属性列的数据进行归一化处理,将每个数据值除以100000,缩小数据,以便观察。(同时要修改表中“年收入”属性列的数据类型,由int改为float)(3)将信用等级属性列进行数值化处理,等级“A/B/C/D/E”分别对应“1/2/3/4/5”,将表中“
5、信用等级”属性列中的信息按照其对应的数值进行修改,以便于决策树的生成预处理之后的表的结构及内容如下图所示:表结构:表中具体内容:4.3挖掘过程说明(1)打开挖掘软件,点击“新建”,建立“顾客信用分析”的挖掘项目。(2)定义数据源。在页面右方点击新建“数据源”,点击“下一步”。将服务器名改为“localhost”,选择使用windows身份验证,选择“数据挖掘实验”数据库。点击“下一步”。选择“使用服务账户”,点击“下一步”。然后完成。(3)定义数据源视图。在页面右方点击新建“数据源视图”,点击“下一步”。选择“数据挖掘实验”,点击“下一步”。选择“与主键同名”,点击“下一步”。选择“顾客信用数
6、据表2”(已经进行过数据预处理的表),点击“下一步”。然后完成。(4)创建挖掘结构。在页面右方点击新建“挖掘结构”,点击“下一步”。选择“从现在关系数据库或数据仓库”,点击“下一步”。选择“决策树”类型,点击“下一步”。点击“下一步”。点击“下一步”如下所示,顾客编号为主键,年龄、年收入、信用等级、性别、职业为可输入,信用等级为可预测。点击“下一步”。设置“测试数据百分比”,点击“下一步”。点击“完成。定义数据源,数据源视图,新建挖掘结构以后,如下图所示。(5)设置相关参数。右键点击“设置算法参数”(选择不同的算法参数会带来不同的决策树模型)参数设置如下图所示,可根据自己的需求设置不同参数。(
7、6)进行部署,实施挖掘。点击“运行”,进入下一步。处理完成,可以到主界面查看挖掘模型。5结果展示与评价决策树模型如下图所示:依赖关系如下所示:由上边所生成的决策树可知,信用等级与年龄、职业、性别和年收入都具有相辅相成的关系。其中依赖关系最强的是年龄和年收入。根据“数据挖掘实验”数据库中的信息,所生成的决策树显示,当年收入=1.178并且1.472,职业不为销售员的顾客信用程度相对较高。而职业为销售员且年龄小于30岁的人信用程度则是中等偏下。其他则分布不均。6总结6.1 设计中遇到的主要问题及解决方法课程设计中遇到的最多的问题就是数据库建立不对,以至于后续进行挖掘无法实现。由于要建立两个表,并且
8、两者关系为预处理与未预处理的表,所以两者之间在数据类型与内容上都有很多相似性。但也存在极个别属性的数据类型并不一样,这也是数据预处理的关键所在,所以前期建立表的啥时候一定要谨慎小心,否则很难挽回,需要删除重建。另一个问题就是在进行数据挖掘时,挖掘参数寻则不正确,也导致了无法得出正确的挖掘模型,后来又重新进行设置,才得出正确的决策树。6.2设计方案的主要优点及不足本次课程设计最大的缺点与不足在于数据库中所存储数据不够多,以至于挖掘出来的结果不一定具有代表性。由于是课程设计,所以输入数据有限。如果运用于实践之中,在挖掘过程中则可以根据实际数据库进行挖掘分析,想必结果更具有可信度。6.3 收获及建议通过对商务智能的学习和课程设计,使我对数据库有了一个更加全面的认识与理解。在商务智能课程设计的过程中,从不懂到理解,虽然经历了很多问题,但是在老师和同学的帮助下,这些问题都得以解决。完成之后,我也体会到了数据库的严谨性和数据挖掘以及后续数据分析的难度之大。在这个过程中,我不仅领会了商务智能这门课程的知识,更加提高了自己的动手能力。相信在以后的学习中,商务智能中学到的知识一定会运用很多地方。参考文献 1赵卫东.商务智能(第三版).清华大学出版社,2014. 2范明.数据挖掘概念与技术(第三版).机械工业出版社,20073王开福.集体智慧编程(第二版).电子工业出版社,2009 精品策划书
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1