数据仓库与数据挖掘课程设计报告书.docx

资源描述

数据仓库与数据挖掘课程设计报告书.docx

《数据仓库与数据挖掘课程设计报告书.docx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘课程设计报告书.docx（14页珍藏版）》请在冰豆网上搜索。

数据仓库与数据挖掘课程设计报告书.docx

数据仓库与数据挖掘课程设计报告书

1.绪论

1.1项目背景

在现在大数据时代，各行各业需要对商品及相关关节的数据进行收集处理，尤其零售行业，于企业对产品的市场需求进行科学合理的分析，从而预测出将来的市场，制定出高效的决策，给企业带来经济收益。

1.2提出问题

对于超市的商品的购买时期和购买数量的如何决定，才可以使销售量最大，不积压商品，不缺货，对不同时期季节和不同人群制定不同方案，使企业收益最大，通过数据挖掘对数据进行决策树分析，关联分析，顺序分析与决策分析等可以制定出最佳方案。

2数据库仓库与数据集的概念介绍

2.1数据仓库

数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。

它是单个数据存储，出于分析性报告和决策支持的目的而创建。

为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。

数据仓库是决策系统支持（dss）和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

数据仓库的特征在于面向主题、集成性、稳定性和时变性。

2.2数据集

数据集是指一种由数据所组成的集合。

Dataset（或dataset）是一个数据的集合，通常以表格形式出现。

每一列代表一个特定变量。

每一行都对应于某一成员的数据集的问题。

它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。

每个数值被称为数据资料。

对应于行数，该数据集的数据可能包括一个或多个成员。

3数据仓库

3.1数据仓库的设计

3.1.1数据仓库的概念模型设计

概念模型的设计是整个概念模型开发过程的三阶段。

设计阶段依据概念模型分析以及分析过程中收集的任何数据，完成星型模型和雪花型模型的设计。

如果仅依赖ERD，那只能对商品、销售、客户主题设计成如图所示的概念模型。

这种模型适合于传统的数据库设计，但不适合于数据仓库的设计。

3.1.2数据仓库的逻辑模型设计

逻辑建模是数据仓库实施中的重要一环，因为它能直接反映出各个业务的需求，同时对系统的物理实施有着重要的指导作用，它的作用在于可以通过实体和关系勾勒出企业的数据蓝图，数据仓库的逻辑模型设计任务主要有：

分析主题域，确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。

逻辑模型最终设计成果包括每个主题的逻辑定义，并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。

3.2数据仓库的建立

3.2.1数据仓库数据集

一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。

例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。

数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。

为了提高速度,对数据集市中的数据一般都建立大量的索引。

换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。

3.2.2建立维表

维是分析问题的角度，度量是要分析的问题。

多维视图：

用包含度量和维的表的数据结构可以创建一个多维视图，用试题和维创建的多维模型称为星型模型，星型模型生成的主要表格被称为事实表。

事实表的属性值几乎都有连续值。

事实表是规范化的。

与维表不同不是随时间的推移变化，而是不断变大。

维表：

星型模型也具有非常小的表，用来装载描述信息。

维表是逆规范化的。

如果把维表置于第二范式中，这样的表称为雪花模型。

维表包括主键，通常对应事实表的外部键。

如果维表的主键不在实事表中，这个主键字便被称作退化的维。

创建维表：

有3种方法：

星型模型、雪花模型和星暴模型。

星暴模型含有两张以上的事实表。

基本有些充当维事实表。

星型模型：

所有信息维都放在同一个维表中。

维表信息包含一个唯一的标识符（ID）和通过这个维表建立的所有维所需的属性。

星型模型由小的维表与大的事实表组成，多称为“小表和大表”。

事实表一般是标准表。

雪花模型：

把信息分为3种标准格式。

产品表、类别表、子类别表。

把这些信息放到一起需要一定数据的连接。

雪花模型比星型模型效率低，占空间少。

所有的事实表都有一个与之相关的时间维表。

4.数据挖掘操作

4.1数据预处理

4.1.1描述性数据汇总

对于许多数据预处理任务，希望知道关于数据的中心趋势和离中趋势特征。

中心趋势度量包括均值（mean）、中位数（median）、众数（mode）和中列数（midrange），而数据离中趋势度量包括四分位数（quartiles）、四分位数极差（interquartilerange,IQR）和方差（variance）。

这些描述性统计量有助于理解数据的分布。

4.2决策树

（1）读取文本数据

使用变量文件节点读取定界文本数据。

可以从选项板中添加变量文件节点，方法是单击源选项卡找到此节点，或者使用收藏夹选项卡（默认情况下，其中包含此节点）。

然后，双击新添加的节点以打开相应的对话框。

如图1所示。

图1

单击紧挨“导入文件”框右边以省略号“...”标记的按钮，浏览到系统中的Clementine安装目录。

打开目标文件目录，然后选择名为sales.xls的文件。

选择从文件读取字段名，并注意已载入此对话框中的字段和值。

如图2所示。

图2

单击过滤选项，可以把用不到的信息给过滤掉。

如图3所示。

图3

类型选项卡可帮助了解数据中的更多字段类型。

还可以选择读取值来查看各个字段的实际值，具体取决于在值列中的选择。

此过程称为实例化。

如图4所示。

图4

（2）添加表

现在已载入数据文件，可以浏览一下某些记录的值。

其中一个方法就是构建一个包含表节点的流。

要将表节点添加到流中，可双击选项板中的表节点图标或将其拖放到工作区。

如图5所示。

图5

双击选项板中的某个节点后，该节点将自动与流工作区中的选定节点相连接。

此外，如果尚未连接节点，则可以使用鼠标中键将源节点与表节点相连接。

要模拟鼠标中键操作，请在使用鼠标时按下Alt键。

如图6所示。

图6

要查看表，请单击工具栏上的绿色箭头按钮执行流，或者右键单击表节点，然后选择执行。

如图7所示。

图7

（3）创建分布图

将分布节点添加到流，并将其与源节点相连接，然后双击该节点以编辑要显示的选项。

选择商品名称作为要显示其分布的目标字段。

然后，在对话框中单击执行。

如图8所示。

图8

最终图表将有助于查看数据的“结构”。

结果表明，商品300g壶瓶枣和400g沁州黄卖的最多。

如图9所示。

图9

此外，还可以在“输出”选项卡中找到数据审核节点。

如图10所示。

图10

添加并执行数据审核节点，同时快速浏览所有字段的分布图和直方图。

如图11所示。

图11

（4）创建散点图

现在我们来看一下有哪些因素会对商品出售（目标变量）产生影响。

作为一名消费者，我们一定知道销售模式对销售数量有着重要的影响。

所以创建一个关于商品名称和销售模式的散点图。

将散点图节点放在工作区中，并将其与源节点相连接，然后双击该节点对其进行编辑。

如图12所示。

图12

在“散点图”选项卡中，选择商品名称作为X字段，选择销售模式作为Y字段，并选择销售金额作为交叠字段。

然后单击执行。

如图13所示。

图13

此散点图清楚地显示商品在零售和特价模式下销售金额的不同。

商品在特价的销售模式下，销售金额明显高于零售模式下的销售金额。

如图14所示。

图14

（5）创建直方图

因很多数据不能够直接显示，所以我们要建立直方图，直方图能够很清晰的显示数据。

首先，将网络节点与您工作区中的源节点相连接。

如图15所示。

图15

在“直方图”选项卡中，选择商品序号作为X字段，选择销售数量作为交叠字段。

然后单击执行。

如图16所示。

图16

此直方图能够清楚地显示不同商品销售数量的不同。

由图可以看出序号为1的商品销售数量最多，序号为9的商品销售数量最少。

如图17所示。

图17

5、实验心得

在本次实验中，从新建工作流一直到获得最终结果，整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解，特别是决策树模型应用的理解，同时，也学会了如何使用决策树通过建模和直观化显示发现数据库中的关系（即链接）以及利用这些链接与数据中的案例组相对应关系可以通过建模可详细研究这些组并描绘其特征，增强了运用决策树模型和聚类分析模型的能力。

通过这次学习让我意识到，对于数据我们不仅要能利用统计来分析它的规律，也要能会通过数据挖掘软件来挖掘数据当中的潜在信息，并且利用数据挖掘所得到的有利信息更好的服务于数据使用者。

6、大总结

坚持好一段时间，终于把完成了任务，通过这几次实验报告的实践操作，我收获很大，不但学习相关数据挖掘的知识，关于SPSS了解更多，操作也比原来熟练多了。

虽然过程中有点折磨过，但当你克服了，耐心去一步一步操作，那些烦躁的心情就会慢慢消失，还得要有耐心，认真的态度去操作，才能有结果。

关联分析是一个很有用的数据挖掘模型，能够帮助企业做很多很有用的产品组合推荐、优惠促销组合，同时也能指导货架摆放是否合理，还能够找到更多的潜在客户，的确真正的把数据挖掘落到实处。

关联分析具体能用来做什么呢？

可以一句话来概括：

最大限度地从你口袋里面掏出更多的钱买我的产品。

1.通过关联规则，推出相应的促销礼包或优惠组合套装，快速帮助提高销售额。

如自行车针对不同人群，来制定有效的销售方案。

　　2.零售超市或商场，可以通过产品关联程度大小，指导产品合理摆放，方便顾客最购买更多其所需要的产品。

最常见的就是超市里面购买肉和购买蔬菜水果等货架会摆放得很近，目前就是很多人会同时购买肉与蔬菜，产品的合理摆放也是提高销售的一个关键。

3.进行相关产品推荐或者挑选相应的关联产品进行精准营销。

最常见的是你在亚马逊或京东购买产品的时候，旁边会出现购买该商品的人，有百分之多少还会购买如下的产品，快速帮助顾客找到其共同爱好的产品。

物以类聚，人以群分。

例如，穷人一般和穷人在一起，富人也喜欢和富人在一起。

还有数据挖掘的人喜欢和数据挖掘的人打交道，都离不开这些鸟道理。

4.寻找更多潜在的目标客户。

例如：

100人里面，购买A的有60人，购买B的有40人，同时购买A和B的有30人，说明A里面有一半的顾客会购买B，反推而言。

如果推出类似B的产品，除了向产品B的用户推荐（因为新产品与B的功能效果比较类似）之外，还可以向A的客户进行推荐，这样就能最大限度地寻找更多的目标客户。

决策树分析法是常用的风险分析决策方法。

该方法是一种用树形图来描述各方案在未来收益的计算。

比较以及选择的方法，其决策是以期望值为标准的。

人们对未来可能会遇到好几种不同的情况。

每种情况均有出现的可能，人们目前无法确知，但是可以根据以前的资料来推断各种自然状态出现的概率。

在这样的条件下，人们计算的各种方案在未来的经济效果只能是考虑到各种自然状态出现的概率的期望值，与未来的实际收益不会完全相等。

决策树法是管理人员和决策分析人员经常采用的一种行之有效的决策工具。

它具有下列优点：

1.决策树列出了决策问题的全部可行方案和可能出现的各种自然状态，以及各可行方法在各种不同状态下的期望值。

2.能直观地显示整个决策问题在时间和决策顺序上不同阶段的决策过程。

3.在应用于复杂的多阶段决策时，阶段明显，层次清楚，便于决策机构集体研究，可以周密地思考各种因素，有利于作出正确的决策。

当然，决策树法也不是十全十美的，它也有缺点，如使用范围有限，无法适用于一些不能用数量表示的决策；对各种方案的出现概率的确定有时主观性较大，可能导致决策失误；等等

预测分析法是根据客观对象的已知信息而对事物在将来的某些特征、发展状况的一种估计、测算活动。

运用各种定性和定量的分析理论与方法，对事物未来发展的趋势和水平进行判断和推测的一种活动。

预测的实质是根据事物的过去和现在估计未来，根据已知预测未知，从而减少对未来事物认识的不确定性，以指导我们的决策行动，减少决策的盲目性。

预测学的出现不是孤立的、它是在人类社会生产力和科学技术日益发达的基础上应运而生的，它与其它的学科诸如经济学、数学、系统工程学、统计学、电子计算机技术等都有密切的关系。

总而言之，数据仓库与数据挖掘这门课程很有学习的意思，以后的用处很大，随着市场竞争的越来越激烈，商业环境中的信息越来越密集，企业必须能够深入灵活利用积累的大量数据挖掘潜在的规律，提高决策质量，把握和发现市场机遇，提升企业的竞争力。

8.任务分配

展开阅读全文