Clemente环境下关联规则挖掘实验指导书.docx

资源描述

Clemente环境下关联规则挖掘实验指导书.docx

《Clemente环境下关联规则挖掘实验指导书.docx》由会员分享，可在线阅读，更多相关《Clemente环境下关联规则挖掘实验指导书.docx（13页珍藏版）》请在冰豆网上搜索。

Clemente环境下关联规则挖掘实验指导书.docx

Clemente环境下关联规则挖掘实验指导书

实验名称：

在SPSS中进行关联规则挖掘

实验目的：

1、理解关联规则挖掘原理

2、掌握Apriori节点和GRI节点使用

3、用Spss-Clementine软件实现基本的关联分析

要求：

请同学们将你的数据流和实验报告放在以“学号姓名”命名的文件夹中，并将文件夹压缩后提交给老师。

实验原理：

SPSSClenmentines提供众多的预测模型，这使得它们可以应用在多种商业领域中：

Ø如超市商品如何摆放可以提高销量；

Ø分析商场营销的打折方案，以制定新的更为有效的方案；

Ø保险公司分析以往的理赔案例，以推出新的保险品种等等，具有很强的商业价值。

关联规则表示不同数据项目在同一事件中出现的相关性，就是从大量数据中挖掘出关联规则。

一条关联规则如下：

面包=>牛奶[支持度=22%,置信度=60%]（式1）

式1中面包是规则前项（Antecedent），牛奶是规则后项（Consequent）。

规则支持度（RuleSupport）表示同时购买面包和牛奶的记录数占所有的购买记录数的百分比。

置信度（confidence）表示同时购买面包和牛奶的记录数占购买面包记录数的百分比。

关联规则（式1）的支持度22%意味着，所分析的记录中的22%购买了面包。

置信度60%表明，购买面包的顾客中的60%也购买了牛奶。

如果关联满足最小支持度阈值和最小置信度阈值，就说关联规则是有意义的。

这些阈值可以由用户或领域专家设定。

就顾客购物而言，根据以往的购买记录，找出满足最小支持度阈值和最小置信度阈值的关联规则，就找到顾客经常同时购买的商品。

【实验内容与步骤】

实验一、分析哪些商品会和啤酒一起购买

本次实验将使用BASKETS.txt数据作为数据源。

希望分析出哪些商品会和啤酒一起购买，以此来合理安排商品的摆放，进而提高啤酒的销量。

实验步骤1.将界面下方选项卡的“数据源”选项中的“可变文件”拖放到空白界面中，双击打开，在文件选项卡中选择 Clementine自带的Demo数据BASKETS1n.txt，如图所示。

点击确定按钮，这时就成功的创建了数据节点。

实验步骤2.从“字段选项”卡中，将“类型”节点拖放到界面中，接着将数据节点和类型节点连接起来。

这时双击打开“类型”节点，点击“类型”节点界面上的“读取值”按钮，这时会将数据节点中的数据读取过来。

如下图所示。

实验步骤3.为流添加过滤节点，将不参与的字段排除在外。

从“字段选项”卡中选择“过滤”节点，并将其拖入到界面中，将“过滤”节点加入到流中。

双击打开“过滤”节点，在不参与建模字段的箭头上点击，会出现一个红叉，表示该字段被过滤掉了，不参与建模，如图所示。

对于一些与建模关系不大的节点可以将其过滤掉，比如卡号、性别、家乡和年龄字段。

实验步骤4.添加一个图形节点—— 网络节点，建立此节点的目的是为了让用户首先可以直观的看到商品之间的关联程度。

选择“图形”选项卡中的“网络”节点，将此拖入界面，将“网络”节点加入流中，与“过滤”节点连接起来。

双击打开网络节点，在“字段”列表中选择添加字段，可以将所有的商品字段添加进来；也可以点击“仅显示真值标志”，将只显示那些“两者”的字段，如图所示。

点击“选项”卡，进入选项设置，用户可以在此设置链接数量的显示范围，不显示一些链接数量低的链接，如图所示。

点击“运行”按钮，这时会生成一个商品之间关联程度（链接数量）的网络图，用户可以在下方的调节杆上调节链接数量的显示范围。

上图中，线的粗细和深浅代表联系的强弱，可以直观的看到beer和frozenmeat，cannedeg联系程度比较强。

实验步骤5.点击界面下方“建模”选项卡，再点击Apriori，节点拖放到界面中，连接该节点到过滤节点上，双击打开Apriori节点，如下图所示。

该“字段”选项卡，是设置参与建模的字段和目标字段的，可以看到其中包括两个选项，“使用类型节点设置”和“使用定制设置”，这里将为用户分别呈现两种选项的使用方法。

这里无论选择哪个选项，都需要将市场分析员重点关注的商品包括在其中，其他商品可以不包括。

如果用户选择“使用定制设置”选项，则需要将啤酒设置在“后项”列表中，将其他重点关注的商品设置在“前项”列表中，如下图所示。

设置好了字段后，点击“模型”选项卡，进入模型设置。

如下图所示。

此时，我们已经创建好了关联规则模型的整个流，点击工具栏的绿色箭头，运行该流，会生成一个“模型”节点，该节点里包含了模型运行结果。

整个运行后的流图，如下图所示。

从结果可以看出，通过关联规则模型挖掘出的规则，购买了冻肉（frozenmeal）和罐装蔬菜（cannedveg）的顾客都会购买啤酒（beer），购买了冻肉和罐装蔬菜的顾客会购买啤酒，此规则中购买了冻肉和罐装蔬菜的记录有173条，占17.3%。

而在购买了冻肉和罐装蔬菜的顾客中会有84.393%的顾客会购买啤酒，并且提升为2.88，表明此规则的相关性很强，部署能力和置信度类似，可以不考虑。

通过对规则信息的分析和了解，建议将置信度和提升作为选择规则的标准，因为置信度能反映出规则预测的准确程度，提升值越大，规则的相关性越强。

结论：

可以将啤酒和冻肉、罐装蔬菜放在一起销售，这也正好和前面的网络节点图的显示相一致。

实验二：

分析不同性别、年龄以及家庭主妇们有怎样的消费偏好

这里，仍以超市顾客个人信息和他们的一次购买商品数据BASKETS1n.txt为数据源，分析目标是，顾客消费偏好研究，分析不同性别、年龄以及家庭主妇们有怎样的消费偏好。

实验步骤1.将数据源设置好，再向数据流中添加GRI节点，具体配置如下：

实验步骤2.结果分析。

结论：

分析结果似乎不理想，规则的置信度、支持度和提升度都不太高。

但大致的结论是：

家庭主妇们更倾向于买鱼；年轻人23.5岁以下的人更倾向于选择果蔬；啤酒仍就是男士们的最爱。

实验三：

探寻不同购买物品之间的联系，为货架的摆放提供依据。

这里，仍以BASKETS1n.txt为数据源，分析目标是，探寻不同购买物品之间的联系，为货架的摆放提供依据。

输入变量（in）：

所有购物篮内容

输出变量（out）：

所有购物篮内容

实验步骤1.将数据源设置好，再向数据流中添加GRI节点，具体配置如下：

实验步骤2.结果分析。

结论：

可以看到，基本可以分为两类，一类是“cannedveg、frozenmeal、beer”，另一类是“wine、confectionery”。

在摆放货架时，应该把灌装蔬菜、冷冻肉品和啤酒放在相邻的位置，把酒和糖果放在一起。

实验四：

探寻购买不同商品（以酒和饮料为例）的顾客的特征，确定促销信息发放的对象。

这里，仍以BASKETS1n.txt为数据源，分析目标是，探寻购买不同商品（以酒和饮料为例）的顾客的特征，确定促销信息发放的对象。

输入变量：

客户的个人信息（sex、homeown、income、age）

输出变量：

wine、softdrink

实验步骤1.将数据源设置好，再向数据流中添加GRI节点，具体配置如下：

实验步骤2.结果分析。

结论：

Ø购买饮料的顾客群的特征：

收入>29950的男性或收入<10250但是年龄大于38

Ø购买酒的顾客群的特征：

拥有自己住房，且收入>28850

对于酒类产品的促销活动信息，更应该发放给拥有自己住房，且收入>28850的顾客，而不是所有收入>29950的男性或收入<10250但是年龄大于38的顾客。

这类顾客更容易对碳酸饮料的促销活动动心。

实验总结：

通过上面的4个案例可以看到，关联规则挖掘从购物篮数据中找到了潜在的关联规则，结果简单易懂，回答了超市的实际问题，为超市的销售提供了建设性的意见。

展开阅读全文