weka关联规则使用Word下载.docx

资源描述

weka关联规则使用Word下载.docx

《weka关联规则使用Word下载.docx》由会员分享，可在线阅读，更多相关《weka关联规则使用Word下载.docx（9页珍藏版）》请在冰豆网上搜索。

weka关联规则使用Word下载.docx

sunny,80,90,TRUE,no

overcast,83,86,FALSE,yes

rainy,70,96,FALSE,yes

rainy,68,80,FALSE,yes

rainy,65,70,TRUE,no

overcast,64,65,TRUE,yes

sunny,72,95,FALSE,no

sunny,69,70,FALSE,yes

rainy,75,80,FALSE,yes

sunny,75,70,TRUE,yes

overcast,72,90,TRUE,yes

overcast,81,75,FALSE,yes

rainy,71,91,TRUE,no

当数据是数值型，在属性名的后面加numeric，如果是离散值（枚举值），就用一个大括号将值域列出来。

@data下一行后为数据记录，数据为矩阵形式，即每一个的数据元素个数相等，若有缺失值，就用问号?

表示。

arff稀疏数据集

我们做关联规则挖掘，比如购物篮分析，我们的购物清单数据肯定是相当稀疏的，超市的商品种类有上10000种，而每个人买东西只会买几种商品，这样如果用矩阵形式表示数据显然浪费了很多的存储空间，我们需要用稀疏数据表示，看我们的购物清单示例（basket.txt）：

freshmeatdairyconfectionery

freshmeatconfectionery

cannedvegfrozenmealbeerfish

dairywine

freshmeatwinefish

fruitvegsoftdrink

beer

fruitvegfrozenmeal

fruitvegfish

fruitvegfreshmeatdairycannedvegwinefish

dairycannedmeatfrozenmealfish

数据集的每一行表示一个去重后的购物清单，进行关联规则挖掘时，我们可以先把商品名字映射为id号，挖掘的过程只有id号就是了，到规则挖掘出来之后再转回商品名就是了，

retail.txt

是一个转化为id号的零售数据集，数据集的前面几行如下：

012345678910111213141516171819202122232425262728

303132

333435

3637383940414243444546

38394748

38394849505152535455565758

324159606162

33948

636465666768

3269

这个数据集的商品有16469个，一个购物的商品数目远少于商品中数目，因此要用稀疏数据表，weka支持稀疏数据表示，但我在运用apriori算法时有问题，先看一下weka的稀疏数据要求：

稀疏数据和标准数据的其他部分都一样，唯一不同就是@data后的数据记录，示例如下（basket.arff）：

@relation'

basket'

@attributefruitveg{F,T}

@attributefreshmeat{F,T}

@attributedairy{F,T}

@attributecannedveg{F,T}

@attributecannedmeat{F,T}

@attributefrozenmeal{F,T}

@attributebeer{F,T}

@attributewine{F,T}

@attributesoftdrink{F,T}

@attributefish{F,T}

@attributeconfectionery{F,T}

{1T,2T,10T}

{1T,10T}

{3T,5T,6T,9T}

{2T,7T}

{1T,7T,9T}

{0T,8T}

{6T}

{0T,5T}

{0T,9T}

{0T,1T,2T,3T,7T,9T}

{2T,4T,5T,9T}

可以看到

表示为了：

{1T,10T

稀疏数据的表示格式为：

属性列号>

空格>

值>

...,<

}，注意每条记录要用大括号，属性列号不是id号，属性列号是从0开始的，即第一个@attribute后面的属性是第0个属性，T表示数据存在。

规则挖取

我们先用标准数据集normalBasket.arff[1]试一下，weka的apriori算法和FPGrowth算法。

1、安装好weka后，打开选择Explorer

2、打开文件

3、选择关联规则挖掘，选择算法

4、设置参数

参数主要是选择支持度（lowerBoundMinSupport），规则评价机制metriType（见上一篇）及对应的最小值，参数设置说明如下[2]：

1.car如果设为真，则会挖掘类关联规则而不是全局关联规则。

2.classindex类属性索引。

如果设置为-1，最后的属性被当做类属性。

3.delta以此数值为迭代递减单位。

不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。

4.lowerBoundMinSupport最小支持度下界。

5.metricType度量类型。

设置对规则进行排序的度量依据。

可以是：

置信度（类关联规则只能用置信度挖掘），提升度（lift），杠杆率（leverage），确信度（conviction）。

在Weka中设置了几个类似置信度（confidence）的度量来衡量规则的关联程度，它们分别是：

a）Lift：

P（A,B）/（P（A）P（B））Lift=1时表示A和B独立。

这个数越大（>

1），越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度.

b）Leverage:

P（A,B）-P（A）P（B）Leverage=0时A和B独立，Leverage越大A和B的关系越密切

c）Conviction:

P（A）P（!

B）/P（A,!

B）（!

B表示B没有发生）Conviction也是用来衡量A和B的独立性。

从它和lift的关系（对B取反，代入Lift公式后求倒数）可以看出，这个值越大,A、B越关联。

6.minMtric度量的最小值。

7.numRules要发现的规则数。

8.outputItemSets如果设置为真，会在结果中输出项集。

9.removeAllMissingCols移除全部为缺省值的列。

10.significanceLevel重要程度。

重要性测试（仅用于置信度）。

11.upperBoundMinSupport最小支持度上界。

从这个值开始迭代减小最小支持度。

12.verbose如果设置为真，则算法会以冗余模式运行。

设置好参数后点击start运行可以看到Apriori的运行结果：

FPGrowth运行的结果是一样的：

每条规则都带有出现次数、自信度、相关度等数值。

下面测一个

大一点的数据集

retail.arff[1]（retail.arff是由retail.txt转化而来，为了不造成误解，我在id好前加了一个"

，比如2变为I2），这个数据用的稀疏数据表示方法，数据记录有88162条，用Apriori算法在我的2G电脑上跑不出来，直接内存100%，用FPGrowth可以轻松求出，看一下运行结果：

其他参数可以自己调整比较。

展开阅读全文