数据挖掘关联规则FPgrowth算法.docx
《数据挖掘关联规则FPgrowth算法.docx》由会员分享,可在线阅读,更多相关《数据挖掘关联规则FPgrowth算法.docx(28页珍藏版)》请在冰豆网上搜索。
数据挖掘关联规则FPgrowth算法
摘要:
关联规则在数据挖掘是一个重要的研究内容。
而产生频繁集则是产生关联规则的第一步。
在大多数以前的实现中,人们普遍采用了类似于Apriori[2]的算法。
这种算法有一个很大的缺点,就是使用了不断产生候选集并加以测试的方式来得到频繁集。
但是,产生候选集的代价是很大的。
本文分析并且实现了在论文[1]中提出的FP-growth算法。
FP-growth算法的优点是节省时间和空间,对大规模数据采用分治的办法以避免规模巨大难以接受。
FP-growth算法主要通过FP-tree来构造频繁集。
FP-tree是一个数据库里跟产生频繁集有关的信息的压缩表示。
在具体的实现中,我通过了一系列的从低到高的数据结构来实现它,并进而实现整个算法。
该实现基于Windows平台,编程工具是VisualC++6.0,许多地方还用到了C++的标准模板库。
1.介绍
数据挖掘技术的出现是伴随着当今时代信息的爆炸性增长和人们面对纷繁的数据得到决策支持而出现的.数据挖掘工具中要实现的一个很重要的功能就是关联规则的找寻,而关联规则找寻的第一步就是要找到相应的频繁集.
本文就是建立在对一个频繁集产生算法的分析和实现的基础上的.通过一个程序具体实现了FP-growth算法,并将它作为一个使用数据挖掘工具,ARMiner的一部分.
本文的第2部分将介绍一些数据挖掘的基本知识.
第3部分讨论关联规则的一些问题.
第4部分是本文所实现的程序所属的数据挖掘工具ARMiner的一些介绍.
第5部分结合程序设计着重讨论一下本文是怎样实现FP-growth算法的。
2.数据挖掘
数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
何为知识?
从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。
人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。
原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。
在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。
实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。
最好能用自然语言表达所发现的结果。
数据挖掘的主要过程如下:
1.确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.
2.数据准备
1)数据的选择
搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.
2)数据的预处理
研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.
3)数据的转换
将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.
3.数据挖掘
对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.
4.结果分析
解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.
5.知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去.
数据挖掘技术目前已经有不少成功的范例.其实在日常生活中我们也可以看到许多数据挖掘的应用.例如,如果你在沪上一家比较著名的电子商务网站购买了一张周星驰的经典搞笑片”大话西游”,该网站会提醒你,
【购买该商品的用户还买了这些商品】
行运一条龙
97家有喜事
武状元苏乞儿
月光宝盒
秀兰邓波儿(12套装)
这些就是用数据挖掘技术从购买这部片子的人群中统计出来的.当然这只是一种比较简单的应用.更复杂的应用见下面这个例子:
美国Firstar银行使用Marksman数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。
Firstar银行市场调查和数据库营销部经理发现:
公共数据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者投入到新产品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到最合适的消费者。
Marksman能读取800到1000个变量并且给它们赋值,根据消费者是否有家庭财产贷款、赊帐卡、存款证或其它储蓄、投资产品,将它们分成若干组,然后使用数据挖掘工具预测何时向每位消费者提供哪种产品。
预测准客户的需要是美国商业银行的竞争优势。
3.关联规则
关联规则是关联分析中的一种常用技术(另一种是序列模式)。
关联规则是寻找在同一个事件中出现的不同项的相关性。
其形式化的陈述如下。
(参照[2])
设L={i1,i2,...im}是所有项的集合。
D是交易集合,其中每个交易T是一个项的集合并且TL。
每一个交易T都有一个唯一的标识,TID。
如果项集合XL且XT,我们就说交易T包含X.一个关联规则(associationrule)就是这样一种形式的关系:
X==>Y,其中XL,YL,并且XY=.
另外两个和关联规则有关的概念是支持度(support)和可信度(confidence)
根据[2]的定义,对于一个关联规则X==>Y,.在交易集合D中,Txy={T|(XÈY)ÍTÇTÎD},Tx={T|XÌTÇTÎD},支持度为s,如果|Txy|/|D|=s%;可信度为c,如果|Txy|/|Tx|=c%.
举例来说,有一个特定的关联规则,锤子==>钉子,这个规则可能意味着买锤子的人也有倾向买钉子.在一个有10000条交易记录的交易数据库中,若有300条记录既包含了锤子又包含了钉子,则我们说此关联规则的支持度为300/10000=3%.这个支持度还是比较的高,但我们并不能就此作出这个关联有意义的结论.假如通过统计发现一共有6000条记录包含了”锤子”,则仅有可信度300/6000=5%的购买了”锤子”的人又去购买了钉子,那么这个关联规则的可信度不高,它并没有告诉我们什么.但是假如只有600人购买了锤子,则我们可以知道其中有一半的人又去购买了钉子,这个现象就值得注意了.
另一个更详细的例子来自于[4].
总交易笔数:
1000
包含”锤子”:
50
包含”钉子”:
80
包含”钳子”:
20
包含”锤子”和”钉子”:
15
包含”钳子”和”钉子”:
10
包含”锤子”和”钳子”:
10
包含”锤子”,”钳子”和”钉子”:
15
则可以计算出:
“锤子和钉子”的支持度=1.5%(15/1000)
“锤子,钉子和钳子”的支持度=0.5(5/1000)
“锤子==>钉子”的可信度=30%(15/50)
“钉子==>锤子”的可信度=19%(15/80)
“锤子和钉子==>钳子”的可信度=33%(5/15)
“钳子==>锤子和钉子”的可信度=25%(5/20)
注意到数据挖掘得到的关联规则,它只是对数据库中数据之间相关性的一种描述。
还没有其他数据来验证得到的规则的正确性.
除了支持度和可信度还有其他的关联规则评价标准如改善度(lift)和兴趣度(interest).
本文的实现当中,对支持度的定义和上述不同,参见第5部分.
4.数据采掘工具的研制及其应用
“数据采掘工具的研制及其应用”(863-306-02-05)是国家863项目,是前一阶段863项目研究的继续,由复旦大学计算机系数据库组承担。
目前已经设计并实现系统原型数据采掘工具ARMiner(图1)。
图1
该工具的主要功能块的说明如下:
(上图及说明主要参考[3])
数据预处理负责对待采掘的数据源作必要的准备,
其各模块功能如下:
(1)数据获取
指定要使用的数据集的名称及位置。
(2)数据取样
对获取的数据从中取样,取样的方式有很多种,根据数据采掘的目的性灵活选用。
例如,随机取样,数据集中每一组观测值都有相同的被取样概率;等距取样,对数据编号,取样的观测值之间的距离相等;分层取样,将样本总体分成若干层次,每个层次中的观测值都具有相同的被选用概率,但不同层次之间设定的概率可不同,使模型具有更好的拟和度;起始顺序取样,从输入数据的起始处开始取样,对取样数量预先规定;分类取样,按观测值的某种属性分类,取样以类为单位。
(3)数据筛选
通过数据筛选筛选掉不希望包括进来的观测值。
例如,对于分类变量可给定某一类的类值说明此类观测值是要排除于取样范围之外的,对于区间变量可指定其值大于或小于某值的那些观测值排除于取样范围之外。
(4)数据转换
将某一个数据进行某种转换操作,然后将转换后的值作为新的变量存放在样本数据中,而转换的目的是为了把数据和将来要建立的模型拟和得更好。
数据采掘即对经过预处理的数据进行采掘,可分为两个模块:
(1)数据采掘数据库
在进行数据采掘分析模型的操作之前,要建立一个数据采掘的数据库(DMDB),放置此次要进行操作的数据,可预先进行一些诸如变量最大、最小、平均、标准差等处理,为数据采掘建立一个良好的工作环境。
(2)数据采掘过程
利用某一种数据采掘算法进行数据采掘。
数据评价即用一种通用的数据采掘评价的架构来比较不同模型的效果;预报各种不同类型分析工具的结果。
在进行各种比较和预报的评价之后,给出一系列标准的图表,供用户进行定量评价。
本文所基于的程序实现即是属于上面数据采掘部分,数据采掘过程中的关联规则部分.
5.程序实现
程序所要实现的FP-growth算法是一个频繁集产生算法,与一般的类似于Apriori的频繁集产生算法相比,FP-growth的优点在于它不需要产生大量的候选集,因而在时间和空间上都有很好的效率.关于FP-growth请参看本部分中的算法描述部分。
程序的实现是基于Windows95/NT平台,编译器是VisualC++6.0.这是为了与程序所属的数据挖掘工具ARMiner相兼容.
程序在定义数据结构和实现算法的时候主要有以下一些考量。
首先,程序必须注意速度.速度问题在频繁集产生的算法中应该是比较重要的.因为它们常常涉及大量数据的处理.因此在程序中许多需要排序的数据结构都使用了平衡树,这是一种高效的对全序元素的组织方式.
其次,是对空间占用的考量。
同样因为要处理大量的数据,所以对内存的管理要尤其严格,如果出现内存泄漏将是很麻烦的事情.
第三,是编程风格的考虑.要尽量采用通用化的代码.因为对于一个比较大的系统来说,任何一个小的部分都应该清楚明白,便于别人阅读和修改.
基于上面三点的考量,我在对程序的数据结构的定义和算法的实现的时候大量采用了C++的标准模板库(STL,StandardTemplateLibrary).这是基于以下的事实,关联规则的挖掘所涉及到的数据结构和基本算法都是以往的常用数据结构和算法,如向量类,集合类,快速排序算法等.而STL正是包含了这样许多通用的数据结构和基本算法的库.
模板实际上是一种宏,但比宏安全可靠的多.它在编译期间就被处理了,因此根本不会影响程序的执行速度.又因为,STL中的种种数据结构和算法都是精心编写的,对同一问题的实现一般是比较经典的.不仅在速度上有优势,而且还避免了许多低层次上的内存泄漏问题.使我们把注意力集中到各个函数接口上面.
由于STL本身就是一中很通用的库,因此可以很好的满足第三个条件.用他编写的代码,对类似的数据结构和算法的处理都很相象.
例如,在STL中有一大类模板叫容器模板(container),简单的说就是包含了许多元素的类的模板,象vector,array,set等就属于容器模板.对于这些模板中的元素的访问都可以通过它们的遍历子,用完全一致的方式进行.请看下面两段程序清单:
voidprint(FreqSet*pSet){
FreqSet_Iterfit;
for(fit=pSet->begin();fit!
=pSet->end();fit++){
printf("%s%d\n",(*fit).second.name,(*fit).second.count);
}
}
voidprint(Table*pTable){
Table_Itertit;
for(tit=pTable->begin();tit!
=pTable->end();tit++){
printf("%s%d\n",(*tit).name,(*tit).count);
}
}
这两个函数是在调试的时候分别打印出频繁集pSet和头表pTable中的元素的.
尽管pSet的类FreqSet是由map模板生成的,pTable的类Table是由multiset生成的,但对它们的元素的访问形式几乎一模一样都是利用相应的遍历子.涉及的函数名也很相似.其实,所有的容器模板都定义了函数begin()和end()代表元素列表的起始和结束.另外还有大量的具有相同名字和类似功能的函数,方便了我们对数据结构的管理。
在选择数据库访问方式的时候,用了最近比较流行的ADO方式,它比ODBC更加灵活,速度也有改善.对网络数据库的支持也很好.
下面首先对要实现的算法做一个描述,然后针对数据结构和算法两方面对程序的实现进行详细说明.
算法描述
本文所实现的频繁集产生算法建立在两个基本的函数之上.
在具体描述这两个算法之前,还要介绍一些建立它们所需要的知识.
FP-tree
论文[1]对FP-tree的定义如下:
1,它有一个标记为”null”的根节点,它的子节点为一个项前缀子树(itemprefixsubtree)的集合,还有一个频繁项(frequentitem)组成的头表(headertable).
2,每个项前缀子树的节点有三个域:
item-name,count,node_link.item-name记录了该节点所代表的项的名字.count记录了所在路径代表的交易(transaction)中达到此节点的交易个数.node_link指向下一个具有同样的item-name域的节点,要是没有这样一个节点,就为null.
3,频繁项头表(frequentitemheadertable)的每个表项(entry)由两个域组成:
(1)item-name.
(2)node_link.node_link指向FP-tree中具有与该表项相同item-name域的第一个节点.
第一个算法的就是根据一个数据库建立这样一棵FP-tree.
下面是一个比较形式化的描述.
Algorithm1
输入:
一个交易数据库DB和一个最小支持度threshold.
输出:
它的FP-tree.
步骤:
1,扫描数据库DB一遍.得到频繁项的集合F和每个频繁项的支持度.把F按支持度递降排序,结果记为L.
2,创建FP-tree的根节点,记为T,并且标记为’null’.然后对DB中的每个交易Trans做如下的步骤.
根据L中的顺序,选出并排序Trans中的频繁项.把Trans中排好序的频繁项列表记为[p|P],其中p是第一个元素,P是列表的剩余部分.调用insert_tree([p|P],T).
函数insert_tree([p|P],T)的运行如下.
如果T有一个子结点N,其中N.item-name=p.item-name,则将N的count域值增加1;否则,创建一个新节点N,使它的count为1,使它的父节点为T,并且使它的node_link和那些具有相同item_name域串起来.如果P非空,则递归调用insert_tree(P,N).
完毕.
通过一个例子,可以更清楚的看到一棵FP-tree是怎样建立的.
设有如下交易数据库:
TID
购买项
(有序的)频繁项
100
f,a,c,d,g,i,m,p
f,c,a,m,p
200
a,b,c,f,l,m,o
f,c,a,b,m
300
b,f,h,j,o
f,b
400
b,c,k,s,p
c,b,p
500
a,f,c,e,l,p,m,n
f,c,a,m,p
表1.
我们首先扫描一遍这个数据库,计算每个项的计数值并保存在频繁项的集合F中,F={(a:
3),(b:
3),(c:
4),(d:
1),(e:
1),(f:
4),(g:
1),(h:
1),(i:
1),(j:
1),(k:
1),(l:
2),(m:
3),(n:
1),(o:
2),(p:
3)}.集合中每个元素的第二个分量代表第一个分量所代表项的支持度.我们假定最小支持度为3.选出F中支持度大于3的项,并按支持度递降排列,将结果放入列表L中,此时,L={(f:
4),(c:
4),(a:
3),(b:
3),(m:
3),(p:
3)}.
执行算法的第二步,创建一个标记为”null”的根节点.开始对数据库的第二遍扫描.对第一个交易的扫描将建立这棵树的第一个分支:
<(f:
1),(c:
1),(a:
1),(m:
1),(p:
1)>.注意,在这个交易中的频繁项已经被按照L中的顺序进行排序了.对于第二个交易来说,它已经排序好的频繁项列表同已经存在的路径有共同的前缀,所以把这个前缀中的所有节点的count增加1.然后新节点(b:
1)被创建并且被作为节点(a:
2)的子节点,随后,新节点(m:
1)被创建并做为节点(b:
1)的子节点.对第三个交易,因为它的频繁项列表只同以f为前缀的子树有一个共同节点.所以把这个节点的count增加1,并且创建新节点(b:
1),把它作为(f:
:
3)的子节点.以此类推,扫描完整个数据库.
为了方便对树的遍历.一个频繁项头表(frequentitemheadertable)被建立了,头表表项的node_link指向树里面具有相同item_name的节点.具有相同item_name的节点通过node_link被连结在一起.
Headertable
itemheadofnode_link
f
c
a
b
m
p
图2
FP-tree是一个压缩的数据结构,它用较少的空间存储了后面频繁集挖掘所需要的全部信息.
算法二建立在算法一所产生的F-tree上面.它会递归调用自己,并且反复调用算法一产生新的FP-tree.
输入:
一棵用算法一建立的树Tree
输出:
所有的频繁集
步骤:
调用FP-growth(Tree,null).
下面是对过程FP-growth的伪码描述.
ProcedureFP-growth(Tree,α)
{
ifTree只有一条路径P
then对P中的节点的每一个组合(记为β)做
(1)
(1)产生频繁集βÈα,并且把它的支持度指定为β中节点的最小支持度.
else对Tree的头表从表尾到表头的每一个表项(记为a)做
(2)-(5)
(2)产生频繁集β=aÈα,并且支持度为a的支持度
(3)建立β的条件模式库(conditionalpatternbase)和β的条件树(conditionalFP-tree)Tree2
(4)ifTree2!
=Æ
(5)then调用FP-growth(Tree2,β)
}
关于什么是条件模式库(conditionalpatternbase)和条件树(conditionalFP-tree),我们继续上面那个例子来介绍.
我们把图2中已经得到的FP-tree和相应的头表作为算法二的输入.按照从表尾到表头的顺序考察表中的每一个表项.
从表项p出发,先可以得到一个频繁集(p:
3).然后,我们可以得到包含p的所有模式.顺着p表项的node_link域,我们找到所有包含p的路径4,c:
3,a:
3,m:
2,p:
2>和1,b:
1,p:
1>.对第一条路径,虽然f出现了3次,c和a各出现了两次,但它们同p在一起只出现了2次,所以把它们的计数改为2,得到2,c:
2,a:
2,m:
2,p:
2>.第二条路径中各项的计数都已相同,不用修改了.把这2条路径中的p项去掉,就得到了p的条件模式库,{(f:
2,c:
2,a:
2,m:
2),(c:
1,b:
1)},这是下一步递归的依据.我们把这个条件模式库看作一个数据库,在上面运用算法一产生一个新的FP-tree,这就是算法二中的条件树,这个新树只有一个节点(c:
3).这时又得到一个新的频繁集(cp:
3).包含p项的频繁集就挖掘完了.
接着考察m,先还是得到(m:
3).顺着它的node_link得到2条路径4,c:
3,a:
3,m:
2>和4,c:
3,a:
3,b:
1,m:
1>.这时,不需要考虑p项了,因为含有它的频繁集都已经产生完毕了.按照上面的做法,得到一个条件模式库{(f:
2,c:
2,a:
3),(f:
1,c:
1,b:
1,m:
1)}.我们在上面构建条件树,得到3,c:
3,a:
3>,这是一棵只有一条路径的FP-tree.我们对这个路径中的所有节点的组合产生频繁集,得到{(am:
3),(cm:
3),(acm:
3),(fm:
3),(fam:
3),(fcm:
3),(fcam:
3)}.
类似的,表项b产生一个频繁集(b:
3)和3条路径4,c:
3,a:
3,b:
1>,4,b:
1>,和1,b:
1>.同样的,这里也不在考虑项p和项m了.b的条件模式库{(f:
1,c:
1,a:
1),(f:
1,b:
1),(c:
1,b:
1)},在这个条件模式库上面运用算法一,得到一棵空树,对含有b的频繁集的挖掘到此为止.
表2和图2显示了算法二的部分执行过程.
item
conditionalpatternbase
conditionalFP-tree
p
{(f:
2,c:
2,a:
2,m:
2),(c:
1,b:
1)}
{(c:
3)}|p
m
{(f:
2,c:
2,a:
2),(f:
1,c:
1,a:
1,b:
1)}
{(f:
3,c:
3,a:
3)}|m
b
{(f:
1,c:
1,a:
1),(f:
1),(c:
1)}
Æ
a
{(f:
3,c:
3)}
{(f:
3,c:
3)}|a
c
{(f:
3)}
{(f:
3)}|c
f
Æ
Æ
表2
(f:
2,c:
2,a:
2)
(f:
1.c:
1,a:
1.b:
1)
‘m’的条件模式库
头表
itemheadofnode_links
f
c
a
算法一产生的FP-tree
图2
数据结构
对应于算法描述中所出现的各个对象分别定义了一些数据结构.下面予以分别介绍.(有关代码的清单只列出重要部分,如类中的普通的构造函数之类就不予详细描述了.)
1.Item
c