apriori算法优秀讲义.ppt

资源描述

apriori算法优秀讲义.ppt

《apriori算法优秀讲义.ppt》由会员分享，可在线阅读，更多相关《apriori算法优秀讲义.ppt（25页珍藏版）》请在冰豆网上搜索。

apriori算法优秀讲义.ppt

Apriori算法,2013年11月20日,讲述顺序,数据挖掘,Apriori算法,关联规则,Apriori算法,数据挖掘,关联规则挖掘,三者关系,了解数据挖掘算法所处位置,数据挖掘算法功能,根据所挖掘知识的类型不同：

为了反映同类事物共同性质的为了反映事物各方面特征的为了反映不同事物之间属性差别的为了反映事物之间依赖或关联的根据历史的和当前的数据推测未来数据揭示事物偏离常规的异常现象,为了反映事物之间依赖或关联的,典型案例-啤酒与尿布,更多举例,e.g：

在购买铁锤的顾客当中，有70的人同时购买了铁钉。

更多举例,e.g：

年龄在40岁以上，工作在A区的投保人当中，有45的人曾经向保险公司索赔过。

关联规则挖掘,关联规则（AssociationRule）挖掘是从事务数据库、关系数据库和其它信息存储中的大量数据项集之间发现有趣的、频繁出现的模式、关联和相关性。

关联规则挖掘步骤,一般分为2个步骤：

依据支持度找出所有的频繁项集。

（频度）依据置信度产生关联规则。

（强度）,性能瓶颈！

先验算法,基本概念,项,项集,频繁项集,事务,关联规则,置信度,支持度,由此我们引出之后需要的几个概念：

关联规则挖掘举例,最简单的关联规则挖掘单维、单层、布尔关联规则挖掘,Minsup=50%，Mincon=50%,满足频繁项集如表，只有AC关联分析有意义Support（A=C）=50%Confidence（A=）P（C/A）=66.7%,找出频繁项集在频繁项集中找出满足置信度的项集,Apriori（先验）算法先验释义：

由原因推结果,Apriori算法,Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。

按照所处理的值类型不同进行关联规则分类：

布尔关联规则，如事务向量（001101100）对每种商品可以用一个布尔量来表示该种商品是否被购买，则每个购物篮可以用一个布尔向量来表示量化关联规则，如AgeX,”30-39”incomeX,”40k48k”=buysX,”computer”,Apriori使用一种称作逐层搜索的迭代方法，“K-1项集”用于探索“K项集”。

首先，找出频繁“1项集”的集合。

该集合记作L1。

L1用于找频繁“2项集”的集合L2，而L2用于找L3，如此下去，直到不能找到“K项集”。

找每个LK需要一次数据库扫描。

Apriori算法,Apriori算法目的意义,Apriori算法主要为了提高数据访问效率，提升发现频繁项集的速度,核心：

连接步和剪枝步,连接步自连接原则：

前k-2项相同字典顺序连接剪枝步利用Apriori性质：

任一频繁项集的所有非空子集也必须是频繁的，反之，如果某个候选的非空子集不是频繁的，那么该候选肯定不是频繁的。

过滤候选项集。

减少工作量。

步骤1：

发现频繁项集,频繁项集发现过程：

（1）扫描

（2）计数（3）比较（4）产生频繁项集（5）连接、剪枝，产生候选项集重复步骤

（1）（5）直到不能发现更大频集,步骤2：

产生关联规则,根据前面提到的置信度的定义，关联规则的产生如下：

（1）对于每个频繁项集L，产生L的所有非空子集；

（2）对于L的每个非空子集S，如果则输出规则“SLS”。

注：

LS表示在项集L中除去S子集的项集。

举例,Apriori算法伪代码,

（1）L1=find_frequent_1_itemsets（D）;

（2）for（k=2;Lk-1;k+）（3）Ck=apriori_gen（Lk-1）;（4）foreachtransactiontD/scanDforcounts（5）Ct=subset（Ck,t）;/getthesubsetsoftthatarecandidates（6）foreachcandidatecCt（7）c.count+;（8）（9）Lk=cCk|c.countmin_sup（10）（11）returnL=kLk;,连接步和剪枝步,第1步：

连接（join）Procedureapriori_gen（Lk-1:

frequent（k-1）itemset）1）foreachitemsetl1Lk-12）foreachitemsetl2Lk-13）if（l11=l21）（l1k-2=l2k-2）（l1k-1l2k-1）then4）c=l1l2；/连接，产生候选集5）ifhas_infrequent_subset（c，Lk-1）then6）deletec;/修剪，去掉无用的候选项7）elseaddctoCk;8）9）returnCk;,连接步和剪枝步,第2步:

剪枝（prune）procedurehas_infrequent_subset（c:

candidatekitemset;Lk-1:

frequent（k-1）itemset）;/使用先验知识1）foreach（k-1）subsetsofc2）ifsLk-1then3）returntrue;4）returnfalse;,可能产生大量的候选集可能需要重复扫描数据库,Apriori算法局限性,谢谢！

展开阅读全文