apriori算法优秀讲义.ppt-资源下载

apriori算法优秀讲义.ppt

1、Apriori算法,2013年11月20日,讲述顺序,数据挖掘,Apriori算法,关联规则,Apriori算法,数据挖掘,关联规则挖掘,三者关系,了解数据挖掘算法所处位置,数据挖掘算法功能,根据所挖掘知识的类型不同：为了反映同类事物共同性质的为了反映事物各方面特征的为了反映不同事物之间属性差别的为了反映事物之间依赖或关联的根据历史的和当前的数据推测未来数据揭示事物偏离常规的异常现象,为了反映事物之间依赖或关联的,典型案例-啤酒与尿布,更多举例,e.g：在购买铁锤的顾客当中，有70的人同时购买了铁钉。,更多举例,e.g：年龄在40 岁以上，工作在A区的投保人当中，有45的人曾经向保险公司索赔过

2、。,关联规则挖掘,关联规则（Association Rule）挖掘是从事务数据库、关系数据库和其它信息存储中的大量数据项集之间发现有趣的、频繁出现的模式、关联和相关性。,关联规则挖掘步骤,一般分为2个步骤：依据支持度找出所有的频繁项集。（频度）依据置信度产生关联规则。（强度）,性能瓶颈！,先验算法,基本概念,项,项集,频繁项集,事务,关联规则,置信度,支持度,由此我们引出之后需要的几个概念：,关联规则挖掘举例,最简单的关联规则挖掘单维、单层、布尔关联规则挖掘,Minsup=50%，Mincon=50%,满足频繁项集如表，只有AC关联分析有意义Support(A=C)=50%Confidence

3、(A=)P(C/A)=66.7%,找出频繁项集在频繁项集中找出满足置信度的项集,Apriori（先验）算法先验释义：由原因推结果,Apriori算法,Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。,按照所处理的值类型不同进行关联规则分类：布尔关联规则，如事务向量（001101100）对每种商品可以用一个布尔量来表示该种商品是否被购买，则每个购物篮可以用一个布尔向量来表示量化关联规则，如AgeX,”30-39”incomeX,”40k48k”=buysX,”computer”,Apriori 使用一种称作逐层搜索的迭代方法，“K-1项集”用于探索“K项集”。首先，找出频繁“1

4、项集”的集合。该集合记作L1。L1用于找频繁“2项集”的集合L2，而L2用于找L3，如此下去，直到不能找到“K项集”。找每个LK需要一次数据库扫描。,Apriori算法,Apriori算法目的意义,Apriori算法主要为了提高数据访问效率，提升发现频繁项集的速度,核心：连接步和剪枝步,连接步自连接原则：前k-2项相同字典顺序连接剪枝步利用Apriori性质：任一频繁项集的所有非空子集也必须是频繁的，反之，如果某个候选的非空子集不是频繁的，那么该候选肯定不是频繁的。过滤候选项集。减少工作量。,步骤1：发现频繁项集,频繁项集发现过程：（1）扫描（2）计数（3）比较（4）产生频繁项集（5）

5、连接、剪枝，产生候选项集重复步骤（1）（5）直到不能发现更大频集,步骤2：产生关联规则,根据前面提到的置信度的定义，关联规则的产生如下：（1）对于每个频繁项集L，产生L的所有非空子集；（2）对于L的每个非空子集S，如果则输出规则“S LS”。注：LS表示在项集L中除去S子集的项集。,举例,Apriori算法伪代码,（1）L 1=find_frequent_1_itemsets(D);（2）for(k=2;L k-1;k+)（3）C k=apriori_gen(L k-1);（4）for each transaction t D/scan D for counts（5）C t=subset(C

6、 k,t);/get the subsets of t that are candidates（6）for each candidate c C t（7）c.count+;（8）（9）L k=c Ck|c.countmin_sup（10）（11）return L=k L k;,连接步和剪枝步,第1 步：连接(join)Procedure apriori_gen(L k-1:frequent(k-1)itemset)1)for each itemset l 1L k-1 2)for each itemset l 2L k-1 3)if(l 11=l 21)(l 1k-2=l 2k-2)(l1k-

7、1 l 2k-1)then 4)c=l1l2；/连接，产生候选集 5)if has_infrequent_subset(c，L k-1)then 6)delete c;/修剪，去掉无用的候选项 7)else add c to C k;8)9)return C k;,连接步和剪枝步,第2 步:剪枝(prune)procedure has_infrequent_subset(c:candidate k itemset;L k-1:frequent(k-1)itemset);/使用先验知识 1)for each(k-1)subset s of c2)if sL k-1 then 3)return true;4)return false;,可能产生大量的候选集可能需要重复扫描数据库,Apriori算法局限性,谢谢！,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？