ImageVerifierCode 换一换
格式:PPT , 页数:25 ,大小:2.99MB ,
资源ID:831967      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/831967.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(apriori算法优秀讲义.ppt)为本站会员(b****9)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

apriori算法优秀讲义.ppt

1、Apriori算法,2013年11月20日,讲述顺序,数据挖掘,Apriori算法,关联规则,Apriori算法,数据挖掘,关联规则挖掘,三者关系,了解数据挖掘算法所处位置,数据挖掘算法功能,根据所挖掘知识的类型不同:为了反映同类事物共同性质的为了反映事物各方面特征的为了反映不同事物之间属性差别的为了反映事物之间依赖或关联的根据历史的和当前的数据推测未来数据揭示事物偏离常规的异常现象,为了反映事物之间依赖或关联的,典型案例-啤酒与尿布,更多举例,e.g:在购买铁锤的顾客当中,有70的人同时购买了铁钉。,更多举例,e.g:年龄在40 岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过

2、。,关联规则挖掘,关联规则(Association Rule)挖掘是从事务数据库、关系数据库和其它信息存储中的大量数据项集之间发现有趣的、频繁出现的模式、关联和相关性。,关联规则挖掘步骤,一般分为2个步骤:依据支持度找出所有的频繁项集。(频度)依据置信度产生关联规则。(强度),性能瓶颈!,先验算法,基本概念,项,项集,频繁项集,事务,关联规则,置信度,支持度,由此我们引出之后需要的几个概念:,关联规则挖掘举例,最简单的关联规则挖掘单维、单层、布尔关联规则挖掘,Minsup=50%,Mincon=50%,满足频繁项集如表,只有AC关联分析有意义Support(A=C)=50%Confidence

3、(A=)P(C/A)=66.7%,找出频繁项集在频繁项集中找出满足置信度的项集,Apriori(先验)算法先验释义:由原因推结果,Apriori算法,Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。,按照所处理的值类型不同进行关联规则分类:布尔关联规则,如事务向量(001101100)对每种商品可以用一个布尔量来表示该种商品是否被购买,则每个购物篮可以用一个布尔向量来表示量化关联规则,如AgeX,”30-39”incomeX,”40k48k”=buysX,”computer”,Apriori 使用一种称作逐层搜索的迭代方法,“K-1项集”用于探索“K项集”。首先,找出频繁“1

4、项集”的集合。该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3,如此下去,直到不能找到“K项集”。找每个LK需要一次数据库扫描。,Apriori算法,Apriori算法目的意义,Apriori算法主要为了提高数据访问效率,提升发现频繁项集的速度,核心:连接步和剪枝步,连接步 自连接 原则:前k-2项相同 字典顺序连接剪枝步 利用Apriori性质:任一频繁项集的所有非空子集也必须是频繁的,反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的。过滤候选项集。减少工作量。,步骤1:发现频繁项集,频繁项集发现过程:(1)扫描(2)计数(3)比较(4)产生频繁项集(5)

5、连接、剪枝,产生候选项集重复步骤(1)(5)直到不能发现更大频集,步骤2:产生关联规则,根据前面提到的置信度的定义,关联规则的产生如下:(1)对于每个频繁项集L,产生L的所有非空子集;(2)对于L的每个非空子集S,如果则输出规则“S LS”。注:LS表示在项集L中除去S子集的项集。,举 例,Apriori算法伪代码,(1)L 1=find_frequent_1_itemsets(D);(2)for(k=2;L k-1;k+)(3)C k=apriori_gen(L k-1);(4)for each transaction t D/scan D for counts(5)C t=subset(C

6、 k,t);/get the subsets of t that are candidates(6)for each candidate c C t(7)c.count+;(8)(9)L k=c Ck|c.countmin_sup(10)(11)return L=k L k;,连接步和剪枝步,第1 步:连接(join)Procedure apriori_gen(L k-1:frequent(k-1)itemset)1)for each itemset l 1L k-1 2)for each itemset l 2L k-1 3)if(l 11=l 21)(l 1k-2=l 2k-2)(l1k-

7、1 l 2k-1)then 4)c=l1l2;/连接,产生候选集 5)if has_infrequent_subset(c,L k-1)then 6)delete c;/修剪,去掉无用的候选项 7)else add c to C k;8)9)return C k;,连接步和剪枝步,第2 步:剪枝(prune)procedure has_infrequent_subset(c:candidate k itemset;L k-1:frequent(k-1)itemset);/使用先验知识 1)for each(k-1)subset s of c2)if sL k-1 then 3)return true;4)return false;,可能产生大量的候选集可能需要重复扫描数据库,Apriori算法局限性,谢 谢!,

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1