关联规则基本算法.docx-资源下载

关联规则基本算法.docx

1、关联规则基本算法关联规则基本算法及其应用1关联规则挖掘1.1 关联规则提出背景1993年，Agrawal等人在首先提出关联规则概念，同时给出了相应的挖掘算法AIS，但是性能较差。1994年，他们建立了项目集格空间理论，并依据上述两个定理，提出了著名的Apriori算法，至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。关联规则挖掘在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多的了解顾客的购物习惯（如下图

2、）。特别是，想知道哪些商品顾客可能会在一次购物时同时购买？为回答该问题，可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联，分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买，从而帮助他们开发更好的营销策略。1.2 关联规则的基本概念关联规则定义为：假设是项的集合，给定一个交易数据库，其中每个事务(Transaction)t是I的非空子集，即，每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则是形如的蕴涵式，其中且，和分别称为关联规则的先导(antecedent或left-han

3、d-side, LHS)和后继(consequent或right-hand-side, RHS)。关联规则在D中的支持度(support)是D中事务包含的百分比，即概率；置信度(confidence)是包含X的事务中同时包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则称关联规则是有趣的。这些阈值由用户或者专家设定。用一个简单的例子说明。上表是顾客购买记录的数据库D，包含6个事务。项集I=网球拍,网球,运动鞋,羽毛球。考虑关联规则：网球拍网球，事务1,2,3,4,6包含网球拍，事务1,2,5,6同时包含网球拍和网球，支持度，置信度。若给定最小支持度 = 0.5，最小置

4、信度 = 0.8，关联规则网球拍网球是有趣的，认为购买网球拍和购买网球之间存在关联。1.3 关联规则的分类按照不同标准，关联规则可以进行分类如下：（1）基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如：性别=“女”=职业=“秘书” ，是布尔型关联规则；性别=“女”=avg（收入）=2300，涉及的收入是数值类型，所以是一个数值型关联规则。（

5、2）基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机=Sony打印机，是一个细节数据上的单层关联规则；台式机= Sony打印机，是一个较高层次和细节层次之间的多层关联规则。（3）基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个

6、属性之间的某些关系。例如：啤酒=尿布，这条规则只涉及到用户的购买的物品；性别=“女”=职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。2关联规则挖掘的相关算法关联规则最为经典的算法是Apriori算法。由于它本身有许多固有缺陷，后来的研究者又纷纷提出了各种改进算法或者不同的算法，频繁树（FP-Tree）算法应用也十分广泛。本文将就这两种典型算法进行研究。2.1 Apriori算法2.1.1预备知识关联规则的挖掘分为两步：(1)找出所有频繁项集；(2)由频繁项集产生强关联规则。而其总体性能由第一步决定。在搜索频繁项集的时候，最简单、基本的算法就是Apriori算法。它

7、是R.Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性算法。算法的名字基于这样一个事实：算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法，k项集用于探索（k+1）项集。首先，通过扫描数据库，累积每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。该集合记作L1。然后，L1用于找频繁2项集的集合L2，L2用于找L3，如此下去，直到不能再找到频繁k项集。找每个Lk需要一次数据库全扫描。为提高频繁项集逐层产生的效率，一种称作Apriori性质的重要性质用于压缩搜索空间。Apriori性质：频繁项集的所有非空子集也必须是频繁的

8、。Apriori性质基于如下观察。根据定义，如果项集I不满足最小支持度阈值min_sup，则I不是频繁的，即P(I)min_sup。如果项A添加到项集I，则结果项集（即IA）不可能比I 更频繁出现。因此，IA也不是频繁的，即P(IA)min_sup。2.1.2 Apriori算法的核心思想文献1中对Apriori核心算法思想简要描述如下：该算法中有两个关键步骤连接步和剪枝步。 (1) 连接步：为找出Lk(频繁k项集)，通过Lk-1与自身连接，产生候选k项集，该候选项集记作Ck；其中Lk-1的元素是可连接的。(2) 剪枝步：Ck是Lk的超集，即它的成员可以是也可以不是频繁的，但所有的频繁项集都包

9、含在Ck中。扫描数据库，确定Ck中每一个候选的计数，从而确定Lk(计数值不小于最小支持度计数的所有候选是频繁的，从而属于Lk)。然而，Ck可能很大，这样所涉及的计算量就很大。为压缩Ck，使用Apriori性质：任何非频繁的(k-1)项集都不可能是频繁k项集的子集。因此，如果一个候选k项集的(k-1)项集不在Lk中，则该候选项也不可能是频繁的，从而可以由Ck中删除。这种子集测试可以使用所有频繁项集的散列树快速完成。2.1.3 Apriori算法描述 Apriori算法，使用逐层迭代找出频繁项集。输入：事务数据库D；最小支持度阈值min_sup。输出：D 中的频繁项集L。 1） L1 = fi

10、nd_frequent_1_itemsets（D）； 2） for （k = 2； Lk-1 ； k+） 3） Ck= aproiri_gen（Lk-1，min_sup）； 4） for each transaction t D /扫描 D 用于计数 5） Ct= subset（Ck，t）； /得到 t 的子集，它们是候选 6） for each candidate c Ct 7） c.count+； 8） 9） Lk=c Ck| c.count min_sup 10） 11） return L = kLk； Procedure apriori_gen (Lk-1:frequent(k-1)-

11、itemsets) 1) for each itemsets l1Lk-1 2) for each itemsets l2Lk-1 3) if (l11=l21) (l12=l22)(l1k-2=l2k-2) (l1k-1厨房配件、贝壳类=蔬菜、贝壳类=水果、成品=厨房配件、急救用品=蜜饯糖果零食类、啤酒=水果。由此可以看出，当顾客购买办公设备或者成品时，很有可能会同时购买厨房配件；当顾客购买贝壳类时，很有可能会同时购买蔬菜、水果；当顾客购买啤酒时，很有可能会同时购买水果。从总体上看，贝壳类、蔬菜、水果及啤酒很有可能被同时购买。以上分析结果对于世纪联华超市的物品摆放、顾客的购买模式研究、商品的

12、进货管理等方面都有一定指导意义。世纪联华超市可以在商品摆放上将办公设备和厨房配件就近摆放，将贝壳类、蔬菜、水果和啤酒就近摆放，而办公设备和厨房配件则应该与贝壳类、蔬菜、水果和啤酒相对分开。超市在进货及库存管理上也应该注意以上几种商品数量的协调，从而更好地满足顾客。参考文献1 Jiawei Han Micheline Kamber, Data Mining Concepts and Techniques, Second EditionM:151-1552 1. Toivonen H. Sampling large databases for association rulesC.In: Proc

13、eedings of the 22th International Conference on Very Large Databases,Bombay,India,1996:1-123 2. Brin S, Motwani R, Ullman J D et al. Dynamic itemset counting and implication rules for market basket analysis. In: Proceedings of 1997 ACM-SIGMOD International Conference on Management of Data.Tucson,AZ,

14、1997:255-2644 3. Savasere A, Omiecinski E,Navathe S. An efficient algorithm for mining association rulesC. In: Proceedings of the 21st International Conference on VLDB.Zurich,1995:432-4445 4. Park J S, Chen M S, Yu P S. An Effective Hash-Based Algorithm for Mining Association Rules. In: Proceedings of ACM SIGMOD International Conference Management of Data, San Jose,CA,1995:175-1866 5. Han J, Jian P, Yiwen Y. Mining frequent patterns without candidate generation. In: Proceedings of the 2000 ACM SIGMOD International Conference Management of Data.Dallas,2000:1-12

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？