1、这一阶段包括 确定挖掘任务/LI的、选择挖掘方法、实施数据挖掘;5、模式解释/评价:数据挖 掘阶段发现出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,需 要剔除;也有可能模式不满足用户的要求,需要退回到整个发现阶段之前,重新进 行KDD过程。2、 阐述数据挖掘产生的背景和意义。数据挖掘产生的背景:随着信息科技的进步以及电子化时代的到来,人们以更 快捷、更容易、更廉价的方式获取和存储数据,使得数据及信息量以指数方式增 长。据粗略估计,一个中等规模企业每天要产生100MB以上的商业数据。而电信、 银行、大型零售业每天产生的数据量以TB来计算。人们搜集的数据越来越多,剧 增的数据背后隐藏
2、着许多重要的信息,人们希望对其进行更高层次的分析,以便更 好的利用这些数据。先前的数据库系统可以高效的实现数据的录入、查询、统计等 功能,但无法发现数据中存在的关系与规那么,无法根据现有的数据来预测未来的发 展趋势。缺乏挖掘数据背后隐藏的知识的手段。导致了 “数据爆炸但知识贫乏的 现象。于是人们开始提出“要学会选择、提取、抛弃信息,并且开始考虑:如何 才能不被信息淹没如何从中及时发现有用的知识、提高信息利用率如何从浩瀚如烟 海的资料中选择性的搜集他们认为有用的信息这给我们带来了另一些头头疼的问 题:第一是信息过量,难以消化;笫二是信息真假难以区分;笫三是信息平安难以 保证;第四是信息形式不一致
3、,难以统一处理面对这一挑战,面对数量很大而有意义的信息很难得到的状况面对大量繁杂而 分散的数据资源,随着计算机数据仓库技术的不断成熟,从数据中发现知识KnowledgeDiscoveryinDatabase及其核心技术 数据挖掘DataMining便应运而生,并得以蓬勃开展,越来越显示出其强大的生命力。数据挖掘的意义:数据挖掘之所以被称为未来信息处理的骨干技术之一,主要 在于它正以一种全新的概念改变着人类利用数据的方式。在20世纪,数据库技术 取得了重大的成果并且得到了广泛的应用。但是,数据库技术作为一种根本的信息 储存和管理方式,仍然是以联机事务处理为核心应用,缺少对决策、分析、预测等 高级
4、功能的支持机制。众所周知,随着硬盘存储容量及的激增以及磁盘阵列的普 及,数据库容量增长迅速,数据仓库以及Web等新型数据源出现,联机分析处理、 决策支持以及分类、聚类等复杂应用成为必然。面对这样的挑战,数据挖掘和知识 发现技术应运而生,并显现出强大的生命力。数据挖掘和知识发现使数据处理技术 进入了一个更加高级的阶段。它不仅能对过去的数据进行查询,而且能够找出过去 数据之间的潜在联系,进行更高层次的分析,以便更好地作出决策、预测未来的发 展趋势等等。通过数据挖掘,有价值的知识、规那么或更高层次的信息就能够从数据 库的相关数据集合中抽取岀来,从而使大型数据库作为一个丰富、可靠的资源为知 识的提取效
5、劳。3、 给出一种关联规那么的算法描述,并举例说明。Apriori算法描述:Apriori算法由Agrawal等人于1993年提出,是最有影响 的挖掘布尔关联规那么频繁项集的算法,它通过使用递推的方法生成所有频繁项U 集。根本思想是将关联规那么挖掘算法的设计分解为两步:1找到所有频繁项集, 含有k个项的频繁项集称为k-项集。Apriori使用一种称作逐层搜索的迭代方法, k-项集用于探索k+1-项集。首先,出频繁1-项集的集合。该集合记作LI。L1用 于找频繁2-项集的集合L2,而L2用于找L3,如下去,直到不能找到频繁k-项 集。找出每个Lk都需要一次数据库扫描。为提高频繁项集层产生的效率,
6、算法使 用Apriori性质用于压缩搜索空间。2使用第一步中找到的频繁项集产生关联规 那么。从算法的根本思想可知,Apriori算法的核心和关键在第一步。而第一步的关 键是如何将Apriori性质用于算法,利用Lk-1找Lk。这也是一个山连接和剪枝组 成的两步过程:1连接步:为找Lk,通过Lk-1与自己连接产主候选k-项集的 集合。该候选项集的集合记作Ck。设11和12是Lk-l中的项集。记号lij表示 li的第j项例如,11吐-2表示11的倒数第3项。为方便计,假定事务或项集 中的项按字典次序排序。执行连接Lk-lLk-1;其中,Lk-l的元素是可连接的,如 果它们前化-2)项相同;即Lk-
7、1的元素11和12是可连接的,如果(111=121) A (112=1221) A. A (Uk-2=12k-2j) A (Uk-l12k-lJ) o 条件(11 k- l12k-l)是简单地保证不产生重复。连接11和12产生的结果项集是 111112. llk-l12k-lo (2)剪枝步:Ck是Lk的超集;即,它的成员可 以是,也可以不是频繁的,但所有的频繁k-项集都包含在Ck中。扫描数据库,确 定Ck中每个候选的计数,从而确定Lk (即,根据定义,计数值不小于最小支持度 计数的所有候选是频繁的,从而属于Lk)。然而,Ck可能很大,这样所涉及的计 算量就很大。为压缩Ck,可以用以下方法使用
8、Apriori性质:任何非频繁的住-1)- 项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-l) -子集不 在Lk-l中,那么该候选也不可能是频繁的,从而可以由Ck中删除。Apriori算法举例:如有如下数据TIDList ofsT100II, 12, 15T20012, 14T30012, 13T400II, 12,14T500II, 13T600T700T800II, 12, 13, 15T900II, 12, 13每一行表示一条交易,共有9行,既9笔交易,左边表示交易ID,右边表示商 品名称。最小支持度是22%,那么每件商品至少要出现9*22%二2次才算频繁。第一 次
9、扫描数据库,使得在每条交易中,按商品名称递增排序。笫二次扫描数据,找频 繁项集为1的元素有:项集支持度计数ID6127项集是2的元素,方法是两两任意组合,第三次扫描数据得到它们出现的次数:11, 12411, 1311, 14111, 15212, 1312, 1412, 1513, 1413, 1514, 15此时就有规律性了,在频繁项集为K的元素上找频繁项集为K+1的元素的方法 是:在频繁项集为K的项日每行记录中,假设共有行,两两组合,满足两两 中前K-1个元素相同,只后一个元素要求前一条记录的商品名称小于后一条记录的 商品名称,这样是为了防止重复组合,求它们的并集得到长度为K+1的准频繁
10、项 集,那么最多共有Apriori算法种可能的组合,有:II, 12,131514II, 13,12, 13,12, 14,想想如果很大的话,Apriori算法是一个多么庞大的数字,这时就要用到 Apriori的核心了:如果K+1个元素构成频繁项集,那么它的任意K个元素的子集 也是频繁项集。然后将每组K+1个元素的所有长度为K的子集,有Apriori算法中 组合,在频繁项集为K的项集中匹配,没有找到那么删除,用第一条记录11,12,13 它的长度为2的频繁项集有:Apriori算法分别是:11,12, 11,13, 12,13种情 况,幸好这三种情况在频繁项集为2的项集中都找到了。通过这步过滤
11、,得到的依 旧是准频繁项集,它们是:此时第四次扫描数据库,得到真正长度为3的频繁项集是:11, 12,因为11,12, 14只出现了 1次,小于最小支持度2,删除。就这个例子而言, 它的最大频繁项集只有3,就是II, 12,13和11,12, 15 o4、 给出一种聚类算法描述,并举例说明。k-means算法是一种属于划分方法的聚类算法,通常采用欧氏距离作为2个 样本相似程度的评价指标,其根本思想是:随机选取数据集中的k个点作为初始 聚类中心,根据数据集中的各个样本到k个中心的距离将其归到距离最小的类中, 然后计算所有归到各个类中的样本的平均值,更新每个类中心,直到平方误差准那么 函数稳定在最
12、小值。算法步骤:1.为每个聚类确定一个初始聚类中心,这样就有K个初始聚类中 心。2.将样本集中的样本按照最小距离原那么分配到最邻近聚类3.使用每个聚类中的 样本均值作为新的聚类中心。4.重复步骤步直到聚类中心不再变化。k-means算法举例:数据对象集合S见下表,作为一个聚类分析的二维样本, 要求的簇的数量22。Xy35选择q(0,2) ,。2(0,0)为初始的簇中心,即M严q=(0,2) ,m2=o2=(o,o)(2)对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。对 Q (M|,OJ = J(0 1.5)2+(2-0=2.5 ()2+(0-0)2 显然,故将Q分配给C对于 O
13、4 := J(O +(2一0=V55/(M2,Q)= J(O-5)2+(O_O)2 =5 因为 J(M2,O4)J(MO4),所以将。4分配给 巾 对于 O5 : =0-5),+(2-2)2 =5 M,O5)= J(O一5+(0一2)-=冋因为d(Mg)Sd(M2,O5),所以将分配给G更新,得到新簇q=q,oj和C2=O2,O3,O4计算平方误差准那么,单个方差为总体 牌专他是0)2 +运勾平但列年去)5扌迈5(3)计算新的簇的中心。 M =(0 +5)/2,(2+ 2)/2)=(2.5,2)重复(2)和(3),得到(X分配给G; 0:分配给G, 03分配给G , 分配给G,Os分配给G。更新,得到新簇q=OO5和C2=O2,O3,O4。中心为 M =(2.5,2),陆=(2.17,0)。单个方差分别为总初国误塑蒐扌(2 2+ (2.5 5)+(2 2打=由上可以看出,第一次迭代后,总体平均误
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1