数据挖掘作业完整版Word格式.docx

资源描述

数据挖掘作业完整版Word格式.docx

《数据挖掘作业完整版Word格式.docx》由会员分享，可在线阅读，更多相关《数据挖掘作业完整版Word格式.docx（10页珍藏版）》请在冰豆网上搜索。

数据挖掘作业完整版Word格式.docx

这一阶段包括确定挖掘任务/LI的、选择挖掘方法、实施数据挖掘；

5、模式解释/评价：

数据挖掘阶段发现出来的模式，经过用户或机器的评价，可能存在冗余或无关的模式，需要剔除；

也有可能模式不满足用户的要求，需要退回到整个发现阶段之前，重新进行KDD过程。

2、阐述数据挖掘产生的背景和意义。

数据挖掘产生的背景：

随着信息科技的进步以及电子化时代的到来，人们以更快捷、更容易、更廉价的方式获取和存储数据，使得数据及信息量以指数方式增长。

据粗略估计，一个中等规模企业每天要产生100MB以上的商业数据。

而电信、银行、大型零售业每天产生的数据量以TB来计算。

人们搜集的数据越来越多，剧增的数据背后隐藏着许多重要的信息，人们希望对其进行更高层次的分析，以便更好的利用这些数据。

先前的数据库系统可以高效的实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系与规那么，无法根据现有的数据来预测未来的发展趋势。

缺乏挖掘数据背后隐藏的知识的手段。

导致了“数据爆炸但知识贫乏〞的现象。

于是人们开始提出“要学会选择、提取、抛弃信息〞，并且开始考虑：

如何才能不被信息淹没如何从中及时发现有用的知识、提高信息利用率如何从浩瀚如烟海的资料中选择性的搜集他们认为有用的信息这给我们带来了另一些头头疼的问题：

第一是信息过量，难以消化；

笫二是信息真假难以区分；

笫三是信息平安难以保证；

第四是信息形式不一致，难以统一处理

面对这一挑战，面对数量很大而有意义的信息很难得到的状况面对大量繁杂而分散的数据资源，随着计算机数据仓库技术的不断成熟，从数据中发现知识

〔KnowledgeDiscoveryinDatabase〕及其核心技术数据挖掘〔DataMining〕便

应运而生，并得以蓬勃开展，越来越显示出其强大的生命力。

数据挖掘的意义：

数据挖掘之所以被称为未来信息处理的骨干技术之一，主要在于它正以一种全新的概念改变着人类利用数据的方式。

在20世纪，数据库技术取得了重大的成果并且得到了广泛的应用。

但是，数据库技术作为一种根本的信息储存和管理方式，仍然是以联机事务处理为核心应用，缺少对决策、分析、预测等高级功能的支持机制。

众所周知，随着硬盘存储容量及的激增以及磁盘阵列的普及，数据库容量增长迅速，数据仓库以及Web等新型数据源出现，联机分析处理、决策支持以及分类、聚类等复杂应用成为必然。

面对这样的挑战，数据挖掘和知识发现技术应运而生，并显现出强大的生命力。

数据挖掘和知识发现使数据处理技术进入了一个更加高级的阶段。

它不仅能对过去的数据进行查询，而且能够找出过去数据之间的潜在联系，进行更高层次的分析，以便更好地作出决策、预测未来的发展趋势等等。

通过数据挖掘，有价值的知识、规那么或更高层次的信息就能够从数据库的相关数据集合中抽取岀来，从而使大型数据库作为一个丰富、可靠的资源为知识的提取效劳。

3、给出一种关联规那么的算法描述，并举例说明。

Apriori算法描述:

Apriori算法由Agrawal等人于1993年提出,是最有影响的挖掘布尔关联规那么频繁项集的算法，它通过使用递推的方法生成所有频繁项U集。

根本思想是将关联规那么挖掘算法的设计分解为两步：

〔1〕找到所有频繁项集，含有k个项的频繁项集称为k-项集。

Apriori使用一种称作逐层搜索的迭代方法，k-项集用于探索〔k+1〕-项集。

首先，出频繁1-项集的集合。

该集合记作LI。

L1用于找频繁2-项集的集合L2,而L2用于找L3,如下去，直到不能找到频繁k-项集。

找出每个Lk都需要一次数据库扫描。

为提高频繁项集层产生的效率，算法使用Apriori性质用于压缩搜索空间。

〔2〕使用第一步中找到的频繁项集产生关联规那么。

从算法的根本思想可知，Apriori算法的核心和关键在第一步。

而第一步的关键是如何将Apriori性质用于算法，利用Lk-1找Lk。

这也是一个山连接和剪枝组成的两步过程：

〔1〕连接步：

为找Lk,通过Lk-1与自己连接产主候选k-项集的集合。

该候选项集的集合记作Ck。

设11和12是Lk-l中的项集。

记号li［j］表示li的第j项〔例如，11吐-2］表示11的倒数第3项〕。

为方便计，假定事务或项集中的项按字典次序排序。

执行连接Lk-lLk-1；

其中，Lk-l的元素是可连接的，如果它们前化-2）项相同；

即Lk-1的元素11和12是可连接的，如果（11[1]=12[1]）A（11[2]=12[21）A...A（U[k-2]=12[k-2j）A（U[k-l]<

12[k-lJ）o条件（11[k-l]<

12[k-l]）是简单地保证不产生重复。

连接11和12产生的结果项集是11[1]11[2]...ll[k-l]12[k-l]o

（2）剪枝步：

Ck是Lk的超集;

即，它的成员可以是，也可以不是频繁的，但所有的频繁k-项集都包含在Ck中。

扫描数据库，确定Ck中每个候选的计数，从而确定Lk（即，根据定义，计数值不小于最小支持度计数的所有候选是频繁的，从而属于Lk）。

然而，Ck可能很大，这样所涉及的计算量就很大。

为压缩Ck,可以用以下方法使用Apriori性质：

任何非频繁的住-1）-项集都不可能是频繁k-项集的子集。

因此，如果一个候选k-项集的（k-l）-子集不在Lk-l中，那么该候选也不可能是频繁的，从而可以由Ck中删除。

Apriori算法举例：

如有如下数据

TID

Listof

T100

II,12,15

T200

12,14

T300

12,13

T400

II,12,14

T500

II,13

T600

T700

T800

II,12,13,15

T900

II,12,13

每一行表示一条交易，共有9行，既9笔交易，左边表示交易ID,右边表示商品名称。

最小支持度是22%,那么每件商品至少要出现9*22%二2次才算频繁。

第一次扫描数据库，使得在每条交易中，按商品名称递增排序。

笫二次扫描数据，找频繁项集为1的元素有：

项集

支持度计数

{ID

{12}

项集是2的元素，方法是两两任意组合，第三次扫描数据得到它们出现的次数:

{11,12}

{11,13}

{11，14}

{11,15}

{12,13}

{12,14}

{12,15}

{13,14}

{13,15}

{14,15}

此时就有规律性了，在频繁项集为K的元素上找频繁项集为K+1的元素的方法是：

在频繁项集为K的项日〔每行记录〕中，假设共有'

行，两两组合，满足两两中前K-1个元素相同，只后一个元素要求前一条记录的商品名称小于后一条记录的商品名称，这样是为了防止重复组合，求它们的并集得到长度为K+1的准频繁项集，那么最多共有Apriori算法种可能的组合，有：

{II,12,

13}

15}

14}

{II,13,

{12,13,

{12,14,

想想如果'

很大的话，Apriori算法是一个多么庞大的数字，这时就要用到Apriori的核心了：

如果K+1个元素构成频繁项集，那么它的任意K个元素的子集也是频繁项集。

然后将每组K+1个元素的所有长度为K的子集，有Apriori算法中组合，在频繁项集为K的项集中匹配，没有找到那么删除，用第一条记录{11,12,13}它的长度为2的频繁项集有:

Apriori算法分别是：

{11,12},{11,13},{12,13}种情况，幸好这三种情况在频繁项集为2的项集中都找到了。

通过这步过滤，得到的依旧是准频繁项集，它们是：

此时第四次扫描数据库，得到真正长度为3的频繁项集是：

{11,12,

因为{11,12,14}只出现了1次，小于最小支持度2,删除。

就这个例子而言，它的最大频繁项集只有3,就是{II,12,13}和{11,12,15}o

4、给出一种聚类算法描述，并举例说明。

k-means算法是一种属于划分方法的聚类算法，通常采用欧氏距离作为2个样本相似程度的评价指标，其根本思想是：

随机选取数据集中的k个点作为初始聚类中心，根据数据集中的各个样本到k个中心的距离将其归到距离最小的类中，然后计算所有归到各个类中的样本的平均值，更新每个类中心，直到平方误差准那么函数稳定在最小值。

算法步骤：

1.为每个聚类确定一个初始聚类中心，这样就有K个初始聚类中心。

2.将样本集中的样本按照最小距离原那么分配到最邻近聚类3.使用每个聚类中的样本均值作为新的聚类中心。

4.重复步骤步直到聚类中心不再变化。

k-means算法举例：

数据对象集合S见下表，作为一个聚类分析的二维样本，要求的簇的数量22。

⑴选择q（0,2）,。

2（0,0）为初始的簇中心，即M严q=（0,2）,m2=o2=（o,o）

（2）对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。

对Q（M|,OJ=J（0—1.5）2+（2-0『=2.5〃（）2+（0-0）2

显然,故将Q分配给C

对于O4:

〃=J（O—+（2一0『=V55/（M2，Q）=J（O-5）2+（O_O）2=5因为J（M2,O4）<

J（M„O4）,所以将。

4分配给巾

对于O5:

=』0-5），+（2-2）2=5〃M，O5）=J（O一5『+（0一2）-=冋

因为d（Mg）Sd（M2,O5）,所以将分配给G

更新，得到新簇q={q,oj和C2={O2,O3,O4}

计算平方误差准那么，单个方差为

总体牌专他是0）2+运勾平[但列年去）5扌迈5

（3）计算新的簇的中心。

M}=（（0+5）/2,（2+2）/2）=（2.5,2）

重复

（2）和（3）,得到（X分配给G；

0：

：

分配给G,03分配给G,分配给

G，Os分配给G。

更新，得到新簇q={O^O5}和C2={O2,O3,O4}。

中心为M]=（2.5,2）,陆=（2.17,0）。

单个方差分别为

总初国误塑蒐扌（2—2『]+[（2.5—5）'

+（2—2打=

由上可以看出，第一次迭代后，总体平均误

展开阅读全文