聚类算法评价PPT推荐.ppt-资源下载

聚类算法评价PPT推荐.ppt

1、,4.1.2 数据挖掘对聚类算法的要求聚类是一个富有挑战性的研究领域，数据挖掘对聚类的典型要求如下：（1）可伸缩性（Scalability）（2）处理不同类型属性的能力（3）发现任意形状的聚类（4）用于决定输入参数的领域知识最小化（5）对于输入记录顺序不敏感（6）高维性（7）处理噪音和异常数据的能力（8）基于约束的聚类（9）可解释性,4.1.3 典型聚类方法简介,划分方法（partitioning methods）基于质心（K-means）、中心的划分方法层次的方法（hierarchical methods）BIRCH、ROCK、CURE基于密度的方法 DBSCAN、OPTICS基于图的方法

2、 Chameleon、SNN基于网格的方法（grid-based methods）STING、WaveCluster、CLIQUE基于模型的方法（model-based methods）EM、COBWEB、神经网络其他聚类方法谱聚类算法（spectral clustering）、蚁群聚类算法等,基于划分的聚类,原始数据点,基于划分的聚类结果,基于层次的聚类,传统的层次聚类,非传统的基于层次的聚类,非传统的树图,传统的基于层次的树图,4.2 基于划分的聚类算法,给定一个 n 个对象或元组的数据库，一个划分方法构建数据的k个划分，每个划分表示一个聚类，并且k=n。也就是说，它将数据划分为k个组，

3、同时满足如下的要求：（1）每个组至少包含一个对象；（2）每个对象必须属于且只属于一个组。划分式聚类算法需要预先指定簇数目或簇中心，通过反复迭代运算，逐步降低目标函数的误差值，当目标函数值收敛时，得到最终聚类结果。这类方法分为基于质心的（Centroid-based）划分方法和基于中心的（Medoid-based）划分方法。,4.2.1 基本k-means聚类算法,k-means聚类算法：（1）从数据集D中任意选择k个对象作为初始簇中心；（2）repeat（3）for 数据集D中每个对象P do（4）计算对象P到k个簇中心的距离（5）将对象P指派到与其最近（距离最短）的簇；（6）end for（

4、7）计算每个簇中对象的均值，做为新的簇的中心；（8）until k个簇的簇中心不再发生变化,K-means算法采用来表示一个簇,k-means聚类算法示例-1,例 4.1 对表4-1中二维数据，使用k-means算法将其划分为2个簇，假设初始簇中心选为P7（4，5），P10（5，5）。表4-1 k-means聚类过程示例数据集1解：图4-2 显示了对于给定的数据集k-means聚类算法的执行过程。（1）根据题目，假设划分的两个簇分别为C1和C2，中心分别为（4，5）和（5，5），下面计算10个样本到这2个簇中心的距离，并将10个样本指派到与其最近的簇：（2）第一轮迭代结果如下：属于簇C1的样本

5、有：P7，P1，P2，P4，P5，P8 属于簇C2的样本有：P10，P3，P6，P9 重新计算新的簇的中心，有：C1的中心为（3.5，5.167），C2的中心为（6.75，4.25）,k-means聚类算法示例-2,（3）继续计算10个样本到新的簇的中心的距离，重新分配到新的簇中，第二轮迭代结果如下：P1，P2，P4，P5，P7，P10 属于簇C2的样本有：P3，P6，P8，P9 重新计算新的簇的中心，有：C1的中心为（3.67，5.83），C2的中心为（6.5，3.25）（4）继续计算10个样本到新的簇的中心的距离，重新分配到新的簇中，发现簇中心不再发生变化，算法终止。,图4-2 k-mea

6、ns算法聚类过程示例,k-means算法描述容易、实现简单、快速，但存在不足：（1）簇的个数难以确定；（2）聚类结果对初始值的选择较敏感；（3）这类算法采用爬山式技术寻找最优解,容易陷入局部最优值；（4）对噪音和异常数据敏感；（5）不能用于发现非凸形状的簇，或具有各种不同大小的簇。,（a）大小不同的簇（b）形状不同的簇图4.3 基于质心的划分方法不能识别的数据,4.2.2 二分k-means算法,二分K-means算法是基本k-means算法的直接扩充，基于如下想法：为了得到k个簇，将所有点的集合分裂成两个簇，从中选择一个继续分裂，如此重复直到产生k个簇。算法详细描述如下：初始化簇表，使之包

7、含由所有的点组成的簇。Repeat 从簇表中选取一个簇。对选定的簇进行多次二分“试验”For i=1 to 试验次数 do 使用基于基本k-means，二分选定的簇 End for 从二分试验中选择具有最小总SSE的两个簇。将这两个簇添加到簇表中Until 簇表中包含k个簇,4.2.3 k-means聚类算法的拓展-1,对于聚类分析而言，聚类表示和数据对象之间相似度的定义是最基础的问题，直接影响数据聚类的效果。这里介绍一种简单的聚类表示方法，并对Minkowski距离进行推广以使聚类算法可以有效处理含分类属性的数据。假设数据集D有m个属性，其中有mC个分类属性和mN个数值属性，m=mC+mN，

8、用Di表示第i个属性取值的集合。,定义4-1 给定簇C，a 在C中关于Di 的频度定义为C在 Di上的投影中包含a 的次数：定义4-2 给定簇C，C的摘要信息CSI（Cluster Summary Information）定义为：，其中为C的大小,由分类属性中不同取值的频度信息和数值型属性的质心两部分构成，即：,4.2.3 k-means聚类算法的拓展-2,定义4-3 给定D的簇C、和,对象与，x0。（1）对象p，q在属性i上的差异程度（或距离）定义为：对于分类属性或二值属性，;对于连续数值属性或顺序属性，；（2）两个对象p，q间的差异程度（或距离）定义为：;,4.2.3 k-means聚

9、类算法的拓展-3,（3）对象p与簇C间的距离定义为p与簇C的摘要之间的距离：。这里为p与C在属性上的距离，对于分类属性其值定义为p与C中每个对象在属性上的距离的算术平均值，即；对于数值属性其值定义为。（4）簇C1与C2间的距离定义为两个簇的摘要间的距离：,4.2.3 k-means聚类算法的拓展-4,这里为与在属性上的距离，对于分类属性其值定义为中每个对象与中每个对象的差异的平均值：在定义4-3的（2）中，当x=1时，相当于曼哈顿（Manhattan）距离，当x=2时，相当于欧式（Euclidean）距离。,4.2.3 k-means聚类算法的拓展-5,距离计算示例

10、,例4-2 假设描述学生的信息包含属性：性别，籍贯，年龄。有两条记录p，q及两个簇C1，C2的信息如下，分别求出记录和簇彼此之间的距离：p=男，广州，18，q=女，深圳，20 C1=男：25，女：5；广州：20，深圳：6，韶关：4；19 C2=男：3，女：12；汕头：12，深圳：1，湛江：2；24按定义4-3，取x=1得到的各距离如下：d（p，q）=1+1+（20-18）=4 d（p，C1）=（1-25/30）+（1-20/30）+（19-18）=1.5 d（p，C2）=（1-3/15）+（1-0/15）+（24-18）=7.8 d（q,C1）=（1-5/30）+（1-6/30）+（20-19

11、）=79/30 d（q,C2）=（1-12/15）+（1-1/15）+（24-20）=77/15 d（C1,C2）=1-（25*3+5*12）/（30*15）+1-6*1/（30*15）+（24-19）=1003/1506.69,4.2.3 k-means聚类算法的拓展 k-summary,k-summary算法由几个主要步骤完成:（1）从数据集D中任意选择k个对象，并创建k个簇的摘要信息CSI；（6）end for（7）更新簇的摘要信息CSI；（8）until k个簇的摘要信息不再发生变化,k-summary算法示例-1,例4-3 对于表4-2所示的数据集，请使用k-summary算法将其划

12、分为3个簇。表4-2 聚类过程示例数据集2,k-summary算法示例-2,解：（1）假定选择第5条记录 rainy，68,80，FALSE，第7条记录overcast，64，65，TRUE和第10条记录 rainy，75，80，FALSE 作为三个簇C1、C2和C3的初始中心（摘要）。（2）划分对象到最近的簇，各记录与三个簇之间的距离（使用欧几里得距离）如下表：,k-summary算法示例-3,第一次划分后三个簇的摘要信息更新为：簇C1:rainy:3;69.667;89.000;FALSE:2,TRUE:1;簇C2:overcast:1,rainy:1,sunny:66.0;68.333;

13、1,TRUE:2;簇C3:3,rainy:4;77.875;83.875;5,TRUE:3（3）重新划分对象到最近的簇，第二次迭代结果：,k-summary算法示例-4,第二次划分后三个簇的摘要信息更新为簇C1:1,rain:3,sunny:70.6;90.4;3,TRUE:68.25;68.75;2,rainy:80.8;83.2;4,TRUE:1（4）重新划分对象到最近的簇，第三次迭代结果：,k-summary算法示例-5,第三次划分后三个簇的摘要信息更新为簇C1:1（5）经过三轮划分后，三个簇的摘要不再发生改变，聚类结束。簇C1包含的记录集合为1,2,3,10,13，摘要信息为C1:簇C2包含的记录集合

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？