ImageVerifierCode 换一换
格式:PPT , 页数:102 ,大小:1.21MB ,
资源ID:14022847      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/14022847.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(聚类算法评价PPT推荐.ppt)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

聚类算法评价PPT推荐.ppt

1、,4.1.2 数据挖掘对聚类算法的要求 聚类是一个富有挑战性的研究领域,数据挖掘对聚类的典型要求如下:(1)可伸缩性(Scalability)(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)用于决定输入参数的领域知识最小化(5)对于输入记录顺序不敏感(6)高维性(7)处理噪音和异常数据的能力(8)基于约束的聚类(9)可解释性,4.1.3 典型聚类方法简介,划分方法(partitioning methods)基于质心(K-means)、中心的划分方法层次的方法(hierarchical methods)BIRCH、ROCK、CURE基于密度的方法 DBSCAN、OPTICS基于图的方法

2、 Chameleon、SNN基于网格的方法(grid-based methods)STING、WaveCluster、CLIQUE基于模型的方法(model-based methods)EM、COBWEB、神经网络其他聚类方法 谱聚类算法(spectral clustering)、蚁群聚类算法等,基于划分的聚类,原始数据点,基于划分的聚类结果,基于层次的聚类,传统的层次聚类,非传统的基于层次的聚类,非传统的树图,传统的基于层次的树图,4.2 基于划分的聚类算法,给定一个 n 个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚类,并且k=n。也就是说,它将数据划分为k个组,

3、同时满足如下的要求:(1)每个组至少包含一个对象;(2)每个对象必须属于且只属于一个组。划分式聚类算法需要预先指定簇数目或簇中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果。这类方法分为基于质心的(Centroid-based)划分方法和基于中心的(Medoid-based)划分方法。,4.2.1 基本k-means聚类算法,k-means聚类算法:(1)从数据集D中任意选择k个对象作为初始簇中心;(2)repeat(3)for 数据集D中每个对象P do(4)计算对象P到k个簇中心的距离(5)将对象P指派到与其最近(距离最短)的簇;(6)end for(

4、7)计算每个簇中对象的均值,做为新的簇的中心;(8)until k个簇的簇中心不再发生变化,K-means算法采用来表示一个簇,k-means聚类算法示例-1,例 4.1 对表4-1中二维数据,使用k-means算法将其划分为2个簇,假设初始簇中心选为P7(4,5),P10(5,5)。表4-1 k-means聚类过程示例数据集1解:图4-2 显示了对于给定的数据集k-means聚类算法的执行过程。(1)根据题目,假设划分的两个簇分别为C1和C2,中心分别为(4,5)和(5,5),下面计算10个样本到这2个簇中心的距离,并将10个样本指派到与其最近的簇:(2)第一轮迭代结果如下:属于簇C1的样本

5、有:P7,P1,P2,P4,P5,P8 属于簇C2的样本有:P10,P3,P6,P9 重新计算新的簇的中心,有:C1的中心为(3.5,5.167),C2的中心为(6.75,4.25),k-means聚类算法示例-2,(3)继续计算10个样本到新的簇的中心的距离,重新分配到新的簇中,第二轮迭代结果如下:P1,P2,P4,P5,P7,P10 属于簇C2的样本有:P3,P6,P8,P9 重新计算新的簇的中心,有:C1的中心为(3.67,5.83),C2的中心为(6.5,3.25)(4)继续计算10个样本到新的簇的中心的距离,重新分配到新的簇中,发现簇中心不再发生变化,算法终止。,图4-2 k-mea

6、ns算法聚类过程示例,k-means算法描述容易、实现简单、快速,但存在不足:(1)簇的个数难以确定;(2)聚类结果对初始值的选择较敏感;(3)这类算法采用爬山式技术寻找最优解,容易陷入局部最优值;(4)对噪音和异常数据敏感;(5)不能用于发现非凸形状的簇,或具有各种不同大小的簇。,(a)大小不同的簇(b)形状不同的簇 图4.3 基于质心的划分方法不能识别的数据,4.2.2 二分k-means算法,二分K-means算法是基本k-means算法的直接扩充,基于如下想法:为了得到k个簇,将所有点的集合分裂成两个簇,从中选择一个继续分裂,如此重复直到产生k个簇。算法详细描述如下:初始化簇表,使之包

7、含由所有的点组成的簇。Repeat 从簇表中选取一个簇。对选定的簇进行多次二分“试验”For i=1 to 试验次数 do 使用基于基本k-means,二分选定的簇 End for 从二分试验中选择具有最小总SSE的两个簇。将这两个簇添加到簇表中Until 簇表中包含k个簇,4.2.3 k-means聚类算法的拓展-1,对于聚类分析而言,聚类表示和数据对象之间相似度的定义是最基础的问题,直接影响数据聚类的效果。这里介绍一种简单的聚类表示方法,并对Minkowski距离进行推广以使聚类算法可以有效处理含分类属性的数据。假设数据集D有m个属性,其中有mC个分类属性和mN个数值属性,m=mC+mN,

8、用Di表示第i个属性取值的集合。,定义4-1 给定簇C,a 在C中关于Di 的频度定义为C在 Di上的投影中包含a 的次数:定义4-2 给定簇C,C的摘要信息CSI(Cluster Summary Information)定义为:,其中 为C的大小,由分类属性中不同取值的频度信息和数值型属性的质心两部分构成,即:,4.2.3 k-means聚类算法的拓展-2,定义4-3 给定D的簇C、和,对象 与,x0。(1)对象p,q在属性i上的差异程度(或距离)定义为:对于分类属性或二值属性,;对于连续数值属性或顺序属性,;(2)两个对象p,q间的差异程度(或距离)定义为:;,4.2.3 k-means聚

9、类算法的拓展-3,(3)对象p与簇C间的距离 定义为p与簇C的摘要之间的距离:。这里 为p与C在属性 上的距离,对于分类属性 其值定义为p与C中每个对象在属性 上的距离的算术平均值,即;对于数值属性 其值定义为。(4)簇C1与C2间的距离 定义为两个簇的摘要间的距离:,4.2.3 k-means聚类算法的拓展-4,这里 为 与 在属性 上的距离,对于分类属性 其值定义为 中每个对象与 中每个对象的差异的平均值:在定义4-3的(2)中,当x=1时,相当于曼哈顿(Manhattan)距离,当x=2时,相当于欧式(Euclidean)距离。,4.2.3 k-means聚类算法的拓展-5,距离计算示例

10、,例4-2 假设描述学生的信息包含属性:性别,籍贯,年龄。有两条记录p,q及两个簇C1,C2的信息如下,分别求出记录和簇彼此之间的距离:p=男,广州,18,q=女,深圳,20 C1=男:25,女:5;广州:20,深圳:6,韶关:4;19 C2=男:3,女:12;汕头:12,深圳:1,湛江:2;24按定义4-3,取x=1得到的各距离如下:d(p,q)=1+1+(20-18)=4 d(p,C1)=(1-25/30)+(1-20/30)+(19-18)=1.5 d(p,C2)=(1-3/15)+(1-0/15)+(24-18)=7.8 d(q,C1)=(1-5/30)+(1-6/30)+(20-19

11、)=79/30 d(q,C2)=(1-12/15)+(1-1/15)+(24-20)=77/15 d(C1,C2)=1-(25*3+5*12)/(30*15)+1-6*1/(30*15)+(24-19)=1003/1506.69,4.2.3 k-means聚类算法的拓展 k-summary,k-summary算法由几个主要步骤完成:(1)从数据集D中任意选择k个对象,并创建k个簇的摘要信息CSI;(6)end for(7)更新簇的摘要信息CSI;(8)until k个簇的摘要信息不再发生变化,k-summary算法示例-1,例4-3 对于表4-2所示的数据集,请使用k-summary算法将其划

12、分为3个簇。表4-2 聚类过程示例数据集2,k-summary算法示例-2,解:(1)假定选择第5条记录 rainy,68,80,FALSE,第7条记录overcast,64,65,TRUE和第10条记录 rainy,75,80,FALSE 作为三个簇C1、C2和C3的初始中心(摘要)。(2)划分对象到最近的簇,各记录与三个簇之间的距离(使用欧几里得距离)如下表:,k-summary算法示例-3,第一次划分后三个簇的摘要信息更新为:簇C1:rainy:3;69.667;89.000;FALSE:2,TRUE:1;簇C2:overcast:1,rainy:1,sunny:66.0;68.333;

13、1,TRUE:2;簇C3:3,rainy:4;77.875;83.875;5,TRUE:3(3)重新划分对象到最近的簇,第二次迭代结果:,k-summary算法示例-4,第二次划分后三个簇的摘要信息更新为簇C1:1,rain:3,sunny:70.6;90.4;3,TRUE:68.25;68.75;2,rainy:80.8;83.2;4,TRUE:1(4)重新划分对象到最近的簇,第三次迭代结果:,k-summary算法示例-5,第三次划分后三个簇的摘要信息更新为簇C1:1(5)经过三轮划分后,三个簇的摘要不再发生改变,聚类结束。簇C1包含的记录集合为1,2,3,10,13,摘要信息为C1:簇C2包含的记录集合

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1