模糊聚类理论发展及研究毕业论文.doc

上传人:b****2 文档编号:1703302 上传时间:2022-10-23 格式:DOC 页数:14 大小:116KB
下载 相关 举报
模糊聚类理论发展及研究毕业论文.doc_第1页
第1页 / 共14页
模糊聚类理论发展及研究毕业论文.doc_第2页
第2页 / 共14页
模糊聚类理论发展及研究毕业论文.doc_第3页
第3页 / 共14页
模糊聚类理论发展及研究毕业论文.doc_第4页
第4页 / 共14页
模糊聚类理论发展及研究毕业论文.doc_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

模糊聚类理论发展及研究毕业论文.doc

《模糊聚类理论发展及研究毕业论文.doc》由会员分享,可在线阅读,更多相关《模糊聚类理论发展及研究毕业论文.doc(14页珍藏版)》请在冰豆网上搜索。

模糊聚类理论发展及研究毕业论文.doc

模糊聚类理论发展及研究

摘要 从模糊聚类准则函数的演化、算法实现的途径、有效性度量方式以及在模式识别与图像处理中的应用等4个方面对模糊聚类理论的研究进展做了综述和评价,指出模糊聚类进一步研究的几个重要方向及其应用前景. 

关键词 聚类分析 模糊聚类 聚类有效性 模式识别 图像处理

  聚类就是按照事物间的相似性进行区分和分类的过程,在这一过程中没有教师指导,因此是一种无监督的分类. 聚类分析则是用数学方法研究和处理所给定对象的分类. “人以群分,物以类聚”,聚类是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物并认识事物间的相似性[1]. 

传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某个类中,具有非此即彼的性质,因此这种分类的类别界限是分明的. 而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,适合进行软划分. Zadeh[2]提出的模糊集理论为这种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析. 由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界,从而成为聚类分析研究的主流.

模糊划分的概念最早由Ruspini[3]提出,利用这一概念人们提出了多种聚类方法,比较典型的有:

基于相似性关系和模糊关系的方法(包括聚合法和分裂法)[4],基于模糊等价关系的传递闭包方法[5]、基于模糊图论最大树方法[6],以及基于数据集的凸分解、动态规划和难以辨识关系等方法. 然而由于上述方法不适用于大数据量情况,难以满足实时性要求高的场合,因此其实际的应用不够广泛,故在该方面的研究也就逐步减少了. 实际中受到普遍欢迎的是基于目标函数的方法,该方法设计简单、解决问题的范围广,最终还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算机实现. 因此,随着计算机的应用和发展,该类方法成为聚类研究的热点. 

以下将从目标函数的演化、算法的实现途径、有效性度量方式以及在实际中的应用等4个方面综述基于目标函数的模糊聚类方法的研究进展. 有关传统聚类分析以及其他的模糊聚类方法的系统总结可参见文献[1,7~10]. 

1 模糊聚类目标函数的演化

模糊聚类问题可以用数学语言描述为:

把一组给定的模式O={o1,o2,…,on}划分为c个模糊子集(聚类)S1,S2,…,Sc. 如果用μik(1≤i≤c,1≤k≤n)表示模式ok隶属于模糊子集Si的程度,那么就得到了这组模式的模糊c-划分U={μik|1≤i≤c,1≤k≤n}. 完成这样一组无类别标记模式集模糊划分的操作就是模糊聚类分析.为了获得有意义的分类,需要定义划分的准则,如相似性或相异性准则D(.)等. 假定每个模糊子集Si(1≤i≤c)都有一个典型模式pi,常被称做聚类原型,这样任一模式ok与模糊子集Si的相似性可以通过模式ok与聚类原型pi间的失真度dik=D(ok,pi)来度量. 

基于目标函数的模糊聚类主要是利用模式集O的观测值X={x1,x2,…,xn}Rs与原型特征值B={βi,1≤i≤c}之间的距离构造一个目标函数,然后通过优化这一带约束的非线性规划问题获得最佳的模糊c-划分:

      

(1)

其中,ζ为惩罚项,f(μik)∈C为约束条件,m为加权指数. 这样,模糊聚类的目标函数就由参量集{U,D(.),B,m,X}而确定. 对应于这些参量,模糊聚类目标函数的发展演化可以从以下5个大的方面来概括. 

1.1 对模糊划分矩阵U的研究

传统的聚拎分析为一种硬划分,μi(xk)∈{0,1}为样本xk类属的指示函数,而类别标记矢量μ(xk)=(μ1k,μ2k,…,μck)T则成为欧氏c-空间的基矢量. 为了表达模式间的相近信息,Ruspini[3]引入了模糊划分的概念,令μi(xk)∈[0,1],把标记矢量μ(xk)扩展为欧氏c-空间中的超平面,这样标记矢量既可称做模糊标记又可称为概率标记. 由于存在概率约束,使得隶属函数只能表示模式在模糊类间的分享程度,而不能反映典型性,为此Krishnapuram等人[11]提出可能性c-划分的概念,放松了概率约束,从而使标记矢量μ(xk)变为除去原点的单位超立方体. 由此而产生的可能性聚类算法具有良好的抗噪性能,但收敛速度慢,容易陷入局部极值点而得不到最优分类. 为了结合传统硬聚类的收敛速度和模糊聚类的对初始化不敏感(获得全局最优解的概率大)而且能反映样本间相近信息等优点,Selim和Ismail[12]提出了半模糊划分的概念,只保留划分矩阵中较模糊的元素,其余的元素作去模糊处理. 这样使划分矩阵U既具有一定的明晰性,又保持了样本在空间分布的模糊性,从而提高了分类识别的正确性. 后来,Kamel等人[13]以及裴继红等人[14]分别从不同的角度提出了改进型的半模糊划分方法,即为阈值型软聚类算法和截集模糊软聚类算法. 上述几种软划分的比较显示在表1中. 

表1 4种空间划分概念的比较

项目

可能性聚类

模糊聚类

传统聚类

半模糊聚类

标记矢量集

Npc=[0,1]c-O

O={(0,0,…,0)T}

Nhc={μi∈Nfc:

μi∈{0,1},i}

Nsc=Nfc

∪Nhc

物理意义

表示每个样本

属于各类的典型程度

表示每个样本在

各类间的分享程度

是样本严格类属

的指示函数

只有部分样

本类分模糊

收敛速度

较慢

较快

对初始化

的敏感性

很敏感

不很敏感

敏感

不很敏感

抗噪性能

较强

较强

  如何提高可能性划分的收敛速度并降低它对初始化的敏感程度,仍然是从模糊划分角度进一步研究模糊聚类的一个重要方向.如果在这方面有所突破,就可以得到一种既具有良好的抗噪鲁棒性,同时又能快速收敛到满意解的空间划分方法,不仅能从理论上完善现有的模糊软聚类方法,也必将缩短它的实用化进程.

1.2 对相似性准则D(.)的研究

单一的聚类准则不能解决所有可能的无监督分类问题,因此人们提出了多种相似性函数,比如:

最大似然准则[15]、最大熵准则[16]、最小体积准则[17]和信息论准则[18]等. 不过,实际中最常用的还是基于最小类内加权平方误差和准则. 

经典的类内平方误差和(WGSS:

within-groupsumofsquarederror)准则函数最早被用来定义传统的硬c-均值聚类算法和ISODATA算法. 随着模糊集理论的提出,Dunn[19]首先把它推广到加权的WGSS函数,后由Bezdek[20]扩展到加权WGSS的无限族,形成了模糊c-均值类型算法的通用聚类准则,形式如式

(1)所示. 对该准则函数的研究主要集中在相似性测度或者误差度量D(.)上,一般用样本与原型间的距离表示. 不同距离度量用来检测不同结构的数据子集,常用的距离函数见表2. 

表2 常见的距离函数及特点

名称

距离函数

特点功能

Minkowski

对应1≤p≤∞为一族距离测度,可用来检测从◇形超立方体到□形超立方体结构的数据子集

Euclidean

对应p=2的Minkowski距离,可用以检测特征空间中○形超球体结构的数据子集

Hamming

对应p=1的Minkowski距离,可用以检测特征空间中◇形超立方体结构的数据子集

Maximum

对应p=∞的Minkowski距离,可用以检测特征空间中□形超立方体结构的数据子集

Mahalanobis

DA(a,b)=(a-b)TA(a-b),

A为正定矩形

可用来检测特征空间中超椭球结构的数据子集

  Bobrowski等人[21]分别讨论了L1和L∞范数下的模糊聚类算法(即Hamming和Maximum距离),发现在许多情况下它们比常用的欧氏范数L2能获得更好的结果,建议在聚类分析中要选择合适的距离函数. 另外Mahalanobis距离的一种特例——加权欧氏距离(对应A为对角阵)还被广泛地使用于模式各维特征对分类贡献不同的应用背景[22]. 

在给定数据中搜索一个结构可以看做寻找合适的距离函数. 这就给我们留下了一个问题:

选择合适距离的准则是什么?

能否构造一种不依赖于事先定义距离测度的模糊聚类算法?

现有文献很少涉及这一问题,仍属于有待解决的范畴. 

1.3 对聚类原型B的研究

基于目标函数的模糊聚类又称做基于原型的聚类,因为目标函数的构造依赖于原型的定义,因此原型的类型必须事先给定. 聚类原型的研究是伴随着聚类应用的发展和需求而展开的,最初的聚类分析只应用于特征空间中超球体聚类结构的检测,因此原型为特征空间中的“点”,或者叫聚类中心[20];为了处理非超球体的聚类结构,Bezdek[23]提出了通过点v∈Rp的r(0≤r≤p-1)维线性簇原型Br(v:

{si})={v}+Span({si}),其特点见表3.

表3 几种原型的特点比较

线性簇维数

聚类原型

功能特点

r=0

B0(v;I)=v:

检测超球体和椭球体结构的子集

r=1

B1(v;s)=L(v;s):

线

检测线性结构的模式子集

r=2

B2(v;s1,s2)=P(v;s1,s2):

平面

检测平面结构的模式子集

2

Bp-1(v;{si})=HP(v;{si}):

超平面

检测超平面结构的模式子集

  此外,为了检测呈“薄壳”结构的模式子集,Dave提出球壳[24]和椭球壳[25]两种原型,并将其应用于边缘检测中获得了较好的效果. 随着应用的需求壳原型被推广到矩形壳[26]、多面体壳[27]以及任意形状的壳原型[28]等多种类型,而对于线性原型也逐步被扩展为抛物线[29]、二次曲线以及任意二次多项式形式的原型[30]. 

基于目标函数的聚类对原型有较强的依赖性,因此要求一方面必须充分利用先验知识选择合适的原型,另一方面必须与距离测度相结合研究,构造合理的相似性度量. 

1.4 对加权指数m的研究

在模糊聚类目标函数{Jm:

1

(1),如果不给隶属度乘一个权重,这种推广则是无效的. 参数m又称为平滑因子,控制着模式在模糊类间的分享程度[20],因此,要实现模糊聚类就必须选定一个m,然而最佳m的选取目前尚缺乏理论指导. 

Bezdek[31]给出过一个经验范围1.1≤m≤5;后又从物理解释上得出m=2最有意义;Chan等人[32]从汉字识别的应用背景得出m的最佳取值应在1.25~1.75之间;Bezdek等人[33]从算法收敛性角度着手,得出m的取值与样本数目n有关的结论,建议m的取值要大于n/(n-2);Pal等人[34]则从聚类有效性的实验研究中得到m的最佳选取区间应为[1.5,2.5],在不作特殊要求下可取区间中值m=2. 

上述有关m取值范围,大都来自实验和经验,均为启发式的,一方面不够系统,另一方面没有给出具体的优选算法. 此外,也还缺乏最优m的检验方法. 这一系列的开放问题,都值得进一步的探索,以便奠定m优选的理论基础. 

1.5 对各种数据集X聚类的研究

在实际应用中会遇到不同的数据类型,因此要研究模糊聚类的目标函数就必须首先研究所要处理的数据类型. 常见的数据大都为特征空间中的点集,除此以外,人们还研究了关系数据[35]、方向数据[36]、区间型数据和模糊数[37]等形式,并得出了一些有意义的结论. 还有一种类型的数据——符号数据[38],也引起了广泛的关注. 这种数据不仅包括一般数值型数据,还包括区间数、模糊数和语言量等形式,在模糊概念聚类方面有着较多

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 英语

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1