模糊聚类理论发展及研究毕业论文Word格式.docx
《模糊聚类理论发展及研究毕业论文Word格式.docx》由会员分享,可在线阅读,更多相关《模糊聚类理论发展及研究毕业论文Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
基于目标函数的模糊聚类主要是利用模式集O的观测值X={x1,x2,…,xn}Rs与原型特征值B={βi,1≤i≤c}之间的距离构造一个目标函数,然后通过优化这一带约束的非线性规划问题获得最佳的模糊c-划分:
(1)
其中,ζ为惩罚项,f(μik)∈C为约束条件,m为加权指数. 这样,模糊聚类的目标函数就由参量集{U,D(.),B,m,X}而确定. 对应于这些参量,模糊聚类目标函数的发展演化可以从以下5个大的方面来概括.
1.1 对模糊划分矩阵U的研究
传统的聚拎分析为一种硬划分,μi(xk)∈{0,1}为样本xk类属的指示函数,而类别标记矢量μ(xk)=(μ1k,μ2k,…,μck)T则成为欧氏c-空间的基矢量. 为了表达模式间的相近信息,Ruspini[3]引入了模糊划分的概念,令μi(xk)∈[0,1],把标记矢量μ(xk)扩展为欧氏c-空间中的超平面
,这样标记矢量既可称做模糊标记又可称为概率标记. 由于存在概率约束,使得隶属函数只能表示模式在模糊类间的分享程度,而不能反映典型性,为此Krishnapuram等人[11]提出可能性c-划分的概念,放松了概率约束
,从而使标记矢量μ(xk)变为除去原点的单位超立方体. 由此而产生的可能性聚类算法具有良好的抗噪性能,但收敛速度慢,容易陷入局部极值点而得不到最优分类. 为了结合传统硬聚类的收敛速度和模糊聚类的对初始化不敏感(获得全局最优解的概率大)而且能反映样本间相近信息等优点,Selim和Ismail[12]提出了半模糊划分的概念,只保留划分矩阵中较模糊的元素,其余的元素作去模糊处理. 这样使划分矩阵U既具有一定的明晰性,又保持了样本在空间分布的模糊性,从而提高了分类识别的正确性. 后来,Kamel等人[13]以及裴继红等人[14]分别从不同的角度提出了改进型的半模糊划分方法,即为阈值型软聚类算法和截集模糊软聚类算法. 上述几种软划分的比较显示在表1中.
表1 4种空间划分概念的比较
项目
可能性聚类
模糊聚类
传统聚类
半模糊聚类
标记矢量集
Npc=[0,1]c-O
O={(0,0,…,0)T}
Nhc={μi∈Nfc:
μi∈{0,1},i}
Nsc=Nfc
∪Nhc
物理意义
表示每个样本
属于各类的典型程度
表示每个样本在
各类间的分享程度
是样本严格类属
的指示函数
只有部分样
本类分模糊
收敛速度
慢
较慢
快
较快
对初始化
的敏感性
很敏感
不很敏感
敏感
抗噪性能
强
较强
弱
如何提高可能性划分的收敛速度并降低它对初始化的敏感程度,仍然是从模糊划分角度进一步研究模糊聚类的一个重要方向.如果在这方面有所突破,就可以得到一种既具有良好的抗噪鲁棒性,同时又能快速收敛到满意解的空间划分方法,不仅能从理论上完善现有的模糊软聚类方法,也必将缩短它的实用化进程.
1.2 对相似性准则D(.)的研究
单一的聚类准则不能解决所有可能的无监督分类问题,因此人们提出了多种相似性函数,比如:
最大似然准则[15]、最大熵准则[16]、最小体积准则[17]和信息论准则[18]等. 不过,实际中最常用的还是基于最小类内加权平方误差和准则.
经典的类内平方误差和(WGSS:
within-groupsumofsquarederror)准则函数最早被用来定义传统的硬c-均值聚类算法和ISODATA算法. 随着模糊集理论的提出,Dunn[19]首先把它推广到加权的WGSS函数,后由Bezdek[20]扩展到加权WGSS的无限族,形成了模糊c-均值类型算法的通用聚类准则,形式如式
(1)所示. 对该准则函数的研究主要集中在相似性测度或者误差度量D(.)上,一般用样本与原型间的距离表示. 不同距离度量用来检测不同结构的数据子集,常用的距离函数见表2.
表2 常见的距离函数及特点
名称
距离函数
特点功能
Minkowski
对应1≤p≤∞为一族距离测度,可用来检测从◇形超立方体到□形超立方体结构的数据子集
Euclidean
对应p=2的Minkowski距离,可用以检测特征空间中○形超球体结构的数据子集
Hamming
对应p=1的Minkowski距离,可用以检测特征空间中◇形超立方体结构的数据子集
Maximum
对应p=∞的Minkowski距离,可用以检测特征空间中□形超立方体结构的数据子集
Mahalanobis
DA(a,b)=(a-b)TA(a-b),
A为正定矩形
可用来检测特征空间中超椭球结构的数据子集
Bobrowski等人[21]分别讨论了L1和L∞范数下的模糊聚类算法(即Hamming和Maximum距离),发现在许多情况下它们比常用的欧氏范数L2能获得更好的结果,建议在聚类分析中要选择合适的距离函数. 另外Mahalanobis距离的一种特例——加权欧氏距离(对应A为对角阵)还被广泛地使用于模式各维特征对分类贡献不同的应用背景[22].
在给定数据中搜索一个结构可以看做寻找合适的距离函数. 这就给我们留下了一个问题:
选择合适距离的准则是什么?
能否构造一种不依赖于事先定义距离测度的模糊聚类算法?
现有文献很少涉及这一问题,仍属于有待解决的范畴.
1.3 对聚类原型B的研究
基于目标函数的模糊聚类又称做基于原型的聚类,因为目标函数的构造依赖于原型的定义,因此原型的类型必须事先给定. 聚类原型的研究是伴随着聚类应用的发展和需求而展开的,最初的聚类分析只应用于特征空间中超球体聚类结构的检测,因此原型为特征空间中的“点”,或者叫聚类中心[20];
为了处理非超球体的聚类结构,Bezdek[23]提出了通过点v∈Rp的r(0≤r≤p-1)维线性簇原型Br(v:
{si})={v}+Span({si}),其特点见表3.
表3 几种原型的特点比较
线性簇维数
聚类原型
功能特点
r=0
B0(v;
I)=v:
点
检测超球体和椭球体结构的子集
r=1
B1(v;
s)=L(v;
s):
线
检测线性结构的模式子集
r=2
B2(v;
s1,s2)=P(v;
s1,s2):
平面
检测平面结构的模式子集
2<
r≤p-1
Bp-1(v;
{si})=HP(v;
{si}):
超平面
检测超平面结构的模式子集
此外,为了检测呈“薄壳”结构的模式子集,Dave提出球壳[24]和椭球壳[25]两种原型,并将其应用于边缘检测中获得了较好的效果. 随着应用的需求壳原型被推广到矩形壳[26]、多面体壳[27]以及任意形状的壳原型[28]等多种类型,而对于线性原型也逐步被扩展为抛物线[29]、二次曲线以及任意二次多项式形式的原型[30].
基于目标函数的聚类对原型有较强的依赖性,因此要求一方面必须充分利用先验知识选择合适的原型,另一方面必须与距离测度相结合研究,构造合理的相似性度量.
1.4 对加权指数m的研究
在模糊聚类目标函数{Jm:
1<
m<
∞}中,Bezdek[20]引入了加权指数m,使Dunn的聚类准则变成m=2时的特例. 有人认为从数学上看参数m的出现不自然也没有必要[16],但是对于从硬聚类准则函数推广得到的目标函数
(1),如果不给隶属度乘一个权重,这种推广则是无效的. 参数m又称为平滑因子,控制着模式在模糊类间的分享程度[20],因此,要实现模糊聚类就必须选定一个m,然而最佳m的选取目前尚缺乏理论指导.
Bezdek[31]给出过一个经验范围1.1≤m≤5;
后又从物理解释上得出m=2最有意义;
Chan等人[32]从汉字识别的应用背景得出m的最佳取值应在1.25~1.75之间;
Bezdek等人[33]从算法收敛性角度着手,得出m的取值与样本数目n有关的结论,建议m的取值要大于n/(n-2);
Pal等人[34]则从聚类有效性的实验研究中得到m的最佳选取区间应为[1.5,2.5],在不作特殊要求下可取区间中值m=2.
上述有关m取值范围,大都来自实验和经验,均为启发式的,一方面不够系统,另一方面没有给出具体的优选算法. 此外,也还缺乏最优m的检验方法. 这一系列的开放问题,都值得进一步的探索,以便奠定m优选的理论基础.
1.5 对各种数据集X聚类的研究
在实际应用中会遇到不同的数据类型,因此要研究模糊聚类的目标函数就必须首先研究所要处理的数据类型. 常见的数据大都为特征空间中的点集
,除此以外,人们还研究了关系数据[35]、方向数据[36]、区间型数据和模糊数[37]等形式,并得出了一些有意义的结论. 还有一种类型的数据——符号数据[38],也引起了广泛的关注.