一种基于相容关系的聚类算法.docx

上传人:b****6 文档编号:2992862 上传时间:2022-11-16 格式:DOCX 页数:5 大小:18.70KB
下载 相关 举报
一种基于相容关系的聚类算法.docx_第1页
第1页 / 共5页
一种基于相容关系的聚类算法.docx_第2页
第2页 / 共5页
一种基于相容关系的聚类算法.docx_第3页
第3页 / 共5页
一种基于相容关系的聚类算法.docx_第4页
第4页 / 共5页
一种基于相容关系的聚类算法.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

一种基于相容关系的聚类算法.docx

《一种基于相容关系的聚类算法.docx》由会员分享,可在线阅读,更多相关《一种基于相容关系的聚类算法.docx(5页珍藏版)》请在冰豆网上搜索。

一种基于相容关系的聚类算法.docx

一种基于相容关系的聚类算法

一种基于相容关系的聚类算法

  Clusteringoncompatiblerelation

  WANRen-xia,WANGLi-xin,LIUZhen-wen,SUXiao-ke

  (CollegeofInformationScience&Technology,DonghuaUniversity,Shanghai201620,China)

  Abstract:

  Clusteranalysishadplayedaveryimportantroleindatamining.Thispaperproposedanewalgorithmbasedoncompatiblerelation.Thenewalgorithmgroupedobjectsbythemaximumcompatibleclustersandpermitedoneobjectbelongingtoseveraldifferentclusterswhileeveryclusterhaditsexclusivemembers,whichgainedadifferentclusteringresultfromthetraditionalclusteralgorithms.Theexperimentsgetaconsistentresult.

  Keywords:

cluster;compatiblerelation;compatiblesubset

  0引言

  ?

ソ?

年来,对数据集上的聚类算法已有了广泛的研究。

总体来说,传统聚类算法可以划分为硬聚类和模糊聚类两大类[1]。

硬聚类算法将数据集划分为不相交的几个数据子集,每个数据子集代表一个类簇,而模糊聚类更多的是关注于簇中心及各个数据与所有簇中心隶属关系的变化,分析每个数据点隶属于各个簇的程度。

本文提出了一种基于数据点间关系度量的聚类算法,该算法依据数据点间关系程度进行聚类,得到了不同于传统算法的聚类结果。

基于真实数据集的实验分析表明新算法具有比传统算法更为合理的聚类效果。

  1相关工作

  ?

ゴ?

统的聚类是指将数据对象分组成为若干个类,使得在同类中的对象间具有较高的相异度,而不同类中的对象差别较大。

相异度是根据描述对象的属性值来计算的,而距离是其经常采用的度量方式。

在聚类分析中,许多基于内存的聚类算法选择如下两种有代表性的数据结构:

a)数据矩阵。

它用P个属性来表示n个对象,表现形式是[xij]n×p。

其中xij表示对象i在属性j上的取值。

b)相异度矩阵。

它用来存储n个对象两两间的相异性,表现形式是[D(i,j)]n×n。

其中D(i,j)是对象i与对象j间相异性的量化表示,其值越小,两个对象就越接近,且D(i,j)≥0,D(i,i)=0,D(i,j)=D(j,i)。

从数据对象间的关系角度上来说,相异度只是对数据对象之间的离散关系的一种分析,这只是数据对象间关系分析的一种,而实际上数据对象的关系可能会比较复杂,甚至有些关系是不可以用相异度来衡量的,如对操场上的学生按朋友关系分组。

  ?

ノ南?

[2,3]研究了利用偏序关系和偏序集进行分层聚类的问题,提出了PoClustering算法,该算法在基因分组的实验中表现出更好的分类效果。

  ?

ノ南?

[4]研究了利用相异度的正交变换对具有三角不等式特性的高维数据的聚类问题,并通过误差评价边界来降低聚类的计算复杂度和提升其可扩展性。

  ?

ノ南?

[5]利用压缩相异度的方法来扩展K-modes算法,并利用启发式的方法来改进相异度的简单匹配。

  ?

ノ南?

[6]研究了利用相异度平滑的技术来对二元变量聚类的方法。

通过收缩评价的思想来过滤噪声数据,从而达到平滑相异度矩阵的目的。

  ?

ノ南?

[7]通过定义关系和多值对象属性及类型多样性的拓扑测度来构建一类特殊的相异度模型,并基于此模型完成自动分类的目标。

  ?

ノ南?

[8]介绍了等价相异度矩阵的性质,并给出了等价相异度矩阵的逐次平方求解方法和基于相异度矩阵的聚类算法。

  ?

ド鲜鲅芯恐饕?

还是基于对象间相异或相似关系,其聚类结果也往往都是些类球形的簇。

总体来说,基于数据对象间非相异或相似关系的研究还较少见报道;从现有的聚类技术来看,各种聚类方法也都没有很好地利用相异度的性质。

本文研究基于相容关系的聚类问题,并对相异度聚类的性质和方法作了进一步探讨。

  2对象集上的相容关系

  ?

ザㄒ?

1设D是对象集S上的关系度量,δ(≥0)是已给定的阈值,满足:

  a)D是自反的(即当且仅当x∈S,有D(x,x)≤δ)。

  b)D是对称的(即当且仅当x,y∈S,如果D(x,y)≤δ,则D(y,x)≤δ)。

  ?

ケ疚某?

D为S上的一个相容关系,S是关系D下一个相?

┤菁?

  ?

ヒ欢愿拍罴涞南嗨贫仁侵杆?

们共享信息的程度[2],因而相异度可以理解为两概念间最小的差异信息程度。

由于相异测度中,对于对象i、j总有D(i,i)=0,D(i,j)=D(j,i)成立,相异性是对象间的一种特殊的相容关系。

  ?

ザㄒ?

2设C是对象集S的一个子集,D是S上的一个关系,如果C是关系D下的一个相容集,则称C是关系D下S的一个相容子集。

  ?

サ惫叵凳窍嘁於仁保?

此时对象集可以看做是一些相容子集的合集。

这是因为对象集总能由单个对象构成的单点集的合集构成,而单点集{v}总是相容的(因为D(v,v)=0)。

  ?

ザㄒ?

3设在关系D下C是对象集S的一个相容子集,如果不存在另一个相容子集C′,使得C是C′的一个真子集,则C是S的一个极大相容子集。

  ?

ザ?

理1设S是任意一个对象集,D是S上的一个关系,C是关系D下S的一个相容子集,则必存在一个极大相容子集CD,使得CCD。

  ?

ブっ?

S={a1,a2,…,an},构造相容子集系列C0C1?

吉?

C2?

肌?

其中C0=C且Ci+1=Ci∪{aj}。

其中j满足ajCi,而aj与Ci中各对象都有相容关系的最小足标。

  ?

ビ捎诙韵蠹?

S所含对象的个数|S|=n,至多经过n-|C|步就使这个过程终止,而此序列的最后一个相容子集即为所要找的极大相容子集。

证毕。

  ?

ザ?

理2设S是任意一个对象集,如果在S上定义一个关系D,则存在此关系下S的惟一一个极大相容子集的集合,使得所有这些相容子集的并集等于S。

  ?

ブっ?

若在关系D下,对象集S上的每个相容子集都是单点集,则单点集即为S的极大相容子集;若存在相容子集,由定理1必存在包含此相容子集的极大相容子集。

设{S1,S2,…,Sm}是关系D下S所有的极大相容子集的集合。

如果存在对象ai∈S但ai∪mk=1Sk,若ai构成相容单点集{ai},则{ai}即为S的一个极大相容子集,这与{S1,S2,…,Sm}是关系D下S所有的极大相容子集的集合矛盾;若存在包含ai的一个S的极大相容子集S′,则S′必属于{S1,S2,…,Sm},这又与ai∪mk=1Sk矛盾。

所以关系D下S一定存在极大相容子集的集合,使得所有这些相容子集的并集等于S。

  ?

ト绻?

关系D下S存在另一极大相容子集的集合{S′1,S′2,…,S′l}且S=∪mk=1S′k,证明{S1,S2,…,Sm}={S′1,S′2,…,S′l}。

  ?

ゲ环辽?

S′j(j∈{1,2,…,l})为不同于任意Si(i=1,2,…,m)的任意一极大相容子集,ΔS为S′j与{S1,S2,…,Sm}中的Si1,Si2,…,Sim0的交集,即ΔS=S′j∩Si1=S′j∩Si2=…=S′j∩Sim0。

记S′j-ΔS={aj1,aj2,…,ajr},不妨设aj1∈Si1,aj2∈Si2,由于aj1、aj2同属于极大相容子集S′j,{aj1}∪{aj2}∪ΔS是一相容子集;由于Si1是包含{aj1}∪ΔS的一极大相容子集,aj2∈Si1,同理可得aj3∈Si1,…,ajr∈Si1,即aj1,aj2,…,ajr∈Si1,所以ΔS∪{aj1,aj2,…,ajr}Si1,即S′jSi1,而S′j是S的一极大相容子集,S′j=Si1。

这与“不妨设S′j(j∈{1,2,…,l})为不同于任意Si(i=1,2,…,m)的任意一极大相容子集”的假设矛盾,从而证明了极大相容子集的集合存在的惟一性。

证毕。

  3基于相容关系的聚类

  ?

ビ缮鲜龆?

理2可知,对于任意一个给定的对象集和一关系度量,对象集的每个极大相容子集就是一个基于此关系的对象分组(即对象簇),由此可得到如下基于相容关系的聚类?

┧惴ā?

  3.1相容关系的聚类算法

  ?

ニ惴ǎ?

Comp-clustering

  ?

ナ淙耄?

D――关系度量;S――对象集;δ――阈值

  ?

ナ涑觯?

SC――相容簇

  SC=;Cnew=

  whileS≠do

  ?

オ?

x∈S;Cnew←x

  S=S-{x};

  S(x)={y|D(y,x)≤δandD(x,y)≤δ,y∈S};

  whileS(x)≠do

  z∈S(x);Cnew←z;S(x)=S(x)-{z};

  S′=S-Cnew;

  whileS′≠do

  if(w∈S′,forallu∈Cnewsuchthat

  D(w,u)≤δandD(u,w)≤δ)then

  Cnew←w;

  endif

  S′=S′-{w};

  endwhile∥S′

  if!

C∈SC,suchthatCnewCthen

  SC←Cnew;Cnew=;

  endif

  endwhile∥S(x)

  endwhile∥S

  returnSC

  ?

ト绫?

1所示,给定对象集{A,B,C,D,E,F,G}的相异度矩阵(其中∞表示两对象间没有相异度值),阈值δ取值为{1,2,3,4,5}的结果如表2所示。

  3.2算法的图表示

  ?

ナ导噬希?

给定任一相容集S是可以用有向加权的图G=〈V,E,W〉来表示,其中图G中顶点集V的每个点对应S中一个对象,E中每条边e=〈x,y〉的权值w表示对象x与对象y之间的关系度量值D(x,y)与D(y,x)中较小的那一个。

由此,从对象集S中求每个极大相容子集等价于从相应的图G找最大完全子图。

  ?

ネ?

1为表1对应的无向加权图,则聚类结果如图2所示。

图2中,加粗的黑线表示公共边,同线型的边代表同一个类族。

  4实验结果与分析

  ?

ノ?

了进一步了解Comp-clustering算法的聚类效果,笔者采用一个包含20个数据点的数据集S20(图3)对新算法进行了聚类效果的实验测试。

  4.1实验设置

  ?

ケ疚氖笛槠教ㄅ渲萌缦拢?

CPU为IntelPentium2.2GHz,内存为512MB,操作系统为WindowsXPProfessionalEdition,所用代码均用7.0编程实现。

  4.2聚类效果分析

  ?

ノ?

了得到较好的聚类效果,首先考察该数据的相异度的频度分布情况,如图4所示。

  从图4中可以看出,相异度在0.2~0.6的数据量保持在70%左右,因此实验时分别选取相异度值δ为0.2、0.4、0.6,其聚类效果如图5所示。

  ?

タ梢钥闯觯?

本文的算法与传统的硬聚类和模糊聚类有明显的不同:

Comp-clustering允许同一个对象属于多个簇,这点不同于传统的硬聚类算法;同时,各个簇又都必须有自己独有的对象,这又

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 教学研究 > 教学案例设计

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1