样本空间分布密度的改进次胜者受罚竞争学习算法.docx
《样本空间分布密度的改进次胜者受罚竞争学习算法.docx》由会员分享,可在线阅读,更多相关《样本空间分布密度的改进次胜者受罚竞争学习算法.docx(3页珍藏版)》请在冰豆网上搜索。
样本空间分布密度的改进次胜者受罚竞争学习算法
基于样本空间分布密度的改进次胜者受罚竞争学习算法
摘要:
针对传统次胜者受罚竞争学习(rpcl)算法忽略数据集几何结构对节点权值调整的影响,以及魏立梅等提出的新rpcl算法(魏立梅,谢维信.聚类分析中竞争学习的一种新算法.电子科学学刊,2000,22
(1):
13-18)引入密度来对节点的权值进行调整时,密度定义的主观性,提出基于样本空间分布密度的改进rpcl算法。
该算法根据数据集样本自然分布定义样本密度,将此密度引入rpcl节点权值调整;使用uci机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集对算法进行实验测试,对算法确定数据集类簇数目的准确率、运行时间、聚类误差平方和、聚类结果的rand指数、jaccard系数以及adjustrandindex参数进行分析比较。
各项实验结果显示:
所提算法优于原始rpcl算法和魏立梅算法,具有更好的聚类效果,对噪声数据有很强的抗干扰性能。
所提算法不仅能根据样本的自然分布确定数据集的合理类簇数目,而且能确定合适的类簇中心,提高聚类的准确性,使聚类结果尽可能快地收敛到全局最优解。
关键词:
聚类;次胜者受罚竞争学习算法;样本密度;聚类数目;聚类中心improvementrivalpenalizedcompetitivelearningalgorithmbasedonpatterndistributionofsamples英文作者名xiejuan-ying1,2*,guowen-juan1,xiewei-xin2,3,gaoxin-bo2英文地址(1.schoolofcomputerscience,shaanxinormaluniversity,xianshaanxi710062,china;2.schoolofelectronicengineering,xidianuniversity,xianshaanxi710071,china;3.schoolofinformationengineering,shenzhenuniversity,shenzhenguangdong518060,china)abstract:
theoriginalrivalpenalizedcompetitivelearning(rpcl)algorithmignorestheinfluenceofthegeometrystructureofadatasetontheweightvariationofitsnodes.anewrpclalgorithmproposedbyweilimeietal.(weilimei,xieweixin.anewcompetitivelearningalgorithmforclusteringanalysis.journalofelectronics,2000,22
(1):
13-18)overcamethedrawbackoftheoriginalrpclbyintroducingthedensityofsamplestoadjusttheweightsofnodes,whilethedensitywasnotmuchobjective.thispaperdefinedanewdensityforasampleaccordingtothepatterndistributionofsamplesinadataset,andintroducedthedensityintotheadjustingfortheweightsofnodesinrpcltoovercomethedisadvantagesoftheavailablerpclalgorithms.theauthorsimprovedrpclalgorithmwastestedonsomewell-knowndatasetsfromucimachinelearningrepositoryandonsomesyntheticdatasetswithnoisysamples.theaccuracyofdeterminingthenumberofclustersofadatasetandtheruntimeandtheclusteringerrorofthealgorithmswerecompared.therandindex,thejaccardcoefficientandtheadjustrandindexwereusedtoanalyzetheperformanceofthealgorithms.theexperimentalresultsshowthattheimprovedrpclalgorithmoutperformstheoriginalrpclandthenewrpclproposedbyweilimeietal.greatly,andachievesmuchbetterclusteringresultsandhasastrongeranti-interferenceperformancefornoisydatathanthatoftheothertworpclalgorithms.alltheanalysesdemonstratethattheimprovedrpclalgorithmcannotonlydeterminetherightnumberofclustersforadatasetaccordingtoitssampledistribution,butalsouncoverthesuitablecentersofclustersandadvancetheclusteringaccuracyaswellasapproximatetheglobaloptimalclusteringresultasfastaspossible.keywords:
clustering;rivalpenalizedcompetitivelearning(rpcl)algorithm;sampledensity;clusternumber;clustercenter0引言聚类分析作为无指导的学习方法是模式识别、机器学习、数据挖掘中的重要研究内容[1-2]。
聚类将物理或抽象对象按照一定的相似性度量准则划分为若干类簇,使得同一个类簇中的对象之间具有较高的相似度,而不同类簇的对象间相似度很小[3]。
次胜者受罚竞争学习(rivalpenalizedcompetitivelearning,rpcl)算法由xu等[4]于1993年提出,是一种性能优良的竞争学习算法,能够自动确定数据集的类簇数[5-6],实现无监督学习,即聚类。
然而原始rpcl算法在节点权值调整中,没有考虑数据集几何结构对节点权值调整的影响。
魏立梅等[6]引入数据密度来调整权值,而该密度的定义有一定主观性。
本文根据数据集的自然分布信息定义了样本密度,并将该密度引入rpcl算法的节点权值调整,提出一种基于样本空间分布密度的改进rpcl算法,以克服现有rpcl算法的不足。
经过uci机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试,证明本文算法最优,同时对噪声数据有很强的抗干扰性能。
第3期谢娟英等:
基于样本空间分布密度的改进次胜者受罚竞争学习算法计算机应用第32卷1传统rpcl算法及其缺陷分析rpcl算法的基本思想如下:
设数据集x={x1,x2,…,xj,…,xn},n是x中数据对象总数。
x中的第j个数据对象xj是一个p维矢量,xj=(xj1,xj2,…,xjp)。
rpcl算法中有q个节点,相应的有q个权矢量ωi(i=1,2,…,q)。
第i个权矢量ωi是一个p维矢量,ωi=(ωi1,ωi2,…,ωip)。
每个节点代表一个预先设置的类别,节点的权矢量表示该类的类中心。
节点i的输出为ui,ui∈{-1,0,1}。
权矢量ωi的调整频率定义为:
γi=mi∑qj=1mj
(1)其中:
αi是权矢量ωi的学习率,βi是ωi的遗忘率,αi>0,βi>0。
式
(2)和(3)说明,rpcl算法中输入数据将获胜单元吸引过来的同时,将次胜单元推开。
从宏观上看,每个类别只将一个权矢量吸引向它的类中心,且阻止较近的权矢量再向它靠近。
所以,rpcl算法能够自动确定数据集的类簇数目。
rpcl算法的缺陷在于:
其权值调整中,从数据集中随机选取样本,没有考虑数据集几何结构对权值调整的影响。
当数据对象位于某个类中心附近时,获胜单元在该数据对象吸引力作用下的位移要大,获胜单元能尽快地向该类中心收敛;次胜单元在该数据对象斥力作用下的位移也要大,次胜单元很难靠近获胜单元对应的类中心。
当数据对象位于某个类边缘时,获胜单元在数据对象吸引力作用下的位移要小,以免获胜单元偏离类中心;次胜单元在数据对象斥力作用下的位移也要小。
获胜单元和次胜单元的位移只有满足上述条件,获胜单元在向某个类收敛时,才能不受边缘数据的干扰,迅速向该类中心收敛。
而一旦已经有一个权矢量收敛于某个类中心时,该类中心就会以很强的斥力阻止第二个权矢量靠近。
因此,考虑样本数据在整个数据集中的几何位置对权值调整的作用,能够加快算法的收敛并且提高聚类的准确性。
基于此观点,魏立梅等[6]提出了一种能够竞争学习的rpcl新算法(下面称魏立梅算法),该算法能够自动确定数据集的类数,提高了算法收敛速度和聚类准确性。
但是该算法定义数据密度时需要主观选择一些参数,缺少客观性。
2本文改进的rpcl算法为克服传统rpcl算法以及魏立梅算法的不足,本文根据数据集样本的自然分布,定义样本的密度d(xj),将该密度引入到节点权值调节公式,对各节点权矢量进行调节,得到改进的rpcl算法。
下面是本文改进的rpcl算法中相关概念的定义。
最终确定的类簇数目是一种衡量聚类算法性能的指标,算法确定的类簇数目越接近数据集的真实类簇数,证明该算法越有效[7-10]。
因此首先以此来测试本文算法的性能。
实验中相关参数设置为:
迭代次数t为80,学习率α为0.01,遗忘率β为0.001。
对9个数据集分别运行原始rpcl算法、魏立梅算法和本文算法。
实验中的初始节点数目q取5个不同的值,对每个q值各算法均执行20次,因此每种算法共执行100次。
统计100次实验中正确确定聚类数目k的次数,记为cnumber,用rate表示确定聚类数目k的准确率,rate定义为:
rate=cnumber/100。
图1是原始rpcl算法、魏立梅算法和本文算法在9个不同uci数据集上,确定k值准确率rate的比较。
图片图1uci数据集上确定k值准确率比较为了进一步评价本文算法的性能,下面采用常用的聚类误差平方和以及聚类时间对3种算法进行评价,同时还采用rand指数、jaccard系数[9-13],以及adjustedrandindex参数[14]对3种算法的聚类结果进行分析,其中后3个聚类评价指标都是在已知正确分类信息的前提下对聚类算法的聚类结果进行评价的有效指标。
后3个评价指标的定义如下:
设u和v分别是关于数据集的两种划分,其中u是已知的正确划分,而v是通过某种聚类算法得到的划分结果。
定义a,b,c,d4个参数。
a为在u和v都在同一类的样本对数目;b表示在u中为同一类,而在v中却不在同一类的样本对数目;c表示在v中为同一类,而在u中却不在同一类的样本对数目;d为在u和v都不在同一类簇的样本对数目。
则a+b+c+d=n(n-1)/2,n为数据集中所含样本数,也即数据集的规模。
定义m是所有可能的样本对,则m=a+b+c+d。
rand指数、jaccard系数和adjustedrandindex参数分别定义如下。
用r表示rand指数,j表示jaccard系数,ri表示adjustedrandindex参数。
在分析现有rpcl算法不足基础上,提出一种基于样本空间分布密度的改进rpcl算法,引入数据集的几何结构,利用数据集样本的自然分布信息定义样本密度,将该密度引入到rpcl算法的节点权值调整,解决现有rpcl算法没有考虑数据集几何结构对节点权值调整的影响,或者考虑不足的问题。
uci机器学习数据库数据集和随机生成的带有不同比例噪声的人工模拟数据集上的实验共同表明:
本文算法能够【:
有的都要查左边是否撑满有效确定数据集的合适类簇数目和初始类簇中心。
聚类时间、聚类误差平方和,以及rand指数、jaccard系数和adjustedrandindex参数3个聚类有效性指标参数的比较分析显示,本文算法收敛速度快,聚类效果好,对噪声数据有很强的抗干扰性能。
不足之处是:
本文算法依然是对球形数据进行分析的,关于非球形数据的分析有待进一步研究。
参考文献:
[1]孙吉贵,刘杰,赵连宇.聚类算法研究[j].软件学报,2008,19
(1):
48-61.[2]hanjw,kamberm.数据挖掘概念与技术[m].范明,孟小峰,译.北京:
机械工业出版社,2000.[3]jainak,dubesrc.algorithmsforclusteringdata[m].uppersaddleriver,nj:
prenticehall,1988:
1-334.[4]xul,krzyzaka,ojae.rivalpenalizedcompetitivelearningforclusteringanalysis[j].ieeetransactionsonneuralnetworks,1993,4(4):
636-649.[5]李听,郑宇,江芳泽.用改进的rpcl算法提取聚类的最佳数目[j].上海大学学报,1999,40(8):
120-122.[6]魏立梅,谢维信.聚类分析中竞争学习的一种新算法[j].电子科学学刊,2000,22
(1):
13-18.[7]张忠平,王爱杰,柴旭光.简单有效的确定聚类数目算法[j].计算机工程与应用,2009,45(15):
166-168.[8]张惟皎,刘春煌,李芳玉.聚类质量的评价方法[j].计算机工程,2005,31(20):
10-12.[9]于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围[j].中国科学:
e辑,2002,32
(2):
274-280.[10]王开军,李健,张军英,等.聚类分析中类数估计方法的实验比较[j].计算机工程,2008,34(9):
198-199.[11]杨善林,李永森,胡笑旋,等.k-means算法中的k值优化问题研究[j].系统工程理论与实践,2006
(2):
97-101.[12]parkhs,junch.asimpleandfastalgorithmfork-medoidsclustering[j].expertsystemswithapplications,2009,36
(2):
3336-3341.[13]杨燕,靳蕃,kamelm.聚类有效性评价综述[j].计算机应用研究,2008,25(6):
1631-1632.[14]hubertl,arabiep.comparingpartitions[j].journalofclassification,1985,2
(1):
193-218.[15]vinhnx,eppsj,naileyj.informationtheoreticmeasuresforclusteringscomparison:
isacorrectionforchancenecessary?
[c]//proceedingsofthe26thinternationalconferenceonmachinelearning.newyork:
acmpress,2009:
1073-1080.