样本空间分布密度的改进次胜者受罚竞争学习算法.docx-资源下载

样本空间分布密度的改进次胜者受罚竞争学习算法.docx

1、样本空间分布密度的改进次胜者受罚竞争学习算法基于样本空间分布密度的改进次胜者受罚竞争学习算法摘要:针对传统次胜者受罚竞争学习(rpcl)算法忽略数据集几何结构对节点权值调整的影响,以及魏立梅等提出的新rpcl算法(魏立梅,谢维信.聚类分析中竞争学习的一种新算法.电子科学学刊,2000,22(1):13-18)引入密度来对节点的权值进行调整时,密度定义的主观性,提出基于样本空间分布密度的改进rpcl算法。该算法根据数据集样本自然分布定义样本密度,将此密度引入rpcl节点权值调整;使用uci机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集对算法进行实验测试,对算法确定数据集类簇数目的准

2、确率、运行时间、聚类误差平方和、聚类结果的rand指数、jaccard系数以及adjust rand index参数进行分析比较。各项实验结果显示:所提算法优于原始rpcl算法和魏立梅算法,具有更好的聚类效果,对噪声数据有很强的抗干扰性能。所提算法不仅能根据样本的自然分布确定数据集的合理类簇数目,而且能确定合适的类簇中心,提高聚类的准确性,使聚类结果尽可能快地收敛到全局最优解。关键词:聚类;次胜者受罚竞争学习算法;样本密度;聚类数目;聚类中心improvement rival penalized competitive learning algorithm based onpattern di

3、stribution of samples英文作者名xie juan-ying1,2*, guo wen-juan1, xie wei-xin2,3, gao xin-bo2英文地址(1.school of computer science, shaanxi normal university, xi an shaanxi 710062, china;2.school of electronic engineering, xidian university, xi an shaanxi 710071, china;3.school of information engineering, she

4、nzhen university, shenzhen guangdong 518060, china)abstract: the original rival penalized competitive learning (rpcl) algorithm ignores the influence of the geometry structure of a dataset on the weight variation of its nodes. a new rpcl algorithm proposed by wei limei et al. (wei limei, xie weixin.

5、 a new competitive learning algorithm for clustering analysis. journal of electronics, 2000, 22(1): 13-18) overcame the drawback of the original rpcl by introducing the density of samples to adjust the weights of nodes, while the density was not much objective. this paper defined a new density for a

6、 sample according to the pattern distribution of samples in a dataset, and introduced the density into the adjusting for the weights of nodes in rpcl to overcome the disadvantages of the available rpcl algorithms. the authors improved rpcl algorithm was tested on some well-known datasets from uci ma

7、chine learning repository and on some synthetic data sets with noisy samples. the accuracy of determining the number of clusters of a dataset and the run time and the clustering error of the algorithms were compared. the rand index, the jaccard coefficient and the adjust rand index were used to anal

8、yze the performance of the algorithms. the experimental results show that the improved rpcl algorithm outperforms the original rpcl and the new rpcl proposed by wei limei et al. greatly, and achieves much better clustering results and has a stronger anti-interference performance for noisy data than

9、that of the other two rpcl algorithms. all the analyses demonstrate that the improved rpcl algorithm can not only determine the right number of clusters for a dataset according to its sample distribution, but also uncover the suitable centers of clusters and advance the clustering accuracy as well a

10、s approximate the global optimal clustering result as fast as possible.key words: clustering; rival penalized competitive learning (rpcl) algorithm; sample density; cluster number; cluster center0引言聚类分析作为无指导的学习方法是模式识别、机器学习、数据挖掘中的重要研究内容1-2。聚类将物理或抽象对象按照一定的相似性度量准则划分为若干类簇,使得同一个类簇中的对象之间具有较高的相似度,而不同类簇的对象间

11、相似度很小3。次胜者受罚竞争学习(rival penalized competitive learning, rpcl)算法由xu等4于1993年提出,是一种性能优良的竞争学习算法,能够自动确定数据集的类簇数5-6,实现无监督学习,即聚类。然而原始rpcl算法在节点权值调整中,没有考虑数据集几何结构对节点权值调整的影响。魏立梅等6引入数据密度来调整权值,而该密度的定义有一定主观性。本文根据数据集的自然分布信息定义了样本密度,并将该密度引入rpcl算法的节点权值调整,提出一种基于样本空间分布密度的改进rpcl算法,以克服现有rpcl算法的不足。经过uci机器学习数据库数据集以及随机生成的带有噪声

12、点的人工模拟数据集的实验测试,证明本文算法最优，同时对噪声数据有很强的抗干扰性能。第3期谢娟英等:基于样本空间分布密度的改进次胜者受罚竞争学习算法计算机应用第32卷1传统rpcl算法及其缺陷分析rpcl算法的基本思想如下:设数据集x=x1,x2,xj,xn,n是x中数据对象总数。x中的第j个数据对象xj是一个p维矢量,xj=(xj1,xj2,xjp)。rpcl算法中有q个节点,相应的有q个权矢量i(i=1,2,q)。第i个权矢量i是一个p维矢量,i=(i1,i2,ip)。每个节点代表一个预先设置的类别,节点的权矢量表示该类的类中心。节点i的输出为ui,ui-1,0,1。权矢量i的调整频率定

13、义为:i=miqj=1mj(1)其中:i是权矢量i的学习率,i是i的遗忘率,i0,i0。式(2)和(3)说明,rpcl算法中输入数据将获胜单元吸引过来的同时,将次胜单元推开。从宏观上看,每个类别只将一个权矢量吸引向它的类中心,且阻止较近的权矢量再向它靠近。所以,rpcl算法能够自动确定数据集的类簇数目。rpcl算法的缺陷在于:其权值调整中,从数据集中随机选取样本,没有考虑数据集几何结构对权值调整的影响。当数据对象位于某个类中心附近时,获胜单元在该数据对象吸引力作用下的位移要大,获胜单元能尽快地向该类中心收敛;次胜单元在该数据对象斥力作用下的位移也要大,次胜单元很难靠近获胜单元对应的类中心。当数

14、据对象位于某个类边缘时,获胜单元在数据对象吸引力作用下的位移要小,以免获胜单元偏离类中心;次胜单元在数据对象斥力作用下的位移也要小。获胜单元和次胜单元的位移只有满足上述条件,获胜单元在向某个类收敛时,才能不受边缘数据的干扰,迅速向该类中心收敛。而一旦已经有一个权矢量收敛于某个类中心时,该类中心就会以很强的斥力阻止第二个权矢量靠近。因此,考虑样本数据在整个数据集中的几何位置对权值调整的作用,能够加快算法的收敛并且提高聚类的准确性。基于此观点,魏立梅等6提出了一种能够竞争学习的rpcl新算法(下面称魏立梅算法),该算法能够自动确定数据集的类数,提高了算法收敛速度和聚类准确性。但是该算法定义数据密度

15、时需要主观选择一些参数,缺少客观性。2本文改进的rpcl算法为克服传统rpcl算法以及魏立梅算法的不足,本文根据数据集样本的自然分布,定义样本的密度d(xj),将该密度引入到节点权值调节公式,对各节点权矢量进行调节,得到改进的rpcl算法。下面是本文改进的rpcl算法中相关概念的定义。最终确定的类簇数目是一种衡量聚类算法性能的指标,算法确定的类簇数目越接近数据集的真实类簇数,证明该算法越有效7-10。因此首先以此来测试本文算法的性能。实验中相关参数设置为:迭代次数t为80,学习率为0.01,遗忘率为0.001。对9个数据集分别运行原始rpcl算法、魏立梅算法和本文算法。实验中的初始节点数目q取

16、5个不同的值,对每个q值各算法均执行20次,因此每种算法共执行100次。统计100次实验中正确确定聚类数目k的次数,记为cnumber,用rate表示确定聚类数目k的准确率,rate定义为:rate=cnumber/100。图1是原始rpcl算法、魏立梅算法和本文算法在9个不同uci数据集上,确定k值准确率rate的比较。图片图1uci数据集上确定k值准确率比较为了进一步评价本文算法的性能,下面采用常用的聚类误差平方和以及聚类时间对3种算法进行评价,同时还采用rand指数、jaccard系数9-13,以及adjusted rand index参数14对3种算法的聚类结果进行分析,其中后3个聚类

17、评价指标都是在已知正确分类信息的前提下对聚类算法的聚类结果进行评价的有效指标。后3个评价指标的定义如下:设u和v分别是关于数据集的两种划分,其中u是已知的正确划分,而v是通过某种聚类算法得到的划分结果。定义a,b,c,d 4个参数。a为在u和v都在同一类的样本对数目;b表示在u中为同一类,而在v中却不在同一类的样本对数目;c表示在v中为同一类,而在u中却不在同一类的样本对数目;d为在u和v都不在同一类簇的样本对数目。则a+b+c+d=n(n-1)/2,n为数据集中所含样本数,也即数据集的规模。定义m是所有可能的样本对,则m=a+b+c+d。rand指数、jaccard系数和adjusted r

18、and index参数分别定义如下。用r表示rand指数,j表示jaccard系数,ri表示adjusted rand index参数。在分析现有rpcl算法不足基础上,提出一种基于样本空间分布密度的改进rpcl算法,引入数据集的几何结构,利用数据集样本的自然分布信息定义样本密度,将该密度引入到rpcl算法的节点权值调整,解决现有rpcl算法没有考虑数据集几何结构对节点权值调整的影响,或者考虑不足的问题。uci机器学习数据库数据集和随机生成的带有不同比例噪声的人工模拟数据集上的实验共同表明:本文算法能够【：有的都要查左边是否撑满有效确定数据集的合适类簇数目和初始类簇中心。聚类时间、聚类误差平

19、方和,以及rand指数、jaccard系数和adjusted rand index参数 3个聚类有效性指标参数的比较分析显示,本文算法收敛速度快,聚类效果好,对噪声数据有很强的抗干扰性能。不足之处是:本文算法依然是对球形数据进行分析的,关于非球形数据的分析有待进一步研究。参考文献:1孙吉贵,刘杰,赵连宇. 聚类算法研究j. 软件学报, 2008, 19(1):48-61.2han j w,kamber m.数据挖掘概念与技术m. 范明, 孟小峰,译. 北京:机械工业出版社, 2000.3jain a k, dubes r c. algorithms for clustering datam.

20、upper saddle river, nj: prentice hall, 1988: 1-334.4xu l, krzyzak a, oja e. rival penalized competitive learning for clustering analysis j. ieee transactions on neural networks, 1993, 4(4): 636-649.5李听,郑宇,江芳泽.用改进的rpcl算法提取聚类的最佳数目j.上海大学学报,1999,40(8):120-122.6魏立梅, 谢维信. 聚类分析中竞争学习的一种新算法j. 电子科学学刊, 2000, 2

21、2(1):13-18.7张忠平,王爱杰,柴旭光.简单有效的确定聚类数目算法j.计算机工程与应用,2009,45(15):166-168.8张惟皎,刘春煌,李芳玉.聚类质量的评价方法j.计算机工程,2005,31(20):10-12.9于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围j.中国科学:e辑,2002,32(2):274-280.10王开军,李健,张军英,等.聚类分析中类数估计方法的实验比较j.计算机工程,2008,34(9):198-199.11杨善林,李永森,胡笑旋,等.k-means算法中的k值优化问题研究j.系统工程理论与实践,2006(2):97-101.12park h

22、s, jun c h. a simple and fast algorithm for k-medoids clustering j. expert systems with applications, 2009, 36(2): 3336-3341.13杨燕, 靳蕃, kamel m. 聚类有效性评价综述j.计算机应用研究, 2008, 25(6): 1631-1632.14hubert l, arabie p. comparing partitions j. journal of classification, 1985, 2(1):193-218.15vinh n x, epps j, nailey j. information theoretic measures for clusterings comparison: is a correction for chance necessary? c/ proceedings of the 26th international conference on machine learning. new york: acm press, 2009: 1073-1080.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？