一种利用信息熵的群体智能聚类算法Word文档格式.docx
《一种利用信息熵的群体智能聚类算法Word文档格式.docx》由会员分享,可在线阅读,更多相关《一种利用信息熵的群体智能聚类算法Word文档格式.docx(6页珍藏版)》请在冰豆网上搜索。
算法中利用信息熵来控制蚂蚁拾起和放下对象动作,既可以减少参数的个数,又可以加快聚类的进程。
蚁群聚类的基本模型和;
算法在自然界中,一些蚂蚁可以将蚁尸聚成公墓,也可将幼虫按大小分类。
720289:
8-5等根据这两种现象提出了两种模型(%),两者的原理是一致的,即一群蚂蚁在一个二维区域内任意移动,允许按规则拾起和放下物体。
一个任意移动的未载物体的蚂蚁拾起一个物体的可能性!
按公式()计算;
一个任意移动的载有物体的蚂蚁放下一个物体的可能性!
#按公式(!
)计算,其中$是蚂蚁周围物体的个数,%和%!
均为常数。
?
%%@$!
()#?
$%!
@$!
!
(!
);
8.2-和,421,在文献(#)中,基于720289:
8-5的基本模型,提出了以下算法:
AB/0414,34C,14:
0BA:
-2D2-E412.F:
G3,62-,0F:
.3E:
05-4FH0F:
-:
-,33,5201IF:
G3,62,5201,1-,0F:
.3EI232612FI412H0F:
-ABJ,403:
:
GBA:
-(?
1:
(.,KF:
/L((,5201803,F20),0F(I412:
668G42F9E412.))1M20N:
.G812$(),0F()7-,+-,0F:
.-2,308.92-)921+220,0F/L()!
())1M20AA拾起规则O46P8G412.H0F/LH3I2/L((,52016,--E405412.),0F(I4122.G1E))1M20N:
.G812$(),0F#()7-,+-,0F:
#())1M20AA放下规则7-:
G412.一种利用信息熵的群体智能聚类算法刘波(暨南大学计算机科学系,广州=%!
)HQ.,43:
39K3FFRI:
M8$6:
.摘要论文采用群体智能(*+,-./01233452062)的思想研究聚类问题。
在;
8.2-和,421,基于蚁群的聚类算法中,通过信息熵的计算与比较,改变了拾起和放下对象的规则,增加了两区域对象的合并操作,从而加快了聚类速度并减少了参数设置数目。
该方法能够有效地聚集数据库的记录对象,具有一定的实际应用价值。
关键词信息熵群体智能聚类文章编号!
QS%%Q(!
#)%QSQ%文献标识码T中图分类号UO%!
#$%()*+!
#+,()-./%)*+0*(,123*4563(.7*##)+*89)$:
(72G,-1.201:
LN:
.G812-*642062,V40,0W04D2-I41E,X8,05CM:
8=%!
)UM2G,G2-6,--42I-2I2,-6M:
0638I12-4058I405I+,-.401233452062$/1,.20FIG46P405,0FF-:
GG405-832I40!
;
%(38:
01Y9,I2F638I12-405,35:
-41M.G-:
G:
I2F9E;
8.2-,0F,421,1M-:
85M6:
.G81405,0F6:
.G,-40540L:
-.,14:
0201-:
GE$TI,-2I831,41IG22FI8G638I12-405,0F-2F862I08.92-:
LG,-,.212-I$UM2.21M:
F6,0638I12--26:
-FI40,F,1,9,I22LL2614D23E,0F4I:
LG-,6146,3,GG346,14:
0D,382$26,(4%:
40L:
GE,I+,-.401233452062,638I12-作者简介:
刘波,女,副教授,主要研究方向:
数据挖掘,数据仓库,智能信息处理。
S计算机工程与应用!
#$%()*+(),+-./01.23().4567050810)(0*9:
.2*(97*10(.1.88=*0);
6.1:
02390(1().2().2?
2*(15.831*.(.+*1047以上算法考虑的是:
在一个!
的网格中,蚂蚁在地点#可以观察到周围$$的区域中的物体(下面称对象)。
对象%在地点2与周围对象的相似度按公式(%)计算,其中!
是一个衡量相异度的参数,(%,%()是两个对象%和%(的距离。
)(%)@A$!
%(!
*+,-($$)(#)AB(%,%()!
#*+)(%)C%.-+#/$$%+(%)00(%)@1A1AD)(%)(*)!
(#)0(%)@!
)(%)*+)(%)E1!
A*+)(%)1!
$()在F算法中,蚂蚁拾起和放下一个对象的可能性按公式(#)和公式()计算。
拾起或放下的规则是:
将一个随机数与计算所得的拾起或放下可能性值比较,若随机数小则执行拾起或放下操作。
这种规则会导致一个对象多次被拾起或放下,从而聚类较慢。
%基于信息熵的蚁群聚类方法((12.=6GH(1GI57102)在文献JKL中,阐述了M:
3((.(提出的信息熵定义:
假设2是一个随机变量,3是其可能的取值集合(连续型数据需离散化),0
(2)是取2值的可能性函数,信息熵4
(2)定义为公式(N):
4
(2)@B2!
3!
0
(2)5.90
(2)(N)一个多变量向量2@O2A,2!
,,25P的信息熵按公式(K)计算,其中:
0
(2)60(2A,2!
,,25)是多变量可能分布函数,3A,3!
,35是相应向量项的可能取值集合(连续型数据需离散化)。
4
(2)@B2A!
3A!
25!
35!
0(2A,2!
,,25)5.90(2A,2!
,,25)(K)文献JK,QL已提出了基于信息熵的聚类算法,这些方法均依据这样一个事实:
包含聚的子空间的信息熵比不包含聚的信息熵小。
借鉴这一思想,下面在(12.=6GH(1GI57102算法中,将信息熵引入F算法中,改变了拾起和放下判断规则。
RS初始化SR.2每一对象%).将%随机地放在一网格中;
().2.2每一蚂蚁).%随机地选择网格中一地方;
().2RS主循环SR.2.@A1..43T)..2每一蚂蚁).,+((蚂蚁未负载)3()(在%之处))1:
0(计算信息熵4A和4!
;
+(4AC4!
)1:
0(拾起%RR拾起规则(),+570,+((蚂蚁负载%)3()(所在之处为空))1:
0(放下%RR放下规则()*+(),+蚂蚁随机移到某地方;
().2().2一个未负载的蚂蚁移到对象%之处,计算周围$$的区域中的对象信息熵,假设未拾起对象%前的信息熵为4A,拾起对象%后该区域的信息熵变为4!
,拾起规则为:
+4AC4!
,则拾起对象%。
一个负载对象%的蚂蚁移到空白之处,计算周围$$的区域中的对象信息熵,假设未放下对象%前的信息熵为4A,放下对象%后该区域的信息熵变为4!
,放下规则为:
,则放下对象%。
假设每一对象包括5个互为独立的属性7A,7!
75,各属性的可能取值集合为3A,3!
,35,##区域中的对象信息熵可按公式(Q)计算,0
(2)按公式(U)计算,其中589:
+#;
%);
2是$$区域中满足762的对象个数,589:
=$+是$$区域中的对象总数。
4($!
)@B56A!
2!
35!
0
(2)5.90
(2)(Q)0
(2)@589:
2589:
=$+(U)#两种方法的比较分析蚁群聚类方法最大的特点是:
不需设定最终产生的聚的数目,聚中心是动态变化的,可以发现任意形状的聚。
以上两种方法均以390(1的任意选择的地方作为变化的聚中心,并考察周围一小块区域中的对象,通过拾起或放下操作改变此一小块区域的对象相似度。
在F算法中,影响拾起或放下动作的因素有对象间的距离、1A、1!
、!
、$等参数,还有随机数,因此,每次放下的对象不一定与小块区域中存在的对象相似;
每次拾起的对象不一定与小块区域中存在的对象不相似,聚类过程很慢。
在(12.=6GH(1GI57102的方法中,影响拾起或放下动作的因素只有$参数,每次放下对象能减少小块区域的信息熵;
每次拾起能增加小块区域的信息熵。
根据文献JK,QL,包含聚的子空间的信息熵比不包含聚的信息熵小,因此同类型的对象能够较快地聚集在一起,但产生的结果是局部最优。
通过调整观察区域的大小$,可减少小块聚的产生。
两种方法的时间复杂度均为?
(.43T*=5.),*=5.为蚂蚁个数,但实验结果表明(12.=6GH(1GI57102算法经过较少次循环就能达到较好的聚类结果。
实验结果从VI,J#L公共数据库中选取一组数据集(W*8G138G1.0()9340),该数据集包括UQ个对象,可分为两类。
分别用F算法和(12.=6GH(1GI57102方法对这一数据集进行聚类。
在F算法中,设置N个参数:
1A@$A,1!
@$A,!
@$,$!
@NXN,.43T@%,=,+5.;
589:
+#(蚂蚁数目)@!
在(12.=6GH(1GI57102AQA!
#$%计算机工程与应用(上接页)()**+,-./01+2331456/-7839/-78/.:
56/-78456/-7839;
*8,878;
-./0==;
后面输出所有的拓扑序列,即存放在二维数组)**中的元素,略去;
$$$$$$$$