十进制编码遗传算法的模式定理研究概要.docx
《十进制编码遗传算法的模式定理研究概要.docx》由会员分享,可在线阅读,更多相关《十进制编码遗传算法的模式定理研究概要.docx(12页珍藏版)》请在冰豆网上搜索。
十进制编码遗传算法的模式定理研究概要
文章编号:
100021220(20000420364204
收稿日期:
1999205205 基金项目:
国家自然科学基金资助(69974002、
(69673004 作者简介:
唐飞,博士生,研究方向为智能CAD,演化算法,航天器布局优化设计.滕弘飞,教授,博士生导师,研究方向为智能CADCAM,演化算法,布局优化,人机合作
.十进制编码遗传算法的模式定理研究
唐 飞1,2 滕弘飞1,2 孙治国1 王文忠1
1(
大连理工大学机械工程系 大连116024
2(
中国科学院现代制造CADCAM技术开放实验室 沈阳110015
摘 要:
根据遗传算法中采用的编码策略,可将遗传算法分为两大类:
二进制编码遗传算法和十进制编码遗传算法.二进制
编码遗传算法的数学基本定理是模式定理,但对于十进制编码遗传算法是否也存在其模式定理是待探讨的问题.本文在二进制数编码遗传算法的理论基础上,给出十进制编码遗传算法的相应概念并引入符号基因表和模式不变位的概念,根据十进制编码遗传算法的简单遗传算子对其模式的影响,推导出十进制编码遗传算法的模式定理.关键词:
十进制编码;遗传算法;模式定理分类号:
TP18 文献标识码:
A
1 引 言
遗传算法(GeneticAlgorithm,GA源于自然界的生物进化过程,在Holland和Goldberg的文献中阐述了遗传算法的思想
〔1-2〕
.简言之,遗传算法是一种搜索技巧,它使用当前解和一些
随机信息来产生新解.算法中的随机过程使得对解空间更广泛的搜索成为可能.遗传算法的编码策略包括至今仍在争论的两派,一派根据模式定理建议用尽量少的符号编码(如二进制编码,一派以数值优化计算的方便和精度为准采用一个基因一个参数的方法(如十进制编码,并把相应的基因操作改造成适合实数操作的方式〔3〕.文〔4〕解释了遗传算法中模式和模式定理的概念和含义,并检验了那些通常被用来描述遗传算法在实际问题求解中取得成功的一些根本假设.文〔5〕将具有选择、变异两种算子的二进制编码模式定理推广到等式的情况,并从理论上证明了经过选择算子作用后整个种群将得以改进,文〔6〕分析了基于序的遗传算法(Order-basedGA的二进制编码模式定理及其Markov链建模,文〔7,8〕探讨了模式及模式定理是如何影响遗传算法的行为和性能,并揭示了积木块假设和模式增长之间的内在关系,这些文献都是在二进制编码遗传算法基础上对模式定理进行深入探讨和研究.标准遗传算法采用二进制编码方式,模式理论也是基于二进制的.单二进制编码易引起精度和效率的冲突.为得到高精度的最优解,个体的二进制编码串就要保持相当的长度,从而造成了计算量迅速增加;要保证计算效率,又不得不缩短编码长度,可能造成解的精度受限.而十进制编码遗传算法在很大程度上解决了这一冲突,因此在实践中采用十进制数编码来求解问题的情况越来越多.但由于十进制编码一直没有类似二进制编码遗传算法的模式定理,因而一直难于对其进化机制和性能进行精确分析.直接推导十进制编码遗传算法的模式定理有很大困难,至今尚未见有关文献出现.本文
借鉴二进制编码遗传算法的理论基础,另辟蹊径给出了类似二进制编码表达的十进制编码方式,然后对二进制模式定理的一般证明过程进行推广,从而得出十进制编码遗传算法的基本定理,称之为十进制模式定理.必须说明的是,这种证明并不是十分严格的.
2 二进制编码遗传算法理论基础及其模式定理
2.1 遗传算法有关定义〔3-9〕
为了讨论十进制模式定理,首先介绍遗传算法的有关概念
定义.我们采用二进制编码的二元基因表V={0,1}来给出遗传算法中基本术语定义.
采用二元基因编码的染色体串可以用带下标的字母的形式来表示,其中下标代表其位置顺序,记为:
A=a1a2a3a4a5
这里每个ai表示一个二元基因,可取值1或者0.定义1:
模式就是一个相同的构形.它描述的是一个染色体串的子集.这个集合中的染色体串之间在某些位上相同.考虑由
三元基因表V+
={3,0,1}表示的模式,其中添加的3代表不确定的基因,即在此特定位置上将与0或1相对应.
定义2:
模式的阶是指出现在模式中确定位置的数目,记为∃(H.在二进制编码的染色体串中一个模式的阶就是所有0或1的个数.例如,模式03103的阶∃=3,而模式13333的阶为∃=1.
定义3:
模式定义距是指模式中第一个确定基因位置与最后一个确定基因位置之间的距离,记为d(H.如模式03103的定义距的第一个确定基因在第1位,最后一个确定基因在第4位,所以其定义距d=4-1=3,而模式13333的定义距为0.
定义4:
适应度值是指为群体中每个染色体串指定的一
第21卷第4期 2000年4月
小型微型计算机系统MINI-MICROSYSTEM
Vol121No14
Apr12000
个数值,记为f,它经常是问题本身所具有的.适应度值必须有能力计算搜索空间中每个染色体串的性能值.
控制遗传算法的主要参数有群体规模N、算法执行的最大进化代数M、复制概率pr、交叉概率pc和变异概率pm等参数.
2.2 二进制编码遗传算法的基本定理--模式定理
模式定理:
具有短的定义距、低阶并且适应度值在群体平均适应度值以上的模式在遗传算法迭代过程中将按指数增长率被采样.也就是说,在使用遗传算法时,染色体群体中那些短的低阶模式是按照指数增加还是减少的数目进行采样,依赖于模式的平均适应度值.
3 十进制编码遗传算法基本定理--模式定理
经笔者在EI中检索,关于遗传算法模式定理的文献都是针对标准遗传算法即二进制编码遗传算法展开研究.目前,尚未见到公开发表的关于十进制编码遗传算法模式定理的文献,本文在上述定义基础上,借鉴标准遗传算法——二进制编码遗传算法模式定理的推导思路和过程,得出十进制编码遗传算法模式定理——称之为十进制模式定理.
3.1 十进制编码遗传算法基本概念定义
参考二进制编码遗传算法基本概念的定义,本文给出十进制编码遗传算法相应的基本概念的定义.
对于十进制编码的遗传算法,我们提出采用2元符号基因表S={+,-}和11元数值基因表V={0,1,2,3,4,5,6,7,8,9,・}对染色体串进行编码(其中“・”代表小数点,每个染色体串同样可以用带下标的字母来表示,其中下标代表位置顺序.举例说明如下:
一个12位染色体串A=(+10・37-89・67可以表示为:
A=a1a2a3a4a5a6a7a8a9a10a11a12
其中:
ai表示基因,且ai∈S∪V.
定义1:
模式就是一个相同的构形.它描述的是一个染色体串的子集.这个集合中所有的染色体串之间在某些位上相同.考虑由3元符号基因表S+={#}∪{+,-}={+,-,#}和12元数值基因表V+={3}∪V={3,0,1,2,3,4,5,6,7,8,9,・}表示的模式,其中添加的#和3代表不确定的基因,即#与中某一基因相对应,而3则与V中某一基因相对应.例如染色体串长为12的模式A=(#10333#33・67,则前述的染色体串A=(+10・37-89・67是模式H的一个具体表示形式.
定义在染色体串长为l上的二进制染色体串的模式共有个3l.一般的,对于基数为k的基因表,共有(K+1l个模式.因此定义在染色体串长为l的11元数值基因表V和2元符号基因表S={+,-}上的模式共有(2+1+11+1l=15l个模式.在n个十进制整数编码的染色体串群体中至多有n・13l个模式包含在其中.由此可以得出,采用十进制整数编码表示染色体串时,群体中的模式的数目仅与群体大小和染色体长度有关.
定义2:
模式的阶是指出现在模式中的确定基因位置的数目,记为∃(H.在十进制整数编码的染色体串中一个模式的阶就是所有符号基因表S和数值基因表V中元素在该模式中出现
的个数.例如,模式(+1343-33・73的阶∃=6.
定义3:
模式定义距是指模式中第一个确定基因位置与最后一个确定基因位置之间的距离,记为d(H.如模式(+1343-33・73的第一个确定基因在第1位,最后一个确定基因在第10位,所以其定义距d=10-1=9.
需要说明的是,如果一个模式中存在两个皆为小数点基因或符号基因的相邻位,那么该模式将无法通过解码获得有意义的解,这样的模式称为无效模式.如模式(+134--3・・73.为此,我们定义模式不变位和模式不变数的概念如下.
定义4:
模式的不变位是指模式中的小数点基因,而模式不变数就是指模式中不变位的个数,记为Γ(H.如模式(+1・43-33・73的不变数Γ=2.
我们可以采取一些措施,避免无效模式的出现.例如,设计合理的编码规则并使小数点基因不参加变异等方法.举例说明如下:
对于优化问题:
minf(x,y=x2+y2
s.t.
x∈(-70,80
y∈(-500,600
假定计算精度为0.01,则在进行编码时要求表示x的基因段为6位(包括符号和小数点,表示y的基因段为7位(包括符号和小数点.下面给出两个染色体a,b,其中对于染色体a:
x=-6.60,y=288.88;对于染色体b:
x=52.31,y=-256.65.
染色体xy
a-06・60+288・88
b+52・31-256・65
在编码中,对于不足的位应当补零,以保证染色体长度一致,同时禁止小数点基因位参加变异,即小数点基因位不能变异为数值基因,数值基因也不能变异为小数点.而符号基因参加变异,当然正号“+”只能变异成负号“-”,而“-”也只能变异成“+”.采用这种编码规则,染色体个体间无论是复制、交叉还是变异操作,都将避免无效模式的出现.
3.2 十进制编码遗传算法模式定理及推导
文献〔3-10〕中介绍并讨论了二进制编码遗传算法的模式定理及实数编码,本文在此基础上推导出十进制编码遗传算法的模式定理.
控制遗传算法的主要参数有群体规模N、算法执行的最大进化代数M、复制概率pr、交叉概率pc和pm变异概率等参数.模式、模式阶和模式定义距对于严格讨论和区分染色体串的相似性是一个有力的工具.本文仅讨论在复制算子、一点交叉算子和变异算子对模式的影响来得出十进制编码遗传算法的模式定理.
①复制算子
假定在给定的时间步t,一个特定的模式H有m个代表染色体串包含在群体P(t中,记为m=m(H,t.在复制阶段,每个染色体串根据它的适应度值进行复制,或者更确切地说,一个染色体串的复制概率为:
563
4期 唐飞等:
十进制编码遗传算法的模式定理研究
pri=fi
∑
n
j=1
f
j
(1
当采用非重叠的n个染色体串的群体替代群体P(t后,我
们期望在时间步(t+1,模式H在群体A(t+1中有m(H,t+
1个代表染色体串,这可以用下面的方程给出:
m(H,t+1=m(H,tnf(H
∑n
j=1
f
j
(2
其中:
f(H为在时间步t表示模式H的染色体串的平均适应度值.由于整个群体的平均适应度值可记为
f=
∑n
j=1
f
j
n
因此模式的复制生长方程可以表示为:
m(H,t+1=M(H,tf(Hf
(3
令f(H=f+Κf,Κ为一常数,则模式的复制生长方程变为:
m(H,t+1=m(H,t・(1+Κ
(4
从t=0开始,假设Κ是一个固定值,则有:
m(H,t+1=m(H,0・(1+Κ
t(5
这表明,一个特定的模式按照其平均适应度值与群体平均适应度值之间的比率增长.平均适应度值以上(以下的模式将会按照指数增长(衰减的方式被复制.
②交叉算子
由于复制过程不能检测搜索空间中新的区域,因此,需要采取杂交操作.杂交就是在两个染色体串之间进行信息交换.为叙述方便起见,我们仅采用简单的一点杂交算子.
假定有一个染色体串长为12的特定的染色体串和包含在其中两个具有代表性的模式如下:
A=(+10・37-89・67
H1=(#13333#33367,d(H1=10H2=(#133337-
3333,d(H2=2
假定染色体串A被选择用来杂交,杂交位置在第4和第5位之间,则一点杂交算子对模式H1和H2的作用效果如下:
A=(+10・37-89・67H1=(#13333#33367H2=(#13337-33333
可以看出,除非染色体串A的交配染色体串在模式H1的确定位置上与A相同,否则模式H1将被破坏,而对于相同杂交位置的模式H2将生存下来.即模式H1比起模式H2来更不易生存.这是由于模式H1比模式H2的定义距要长的缘故.
一般地,对任意模式可计算出其杂交生存概率Pcs的下界.考虑在简单一点杂交算子作用下,对于长度为l的模式的生存概
率为pcs=1-d(H
(l-1,当杂交位置落在定义距长度之外时,这个模式就可以生存.否则,当杂交位置一旦落在定义距之内时,则模式极易被破坏.若杂交本身也是按照随机选取方式进行,即以概率pc进行杂交,则生存概率有下面的估计式:
pcs≥1-pc・d(H
(l-1(6
现在考虑复制和杂交结合在一起时对模式的作用效果.这里假定复制和杂交是不相关的,则有下面估计:
m(H,t+1≥m(H,t・
f(H
f
・[1-pc・d(H(l-1](7比较(3和(7式,可以看到,交叉和复制一起对模式的作用
效果是通过把仅有复制作用时的模式期望数与在交叉作用下的生存概率相乘得到的,模式H增长或衰减依赖于一个乘积因子.在复制和杂交作用下,这个因子依赖于两个因素:
模式适应度值和模式的定义距.显然,那些既在群体平均适应度值之上同时又具有短的定义距的模式将按照指数增长率被采样.
③变异算子
假定一个模式H的模式不变数为Γ(H,变异算子以概率pm随机地改变除模式不变位以外的所有基因位上的值,为了使得模式H能够生存下来,所有特定位必须存活.因为单个基因存活的概率为(1-pm,并且由于每次变异都是统计独立的,因此当模式H中[∃(H-Γ(H]个确定位置都存活时,这个模式才存活,因而在变异算子的作用下,存活概率可以近似地表示为(1-pm∃(H-Γ(H.对于很小的pm,模式的存活概率可以近似地等于[1-(∃(H-Γ(H・pm].因此,在复制、杂交和变异算子作用下,一个特定模式H在下一代中期望出现的次数可以近似地表示为:
m(H,t+1≥m(H,t・
f(H
f
[1-pc・d(H(l-1-(∃(H-Γ(Hpm]
(8
由上式可以看出,增加变异基本上不改变先前的结论,即那
些既在群体平均适应度值之上同时又具有短的定义距的模式将按照指数增长率被采样.3.3 十进制模式定理
根据复制、交叉、变异三种算子对模式的影响,我们可以得到十进制编码遗传算法的模式定理:
采用十进制编码的遗传算法的群体中模式的数目仅与群体大小和染色体长度有关,其中具有短的定义距、低阶并且适应度值在群体平均适应度值以上的模式在遗传算法迭代过程中将按指数增长率被采样.
本文是从十进制编码的一般形式(即实数编码上推导出十进制编码遗传算法的模式定理,该结论对十进制编码的其他具体形式,如自然数编码、整数编码的情况完全成立.要注意的是在自然数编码和整数编码情况下,其数值基因表中应去掉小数点基因,即为10元数值基因表V={0,1,2,3,4,5,6,7,8,9},具体推导过程与前文类似,这里不再赘述.
4 结 论
十进制编码较二进制编码的遗传算法的染色体所能表示的模式数目大,隐含并行性强.十进制编码的遗传算法在实践中得到广泛而成功地应用,但是其模式定理的相关研究尚欠缺,研究将二进制模式定理推广到十进制实数编码有助于对其进化机制和性能进行深入分析.
由于在编码策略中引入符号基因表和模式不变位等概念,
663 小 型 微 型 计 算 机 系 统
2000年
从而使得十进制编码与二进制编码在本质上相统一,因此我们可以将二进制编码模式定理的推导推广到十进制编码的情况.本文在二进制数编码遗传算法的模式定理基础上,根据十进制编码遗传算法的简单遗传算子对其模式的影响,推导出十进制编码遗传算法的模式定理.十进制编码的遗传算法的模式定理在结论上与采用二进制编码的遗传算法模式定理相似.
致谢:
感谢中国科学院沈阳自动化研究所聂义勇研究员的帮助。
参 考 文 献
1HollandE.A.Adaptationinnaturalandartificialsystems.〔M〕AnnArbor,MI:
UniversityofMichiganPress,1975
2GoldbergD.Geneticalgorithmsinsearchoptimization&machinelearning.〔M〕NewYork:
Addison-Wesley,19893刘勇、康立山、陈毓屏.非数值并行算法——遗传算法.〔M〕
北京:
科学出版社,1995(LiuYong,KangLishan,ChenYuping.Nonnumericalparallelalgorithm:
GeneticAlgorithms.〔M〕Beijing:
SciencePress,1995
4Vose,MichaelD.Generalizingthenotionofschemaingenetic
algorithms.Artificial〔J〕Intelligence.1991,50:
385
~3965SunYanfeng,WangZhongtuo.Studiesofschematheoremon
geneticalgorithm.〔J〕ControlandDecision.1996,11(3:
224
~228
6Wroblewski,Jakub.Theoreticalfoundationoforder-based
geneticalgorithms.〔J〕FundamentaInformaticae.1996,28(3:
423~430
7ChungW.S.,PerezR.A.,GarciaO.N.Howschematheoremaffectgeneticalgorithmsearch.〔C〕ProceedingsoftheArtificialNeuralNetworksinEngineeringConference(ANNIE’94.Louis
MO,USA,Nov.,1994:
303
~3118ChungW.S.,PerezR.A.Schematheoremconsidered
insufficient.〔C〕ProceedingsoftheInternationalConferenceonToolswithArtificialIntelligence.NewOrleans,LA,USA,
Nov,1994:
748
~7519M.SrinivasandLalitM.Patnaik.Geneticalgorithms:
asurvey.〔J〕Computer,1994,7:
17
~2610 Goldberg.D.E.Real-codedgeneticalgorithm.Virtual
Alphabetsand
Blocking.〔J〕ComplexSystems.1991,5:
139-167
SCHEMATHEOREMOFTHEDECIMAL-CODEDGENETICALGORITHM
TANG Fei1,2 TENG Hong2fei1,2 SUN Zhi2guo1 WANG Wenzhong1
1(
MechanicalEngineeringDepartment,DalianUniversityofTechnology Dalian116024
2(
OpenLaboratoryofCADCAMTechnologyforAdvancedManufacturing,
ShenyangInstituteofComputingTechnology,AcademiaSinica Shenyang110003
Abstract Thispaperconcentratesontheschematheoremofdecimal2codedgeneticalgorithm.Accordingtothegenotypeofthechromosome,geneticalgorithmsareclassifiedintotwotypes.Oneisbinary2codedgeneticalgorithm;theotherisdecimal2codedgeneticalgorithm.Thebasistheoremofbinary2codedgeneticalgorithmisschematheorem.Wedefinethecorrespondingconceptsofdecimalcodedgeneticalgorithmreferringtothebasicconceptsofbinarycodedgeneticalgorithm.Moreover,wedefinethesymboltableofgenesandtheconceptoffixedpositionofschema.Consideringthesimplegeneticmanipulators’influencetoschema,thispaperdeducesthecorrespondingschematheoremofthedecimal2codedgeneticalgorithm.Keywords SchemaTheorem;Decimalcoding;GeneticAlgorithm
7
634期 唐飞等:
十进制编码遗传算法的模式定理研究