极小极大搜索过程.docx

上传人:b****6 文档编号:5112141 上传时间:2022-12-13 格式:DOCX 页数:22 大小:77.18KB
下载 相关 举报
极小极大搜索过程.docx_第1页
第1页 / 共22页
极小极大搜索过程.docx_第2页
第2页 / 共22页
极小极大搜索过程.docx_第3页
第3页 / 共22页
极小极大搜索过程.docx_第4页
第4页 / 共22页
极小极大搜索过程.docx_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

极小极大搜索过程.docx

《极小极大搜索过程.docx》由会员分享,可在线阅读,更多相关《极小极大搜索过程.docx(22页珍藏版)》请在冰豆网上搜索。

极小极大搜索过程.docx

极小极大搜索过程

极小极大搜索过程

2011-03-3009:

59

转载自shengtingjiaju

最终编辑shengtingjiaju

极小极大搜索方法是博弈树搜索的基本方法,现在博弈树搜索中最常用的α-β剪枝搜索方法,就是从这一方法发展而来的。

  首先假定,有一个评价函数可以对所有的棋局进行评估。

当评价函数值大于0时,表示棋局对我方有利,对对方不利。

当评价函数小于0时,表示棋局对我方不利,对对方有利。

而评价函数值越大,表示对我方越有利。

当评价函数值等于正无穷大时,表示我方必胜。

评价函数值越小,表示对我方越不利。

当评价函数值等于负无穷大时,表示对方必胜。

假设双方都是对弈高手,在只看一步棋的情况下,我方一定走评价函数值最大的一步棋,而对方一定走评价函数值最小的一步棋。

会下棋的读者都知道,在只看一步的情况下最好的棋,从全局来说不一定就好,还可能很不好。

因此为了走出好棋,必须多看几步,从多种可能状态中选择一步好棋。

  想一想人是如何下棋的呢?

人实际上采用的是一种试探性的方法。

首先假定走了一步棋,看对方会有那些应法,然后再根据对方的每一种应法,看我方是否有好的回应......这一过程一直进行下去,直到若干步以后,找到了一个满意的走法为止。

初学者可能只能看一、两个轮次,而高手则可以看几个,甚至十几个轮次。

  极小极大搜索方法,模拟的就是人的这样一种思维过程。

当轮到我方走棋时,首先按照一定的搜索深度生成出给定深度d以内的所有状态,计算所有叶节点的评价函数值。

然后从d-1层节点开始逆向计算:

对于我方要走的节点(用MAX标记,称为极大节点)取其子节点中的最大值为该节点的值(因为我方总是选择对我方有利的棋);对于对方要走的节点(用MIN标记,称为极小节点)取其子节点中的最小值为该节点的值(对方总是选择对我方不利的棋)。

一直到计算出根节点的值为止。

获得根节点取值的那一分枝,即为所选择的最佳走步。

  在图3.5所示的例子中,假定搜索深度为2,D~J是7个叶节点,在它们下边括号中的数字是这些节点的评价函数值(假定可以计算得到)。

A、B、C是三个极小节点,它们分别取各自子节点最小值为自己的值,得到三个节点的值分别为-6、-2和-4。

s是极大节点,从A、B、C三个节点的值中取最大值,得到-2。

由于-2来自于节点B,所以搜索的结果是应选择B作为我方的走步。

对于我方来说,-2并不是一个好的结果,但却是在对方不犯错误的情况下,对我方最有利的结果。

因为从图中可以看出,如果选择A为我方的走步,如果对方回应D的话,我方可以得到评价值9,固然对我方有利。

但是如果对方是一个高手的话,他一定回选择E,而不是D。

在这种情况下,我方只能得到-6,结果岂不是更差。

因此,极小极大过程是一种假定对手每次回应都正确的情况下,如何从中找出对我方最有利的走步的搜索方法。

  值得注意的是,不管设定的搜索深度是多少层,经过一次搜索以后,只决定了我方一步棋的走法。

等到对方回应一步棋之后,需要在新的棋局下重新进行搜索,来决定下一步棋如何走。

  极小极大搜索策略是考虑双方对弈若干步之后,从可能的走步中选一步相对好棋的着法来走,即在有限的搜索深度范围内进行求解。

为此要定义一个静态估计函数f,以便对棋局的势态(节点)作出优劣估值,这个函数可根据势态优劣特征来定义(主要用于对端节点的"价值"进行度量)。

一般规定有利于MAX的势态,f(p)取正值,有利于MIN的势态,f(p)取负值,势均力敌的势态,f(p)取0值。

若f(p)=+∞,则表示MAX赢,若f(p)=-∞,则表示MIN赢。

下面的讨论规定:

顶节点深度d=0,MAX代表程序方,MIN代表对手方,MAX先走。

  图3.5是一个表示考虑两步棋的例子,图中端节点给出的数字是用静态函数f(p)计算得到,其他节点不用f(p)估计,因为不够精确,而应用倒推的办法取值。

例如A、B、C是MIN走步的节点,MAX应考虑最坏的情况,故其估值应分别取其子节点f(p)估值中最小者,而s是MAX走步的节点,可考虑最好的情况,故估值应取A、B、C值中的最大者。

这样求得f(s)=-2,依此确定了相对较优的走步应是走向B,因为从B出发,对手不可能产生比f(s)=-2更差的效果。

实际上可根据资源条件,考虑更多层次的搜索过程,从而可得到更准确的倒推值,供MAX选取更正确的走步。

当用端节点的静态估计函数f(p)求倒推值时,两位选手应采取不同的策略,从下往上逐层交替使用极小和极大的选值方法,故称极小极大过程。

图3.5f(p)求值过程

过程MINIMAX:

①T:

=(s,MAX),OPEN:

=(s),CLOSED:

=();开始时树由初始节点构成,OPEN表只含有s。

②LOOP1:

IFOPEN=()THENGOLOOP2;

③n:

=FIRST(OPEN),REMOVE(n,OPEN),ADD(n,CLOSED);

④IFn可直接判定为赢、输或平局

THENf(n):

=∞∨-∞∨0,GOLOOP1

ELSEEXPAND(n)→{ni},ADD({

},T)

IFd(ni)<kTHENADD({

},OPEN),GOLOOP1

ELSE计算f(

),GOLOOP1;nI达到深度k,计算各端节点f值。

⑤LOOP2:

IFCLOSED=NILTHENGOLOOP3

ELSE

:

=FIRST(CLOSED);

⑥IF(

∈MAX)∧(f(

∈MIN)有值)

THENf(

):

=max{f(

)},REMOVE(

,CLOSED);若MAX所有子节点均有值,则该MAX取其极大值。

IF(

∈MIN)∧(f(

∈MAX)有值)

THENf(

):

=min{f(

)},REMOVE(

,CLOSED);若MIN所有子节点均有值,则该MIN取其极小值。

⑦GOLOOP2;

⑧LOOP3:

IFf(s)≠NILTHENEXIT(END∨M(Move,T));s有值,则结束或标记走步。

该算法分两个阶段进行,第一阶段②-④是用宽度优先法生成规定深度的全部博弈树,然后对其所有端节点计算其静态估计函数值。

第二阶段⑥-⑧是从底向上逐级求非端节点的倒推估计值,直到求出初始节点的倒推值f(s)为止,此时

其中

表示深度为k的端节点。

再由f(s)即可选得相对较好的走步来,过程遂造结束。

等对手响应走步后,再以当前的状态作为起始状态s,重复调用该过程。

下面通过最简单的3×3棋盘的一字棋为例来说明算法的应用过程。

在九宫格棋盘上,两位选手轮流在棋盘上摆各自的棋子(每次一枚),谁先取得三子一线的结果就取胜。

设程序方MAX的棋子用(×)表示,对手MIN的棋子用(○)表示,MAX先走。

静态估计函数f(p)规定如下:

若p对任何一方来说都不是获胜的格局,则

f(p)=(所有空格都放上MAX的棋子之后,MAX的三子成线(行、列、对角)的总

-(所有空格都放上MIN的棋子之后,MIN的三子成线(行、列、对角)的总数)

若p是MAX获胜的格局,则f(p)=∞;

若p是MIN获胜的格局,则f(p)=-∞。

例如,当p的格局如下时,则可得f(p)=6-4=2;

  设考虑走两步的搜索过程,利用棋盘对称性的条件,则第一次调用算法产生的搜索树如图3.6所示,图中端节点下面是计算的f(p)值,非端节点的倒推值标记在圆圈内。

为了使初始节点具有最大的倒推值,可以看出第一步的最好着法是把棋子下在中央位置。

图3.6一字棋第一阶段搜索树

设MAX走完第一步后,MAX的对手是在×之上的格子下子,这时MAX就要在新格局下调用算法,第二次产生的搜索树如图3.7所示。

类似的第三次的搜索树如图3.8所示。

至此MAX走完最好的走步后,不论MIN怎么走,都无法挽回败局,因此只好认输了,否则还要进行第四轮回的搜索。

图3.7一字棋第二阶段搜索树

图3.8一字棋第三阶段搜索树

有一种很有意思的游戏,就是有物体若干堆,可以是火柴棍或是围棋子等等均可。

两个

人轮流从堆中取物体若干,规定最后取光物体者取胜。

这是我国民间很古老的一个游戏

,别看这游戏极其简单,却蕴含着深刻的数学原理。

下面我们来分析一下要如何才能够

取胜。

(一)巴什博奕(BashGame):

只有一堆n个物品,两个人轮流从这堆物品中取物,规

定每次至少取一个,最多取m个。

最后取光者得胜。

  显然,如果n=m+1,那么由于一次最多只能取m个,所以,无论先取者拿走多少个,

后取者都能够一次拿走剩余的物品,后者取胜。

因此我们发现了如何取胜的法则:

如果

n=(m+1)r+s,(r为任意自然数,s≤m),那么先取者要拿走s个物品,如果后取者拿走

k(≤m)个,那么先取者再拿走m+1-k个,结果剩下(m+1)(r-1)个,以后保持这样的

取法,那么先取者肯定获胜。

总之,要保持给对手留下(m+1)的倍数,就能最后获胜。

  这个游戏还可以有一种变相的玩法:

两个人轮流报数,每次至少报一个,最多报十

个,谁能报到100者胜。

(二)威佐夫博奕(WythoffGame):

有两堆各若干个物品,两个人轮流从某一堆或同

时从两堆中取同样多的物品,规定每次至少取一个,多者不限,最后取光者得胜。

  这种情况下是颇为复杂的。

我们用(ak,bk)(ak≤bk,k=0,1,2,…,n)表示

两堆物品的数量并称其为局势,如果甲面对(0,0),那么甲已经输了,这种局势我们

称为奇异局势。

前几个奇异局势是:

(0,0)、(1,2)、(3,5)、(4,7)、(6,

10)、(8,13)、(9,15)、(11,18)、(12,20)。

  可以看出,a0=b0=0,ak是未在前面出现过的最小自然数,而bk=ak+k,奇异局势有

如下三条性质:

  1。

任何自然数都包含在一个且仅有一个奇异局势中。

  由于ak是未在前面出现过的最小自然数,所以有ak>ak-1,而bk=ak+k>ak

-1+k-1=bk-1>ak-1。

所以性质1。

成立。

  2。

任意操作都可将奇异局势变为非奇异局势。

  事实上,若只改变奇异局势(ak,bk)的某一个分量,那么另一个分量不可能在其

他奇异局势中,所以必然是非奇异局势。

如果使(ak,bk)的两个分量同时减少,则由

于其差不变,且不可能是其他奇异局势的差,因此也是非奇异局势。

  3。

采用适当的方法,可以将非奇异局势变为奇异局势。

  假设面对的局势是(a,b),若b=a,则同时从两堆中取走a个物体,就变为了

奇异局势(0,0);如果a=ak,b>bk,那么,取走b –bk个物体,即变为奇异局

势;如果a=ak, b

势(ab–ak,ab–ak+b–ak);如果a>ak,b=ak+k,则从第一堆中拿走多余

的数量a–ak即可;如果a

从第二堆里面拿走b–bj即可;第二种,a=bj(j

j即可。

  从如上性质可知,两个人如果都采用正确操作,那么面对非奇异局势,先拿者必胜

;反之,则后拿者取胜。

  那么任给一个局势(a,b),怎样判断它是不是奇异局势呢?

我们有如下公式:

  ak=[k(1+√5)/2],bk=ak+k (k=0,1,2,…,n方括号表示取整函数)

奇妙的是其中出现了黄金分割数(1+√5)/2=1。

618…,因此,由ak,bk组成的矩形近

似为黄金矩形,由于2/(1+√5)=(√5-1)/2,可以先求出j=[a(√5-1)/2],若a=[

j(1+√5)/2],那么a=aj,bj=aj+j,若不等于,那么a=aj+1,bj+1=aj+1

+j+1,若都不是,那么就不是奇异局势。

然后再按照上述法则进行,一定会遇到奇异

局势。

(三)尼姆博奕(NimmGame):

有三堆各若干个物品,两个人轮流从某一堆取任意多的

物品,规定每次至少取一个,多者不限,最后取光者得胜。

  这种情况最有意思,它与二进制有密切关系,我们用(a,b,c)表示某种局势,首

先(0,0,0)显然是奇异局势,无论谁面对奇异局势,都必然失败。

第二种奇异局势是

(0,n,n),只要与对手拿走一样多的物品,最后都将导致(0,0,0)。

仔细分析一

下,(1,2,3)也是奇异局势,无论对手如何拿,接下来都可以变为(0,n,n)的情

形。

  计算机算法里面有一种叫做按位模2加,也叫做异或的运算,我们用符号(+)表示

这种运算。

这种运算和一般加法不同的一点是1+1=0。

先看(1,2,3)的按位模2加的结

果:

1=二进制01

2=二进制10

3=二进制11(+)

———————

0=二进制00(注意不进位)

  对于奇异局势(0,n,n)也一样,结果也是0。

  任何奇异局势(a,b,c)都有a(+)b(+)c=0。

如果我们面对的是一个非奇异局势(a,b,c),要如何变为奇异局势呢?

假设a

a(+)b(+)(a(+)

b)=(a(+)a)(+)(b(+)b)=0(+)0=0。

要将c变为a(+)b,只要从c中减去c-(

a(+)b)即可。

  例1。

(14,21,39),14(+)21=27,39-27=12,所以从39中拿走12个物体即可达

到奇异局势(14,21,27)。

  例2。

(55,81,121),55(+)81=102,121-102=19,所以从121中拿走19个物品

就形成了奇异局势(55,81,102)。

  例3。

(29,45,58),29(+)45=48,58-48=10,从58中拿走10个,变为(29,4

5,48)。

  例4。

我们来实际进行一盘比赛看看:

    甲:

(7,8,9)->(1,8,9)奇异局势

    乙:

(1,8,9)->(1,8,4)

    甲:

(1,8,4)->(1,5,4)奇异局势

    乙:

(1,5,4)->(1,4,4)

    甲:

(1,4,4)->(0,4,4)奇异局势

    乙:

(0,4,4)->(0,4,2)

    甲:

(0.4,2)->(0,2,2)奇异局势

    乙:

(0,2,2)->(0,2,1)

    甲:

(0,2,1)->(0,1,1)奇异局势

    乙:

(0,1,1)->(0,1,0)

    甲:

(0,1,0)->(0,0,0)奇异局势

    甲胜。

取火柴的游戏

题目1:

今有若干堆火柴,两人依次从中拿取,规定每次只能从一堆中取若干根, 

可将一堆全取走,但不可不取,最后取完者为胜,求必胜的方法。

 

题目2:

今有若干堆火柴,两人依次从中拿取,规定每次只能从一堆中取若干根, 

可将一堆全取走,但不可不取,最后取完者为负,求必胜的方法。

嘿嘿,这个游戏我早就见识过了。

小时候用珠算玩这个游戏:

第一档拨一个,第二档拨两个,依次直到第五档拨五个。

然后两个人就轮流再把棋子拨下来,谁要是最后一个拨谁就赢。

有一次暑假看见两个小孩子在玩这个游戏,我就在想有没有一个定论呢。

下面就来试着证明一下吧

先解决第一个问题吧。

定义:

若所有火柴数异或为0,则该状态被称为利他态,用字母T表示;否则, 

为利己态,用S表示。

[定理1]:

对于任何一个S态,总能从一堆火柴中取出若干个使之成为T态。

证明:

  若有n堆火柴,每堆火柴有A(i)根火柴数,那么既然现在处于S态,

   c=A

(1)xorA

(2)xor…xorA(n)>0;

  把c表示成二进制,记它的二进制数的最高位为第p位,则必然存在一个A(t),它二进制的第p位也是1。

(否则,若所有的A(i)的第p位都是0,这与c的第p位就也为0矛盾)。

  那么我们把x=A(t)xorc,则得到x

所以x

  A

(1)xorA

(2)xor…xorxxor…xorA(n)

 =A

(1)xorA

(2)xor…xorA(t)xorcxor…xorA(n)

 =A

(1)xorA

(2)xor…xorA(n)xorA

(1)xorA

(2)xor…xorA(n)

 =0

这就是说从A(t)堆中取出A(t)–x根火柴后状态就会从S态变为T态。

证毕

[定理2]:

T态,取任何一堆的若干根,都将成为S态。

证明:

用反证法试试。

   若

   c=A

(1)xorA

(2)xor…xorA(i)xor…xorA(n)=0;

   c’=A

(1)xorA

(2)xor…xorA(i’)xorcxor…xorA(n)=0;

   则有

cxorc’=A

(1)xorA

(2)xor…xorA(i)xor…xorA(n)xorA

(1)xorA

(2)xor…xorA(i’)xorcxor…xorA(n)=A(i)xorA(i’)=0

   进而推出A(i)=A(i’),这与已知矛盾。

所以命题得证。

[定理3]:

S态,只要方法正确,必赢。

 

 最终胜利即由S态转变为T态,任何一个S态,只要把它变为T态,(由定理1,可以把它变成T态。

)对方只能把T态转变为S态(定理2)。

这样,所有S态向T态的转变都可以有己方控制,对方只能被动地实现由T态转变为S态。

故S态必赢。

[定理4]:

T态,只要对方法正确,必败。

 

 由定理3易得。

 

接着来解决第二个问题。

定义:

若一堆中仅有1根火柴,则被称为孤单堆。

若大于1根,则称为充裕堆。

定义:

T态中,若充裕堆的堆数大于等于2,则称为完全利他态,用T2表示;若充裕堆的堆数等于0,则称为部分利他态,用T0表示。

 

孤单堆的根数异或只会影响二进制的最后一位,但充裕堆会影响高位(非最后一位)。

一个充裕堆,高位必有一位不为0,则所有根数异或不为0。

故不会是T态。

[定理5]:

S0态,即仅有奇数个孤单堆,必败。

T0态必胜。

 

证明:

S0态,其实就是每次只能取一根。

每次第奇数根都由己取,第偶数根都由对 

方取,所以最后一根必己取。

败。

同理, T0态必胜#

[定理6]:

S1态,只要方法正确,必胜。

 

证明:

若此时孤单堆堆数为奇数,把充裕堆取完;否则,取成一根。

这样,就变成奇数个孤单堆,由对方取。

由定理5,对方必输。

己必胜。

 # 

[定理7]:

S2态不可转一次变为T0态。

 

证明:

充裕堆数不可能一次由2变为0。

得证。

 # 

[定理8]:

S2态可一次转变为T2态。

 

证明:

由定理1,S态可转变为T态,态可一次转变为T态,又由定理6,S2态不可转一次变为T0态,所以转变的T态为T2态。

 # 

[定理9]:

T2态,只能转变为S2态或S1态。

 

证明:

由定理2,T态必然变为S态。

由于充裕堆数不可能一次由2变为0,所以此时的S态不可能为S0态。

命题得证。

 

[定理10]:

S2态,只要方法正确,必胜. 

证明:

方法如下:

 

   1) S2态,就把它变为T2态。

(由定理8) 

   2) 对方只能T2转变成S2态或S1态(定理9)

  若转变为S2, 转向1) 

  若转变为S1, 这己必胜。

(定理5) 

[定理11]:

T2态必输。

 

证明:

同10。

 

综上所述,必输态有:

 T2,S0 

     必胜态:

  S2,S1,T0. 

两题比较:

 

第一题的全过程其实如下:

 

S2->T2->S2->T2-> …… ->T2->S1->T0->S0->T0->……->S0->T0(全0) 

第二题的全过程其实如下:

 

S2->T2->S2->T2-> …… ->T2->S1->S0->T0->S0->……->S0->T0(全0) 

下划线表示胜利一方的取法。

 是否发现了他们的惊人相似之处。

 

我们不难发现(见加黑部分),S1态可以转变为S0态(第二题做法),也可以转变为 

T0(第一题做法)。

哪一方控制了S1态,他即可以有办法使自己得到最后一根(转变为 

T0),也可以使对方得到最后一根(转变为S0)。

 

 所以,抢夺S1是制胜的关键!

 

 为此,始终把T2态让给对方,将使对方处于被动状态,他早晚将把状态变为S1.

 

推荐HDOJ题目

看完上面的结论,就能顺利解决上面2道了

 

 

S-Nim

 

 

 

博弈算法入门小节153615171907

小子最近迷途于博弈之中。

感触颇深。

为了让大家能够在学习博弈的时候少走弯路,最重要的也是为了加深自己的影响,温故而知新,特发此贴与大家共勉。

学博弈先从概念开始:

特别推荐LCY老师的课件:

博弈入门。

下载地址:

这个课件个人认为从博弈的基本思想,一直到解博弈的中心算法做了很好的诠释。

但是特别要注意的是。

课件后面一部分英语写的讲义是重中之重。

小子英语很弱,在这困扰很久。

现在为大家大概介绍一下。

主要是后继点和SG值的问题:

SG值:

一个点的SG值就是一个不等于它的后继点的SG的且大于等于零的最小整数。

后继点:

也就是按照题目要求的走法(比如取石子可以取的数量,方法)能够走一步达到的那个点。

具体的有关SG值是怎么运用的希望大家自己多想想。

课件后面有一个1536的代码。

可以放在后面做做

看到这里推荐大家做几道题:

1846(最简单的博弈水题)

1847(求SG值)

有了上面的知识接下来我们来看看组合博弈(n堆石子)

推荐大家看个资料:

博弈-取石子游戏(推荐等级五星级)

这里提出了一个奇异状态的问题。

看了这篇文章你会发现异或运算在博弈中使用的妙处。

当然这里指出的只是组合博弈中一种特殊情况。

王道还是对SG值的求解,但是知道这么一种思路无疑对思维的广度和深度扩展是很有帮助的。

ZZ博弈

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1