极小极大搜索过程.docx
《极小极大搜索过程.docx》由会员分享,可在线阅读,更多相关《极小极大搜索过程.docx(22页珍藏版)》请在冰豆网上搜索。
极小极大搜索过程
极小极大搜索过程
2011-03-3009:
59
转载自shengtingjiaju
最终编辑shengtingjiaju
极小极大搜索方法是博弈树搜索的基本方法,现在博弈树搜索中最常用的α-β剪枝搜索方法,就是从这一方法发展而来的。
首先假定,有一个评价函数可以对所有的棋局进行评估。
当评价函数值大于0时,表示棋局对我方有利,对对方不利。
当评价函数小于0时,表示棋局对我方不利,对对方有利。
而评价函数值越大,表示对我方越有利。
当评价函数值等于正无穷大时,表示我方必胜。
评价函数值越小,表示对我方越不利。
当评价函数值等于负无穷大时,表示对方必胜。
假设双方都是对弈高手,在只看一步棋的情况下,我方一定走评价函数值最大的一步棋,而对方一定走评价函数值最小的一步棋。
会下棋的读者都知道,在只看一步的情况下最好的棋,从全局来说不一定就好,还可能很不好。
因此为了走出好棋,必须多看几步,从多种可能状态中选择一步好棋。
想一想人是如何下棋的呢?
人实际上采用的是一种试探性的方法。
首先假定走了一步棋,看对方会有那些应法,然后再根据对方的每一种应法,看我方是否有好的回应......这一过程一直进行下去,直到若干步以后,找到了一个满意的走法为止。
初学者可能只能看一、两个轮次,而高手则可以看几个,甚至十几个轮次。
极小极大搜索方法,模拟的就是人的这样一种思维过程。
当轮到我方走棋时,首先按照一定的搜索深度生成出给定深度d以内的所有状态,计算所有叶节点的评价函数值。
然后从d-1层节点开始逆向计算:
对于我方要走的节点(用MAX标记,称为极大节点)取其子节点中的最大值为该节点的值(因为我方总是选择对我方有利的棋);对于对方要走的节点(用MIN标记,称为极小节点)取其子节点中的最小值为该节点的值(对方总是选择对我方不利的棋)。
一直到计算出根节点的值为止。
获得根节点取值的那一分枝,即为所选择的最佳走步。
在图3.5所示的例子中,假定搜索深度为2,D~J是7个叶节点,在它们下边括号中的数字是这些节点的评价函数值(假定可以计算得到)。
A、B、C是三个极小节点,它们分别取各自子节点最小值为自己的值,得到三个节点的值分别为-6、-2和-4。
s是极大节点,从A、B、C三个节点的值中取最大值,得到-2。
由于-2来自于节点B,所以搜索的结果是应选择B作为我方的走步。
对于我方来说,-2并不是一个好的结果,但却是在对方不犯错误的情况下,对我方最有利的结果。
因为从图中可以看出,如果选择A为我方的走步,如果对方回应D的话,我方可以得到评价值9,固然对我方有利。
但是如果对方是一个高手的话,他一定回选择E,而不是D。
在这种情况下,我方只能得到-6,结果岂不是更差。
因此,极小极大过程是一种假定对手每次回应都正确的情况下,如何从中找出对我方最有利的走步的搜索方法。
值得注意的是,不管设定的搜索深度是多少层,经过一次搜索以后,只决定了我方一步棋的走法。
等到对方回应一步棋之后,需要在新的棋局下重新进行搜索,来决定下一步棋如何走。
极小极大搜索策略是考虑双方对弈若干步之后,从可能的走步中选一步相对好棋的着法来走,即在有限的搜索深度范围内进行求解。
为此要定义一个静态估计函数f,以便对棋局的势态(节点)作出优劣估值,这个函数可根据势态优劣特征来定义(主要用于对端节点的"价值"进行度量)。
一般规定有利于MAX的势态,f(p)取正值,有利于MIN的势态,f(p)取负值,势均力敌的势态,f(p)取0值。
若f(p)=+∞,则表示MAX赢,若f(p)=-∞,则表示MIN赢。
下面的讨论规定:
顶节点深度d=0,MAX代表程序方,MIN代表对手方,MAX先走。
图3.5是一个表示考虑两步棋的例子,图中端节点给出的数字是用静态函数f(p)计算得到,其他节点不用f(p)估计,因为不够精确,而应用倒推的办法取值。
例如A、B、C是MIN走步的节点,MAX应考虑最坏的情况,故其估值应分别取其子节点f(p)估值中最小者,而s是MAX走步的节点,可考虑最好的情况,故估值应取A、B、C值中的最大者。
这样求得f(s)=-2,依此确定了相对较优的走步应是走向B,因为从B出发,对手不可能产生比f(s)=-2更差的效果。
实际上可根据资源条件,考虑更多层次的搜索过程,从而可得到更准确的倒推值,供MAX选取更正确的走步。
当用端节点的静态估计函数f(p)求倒推值时,两位选手应采取不同的策略,从下往上逐层交替使用极小和极大的选值方法,故称极小极大过程。
图3.5f(p)求值过程
过程MINIMAX:
①T:
=(s,MAX),OPEN:
=(s),CLOSED:
=();开始时树由初始节点构成,OPEN表只含有s。
②LOOP1:
IFOPEN=()THENGOLOOP2;
③n:
=FIRST(OPEN),REMOVE(n,OPEN),ADD(n,CLOSED);
④IFn可直接判定为赢、输或平局
THENf(n):
=∞∨-∞∨0,GOLOOP1
ELSEEXPAND(n)→{ni},ADD({
},T)
IFd(ni)<kTHENADD({
},OPEN),GOLOOP1
ELSE计算f(
),GOLOOP1;nI达到深度k,计算各端节点f值。
⑤LOOP2:
IFCLOSED=NILTHENGOLOOP3
ELSE
:
=FIRST(CLOSED);
⑥IF(
∈MAX)∧(f(
∈MIN)有值)
THENf(
):
=max{f(
)},REMOVE(
,CLOSED);若MAX所有子节点均有值,则该MAX取其极大值。
IF(
∈MIN)∧(f(
∈MAX)有值)
THENf(
):
=min{f(
)},REMOVE(
,CLOSED);若MIN所有子节点均有值,则该MIN取其极小值。
⑦GOLOOP2;
⑧LOOP3:
IFf(s)≠NILTHENEXIT(END∨M(Move,T));s有值,则结束或标记走步。
该算法分两个阶段进行,第一阶段②-④是用宽度优先法生成规定深度的全部博弈树,然后对其所有端节点计算其静态估计函数值。
第二阶段⑥-⑧是从底向上逐级求非端节点的倒推估计值,直到求出初始节点的倒推值f(s)为止,此时
其中
表示深度为k的端节点。
再由f(s)即可选得相对较好的走步来,过程遂造结束。
等对手响应走步后,再以当前的状态作为起始状态s,重复调用该过程。
下面通过最简单的3×3棋盘的一字棋为例来说明算法的应用过程。
在九宫格棋盘上,两位选手轮流在棋盘上摆各自的棋子(每次一枚),谁先取得三子一线的结果就取胜。
设程序方MAX的棋子用(×)表示,对手MIN的棋子用(○)表示,MAX先走。
静态估计函数f(p)规定如下:
若p对任何一方来说都不是获胜的格局,则
f(p)=(所有空格都放上MAX的棋子之后,MAX的三子成线(行、列、对角)的总
-(所有空格都放上MIN的棋子之后,MIN的三子成线(行、列、对角)的总数)
若p是MAX获胜的格局,则f(p)=∞;
若p是MIN获胜的格局,则f(p)=-∞。
例如,当p的格局如下时,则可得f(p)=6-4=2;
设考虑走两步的搜索过程,利用棋盘对称性的条件,则第一次调用算法产生的搜索树如图3.6所示,图中端节点下面是计算的f(p)值,非端节点的倒推值标记在圆圈内。
为了使初始节点具有最大的倒推值,可以看出第一步的最好着法是把棋子下在中央位置。
图3.6一字棋第一阶段搜索树
设MAX走完第一步后,MAX的对手是在×之上的格子下子,这时MAX就要在新格局下调用算法,第二次产生的搜索树如图3.7所示。
类似的第三次的搜索树如图3.8所示。
至此MAX走完最好的走步后,不论MIN怎么走,都无法挽回败局,因此只好认输了,否则还要进行第四轮回的搜索。
图3.7一字棋第二阶段搜索树
图3.8一字棋第三阶段搜索树
有一种很有意思的游戏,就是有物体若干堆,可以是火柴棍或是围棋子等等均可。
两个
人轮流从堆中取物体若干,规定最后取光物体者取胜。
这是我国民间很古老的一个游戏
,别看这游戏极其简单,却蕴含着深刻的数学原理。
下面我们来分析一下要如何才能够
取胜。
(一)巴什博奕(BashGame):
只有一堆n个物品,两个人轮流从这堆物品中取物,规
定每次至少取一个,最多取m个。
最后取光者得胜。
显然,如果n=m+1,那么由于一次最多只能取m个,所以,无论先取者拿走多少个,
后取者都能够一次拿走剩余的物品,后者取胜。
因此我们发现了如何取胜的法则:
如果
n=(m+1)r+s,(r为任意自然数,s≤m),那么先取者要拿走s个物品,如果后取者拿走
k(≤m)个,那么先取者再拿走m+1-k个,结果剩下(m+1)(r-1)个,以后保持这样的
取法,那么先取者肯定获胜。
总之,要保持给对手留下(m+1)的倍数,就能最后获胜。
这个游戏还可以有一种变相的玩法:
两个人轮流报数,每次至少报一个,最多报十
个,谁能报到100者胜。
(二)威佐夫博奕(WythoffGame):
有两堆各若干个物品,两个人轮流从某一堆或同
时从两堆中取同样多的物品,规定每次至少取一个,多者不限,最后取光者得胜。
这种情况下是颇为复杂的。
我们用(ak,bk)(ak≤bk,k=0,1,2,…,n)表示
两堆物品的数量并称其为局势,如果甲面对(0,0),那么甲已经输了,这种局势我们
称为奇异局势。
前几个奇异局势是:
(0,0)、(1,2)、(3,5)、(4,7)、(6,
10)、(8,13)、(9,15)、(11,18)、(12,20)。
可以看出,a0=b0=0,ak是未在前面出现过的最小自然数,而bk=ak+k,奇异局势有
如下三条性质:
1。
任何自然数都包含在一个且仅有一个奇异局势中。
由于ak是未在前面出现过的最小自然数,所以有ak>ak-1,而bk=ak+k>ak
-1+k-1=bk-1>ak-1。
所以性质1。
成立。
2。
任意操作都可将奇异局势变为非奇异局势。
事实上,若只改变奇异局势(ak,bk)的某一个分量,那么另一个分量不可能在其
他奇异局势中,所以必然是非奇异局势。
如果使(ak,bk)的两个分量同时减少,则由
于其差不变,且不可能是其他奇异局势的差,因此也是非奇异局势。
3。
采用适当的方法,可以将非奇异局势变为奇异局势。
假设面对的局势是(a,b),若b=a,则同时从两堆中取走a个物体,就变为了
奇异局势(0,0);如果a=ak,b>bk,那么,取走b –bk个物体,即变为奇异局
势;如果a=ak, b势(ab–ak,ab–ak+b–ak);如果a>ak,b=ak+k,则从第一堆中拿走多余
的数量a–ak即可;如果a从第二堆里面拿走b–bj即可;第二种,a=bj(jj即可。
从如上性质可知,两个人如果都采用正确操作,那么面对非奇异局势,先拿者必胜
;反之,则后拿者取胜。
那么任给一个局势(a,b),怎样判断它是不是奇异局势呢?
我们有如下公式:
ak=[k(1+√5)/2],bk=ak+k (k=0,1,2,…,n方括号表示取整函数)
奇妙的是其中出现了黄金分割数(1+√5)/2=1。
618…,因此,由ak,bk组成的矩形近
似为黄金矩形,由于2/(1+√5)=(√5-1)/2,可以先求出j=[a(√5-1)/2],若a=[
j(1+√5)/2],那么a=aj,bj=aj+j,若不等于,那么a=aj+1,bj+1=aj+1
+j+1,若都不是,那么就不是奇异局势。
然后再按照上述法则进行,一定会遇到奇异
局势。
(三)尼姆博奕(NimmGame):
有三堆各若干个物品,两个人轮流从某一堆取任意多的
物品,规定每次至少取一个,多者不限,最后取光者得胜。
这种情况最有意思,它与二进制有密切关系,我们用(a,b,c)表示某种局势,首
先(0,0,0)显然是奇异局势,无论谁面对奇异局势,都必然失败。
第二种奇异局势是
(0,n,n),只要与对手拿走一样多的物品,最后都将导致(0,0,0)。
仔细分析一
下,(1,2,3)也是奇异局势,无论对手如何拿,接下来都可以变为(0,n,n)的情
形。
计算机算法里面有一种叫做按位模2加,也叫做异或的运算,我们用符号(+)表示
这种运算。
这种运算和一般加法不同的一点是1+1=0。
先看(1,2,3)的按位模2加的结
果:
1=二进制01
2=二进制10
3=二进制11(+)
———————
0=二进制00(注意不进位)
对于奇异局势(0,n,n)也一样,结果也是0。
任何奇异局势(a,b,c)都有a(+)b(+)c=0。
如果我们面对的是一个非奇异局势(a,b,c),要如何变为奇异局势呢?
假设a
a(+)b(+)(a(+)
b)=(a(+)a)(+)(b(+)b)=0(+)0=0。
要将c变为a(+)b,只要从c中减去c-(
a(+)b)即可。
例1。
(14,21,39),14(+)21=27,39-27=12,所以从39中拿走12个物体即可达
到奇异局势(14,21,27)。
例2。
(55,81,121),55(+)81=102,121-102=19,所以从121中拿走19个物品
就形成了奇异局势(55,81,102)。
例3。
(29,45,58),29(+)45=48,58-48=10,从58中拿走10个,变为(29,4
5,48)。
例4。
我们来实际进行一盘比赛看看:
甲:
(7,8,9)->(1,8,9)奇异局势
乙:
(1,8,9)->(1,8,4)
甲:
(1,8,4)->(1,5,4)奇异局势
乙:
(1,5,4)->(1,4,4)
甲:
(1,4,4)->(0,4,4)奇异局势
乙:
(0,4,4)->(0,4,2)
甲:
(0.4,2)->(0,2,2)奇异局势
乙:
(0,2,2)->(0,2,1)
甲:
(0,2,1)->(0,1,1)奇异局势
乙:
(0,1,1)->(0,1,0)
甲:
(0,1,0)->(0,0,0)奇异局势
甲胜。
取火柴的游戏
题目1:
今有若干堆火柴,两人依次从中拿取,规定每次只能从一堆中取若干根,
可将一堆全取走,但不可不取,最后取完者为胜,求必胜的方法。
题目2:
今有若干堆火柴,两人依次从中拿取,规定每次只能从一堆中取若干根,
可将一堆全取走,但不可不取,最后取完者为负,求必胜的方法。
嘿嘿,这个游戏我早就见识过了。
小时候用珠算玩这个游戏:
第一档拨一个,第二档拨两个,依次直到第五档拨五个。
然后两个人就轮流再把棋子拨下来,谁要是最后一个拨谁就赢。
有一次暑假看见两个小孩子在玩这个游戏,我就在想有没有一个定论呢。
下面就来试着证明一下吧
先解决第一个问题吧。
定义:
若所有火柴数异或为0,则该状态被称为利他态,用字母T表示;否则,
为利己态,用S表示。
[定理1]:
对于任何一个S态,总能从一堆火柴中取出若干个使之成为T态。
证明:
若有n堆火柴,每堆火柴有A(i)根火柴数,那么既然现在处于S态,
c=A
(1)xorA
(2)xor…xorA(n)>0;
把c表示成二进制,记它的二进制数的最高位为第p位,则必然存在一个A(t),它二进制的第p位也是1。
(否则,若所有的A(i)的第p位都是0,这与c的第p位就也为0矛盾)。
那么我们把x=A(t)xorc,则得到x所以x A
(1)xorA
(2)xor…xorxxor…xorA(n)
=A
(1)xorA
(2)xor…xorA(t)xorcxor…xorA(n)
=A
(1)xorA
(2)xor…xorA(n)xorA
(1)xorA
(2)xor…xorA(n)
=0
这就是说从A(t)堆中取出A(t)–x根火柴后状态就会从S态变为T态。
证毕
[定理2]:
T态,取任何一堆的若干根,都将成为S态。
证明:
用反证法试试。
若
c=A
(1)xorA
(2)xor…xorA(i)xor…xorA(n)=0;
c’=A
(1)xorA
(2)xor…xorA(i’)xorcxor…xorA(n)=0;
则有
cxorc’=A
(1)xorA
(2)xor…xorA(i)xor…xorA(n)xorA
(1)xorA
(2)xor…xorA(i’)xorcxor…xorA(n)=A(i)xorA(i’)=0
进而推出A(i)=A(i’),这与已知矛盾。
所以命题得证。
[定理3]:
S态,只要方法正确,必赢。
最终胜利即由S态转变为T态,任何一个S态,只要把它变为T态,(由定理1,可以把它变成T态。
)对方只能把T态转变为S态(定理2)。
这样,所有S态向T态的转变都可以有己方控制,对方只能被动地实现由T态转变为S态。
故S态必赢。
[定理4]:
T态,只要对方法正确,必败。
由定理3易得。
接着来解决第二个问题。
定义:
若一堆中仅有1根火柴,则被称为孤单堆。
若大于1根,则称为充裕堆。
定义:
T态中,若充裕堆的堆数大于等于2,则称为完全利他态,用T2表示;若充裕堆的堆数等于0,则称为部分利他态,用T0表示。
孤单堆的根数异或只会影响二进制的最后一位,但充裕堆会影响高位(非最后一位)。
一个充裕堆,高位必有一位不为0,则所有根数异或不为0。
故不会是T态。
[定理5]:
S0态,即仅有奇数个孤单堆,必败。
T0态必胜。
证明:
S0态,其实就是每次只能取一根。
每次第奇数根都由己取,第偶数根都由对
方取,所以最后一根必己取。
败。
同理, T0态必胜#
[定理6]:
S1态,只要方法正确,必胜。
证明:
若此时孤单堆堆数为奇数,把充裕堆取完;否则,取成一根。
这样,就变成奇数个孤单堆,由对方取。
由定理5,对方必输。
己必胜。
#
[定理7]:
S2态不可转一次变为T0态。
证明:
充裕堆数不可能一次由2变为0。
得证。
#
[定理8]:
S2态可一次转变为T2态。
证明:
由定理1,S态可转变为T态,态可一次转变为T态,又由定理6,S2态不可转一次变为T0态,所以转变的T态为T2态。
#
[定理9]:
T2态,只能转变为S2态或S1态。
证明:
由定理2,T态必然变为S态。
由于充裕堆数不可能一次由2变为0,所以此时的S态不可能为S0态。
命题得证。
[定理10]:
S2态,只要方法正确,必胜.
证明:
方法如下:
1) S2态,就把它变为T2态。
(由定理8)
2) 对方只能T2转变成S2态或S1态(定理9)
若转变为S2, 转向1)
若转变为S1, 这己必胜。
(定理5)
[定理11]:
T2态必输。
证明:
同10。
综上所述,必输态有:
T2,S0
必胜态:
S2,S1,T0.
两题比较:
第一题的全过程其实如下:
S2->T2->S2->T2-> …… ->T2->S1->T0->S0->T0->……->S0->T0(全0)
第二题的全过程其实如下:
S2->T2->S2->T2-> …… ->T2->S1->S0->T0->S0->……->S0->T0(全0)
下划线表示胜利一方的取法。
是否发现了他们的惊人相似之处。
我们不难发现(见加黑部分),S1态可以转变为S0态(第二题做法),也可以转变为
T0(第一题做法)。
哪一方控制了S1态,他即可以有办法使自己得到最后一根(转变为
T0),也可以使对方得到最后一根(转变为S0)。
所以,抢夺S1是制胜的关键!
为此,始终把T2态让给对方,将使对方处于被动状态,他早晚将把状态变为S1.
推荐HDOJ题目
看完上面的结论,就能顺利解决上面2道了
S-Nim
博弈算法入门小节153615171907
小子最近迷途于博弈之中。
。
。
感触颇深。
为了让大家能够在学习博弈的时候少走弯路,最重要的也是为了加深自己的影响,温故而知新,特发此贴与大家共勉。
学博弈先从概念开始:
特别推荐LCY老师的课件:
博弈入门。
下载地址:
这个课件个人认为从博弈的基本思想,一直到解博弈的中心算法做了很好的诠释。
但是特别要注意的是。
课件后面一部分英语写的讲义是重中之重。
小子英语很弱,在这困扰很久。
现在为大家大概介绍一下。
主要是后继点和SG值的问题:
SG值:
一个点的SG值就是一个不等于它的后继点的SG的且大于等于零的最小整数。
后继点:
也就是按照题目要求的走法(比如取石子可以取的数量,方法)能够走一步达到的那个点。
具体的有关SG值是怎么运用的希望大家自己多想想。
课件后面有一个1536的代码。
可以放在后面做做
看到这里推荐大家做几道题:
1846(最简单的博弈水题)
1847(求SG值)
有了上面的知识接下来我们来看看组合博弈(n堆石子)
推荐大家看个资料:
博弈-取石子游戏(推荐等级五星级)
这里提出了一个奇异状态的问题。
看了这篇文章你会发现异或运算在博弈中使用的妙处。
当然这里指出的只是组合博弈中一种特殊情况。
王道还是对SG值的求解,但是知道这么一种思路无疑对思维的广度和深度扩展是很有帮助的。
ZZ博弈