极小极大搜索过程.docx

资源描述

极小极大搜索过程.docx

《极小极大搜索过程.docx》由会员分享，可在线阅读，更多相关《极小极大搜索过程.docx（22页珍藏版）》请在冰豆网上搜索。

极小极大搜索过程.docx

极小极大搜索过程

2011-03-3009:

转载自shengtingjiaju

最终编辑shengtingjiaju

极小极大搜索方法是博弈树搜索的基本方法，现在博弈树搜索中最常用的α-β剪枝搜索方法，就是从这一方法发展而来的。

　　首先假定，有一个评价函数可以对所有的棋局进行评估。

当评价函数值大于0时，表示棋局对我方有利，对对方不利。

当评价函数小于0时，表示棋局对我方不利，对对方有利。

而评价函数值越大，表示对我方越有利。

当评价函数值等于正无穷大时，表示我方必胜。

评价函数值越小，表示对我方越不利。

当评价函数值等于负无穷大时，表示对方必胜。

假设双方都是对弈高手，在只看一步棋的情况下，我方一定走评价函数值最大的一步棋，而对方一定走评价函数值最小的一步棋。

会下棋的读者都知道，在只看一步的情况下最好的棋，从全局来说不一定就好，还可能很不好。

因此为了走出好棋，必须多看几步，从多种可能状态中选择一步好棋。

　　想一想人是如何下棋的呢？

人实际上采用的是一种试探性的方法。

首先假定走了一步棋，看对方会有那些应法，然后再根据对方的每一种应法，看我方是否有好的回应......这一过程一直进行下去，直到若干步以后，找到了一个满意的走法为止。

初学者可能只能看一、两个轮次，而高手则可以看几个，甚至十几个轮次。

　　极小极大搜索方法，模拟的就是人的这样一种思维过程。

当轮到我方走棋时，首先按照一定的搜索深度生成出给定深度d以内的所有状态，计算所有叶节点的评价函数值。

然后从d-1层节点开始逆向计算：

对于我方要走的节点（用MAX标记，称为极大节点）取其子节点中的最大值为该节点的值（因为我方总是选择对我方有利的棋）；对于对方要走的节点（用MIN标记，称为极小节点）取其子节点中的最小值为该节点的值（对方总是选择对我方不利的棋）。

一直到计算出根节点的值为止。

获得根节点取值的那一分枝，即为所选择的最佳走步。

　　在图3.5所示的例子中，假定搜索深度为2，D～J是7个叶节点，在它们下边括号中的数字是这些节点的评价函数值（假定可以计算得到）。

A、B、C是三个极小节点，它们分别取各自子节点最小值为自己的值，得到三个节点的值分别为-6、-2和-4。

s是极大节点，从A、B、C三个节点的值中取最大值，得到-2。

由于-2来自于节点B，所以搜索的结果是应选择B作为我方的走步。

对于我方来说，-2并不是一个好的结果，但却是在对方不犯错误的情况下，对我方最有利的结果。

因为从图中可以看出，如果选择A为我方的走步，如果对方回应D的话，我方可以得到评价值9，固然对我方有利。

但是如果对方是一个高手的话，他一定回选择E，而不是D。

在这种情况下，我方只能得到-6，结果岂不是更差。

因此，极小极大过程是一种假定对手每次回应都正确的情况下，如何从中找出对我方最有利的走步的搜索方法。

　　值得注意的是，不管设定的搜索深度是多少层，经过一次搜索以后，只决定了我方一步棋的走法。

等到对方回应一步棋之后，需要在新的棋局下重新进行搜索，来决定下一步棋如何走。

　　极小极大搜索策略是考虑双方对弈若干步之后，从可能的走步中选一步相对好棋的着法来走，即在有限的搜索深度范围内进行求解。

为此要定义一个静态估计函数f，以便对棋局的势态（节点）作出优劣估值，这个函数可根据势态优劣特征来定义（主要用于对端节点的"价值"进行度量）。

一般规定有利于MAX的势态，f（p）取正值，有利于MIN的势态，f（p）取负值，势均力敌的势态，f（p）取0值。

若f（p）＝＋∞，则表示MAX赢，若f（p）＝－∞，则表示MIN赢。

下面的讨论规定：

顶节点深度d＝0，MAX代表程序方，MIN代表对手方，MAX先走。

　　图3.5是一个表示考虑两步棋的例子，图中端节点给出的数字是用静态函数f（p）计算得到，其他节点不用f（p）估计，因为不够精确，而应用倒推的办法取值。

例如A、B、C是MIN走步的节点，MAX应考虑最坏的情况，故其估值应分别取其子节点f（p）估值中最小者，而s是MAX走步的节点，可考虑最好的情况，故估值应取A、B、C值中的最大者。

这样求得f（s）＝－2，依此确定了相对较优的走步应是走向B，因为从B出发，对手不可能产生比f（s）＝－2更差的效果。

实际上可根据资源条件，考虑更多层次的搜索过程，从而可得到更准确的倒推值，供MAX选取更正确的走步。

当用端节点的静态估计函数f（p）求倒推值时，两位选手应采取不同的策略，从下往上逐层交替使用极小和极大的选值方法，故称极小极大过程。

图3.5f（p）求值过程

过程MINIMAX：

①T:

＝（s，MAX），OPEN:

＝（s），CLOSED:

＝（）；开始时树由初始节点构成，OPEN表只含有s。

②LOOP1:

IFOPEN＝（）THENGOLOOP2；

③n:

＝FIRST（OPEN），REMOVE（n，OPEN），ADD（n，CLOSED）；

④IFn可直接判定为赢、输或平局

THENf（n）:

＝∞∨－∞∨0，GOLOOP1

ELSEEXPAND（n）→{ni}，ADD（{

}，T）

IFd（ni）＜kTHENADD（{

}，OPEN），GOLOOP1

ELSE计算f（

），GOLOOP1；nI达到深度k，计算各端节点f值。

⑤LOOP2：

IFCLOSED＝NILTHENGOLOOP3

ELSE

＝FIRST（CLOSED）；

⑥IF（

∈MAX）∧（f（

∈MIN）有值）

THENf（

）:

＝max{f（

）}，REMOVE（

，CLOSED）；若MAX所有子节点均有值，则该MAX取其极大值。

IF（

∈MIN）∧（f（

∈MAX）有值）

THENf（

）:

＝min{f（

）}，REMOVE（

，CLOSED）；若MIN所有子节点均有值，则该MIN取其极小值。

⑦GOLOOP2；

⑧LOOP3：

IFf（s）≠NILTHENEXIT（END∨M（Move，T））；s有值，则结束或标记走步。

该算法分两个阶段进行，第一阶段②-④是用宽度优先法生成规定深度的全部博弈树，然后对其所有端节点计算其静态估计函数值。

第二阶段⑥-⑧是从底向上逐级求非端节点的倒推估计值，直到求出初始节点的倒推值f（s）为止，此时

其中

表示深度为k的端节点。

再由f（s）即可选得相对较好的走步来，过程遂造结束。

等对手响应走步后，再以当前的状态作为起始状态s，重复调用该过程。

下面通过最简单的3×3棋盘的一字棋为例来说明算法的应用过程。

在九宫格棋盘上，两位选手轮流在棋盘上摆各自的棋子（每次一枚），谁先取得三子一线的结果就取胜。

设程序方MAX的棋子用（×）表示，对手MIN的棋子用（○）表示，MAX先走。

静态估计函数f（p）规定如下：

若p对任何一方来说都不是获胜的格局，则

f（p）＝（所有空格都放上MAX的棋子之后，MAX的三子成线（行、列、对角）的总

－（所有空格都放上MIN的棋子之后，MIN的三子成线（行、列、对角）的总数）

若p是MAX获胜的格局，则f（p）＝∞；

若p是MIN获胜的格局，则f（p）＝－∞。

例如，当p的格局如下时，则可得f（p）＝6－4＝2；

　　设考虑走两步的搜索过程，利用棋盘对称性的条件，则第一次调用算法产生的搜索树如图3.6所示，图中端节点下面是计算的f（p）值，非端节点的倒推值标记在圆圈内。

为了使初始节点具有最大的倒推值，可以看出第一步的最好着法是把棋子下在中央位置。

图3.6一字棋第一阶段搜索树

设MAX走完第一步后，MAX的对手是在×之上的格子下子，这时MAX就要在新格局下调用算法，第二次产生的搜索树如图3.7所示。

类似的第三次的搜索树如图3.8所示。

至此MAX走完最好的走步后，不论MIN怎么走，都无法挽回败局，因此只好认输了，否则还要进行第四轮回的搜索。

图3.7一字棋第二阶段搜索树

图3.8一字棋第三阶段搜索树

有一种很有意思的游戏，就是有物体若干堆，可以是火柴棍或是围棋子等等均可。

两个

人轮流从堆中取物体若干，规定最后取光物体者取胜。

这是我国民间很古老的一个游戏

，别看这游戏极其简单，却蕴含着深刻的数学原理。

下面我们来分析一下要如何才能够

取胜。

（一）巴什博奕（BashGame）：

只有一堆n个物品，两个人轮流从这堆物品中取物，规

定每次至少取一个，最多取m个。

最后取光者得胜。

显然，如果n=m+1，那么由于一次最多只能取m个，所以，无论先取者拿走多少个，

后取者都能够一次拿走剩余的物品，后者取胜。

因此我们发现了如何取胜的法则：

如果

n=（m+1）r+s，（r为任意自然数，s≤m）,那么先取者要拿走s个物品，如果后取者拿走

k（≤m）个，那么先取者再拿走m+1-k个，结果剩下（m+1）（r-1）个，以后保持这样的

取法，那么先取者肯定获胜。

总之，要保持给对手留下（m+1）的倍数，就能最后获胜。

这个游戏还可以有一种变相的玩法：

两个人轮流报数，每次至少报一个，最多报十

个，谁能报到100者胜。

（二）威佐夫博奕（WythoffGame）：

有两堆各若干个物品，两个人轮流从某一堆或同

时从两堆中取同样多的物品，规定每次至少取一个，多者不限，最后取光者得胜。

这种情况下是颇为复杂的。

我们用（ak，bk）（ak≤bk,k=0，1，2，…,n）表示

两堆物品的数量并称其为局势，如果甲面对（0，0），那么甲已经输了，这种局势我们

称为奇异局势。

前几个奇异局势是：

（0，0）、（1，2）、（3，5）、（4，7）、（6，

10）、（8，13）、（9，15）、（11，18）、（12，20）。

可以看出,a0=b0=0,ak是未在前面出现过的最小自然数,而bk=ak+k，奇异局势有

如下三条性质：

1。

任何自然数都包含在一个且仅有一个奇异局势中。

由于ak是未在前面出现过的最小自然数，所以有ak>ak-1，而bk=ak+k>ak

-1+k-1=bk-1>ak-1。

所以性质1。

成立。

2。

任意操作都可将奇异局势变为非奇异局势。

事实上，若只改变奇异局势（ak，bk）的某一个分量，那么另一个分量不可能在其

他奇异局势中，所以必然是非奇异局势。

如果使（ak，bk）的两个分量同时减少，则由

于其差不变，且不可能是其他奇异局势的差，因此也是非奇异局势。

3。

采用适当的方法，可以将非奇异局势变为奇异局势。

假设面对的局势是（a,b），若b=a，则同时从两堆中取走a个物体，就变为了

奇异局势（0，0）；如果a=ak，b>bk，那么，取走b –bk个物体，即变为奇异局

势；如果a=ak， b

势（ab–ak,ab–ak+b–ak）；如果a>ak，b=ak+k,则从第一堆中拿走多余

的数量a–ak即可；如果a

从第二堆里面拿走b–bj即可；第二种，a=bj（j

j即可。

从如上性质可知，两个人如果都采用正确操作，那么面对非奇异局势，先拿者必胜

；反之，则后拿者取胜。

那么任给一个局势（a，b），怎样判断它是不是奇异局势呢？

我们有如下公式：

ak=[k（1+√5）/2]，bk=ak+k （k=0，1，2，…,n方括号表示取整函数）

奇妙的是其中出现了黄金分割数（1+√5）/2=1。

618…,因此,由ak，bk组成的矩形近

似为黄金矩形，由于2/（1+√5）=（√5-1）/2，可以先求出j=[a（√5-1）/2]，若a=[

j（1+√5）/2]，那么a=aj，bj=aj+j，若不等于，那么a=aj+1，bj+1=aj+1

+j+1，若都不是，那么就不是奇异局势。

然后再按照上述法则进行，一定会遇到奇异

局势。

（三）尼姆博奕（NimmGame）：

有三堆各若干个物品，两个人轮流从某一堆取任意多的

物品，规定每次至少取一个，多者不限，最后取光者得胜。

这种情况最有意思，它与二进制有密切关系，我们用（a，b，c）表示某种局势，首

先（0，0，0）显然是奇异局势，无论谁面对奇异局势，都必然失败。

第二种奇异局势是

（0，n，n），只要与对手拿走一样多的物品，最后都将导致（0，0，0）。

仔细分析一

下，（1，2，3）也是奇异局势，无论对手如何拿，接下来都可以变为（0，n，n）的情

形。

计算机算法里面有一种叫做按位模2加，也叫做异或的运算，我们用符号（+）表示

这种运算。

这种运算和一般加法不同的一点是1+1=0。

先看（1，2，3）的按位模2加的结

果：

1=二进制01

2=二进制10

3=二进制11（+）

———————

0=二进制00（注意不进位）

对于奇异局势（0，n，n）也一样，结果也是0。

任何奇异局势（a，b，c）都有a（+）b（+）c=0。

如果我们面对的是一个非奇异局势（a，b，c），要如何变为奇异局势呢？

假设a

a（+）b（+）（a（+）

b）=（a（+）a）（+）（b（+）b）=0（+）0=0。

要将c变为a（+）b，只要从c中减去c-（

a（+）b）即可。

例1。

（14，21，39），14（+）21=27，39-27=12，所以从39中拿走12个物体即可达

到奇异局势（14，21，27）。

例2。

（55，81，121），55（+）81=102，121-102=19，所以从121中拿走19个物品

就形成了奇异局势（55，81，102）。

例3。

（29，45，58），29（+）45=48，58-48=10，从58中拿走10个，变为（29，4

5，48）。

例4。

我们来实际进行一盘比赛看看：

甲:

（7,8,9）->（1,8,9）奇异局势

乙:

（1,8,9）->（1,8,4）

甲:

（1,8,4）->（1,5,4）奇异局势

乙:

（1,5,4）->（1,4,4）

甲:

（1,4,4）->（0,4,4）奇异局势

乙:

（0,4,4）->（0,4,2）

甲:

（0.4,2）->（0,2,2）奇异局势

乙:

（0,2,2）->（0,2,1）

甲:

（0,2,1）->（0,1,1）奇异局势

乙:

（0,1,1）->（0,1,0）

甲:

（0,1,0）->（0,0,0）奇异局势

甲胜。

取火柴的游戏

题目1：

今有若干堆火柴，两人依次从中拿取，规定每次只能从一堆中取若干根，

可将一堆全取走，但不可不取，最后取完者为胜，求必胜的方法。

题目2：

今有若干堆火柴，两人依次从中拿取，规定每次只能从一堆中取若干根，

可将一堆全取走，但不可不取，最后取完者为负，求必胜的方法。

嘿嘿，这个游戏我早就见识过了。

小时候用珠算玩这个游戏：

第一档拨一个，第二档拨两个，依次直到第五档拨五个。

然后两个人就轮流再把棋子拨下来，谁要是最后一个拨谁就赢。

有一次暑假看见两个小孩子在玩这个游戏，我就在想有没有一个定论呢。

下面就来试着证明一下吧

先解决第一个问题吧。

定义：

若所有火柴数异或为0，则该状态被称为利他态，用字母T表示；否则，

为利己态，用S表示。

[定理1]：

对于任何一个S态，总能从一堆火柴中取出若干个使之成为T态。

证明：

若有n堆火柴，每堆火柴有A（i）根火柴数，那么既然现在处于S态，

c=A

（1）xorA

（2）xor…xorA（n）>0;

把c表示成二进制，记它的二进制数的最高位为第p位，则必然存在一个A（t）,它二进制的第p位也是1。

（否则，若所有的A（i）的第p位都是0，这与c的第p位就也为0矛盾）。

那么我们把x=A（t）xorc,则得到x

所以x

（1）xorA

（2）xor…xorxxor…xorA（n）

（1）xorA

（2）xor…xorA（t）xorcxor…xorA（n）

（1）xorA

（2）xor…xorA（n）xorA

（1）xorA

（2）xor…xorA（n）

这就是说从A（t）堆中取出A（t）–x根火柴后状态就会从S态变为T态。

证毕

[定理2]：

T态，取任何一堆的若干根，都将成为S态。

证明：

用反证法试试。

若

c=A

（1）xorA

（2）xor…xorA（i）xor…xorA（n）=0；

c’=A

（1）xorA

（2）xor…xorA（i’）xorcxor…xorA（n）=0;

则有

cxorc’=A

（1）xorA

（2）xor…xorA（i）xor…xorA（n）xorA

（1）xorA

（2）xor…xorA（i’）xorcxor…xorA（n）=A（i）xorA（i’）=0

进而推出A（i）=A（i’），这与已知矛盾。

所以命题得证。

[定理3]：

S态，只要方法正确，必赢。

最终胜利即由S态转变为T态，任何一个S态，只要把它变为T态，（由定理1，可以把它变成T态。

）对方只能把T态转变为S态（定理2）。

这样，所有S态向T态的转变都可以有己方控制，对方只能被动地实现由T态转变为S态。

故S态必赢。

[定理4]：

T态，只要对方法正确，必败。

由定理3易得。

接着来解决第二个问题。

定义：

若一堆中仅有1根火柴，则被称为孤单堆。

若大于1根，则称为充裕堆。

定义：

T态中，若充裕堆的堆数大于等于2，则称为完全利他态，用T2表示；若充裕堆的堆数等于0，则称为部分利他态，用T0表示。

孤单堆的根数异或只会影响二进制的最后一位，但充裕堆会影响高位（非最后一位）。

一个充裕堆，高位必有一位不为0，则所有根数异或不为0。

故不会是T态。

[定理5]：

S0态，即仅有奇数个孤单堆，必败。

T0态必胜。

证明：

S0态，其实就是每次只能取一根。

每次第奇数根都由己取，第偶数根都由对

方取，所以最后一根必己取。

败。

同理, T0态必胜#

[定理6]：

S1态，只要方法正确，必胜。

证明：

若此时孤单堆堆数为奇数，把充裕堆取完；否则，取成一根。

这样，就变成奇数个孤单堆，由对方取。

由定理5，对方必输。

己必胜。

[定理7]：

S2态不可转一次变为T0态。

证明：

充裕堆数不可能一次由2变为0。

得证。

[定理8]：

S2态可一次转变为T2态。

证明：

由定理1，S态可转变为T态，态可一次转变为T态，又由定理6，S2态不可转一次变为T0态，所以转变的T态为T2态。

[定理9]：

T2态，只能转变为S2态或S1态。

证明：

由定理2，T态必然变为S态。

由于充裕堆数不可能一次由2变为0，所以此时的S态不可能为S0态。

命题得证。

[定理10]：

S2态，只要方法正确，必胜.

证明：

方法如下：

1） S2态，就把它变为T2态。

（由定理8）

2）对方只能T2转变成S2态或S1态（定理9）

若转变为S2, 转向1）

若转变为S1, 这己必胜。

（定理5）

[定理11]：

T2态必输。

证明：

同10。

综上所述，必输态有：

T2,S0

必胜态：

S2,S1,T0.

两题比较：

第一题的全过程其实如下：

S2->T2->S2->T2-> …… ->T2->S1->T0->S0->T0->……->S0->T0（全0）

第二题的全过程其实如下：

S2->T2->S2->T2-> …… ->T2->S1->S0->T0->S0->……->S0->T0（全0）

下划线表示胜利一方的取法。

是否发现了他们的惊人相似之处。

我们不难发现（见加黑部分），S1态可以转变为S0态（第二题做法），也可以转变为

T0（第一题做法）。

哪一方控制了S1态，他即可以有办法使自己得到最后一根（转变为

T0）,也可以使对方得到最后一根（转变为S0）。

所以，抢夺S1是制胜的关键！

为此，始终把T2态让给对方，将使对方处于被动状态，他早晚将把状态变为S1.

推荐HDOJ题目

看完上面的结论，就能顺利解决上面2道了

S-Nim

博弈算法入门小节153615171907

小子最近迷途于博弈之中。

。

感触颇深。

为了让大家能够在学习博弈的时候少走弯路，最重要的也是为了加深自己的影响，温故而知新，特发此贴与大家共勉。

学博弈先从概念开始：

特别推荐LCY老师的课件：

博弈入门。

下载地址：

这个课件个人认为从博弈的基本思想，一直到解博弈的中心算法做了很好的诠释。

但是特别要注意的是。

课件后面一部分英语写的讲义是重中之重。

小子英语很弱，在这困扰很久。

现在为大家大概介绍一下。

主要是后继点和SG值的问题:

SG值：

一个点的SG值就是一个不等于它的后继点的SG的且大于等于零的最小整数。

后继点：

也就是按照题目要求的走法（比如取石子可以取的数量，方法）能够走一步达到的那个点。

具体的有关SG值是怎么运用的希望大家自己多想想。

课件后面有一个1536的代码。

可以放在后面做做

看到这里推荐大家做几道题：

1846（最简单的博弈水题）

1847（求SG值）

有了上面的知识接下来我们来看看组合博弈（n堆石子）

推荐大家看个资料：

博弈-取石子游戏（推荐等级五星级）

这里提出了一个奇异状态的问题。

看了这篇文章你会发现异或运算在博弈中使用的妙处。

当然这里指出的只是组合博弈中一种特殊情况。

王道还是对SG值的求解，但是知道这么一种思路无疑对思维的广度和深度扩展是很有帮助的。

ZZ博弈

展开阅读全文