第四章-动态博弈与逆向归纳法.ppt

资源描述

第四章-动态博弈与逆向归纳法.ppt

《第四章-动态博弈与逆向归纳法.ppt》由会员分享，可在线阅读，更多相关《第四章-动态博弈与逆向归纳法.ppt（29页珍藏版）》请在冰豆网上搜索。

第四章-动态博弈与逆向归纳法.ppt

第四章动态博弈与逆向归纳法,逆向归纳法应用的例子理性的局限与非理性的行为,逆向归纳法,美中军事政治博弈在我国解放初期，美国一直试图对我国实施打击。

此时，我国必须对美国采取应对之策。

就我国对美国可以采取的行动而言，无非是回击或不回击。

用更符合毛泽东的话来说，美国可以“犯我”或“不犯我”，而我们可以“犯人”或“不犯人”。

由此我们可以刻画出一个动态博弈：

参与人：

美国、中国；行动空间：

美国可选择的行动是“犯我”或“不犯我”；中国的选择是“犯人”或“不犯人”行动顺序：

美国先行动；中国观察到美国的行动启再选择自己的行动；赢利:

我们这样假设赢利状况（数字是虚拟的）；如果美国“犯我”，中国“犯人”，恶战再所难免，则美国亏损2，中国亏损2；,如果美国“犯我”，中国“不犯人”，那么中国沦为美国的附庸，丧失国家主权，则美国获得2，中国亏损4；如果美国“不犯我”，中国“犯人”，那么就是中国挑起战事，美国正好有借口纠合国际力量打击中国，则美国得3，中国亏损5；如果美国“不犯我”，中国“不犯人”，各自和平地发展经济，则美国得1，中国得1。

博弈树,美国,我国,我国,不犯我,犯我,不犯人,犯人,不犯人,犯人,（1,1）,（3,-5）,（2,-4）,（-2,-2）,4.1美中军事政治博弈,对博弈树的解释美国先选择“犯我”或“不犯我”，然后中国观察美国的选择后选择“犯人”或“不犯人”，最下边的括号内数字是各种情况下双方的赢利状况，前一个数字代表第一个行动人（美国）的赢利，第二个数字代表第二个行动人（中国）的赢利。

依此类推，如果有更多的参与人序贯行动，则赢利的排列顺序与行动顺序一致。

博弈的均衡,在完美信息动态博弈中，要找的均衡实际上是一条路径，即从第一个行动人决策结点出发，一直到某一个终点之间的路径。

所谓均衡路径就是在每一个决策阶段，没有人会偏离这条路径。

这条路径所代表的策略均衡被称做子博弈完美均衡。

如何用逆向归纳法来求解博弈的均衡？

首先，最后阶段行动的参与人决策开始考虑。

在图4-1的博弈中，最后行动的是中国，因此先考虑中国怎么决策。

在考虑中国的决策时，我们假定美国已经选了“犯我”或“不犯我”，如果美国选择了“犯我”，在图4-1中可发现，中国选择“犯人”会得到-2，选择“不犯人”会得到-4，因此中国必然选择“犯人”。

在中国“犯人”的分枝上画上一个短短的双横线标记；,考虑次后阶段行动的人（例子中只有两个阶段，因此实际上就是第一阶段行动的人）美国。

美国决策时会考虑中国的反应，而现在它已预见到中国将选择的行动就是两条划了双横线的分枝。

所以，它很容易推出自己面临的情况是：

若选择“犯我”，则必然导致中国“犯人”，则美国得到-2；,若选择“不犯我”，则中国必选择“不犯人”，则美国得到1；结果美国宁愿选择“不犯我”。

照规矩，我们在美国“不犯我”的一个分枝上画上双横线。

如果存在一个路径，其每个分枝都画上了双横线，那么这条路径就是均衡路径。

在图4-1的例子中，均衡路径将是美国选择“不犯我”，而中国选择“不犯人”。

子博弈完美均衡的定义：

一个策略组合只有在其路径既满足是整个博弈的均衡又满足该路径上每一个子博弈的均衡的时候,才是子博弈完美均衡。

练习,甲,乙,甲,（2，0）,（1，1）,（0，2）,（3，0）,下,上,左,右,前,后,4.2序贯博弈,甲,乙,甲,（2，0）,（1，1）,（0，2）,（3，0）,下,上,左,右,前,后,4.2序贯博弈,运用逆向归纳法：

最后阶段是甲选择“前”或“后”，由于选“前”甲得到0，选“后”甲得到3，因此甲选“后”；给定第三阶段甲选“后”，那么第二阶段乙选“左”得到1，选“右”将只能得到0，因此乙选“左”；再看第一阶段，如果甲选择“下”得到2，选择“上”（则乙选“左”结束博弈）得到1，因此甲将直接选“下”结束博弈。

私奔博弈,在我国汉代，有个青年作家叫司马相如，有个年轻的寡妇叫卓文君。

卓文君的父亲喜欢附庸风雅，经常请一些所谓的才子到家里吟诗作赋，其中就包括司马相如。

日子长了，司马相如与卓文君产生了爱情并打算结婚。

但是，这门亲事遭到文君父亲的反对。

父亲对文君说，你若跟司马结婚，那么就将脱离父女关系。

卓文君应该怎样选择？

是屈从父亲还是跟心上人结婚？

博弈得益描述,文君先选择与司马断绝关系或者结婚，若与司马断绝关系，则她失去一个心爱的人，得到-1的赢利（她父亲则得到赢利1，因为他终于如愿以偿让女儿没能跟司马结婚）；若选择结婚，则由文君的父亲做出反应，他可以真的断绝父女关系，此种情况下，文君得到0（困为她虽然跟爱人结婚得到1，但是却因此失去了父亲得到-1，总计得到0），父亲得到-1-1=-2（因为看到文君与司马结婚心中不快得到-1，又失去女儿所得再增加-1）；当然，既然生米煮成了熟饭，父亲也可以默认，此时文君既得到爱人又没有失去父亲故获得赢利1，而父亲心中不快得到-1，但毕竟没有失去女儿。

文君,父亲,（-1，1）,（0，-2）,（1，-1）,与司马断绝关系,结婚,断绝父女关系,默认,4.3私奔博弈,使用逆向归纳法不难得到，第二阶段父亲将选择默认（因为默认的赢利为-1，而断绝父女关系的赢利为-2）；给定第二阶段父亲会默认，第一阶段文君将选择结婚（结婚赢利为1，与司马断绝关系赢利为-1）。

私奔博弈的均衡结果是，文君选择结婚，而文君的父亲选择默认，（结婚-默认）不可置信的威胁并不可怕。

海盗分赃,话说有5个海盗抢来了100枚金币，大家决定分赃的方式是：

由海盗一提出一种分配方案，如果同意这种方案的人达到半数，那么该提议就通过并付诸实施；若同意这种方案的人未达半数，则提议不能通过且提议人将被扔进大海喂鲨鱼，然后由接下来的海盗继续重复提议过程。

假设每个海盗都绝顶聪明，也不相互合作，并且每个海盗都想尽可能多得到金币，那么，第一个提议的海盗将怎样提议既可以使得提议被通过又可以最大限度得到金币呢？

逆向归纳法求解,首先，考虑只剩下最后的海盗五，显然他会分给自己100收，并赞成自己。

再回溯到只剩下海盗四和海盗五的决策，海盗四可以分给自己100枚并赞成自己；海盗五被分得0枚，即使反对也无用。

回到海盗三，海盗三可以分给海盗五1枚得到海盗五的同意；分给自己99枚，自己也同意；分给海盗四0枚，海盗四反对但无用。

回到海盗二，海盗二可以分给海盗四1枚得到海盗四同意；自己也同意；海盗三、五各分得0枚，他们会反对但反对没有用。

回到海盗一，他可以分给海盗三、五各1枚，获得海盗三、五的同意；分给自己98，自己也同意；分给海盗二、四各0枚，他们会友对但反对不起作用。

海盗分赃,分配者,分配给各海盗的金币枚数,海道五海盗四海盗三海盗二海盗一,海盗一还到二海盗三海盗四海道五,1000101,100010,9901,990,98,4.4海盗分脏逆向推理过程（全部海盗半数同意即可通过）,这个海盗分赃问题的答案是（98，0，1，0，1）：

海盗一提出分给自己98枚，分给海盗二、四各0权，分给三、五各1权，该提议会被通过，因为海盗一、三、五会投赞成票。

作业,1.夺宝战夺宝战（nimgame）是这样一种游戏：

在桌子上放一定数量的火柴。

甲、乙两个人可轮流从中取走1根或2根，谁取走最后1根或2根便获胜。

胜者得1块钱，负者输1块钱。

（以5根火柴为例）,2.最后通牒博弈话说有一个叫张三的人在路上行走，拾到了100元钱，正好这事也被李四看到了。

见者有份，于是两个人要决定怎么分配这笔钱。

我们极端地假设们的谈判只能进行一个回合，即由张三提出分给李四多少钱（以元为最小的计算单位），然后李四表示接受或不接受，如果接受就按照提议分，如果不接受那么大家只好把这100元交到警察局，谁都得不到。

那么极端自私的张三会怎么提议呢？

几个基本概念,理性的局限性至少有两个原因导致：

一是人们的算计能力是有限的，二是人们的理性本身也是有限的（比如感情用事、冲动行事、冒险倾向等）。

序贯理性：

每个参与人在其每一个行动时点上都将重新优化自己的选择，并且会把自己将来会重新优化其选择这一点也纳入当前的优化决策当中。

序贯理性下将不会有后悔出现因为满足序贯理性所形成的路径，无论从后向前看，还是从前向后看，都将是一条最优的道路。

非理性：

常常是因后悔带来的。

“悔不当初”就是典型的例子。

人们难以达到序贯理性的要求。

算计能力与策略技巧从理论上来说，有限的离散策略，只要其可能的结果状态是有限的，我们就可以通过逆向归纳方法，来求解出均衡路径上的策略。

按照这样的一个想法，我们在下象棋、围棋等时可能就分不出高下。

因为，每个人都通过逆向归纳法已经知道如何应对每一步棋，最后大家可能永远只会下成平手。

事实并非如此：

更有经验的棋手显然更能“老谋深算”，一个新手常常目光短浅、漏洞百出，老手下赢新手是最普遍的结果。

是不是人们存在有限理性，研究博弈论就没有价值了呢？

人与人之间的理性程度的差异造就了胜负之分，才使得棋艺对抗如此令人着迷，难道不是这样吗？

而且新老棋手的棋艺高低，不正是说明了理性程度的提升策略技巧的改善是可以通过学习和训练来达到的吗？

难道这不正是一个应该学习和研究博弈论的最好理由吗？

小结,在博弈局势中，我们应站在将来的立场上思考现在的行动选择。

一个人威胁在将来要对你进行制裁，但是在将来这个制裁其实并不符他的利益，那么你不应相信他的威胁。

现实中不同人的策略理性程度并不一样，这使得现实中的策略博弈结果可能（暂时）偏离均衡路径。

但是，从长期来看，理性不足的人们之行为后果与高度理性的人们之行为后果是一致的。

因为人们会学习，策略会进化。

展开阅读全文