博弈论小论文.docx

资源描述

博弈论小论文.docx

《博弈论小论文.docx》由会员分享，可在线阅读，更多相关《博弈论小论文.docx（7页珍藏版）》请在冰豆网上搜索。

博弈论小论文.docx

博弈论小论文

摘要：

囚徒困境（prisoner'sdilemma）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

本文通过分析博弈论中最开始接触的囚徒困境开始，来阐述博弈论中一些博弈的思考与分析。

关键词：

博弈论囚徒困境单次与重复应用解决方法

正文：

首先，先了解一下囚徒困境的基本定义：

两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。

这是最基本的解释。

在实验中，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。

下面，来介绍囚徒困境的起源，1950年，由就职于兰德公司的梅里尔·弗勒德（MerrillFlood）和梅尔文·德雷希尔（MelvinDresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（AlbertTucker）以囚徒方式阐述，并命名为“囚徒困境”。

这个例子的情景如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

　　若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

　　若二人都保持沉默即“合作”，则二人同样判监1年。

　　若二人都互相检举即“背叛”，则二人同样判监8年。

　　用表格概述如下：

甲沉默（不坦白）

甲背叛（坦白）

乙沉默

（-1，-1）

（-5,0）

乙背叛

（0,-5）

（-3，-3）

由于每一个人都是理性的，即都寻求最大自身利益，而不关心另一参与者的利益。

参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。

另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

　　囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？

两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。

就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是两种策略之中的支配性策略。

因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑3年。

这场博弈的纳什均衡，显然不是顾及团体利益的解决方案。

以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑3年的情况较佳。

但根据以上假设，二人均为理性的个人，且只追求自己个人利益。

均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益相对互相合作来说低。

这就是“困境”所在。

而这个例子也风趣得说明了亚当·斯密的《国富论》存在一个原则上的错误。

而在这个试验中所需注意的一些问题，就是在实际情况上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

再来举一个例子，首先观察“囚徒困境”的有限博弈，

这是一个完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。

再来举一个例子。

先对上幅图分析，首先观察“囚徒困境”的有限博弈，

以T记基本博弈的重复次数。

博弈重复进行所耗时间会比较长，支付的时间价值必须考虑，记r为折现因子。

在有限博弈的情况下，可简化在r=l的情况下讨论，并采用动态博弈的逆向归纳法进行研究。

先分析t=T阶段两博弈方的选择，

这仍然是一个基本的囚徒困境博弈，此时前一阶段的结果已成为事实，又无后续阶段，因此不难得出结论，这一阶段的

结果是（坦白，坦白），双方得益（一3，一3）。

现在回到t=T一1阶段，理性的博弈方对于后一阶段的结局非常清楚，其结果必然是（坦白，坦白），因此不管现阶段的博弈结果是什么，双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上一3，此时的得益矩阵是：

囚徒甲

囚徒乙

坦白

不坦白

坦白

（一6，一6）

（一3，一8）

不坦白

（一3，一8）

（一4，一4）

容易看出，坦白仍是两博弈方的严格优超策略，即（坦白，坦白）是T一1阶段的唯一的纯Nash均衡。

以此往上类推，每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白，所

以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。

再考虑“囚徒困境”博弈重复无数次。

因为无限博弈没有最终阶段，所以不能运用逆向归纳法求解。

考虑博弈双方都采用“冷酷战略”：

（1）开始阶段选择抵赖；

（2）选择抵赖直到有一方选择了坦白，为了报复对手的背叛，以后都选择坦白。

假定囚徒1严格执行上述冷酷战略，考察囚徒1的最优策略是否为“冷酷战略”。

如果1在博弈的某个阶段首先选择了坦白，他在该阶段得到0，而不是1，但他的这次背叛会遭到囚徒2的永远惩罚，因此1在随后每个阶段的支付都是-3。

如果下列条件满足，给定2没有选择坦白，1将不会选择坦白：

0+r（一3）+r2（一3）+⋯≤一1+r（一1）+r2（一1）+

⋯即-3r/（1-r）≤-1/（1-r）。

解上述不等式得：

r≥1／3（这个条件容易满足）。

就是说，如果r≥1／3，给定2坚持冷酷战略并且2没有首先坦白，1不会选择首先坦白。

进一步假定j首先选择坦白，那么1是否有积极性坚持冷酷战略以惩罚j的不合作行为?

如果1坚持冷酷战略，他随后每个阶段的支付是-3，但如果他选择其他战略，他在任何单一阶段的支付都不会大于-3，因此，无论r是多大，1都有积极性坚持冷酷战略。

在博弈重复无数次的情况下，只要r>1／3，子博弈精炼均衡是每个阶段博弈双方都采用抵赖进行合作。

许多的博弈论理论都是从这个“囚徒困境”这个实验当中产生的，而生活中也充满了许多关于“囚徒困境”的例子。

在军事和政治领域中，两国之间的军备竞赛可以用囚徒困境来描述。

两国都可以声称有两种选择：

增加军备（背叛）、或是达成削减武器协议（合作）。

两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。

似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济都造成损坏等）。

这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

在商业领域中，战略联盟是一个由几个独立企业松散地联结在一起的群体，联盟内各合作伙伴彼此之间多不存在控制或归属关系。

除合同或协议之外，对盟内任何一个企业都不存在强制的约束或控制。

这样，盟内企业有足够的继续合作与否的选择权，联盟也就存在解体的风险。

物流联盟是战略联盟的一种具体形式，是指几个企业为了完成特定的物流任务而采取的长期合作。

如果物流联盟合作双方中有一方认为物流任务会在可以预计的时间内结束，也就是整个物流任务仅包括有限个子

物流任务，这时，双方的博弈便是有限次重复博弈。

根据逆推归纳法分析，该博弈并不能实现潜在的合作利益，两博弈

方在每次重复中都不会采用效率较高的（合作，合作），这样物流联盟趋向解体。

在此情形下，物流联盟的稳定性非常差。

更多的情况是这样的：

合作双方在合作开始时并不能预

计物流任务的结束时间。

尽管双方的理性都清楚，任何合作

都是有限的，任何物流任务都会在有限的时间内结束，但没

有足够信息显示，物流任务会在哪里个具体时点结束。

这种

物流任务结束时间不确定的情形，可以近似地看作是物流任

务没有结束时间的情形。

这时，物流任务也就可以看作是包

括无限个子物流任务，博弈也就变成了无限次重复博弈。

在这个无限次重博弈中，我们假设供需双方都采用如下触发策略：

第一阶段采用合作，在第&阶段，如果前&’!

阶段

的结果都是（合作，合作），则继续采用合作，否则采用不合作。

也就是说，双方在无限次重复博弈中都是先试图合作。

第一次无条件选合作，如果对方采取的也是合作态度，则坚

持选合作；一旦发现对方不合作，则用以后永远选不合作报

复。

如果前述假设成立，也即供需双方都采用上述触发策略，那么一方对另一方触发策略的最佳反应是第一阶段采用合作。

由于从第二阶段开始的无限次重复博弈，与从第一阶段开始的无限次重复博弈是完全相同的，因此博弈方第二阶

段的选择必然也是合作，第三阶段也同样。

依次类推，只要

一方采用前述触发策略，那么另一方的最佳选择就始终是合

作。

这样，联盟可得到一个（合作，合作）的均衡结果，此时，联盟必然趋于稳定。

“囚徒困境”不仅带来了博弈论，更多的是对如何解决“囚徒困境”的思考。

解决“囚徒困境”的方法有如下：

一、附加的可置信威胁可以让囚徒摆脱困境。

二、由外部环境决定的依存关系有可能使双方摆脱囚徒的困境

有时候，由于来自外部环境的威胁，进行“囚徒困境”博弈的两个囚徒之间的合作（抵赖、抵赖）可能作为一种受迫性反应而出现。

三、在重复博弈中，囚徒们只是有时会走出困境

已经证明，在每个囚徒贴现值充分大时，以下两种情况可能使最开始的例子中的两个囚徒走出困境。

其一是博弈重复无限次；其二是引入非对称信息，博弈重复的次数充分大。

这两种情况中，前者合作（即（抵赖，抵赖））有可能出现在一个子博弈精练均衡中，后者合作有可能出现在一个精练贝时斯均衡中。

注意这里多次强调了“可能”，是因为博弈均衡的多重性问题。

四、、走出囚徒的困境——政府干预途径

上文已经指出，靠“囚徒们”的自律，并不总是能够走出困境。

一个鲜活的例子是中国彩电企业首次“价格联盟”的失败。

当不合作有很高的“利润”诱惑时，没有哪家企业愿意合作。

人们已经充分认识到，彩电企业首次“价格联盟”的失败是因为缺乏奖罚规则与措施，各方没有签订一个具有法律约束力的合同。

为了防止过度竞争，国家应采取必要的行政干预措施，比如对某产品采取最低限价，并以法规的形式确立下来，惩罚那些为了私利而单方面降价的不合作企业。

惩罚必须有足够的威胁力度，比如为防止过度的价格竞争时，对单方面降价的不合作企业的罚款应不低于该企业由降价所带来的利润与合作时所带来利润的差额，否则，政府的干预就会“失灵”。

六、理性人的集体理性

个人理性者是狭隘的理性人．面对囚徒博弈时。

无法走出困境。

集体理性者是科学的理性人．比个人理性者主观能动性更强。

目光更长远，为了达到最大化的目的，能够主动引入（制定）人工博弈规则，甚至不惜与自己的竞争对手合作。

集体理性者虽然与个人理性者的出发点完全一样，都是为了最大化自己的效用．但集体理性者能够认识到纯粹的个

人理性有时无法达到最大化自己效用的目的，而只有引入人工博弈规则，比如建立联盟。

从竞争走向合作。

有集体认同感才能达到目标。

因此，对于“囚徒困境”，必须有外部的条件约束或者是引入人工博弈的游戏规则，，即参与人中必须存在带有集

体理性的理性人，才能最终走出囚徒困境。

参考文献：

1、《论摆脱囚徒困境的途径》马本江等

2、《囚徒困境情形下物流联盟的稳定性分析》郭晓林等

3、《博弈论中的"囚徒困境"模型》王家辉

4、《基于小世界网络的重复囚徒困境博弈》李南等

5、XX百科—————囚徒困境

展开阅读全文