博弈论囚徒困境.docx

资源描述

博弈论囚徒困境.docx

《博弈论囚徒困境.docx》由会员分享，可在线阅读，更多相关《博弈论囚徒困境.docx（8页珍藏版）》请在冰豆网上搜索。

博弈论囚徒困境.docx

博弈论囚徒困境

2.他们可以采取的行动（actions）

或策略（strategies）

博弈（game）的要素

1.参与人或者局中人（players）

３.局中人可能得到的赢利（payoffs）。

每个局中人的目标：

最大化其赢利

每个人的赢利不仅取决于自己如何

“出招”，也取决于别人如何“出招”。

博弈无处不在

公路塞车，大家都遵守交规，一个人违规进入自行车道，得便宜，但如果每人都这样，则人人都吃亏。

如每个人都守规矩，则一个不守规矩的就会获得好处，每个人都不守规矩，则人人都失利。

囚徒困境的提出

囚徒困境是博弈论中的一种矛盾，反映个人最佳选择并非团体最佳选择。

现实中的市场竞争、政治角逐、情场争锋等方面会频繁出现这样的情况。

1950年，由就职于兰德公司的梅里尔·弗勒德（MerrillFlood）和梅尔文·德雷希尔（MelvinDresher）拟定出相关悖论，后来由顾问艾伯特·塔克（AlbertTucker）以囚徒方式阐述，并命名为“囚徒困境”。

合作（不坦白）?

背叛（坦白）?

囚徒困境模型

警方逮捕甲、乙两名嫌疑犯，但没有足够证

据指控二人入罪。

于是警方分开囚禁嫌疑犯，

分别和二人见面，并向双方提供以下相同的选

择：

　　若一人认罪并作证检控对方（相关术语称

“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

　　若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

　　若二人都互相检举（互相“背叛”），则二人同样判监2年。

－2，－2

0，－10

背叛

－10，0

－0.5，－0.5

合作

背叛

合作

囚徒乙

囚徒甲

囚徒困境赢利表（PayoffTable）

囚徒困境解说

　　如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。

参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。

另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒困境解说

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？

两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。

就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择：

　　若对方沉默、背叛会让我获释，所以会选择背叛。

　　若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

囚徒困境解说

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是两种策略之中的支配性策略。

因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

　　这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。

以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。

但根据以上假设，二人均为理性的个人，且只追求自己个人利益。

均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低，这里存在着矛盾。

纳什均衡通俗解释

我国研究纳什均衡的专家谢识予博士在《纳什均衡论》中用通俗的话表达纳什均衡含义：

给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是你的最好的策略。

这就是说：

双方在对方的策略给定的策略下不愿意调整自己的策略。

这里的策略包括混合策略。

在对方策略确定的情况下，每个参与者的策略都是最好的，此时没有人愿意先改变自己的策略。

囚徒困境的内在根源

　　　是在个体之间存在行为和利益相互制约的博弈结构中，以个体理性和个体选择为基础的分散决策方式，无法有效地协调各方面的利益，并实现整体、个体利益共同的最优。

简单地说，“囚徒的困境”问题都是个体理性和集体理性的矛盾引起的。

囚徒困境的启示

“囚徒的两难选择”有着广泛而深刻的意义。

个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。

他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。

只有当他们都首先替对方着想时，或者相互合谋（串供）时，才可以得到最短时间的监禁的结果。

“纳什均衡”对亚当·斯密的“看不见的手”的原理提出挑战。

按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。

《国富论》中有这样一句名言：

“通过追求（个人的）自身利益，他常常会比其实际上想做的那样更有效地促进社会利益”。

从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：

从利己目的出发，结果损人不利己，既不利己也不利他。

两个囚徒的命运就是如此。

从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。

因此，从“纳什均衡”中我们还可以悟出一条真理：

合作是有利的“利己策略”。

但它必须符合以下黄金定律：

按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。

也就是中国人说的“己所不欲勿施于人”。

但前提是人所不欲勿施于我。

　　囚徒困境的现实意义就是个人理性导致集体非理性。

　　　在囚徒博弈的模型中，只存在一个纳什均

　衡，即:

在参与者理性的情况下，坦白为最优策

　略。

这同时导致了集体利益的最小化。

　　　事实上，在囚徒困境中的最佳策略取决于对

　方采用的策略，特别是取决于这个策略为双方

　合作留出多大的余地。

而这个原则的基础是:

以

　后对于现在的权重足够大,即:

未来是重要的。

囚徒困境的现实意义

简单的说，就是如果你认为以后大家

还要相处，那么最好选择合作；反之，如

果你认为以后不再会相遇或对你以后的利

益不太关心，那么就选择背叛。

这样回到

问题的原点：

如果未来是重要的，那么就

要选择合作，而合作的策略取决于对方的

策略。

于是结论是:

没有最优策略!

囚徒困境的现实意义

在囚徒困境中，参与者会受到背叛的短期诱惑，但是通过与对方建立长期的合作的模式，可以获得更多的长期的好处。

所以，要破解囚徒困境，就要跳出这个模型本身，从更高的层面上给以制度性的约束，或让大家都明白合作的好处。

囚徒困境的现实意义

囚徒困境的实际运用

举例来是说，我是供应商，你是大超市，你可以选择拖欠货款，我也可以选择延迟发货或较低的质量，套用上面的模型：

超市?

不合作?

合作?

不合作?

-5?

-8供应商?

合作?

-8?

囚徒困境的实际运用

在这个假设的模型里，超市会想，如果供应商合作，我只要不合作，就可以得到2个单位的利润，而合作却只有1个单位的利润，显然不合作比合作好；如果供应商不合作，我若合作，则要损失8个单位的利润，但不合作却只损失5个单位的利润，显然还是不合作比较好。

无论供应商是否合作，超市的最佳策略都是不合作。

自然，供应商也会如此推理。

按照博弈论的观点，这是唯一的平衡点，在这一点上，任何一方改变策略，都会得到更差的结果。

但是，这与我们的日常经验不符合。

为什么现实中的供应商与经销商都会选择合作呢?

原因在于：

1.不嫉妒，现实中的博弈大多是非零合的。

大家赚取自己应有的利润，没有理由去嫉妒对方的高额利润，因为对方的成功是你成功的前提。

2.不首先背叛，对合作或背叛都要给于惩罚。

在契约社会，有法律，行规的制约，背叛是要付出巨大的代价的。

再回到囚徒困境中，则是黑社会团伙对囚犯家属的行动。

这会让囚徒在做决策时,偏向于合作。

当双方尝到合作的甜头，又知道背叛的惩罚后，合作就会成为第一选择。

囚徒困境的解决方法应该在困境本身之外。

囚徒困境的实际运用

大家都合作，大家都赢利，长期利益；一方不合作，一方盈利，短期利益；都不合作全都陪钱，没有利益；一般情况下，长期赢利都会比短期赢利要高的多。

囚徒困境的实际运用

囚徒困境的解释力——农业增产不增收

假设在一给封闭的小地方，只有两家农户向市场供应稻谷，而稻谷是当地居民的当家粮，是家家户户的必需品，因为稻谷是这个小地方居民的必需品，所有他们对于稻谷的需求相当稳定，大致在1000担左右。

如果稻谷的供给也在1000担左右，那么稻谷的交易价格在每担100元/担。

而如果稻谷的供给比1000担多了几百担，那么因为供大于求，稻谷的价格会从100元/担下滑到50元/担甚至40元/担；相反，如果稻谷的供给比居民的需求少了几百担，造成供不应求，那么物以稀为贵，稻谷的交易价格马上大幅度上升。

囚徒困境的解释力——农业增产不增收

如果把生产750担稻谷叫做丰收，把生产250担叫做歉收，而每家农户生产稻谷的成本都是30000元，那么以千元为单位，两家农户净收入情况表述为如下博弈：

-5

乙

丰收歉收

丰收

甲

歉收

粮农的困境

囚徒困境的解释力——农业增产不增收

情况一：

两家都丰收，供应量1500担，价格跌到40元/担，销售收入都是30000元，减去生产成本30000元，净收入是0。

情况二：

两家都歉收，供应量只有500担，价格升至240元/担，每家销售收入都是60000元，减去生产成本30000元，净收入是30000元。

情况三：

一家收获750担，一家收获250担。

价格是100元/担，收获750担的农户销售收入是75000元，减去生产成本30000元，净收入是45000元；收获250担农户销售收入则为25000，减去30000元成本后，净收入是负5000元。

稻谷的供应量之比是3；1，净收入之比却是45000：

-5000，一正一负，远远不是3：

上述粮农博弈没有体现参与人的策略选择，丰收歉收是老天爷的安排。

所以对上述模型进行一定的改造，变成假设两家农户都丰收，但是两家农户都很有商业头脑，他们会盘算向市场供应多少稻谷能够实现最大利益。

所以，上述粮农困境实际上也是囚徒困境，对于每个粮农来说，都是丰收比歉收好，但是合在一起，两家农户都丰收，不如两家农户都歉收。

囚徒困境的解释力——农业增产不增收

如果把博弈参与人所得的单位由千元改为万元，并且把相应的数字调整为整数，-0.5变成-1，4.5变成5。

-1

乙

多卖少卖

多卖

甲

少卖

粮农的博弈

对于每个粮农来说，不论对方多卖还是少卖，自己总是多卖比少卖好。

结果，两家都选择多卖策略，得益都是0。

解决三农问题的根本途径，是把大部分农业人口从农业转移出来。

这样，才能够做到农产品的产量相对于总人口保持在合适的偏向于紧俏的水平，从而农民的收入就能够增加，农村也就富裕了。

这时候，农业成为香饽饽，变成诱人的十分有希望的行业。

现实中的囚徒困境

１、公共物品的提供

（反倾销的应对，公共过道的路灯）

２、招商引资中的“政策竞赛”

３、文革中的“竞相揭发”

４、贸易战

……

“人质”方案　

长期关系和重复博弈

报复与惩罚（株连制）

如何走出囚徒困境

判断分析题

１.单人博弈就是个人最优化决策，

　与典型的博弈问题有本质区别。

正确。

因为单人博弈只有一个博弈方，因此不可能存在博弈方之间行为和利益的交互作用和制约，因此实际上就是个人最优化决策，与存在博弈方之间行为和利益交互作用和制约的典型博弈问题有本质的区别。

判断分析题

２.博弈方的策略空间必须是数量空间，博弈的结果必须是数量或者能够数量化。

前半句错误，后半句正确。

博弈方的策略空间不一定是数量空间，因为博弈方的策略除了可以是数量水平（如产量、价格等）以外，也可以是各种定性的行为取舍和方向选择，甚至也可能是各种函数或者其他更复杂的内容。

但一个博弈的结果必须是数量或者可以数量化，因为博弈分析只能以数量关系的比较为基础。

判断分析题

３.囚徒困境博弈中两个囚徒之所以会处于困境，无法得到较理想的结果，是因为两囚徒都不在乎坐牢时间长短本身，只在乎不能比对方坐牢的时间更长。

错误。

结论恰恰相反，也就是囚徒的困境博弈中两囚徒之所以处于困境，根源正是因为两囚徒很在乎坐牢的绝对时间长短。

此外，我们一开始就假设两囚徒都是理性经济人，而理性经济人都是以自身的（绝对）利益，而不是相对利益为决策目标的。

展开阅读全文