经典的囚徒困境.docx

资源描述

经典的囚徒困境.docx

《经典的囚徒困境.docx》由会员分享，可在线阅读，更多相关《经典的囚徒困境.docx（14页珍藏版）》请在冰豆网上搜索。

经典的囚徒困境.docx

经典的囚徒困境

1950年，由就職於兰德公司的梅里尔·弗勒德（MerrillFlood）和梅爾文·德雷希爾（MelvinDresher）擬定出相關困境的理論，後來由顧問艾伯特·塔克（AlbertTucker）以囚徒方式阐述，並命名为「囚徒困境」。

经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但沒有足够证据指控二人入罪。

於是警方分开囚禁嫌疑犯，分别和二人见面，并向雙方提供以下相同的选择：

∙若一人認罪並作证检控對方（相關術語稱「背叛」對方），而對方保持沉默，此人将即時獲释，沉默者将判監10年。

∙若二人都保持沉默（相關術語稱互相「合作」），则二人同樣判监半年。

∙若二人都互相检举（互相「背叛」），則二人同樣判監2年。

用表格概述如下：

甲沉默（合作）

甲認罪（背叛）

乙沉默（合作）

二人同服刑半年

甲即時獲釋；乙服刑10年

乙認罪（背叛）

甲服刑10年；乙即時獲釋

二人同服刑2年

解說

如同博弈論的其他例證，囚徒困境假定每個參與者（即「囚徒」）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益。

參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，此策略稱為「嚴格劣勢」，理性的參與者絕不會選擇。

另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？

兩名囚徒由於隔絕監禁，並不知道對方选择；而即使他们能交谈，還是未必能夠盡信對方不會反口。

就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。

試設想困境中兩名理性囚徒會如何作出選擇：

∙若對方沉默、我背叛會讓我獲釋，所以會選擇背叛。

∙若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。

二人面對的情況一樣，所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是兩種策略之中的支配性策略。

因此，这場博弈中唯一可能达到的纳什均衡，就是雙方参与者都背叛對方，結果二人同樣服刑2年。

这場博弈的纳什均衡，顯然不是顧及團體利益的帕累托最优解决方案。

以全体利益而言，如果两个参与者都合作保持沉默，兩人都只會被判刑半年，总体利益更高，結果也比兩人背叛對方、判刑2年的情況較佳。

但根據以上假設，二人均為理性的個人，且只追求自己個人利益。

均衡狀況會是兩個囚徒都选择背叛，结果二人判监均比合作為高，總體利益較合作為低。

这就是“困境”所在。

例子華麗地证明了：

非零和博弈中，帕累托最优和纳什均衡是相冲突的。

固定局數的囚徒困境

試想像囚徒困境的情況進行十次。

我們可以合理地設想，如果囚徒第一次被對方指控，第二次這個囚徒也會指控對方。

相反，如果第一次別人保持沉默，建立了互信的關係，你也會保持沉默，達致帕累托最优。

當然，兩個囚徒都會有相似的想法，在第一局保持沉默，以期望建立互信關係，所以雙方都會保持沉默。

第二局時，雙方亦應有相似的想法，繼續保持沉默，以期繼續在互信的情況下進行第三局，以致餘下的八局。

這種想法合理嗎？

在第十局時，互信的關係明顯是没有意義的，因為十局已經完結，囚徒没有必要為維持互信的關係而沉默（没有第十一局），所以第十局囚徒一定會背叛對方的，理由和只有一局囚徒困境一樣。

問題是，既然大家都知道在第十局，無論如何對方都會背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默（友好關係）的原因是為了希望下一局別人保持沉默。

所以第九局雙方都一定會背叛對方的。

下一個問題是，雙方都有相同的想法，明知第九局對方會背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此類推，纳什均衡是十局都會互相背叛，建立互信關係是没有可能的。

只有在囚徒困境的局數大家都不肯定的情況下，上述的推論才不會發生，才會出現互相保持沉默的現象。

一般形式

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。

实验经济学常用這種博弈的一般形式分析各种论题。

以下是實現一般形式的其中一例：

有两个参与者和一个庄家。

参与者每人有一式两张卡片，各印有“合作”和“背叛”。

参与者各把一张卡片文字面朝下，放在庄家面前。

文字面朝下排除了參與者知道對方選擇的可能性1。

然后，庄家翻开兩個参与者卡片，根據以下規則支付利益：

∙一人背叛、一人合作：

背叛者得5分（背叛诱惑），合作者0分（受骗支付）。

∙二人都合作：

各得3分（合作报酬）。

∙二人都背叛：

各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：

一般形式囚徒困境的支付矩阵

合作

背叛

合作

3,3

0,5

背叛

5,0

1,1

以“T、R、P、S”符号表示

合作

背叛

合作

R,R

S,T

背叛

T,S

P,P

以“胜－负”术语表示

合作

背叛

合作

胜-胜

大负-大胜

背叛

大胜-大负

负-负

简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表

符号

分数

英文

中文（非术语）

解释

Temptation

背叛诱惑

单独背叛成功所得。

Reward

合作报酬

共同合作所得

Punishment

背叛惩罚

共同背叛所得

Suckers

受骗支付

被单独背叛所获

若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。

T>R>P>S

（解：

从5>3>1>0获得以上不等式）

若以整体获分而言，将得出以下不等式。

2R>T+S或2R>2P

（解：

2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。

合作在团体而言是支配性策略。

）

而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。

就是说将使参与者脱离困境。

以上理论是道格拉斯·霍夫施塔特创建的。

现实的例子

上述例子可能顯得不甚自然，但现实中，无论是人类社会或大自然都可以找到类似囚徒困境的例子，將結果劃成同樣的支付矩阵。

社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚徒困境分析，模擬生物面對无止境的囚徒困境博弈。

囚徒困境可以廣為使用，說明這種博弈的重要性。

以下为各界例子：

政治学例子：

军备竞赛

在政治学中，兩国之间的军备竞赛可以用囚徒困境來描述。

两国都可以聲稱有两种选择：

增加军备（背叛）、或是达成削减武器协议（合作）。

兩國都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。

似乎自相矛盾的是，雖然增加軍備會是兩國的「理性」行為，但结果卻顯得「非理性」（例如會对经济造成都有损坏等）。

这可視作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

经济学例子：

关税战

两个国家，在关税上可以有以两个选择:

1.提高关税，以保护自己的商品。

（背叛）

2.与对方达成关税协定，降低关税以利各自商品流通。

（合作）

当一国因某些因素不遵守关税协定，而独自提高关税（背叛）时，另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。

然后二国又重新达成关税协定。

（重复博弈的结果是将发现共同合作利益最大。

）

商业例子：

广告战

商业活动中亦会出现各种囚徒困境例子。

以广告竞争为例。

两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。

但若二者同时期发出质量类似的广告，收入增加很少但成本增加。

但若不提高广告质量，生意又会被对方夺走。

此二公司可以有二选择：

1.互相达成协议，减少广告的开支。

（合作）

2.增加广告开支，设法提升广告的质量，压倒对方。

（背叛）

若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。

在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。

自行车赛例子

自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。

例如每年都举办的環法自由車賽中有以下情况：

选手们在到终点前的路程常以大队伍（英文:

Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。

而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。

通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会趕上（共同背叛）。

而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

与囚徒困境相关的各事件

异想

威廉·庞德斯通（WilliamPoundstone）在他的著作中，以一新西兰的例子来说明囚徒困境。

在新西兰，报亭既无管理员也不上锁，买报纸的人自行放下钱后拿走报纸。

当然某些人可能取走报纸却不付钱（背叛），但由于大家认识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。

这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。

并没有任何人特别去注意报亭，人们守规则是为了避免共同背叛带来的恶果。

这种避免囚徒困境的大家共同的推理或想法被称为“异想（magicalthinking）”。

[3]

“認罪減刑”不可行

囚徒困境的结论是许多国家中認罪減刑（英文：

pleabargain）被禁止的原因之一。

囚徒困境带来的结论是：

如果有二个罪犯，其中一人犯罪而另外一人是无辜的，犯罪者会为了减刑坦白一切甚至冤枉清白者（单独背叛）。

最糟糕的情况是，如果他们二人都被判入狱，坦白的犯罪者刑期少，坚持无罪的冤枉者刑期反而更多。

公用品悲劇

现实的博弈参与者不只一方，会有多方参与的囚徒困境。

加勒特·詹姆斯·哈丁（GarrettJamesHardin）的公用品悲劇就是一例：

「公用品悲劇是指凡是屬於最多數人的公共财产常常是最少受人照顧的事物」，例如渔业，公海中的鱼是属于公共的，而在本身不滥捕其他人也滥捕的思想下，渔民会没有节制的大捞特捞，结果海洋生态破坏，渔民的生计也受影响（共同背叛的结果）。

但是，多方囚徒困境的提法有待商榷，因为其总是可以被分解为一组组经典的二方囚徒困境。

就是说只有二方的囚徒困境，没有多方的。

所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。

重复的囚徒困境

罗伯特·阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。

在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。

阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。

参赛的程序的差异广泛地存在于这些方面：

算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。

他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特（AnatolRapoport）开发并运用到锦标赛中的方法。

它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。

这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。

更好些的策略是“宽恕地以牙还牙”。

当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%-5%）时而合作一下。

这是考虑到偶尔要从循环背叛的受骗中复原。

当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。

这意味着有时你的动作被错误地传达给你的对手：

你合作但是你的对手听说你背叛了。

通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。

友善

最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。

几乎所有的高分策略都是友善的。

因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。

报复

但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。

要始终报复。

一个非报复策略的例子是始终合作。

这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。

宽恕

成功策略的另一个品质是必须要宽恕。

虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。

这停止了报复和反报复的长期进行，最大化了得分点数。

不嫉妒

最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。

因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。

阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。

重新考虑经典的囚徒困境一节中给定的军备竞赛模型：

结论是，只是理性策略增进了军事力量，似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。

有趣的是，企图说明对抗国家实际上以这种方式（在“重复囚徒困境假定”下的不同时期，军费支出在“高”和“低”之间反复）竞赛的尝试，却经常表明假定的军备竞赛并没有如预想的那样出现。

（例如希腊人和土耳其人的军费支出，看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛，却更可能是被其国内的政策所驱使。

）这可能是一次性博弈和重复性博弈中的理性行为不同的例子。

对一次性囚徒困境博弈来说，最佳（点数最大化的）策略是简单地背叛；正如前面解释的，无论对手的行动可能是什么，这都是真实的。

但是，在重复的囚徒困境博弈中，最佳策略依赖于可能的对手的策略，和他们怎样对背叛和合作作出反应。

例如，考虑这样一个人群，那里每个人每次都背叛，除了一个人是遵循以牙还牙策略。

这个人处于一种轻微的不利地位，因为第一回合的损失。

在这样的人群中，对这个人来说最佳策略就是每次都背叛。

在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中，对个人来说的最佳策略依赖于这个百分比和博弈的长度。

一般有两种方法得到最佳策略：

1.贝叶斯纳什均衡：

如果对抗策略的统计分布能被确定（例如，50％以牙还牙，50％一直合作），就能从数学上获得最佳的相对策略[4]。

2.已经有了人群的蒙特卡罗模拟，在这里低分个人消失了，高分个人一再被生产出来（一种获得最佳策略的天才算法）。

决赛人群中的算法合成通常依赖于初赛人群中的算法合成。

尽管以牙还牙始终被认为是最可靠的基本策略，但是在重复囚徒困境的20周年纪念赛中，来英国南安普敦大学的一个小组（由尼古拉斯·詹宁斯（NicholasJennings）[1]领导，包括了拉蒂普·达什（RajdeepDash）、萨瓦帕里·拉姆琼（SarvapaliRamchurn）、亚历克斯·罗杰斯（AlexRogers）斯和皮鲁克里士南·维特林根（PerukrishnenVytelingum））介绍了一个新的策略，这个策略证明了它比以牙还牙更成功。

这个策略依赖于程序之间的合作，为单一程序中获得了最高的点数。

南安普敦大学提交了60个程序参与竞赛，这些程序的开头被设计成通过一组5到10个的动作去彼此识别。

一旦这些识别被作出，一个程序将总是合作，其他程序则总是背叛，保证背叛者得到最大的点数。

如果程序识别出它在操作一个非南安普敦参与者，这程序将持续地背叛，企图去最小化竞争程序的得分。

结果[5]，这个策略以获得前3位结束了竞赛，也得到了大量接近底部的位置。

虽然这个策略显著地证明了比以牙还牙有效，但是这是因为利用了下述事实：

在这个特殊的竞赛中，多重通道是被允许的。

在一方只能控制单一参与者的竞赛中，以牙还牙确实是更好的策略。

如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生另一个有趣的事实。

纳什均衡就是每次都背叛。

这很容易用归纳法证明。

你也可以在最后的回合背叛，既然你的对手将没有机会惩罚你。

因此，你们都将在最后的回合背叛。

这时，你可以在倒数第二回合中背叛，既然最后一回无论你做什么，你的对手都将背叛。

依此类推。

为了合作以保持请求，这时未来必须对两个参与者来说是不确定的。

一个解决方案是让博弈总次数N变成随机的。

对未来的预期必须是无法确定的长度。

另一个单独的案例是“永不停止”的囚徒困境。

这个博弈被重复很多次，而且你的分数是一个平均数（当然是用计算机计算的）。

囚徒困境博弈是某些人类合作和信任理论的基础。

假定囚徒困境能够模拟需要信任的两人之间的交流，群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。

这从而引起了许许多多学者经久不衰的兴趣。

1975年，格罗夫曼（Grofman）和普尔（Pool）估计，致力于这方面研究的学术文章，数量超过2000篇。

学习心理学和博弈论

当博弈参与者能学会估计其他参与者背叛的可能性，他们自身的行为就为他们关于其他人的经验所影响。

简单的统计显示，总体上，缺乏经验的参与者与其他参与者的互动，或者是典型的好，或者是典型的坏。

如果他们在这些经验的基础上行动，（通过更多的背叛或合作，否则）他们可能在未来的交易中受损。

随着经验逐渐丰富，他们获得了对背叛可能性的更真实的印象，变得更成功地参与博弈。

不成熟的参与者经历的早期交易对他们未来参与的影响，可能比这些交易对成熟的参与者的影响要大得多。

这个原理部分地解释了，为什么年轻人的成长经验这么具有影响力，以及为什么他们特别容易被欺负，有时他们本身最后也成为欺凌弱小者。

群体中背叛的可能性，可以被合作的经验所削弱[6]，因为先前的博弈建立了信任。

因此自我牺牲行为可以，例如，加强团体的道德品质。

如果团体很小，积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。

这与相似的困境有关：

鼓励那些你将援助的人，从可能使他们处于危险的境地的行为中得到满足。

这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。