囚徒困境中的博弈方参与合作的.docx-资源下载

囚徒困境中的博弈方参与合作的.docx

1、囚徒困境中的博弈方参与合作的囚徒困境中的博弈方参与合作的-重复博弈分析摘要：在单次博弈的囚徒困境中，每个参与者都是对自己利益最大化的主体，在最求最大化个人利益的过程中形成了“囚徒困境”的纳什均衡解。但是这样的纳什均衡对于所有的博弈者来说并不是最优的。通过重复博弈的，增加博弈的次数可以增加信息的透明度、提高博弈者之间的信任程度进而减少欺诈行为的发生，为合作博弈提供了可能性。试图分析囚徒困境的参与者相互合作的原因，并提出如何让博弈参与者走出“囚徒的困境”错误！未找到图形项目表。关键词：重复博弈；囚徒困境；合作；最优一、引言人类社会和大自然中都存在着竞争与矛盾冲突。自然界有捕食者和猎物之间的生存竞

2、争，人类社会有国家与国家之间的军备竞争，以及公司与公司之间的价格战。现实经济生活中，有很多一次博弈的“囚徒困境”的例子，例如两个之间的价格竞争，为了自己的经济利益最大化都不消减产量，使得两个厂商都达不到真正的最优。“囚徒困境”启示我们，只顾及单方面利益的做法往往不但无法达到理想的目标，而且可能会使个体利益水平在原有的基础上下降，社会总利益也会受损。基于提高博弈者之间博弈的效率、使博弈双方效用最大化的目的，以博弈论的基本原理之一重复博弈理论为切入点，试图通过对囚徒困境的参与者彼此合作行为的解析，达到在重复博弈条件下走出囚徒困境的目的。在单独的一次博弈过程中，每个人都倾向于利用自身的优势为自己谋求

3、最大的利益，而对方只要有机会也会这么做，于是双方都要采取措施来防范对方，这就是“囚徒困境”。但运用“重复博弈”，可以减少欺骗，增加相互的信任，因为上当受骗的人能够进行“一报还一报”的报复行动，从而走出“囚徒困境”。本文在认识“囚徒困境”和“重复博弈”的基础上，试图分析在重复博弈的条件下如何使“囚徒困境”得到破解从而促进合作，实现共赢。二、重复博弈理论综述（一）重复博弈的定义重复博弈是指动态或静态博弈的重复进行，或者说重复进行的过程。其中的每次博弈称为阶段博弈，它是动态博弈中的重要内容。在每个阶段博弈中，参与者可能同时行动，也可能不同时行动，因为其他参与者过去的行动的历史是可以观测的，因此在重

4、复博弈中，每个参与者可以使自己在每个阶段选择的策略依赖于其他参与者过去的行为。在重复博弈中，每次博弈的条件、规则和内容都是相同的，但由于有一个长期利益的存在，因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争，即不能像在一次性静态博弈中那样毫不顾及其它博弈方的利益。有时，一方做出一种合作的姿态，可能使其它博弈方在今后阶段采取合作的态度，从而实现共同的长期利益。（二）重复博弈的特征重复博弈具有前一阶段不改变后一阶段的结构，博弈历史可观测及博弈者关心长期得益等三个特征。首先，重复博弈的每次博弈之间没有物质上的联系，即前一阶段的博弈不改变后一阶段的结构

5、。其次，所有参与者都可以观察到博弈过去的历史。在每一个新的阶段的重复博弈中，两个参与者都知道对方在过去的每次博弈中选择了合作还是不合作，对于这一点，参与者可以通过自己过去的收益数量发现。最后，重复的博弈者关心的是整个博弈的总得益，而总得益是所有阶段博弈得益的贴现值之和，如果长期可获得的收益大于眼前利益，博弈者将会放弃眼前利益而选择长期行为合作。影响重复博弈均衡结构的主要因素是博弈次数和信息的完备性。因为重复次数的存在，参与者会在短期利益与长期利益之间进行权衡，他们有时会为了长期利益而暂时牺牲短期利益，而信息的不完备性则可能使参与者为了自己的长远利益而积极地建立良好的声誉，从而为自己的长期行为建

6、立基础。（三）重复博弈的分类影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性，因此重复博弈既可以按照博弈重复的次数分类，也可以按照信息的完备性分类。重复博弈按博弈重复的次数分为有限次重复博弈与无限次重复博弈。在有限次重复博弈中，所有参与者都可以明确无误地了解重复的次数，即可以准确地预测到最后一个阶段博弈，而在最后阶段的博弈中，任何一个参与者选择不合作，不会导致其他参与者的报复。有限次重复博弈与无限次重复博弈的共同点为试图合作和惩罚不合作是实现理想均衡的关键，是构造高效率均衡战略的核心构件。而两者的区别为，首先，无限次重复博弈没有结束重复的确定时间，在有限次重复博弈中，存在最后一次重

7、复正是破坏重复博弈中局中人利益和行为的相互制约关系，使重复博弈无法实现更高效率均衡的关键问题。其次，无限次重复博弈不能忽视不同时间得益的价值差异和贴现问题，必须考虑后一期得益的贴现系数，对局中人和博弈均衡的分析必须以平均得益或总得益的现值为根据。重复博弈按博弈者所具备的信息的完备性又可分为完全信息的重复博弈与不完全信息的重复博弈。不完全信息重复博弈与完全信息重复博弈的不同之处是博弈者不会拥有被重复着的一次性博弈所具有的一些相关信息，这种信息的不完备性使得参与者采取的措施获得的收益有可能背离自身的意愿，有可能会为其带来损失。在这种情况下，博弈重复的重要性在于能使得行为个体从其他行为个体的行为中获

8、取并了解到信息，从而为自身采取何种博弈行为提高一定的参考基础，为其有效降低风险的不确定性。（四）重复博弈理论的演变重复博弈是动态博弈中的重要内容，2005年诺贝尔经济学奖的获得者奥曼对重复博弈理论的发展做出了巨大的贡献。1985年，奥曼在重复博弈综述中对完全信息重复博弈和不完全信息重复博弈进行了全面的总结。完全信息博弈的最早结果出现在50年代，被称为“佚名定理”。该定理认为，重复博弈的策略均衡结局与一次性博弈中的可行的个体理性结局恰好相一致，这个结局可被视为把多阶段非合作行为与一次性博弈的合作行为联系在一起。而奥曼认为，完全信息的重复博弈论与人们之间相互作用的基本形式的演化相关，它的目的是解释

9、诸如合作、利他主义、报复、威胁等现象。奥曼考察了许多具体的合作行为后，在1959年定义了“强均衡”概念，即没有任何参与者团体可以通过单方面改变它们的决策来获益的情形。他指出，重复博弈的“强均衡”与一次性博弈的核心相一致，1959年，奥曼发表了有关重复博弈的论文(Acceptable Points in General Cooperativen-Persons Games)。从20世纪60年代中期开始，奥曼和其他合作者一起发展了不完全信息的重复博弈论。通过对重复博弈的深入研究，奥曼重新发现了无名氏定律，率先运用数学模型全面表述了无名氏定理并进行了证明。1966年，奥曼和马希勒在给美国武器控制和裁

10、军机构的开创性报告中，建立了不完全信息的重复博弈模型。他们指出，信息使用的复杂性实际上可以以一种出色的、简练的、明确的方式来解决。在最简单的一个重复的2人零和博弈中，其中一个参与者比另一个拥有更多的信息（这就是所谓的单边的不完全信息），拥有更多信息的参与者所使用的信息数量是被精确地决定的；有时是完全揭露或根本没有揭露；有时是部分揭露。这种分析被扩展至更一般的模型，即2人零和博弈与非零和博弈。许多新的精深的观点和概念由此产生。随后，弗里德曼在1971年提出了一个关于重复博弈的虽然片面但很实用的结论：如果局中人将未来的收益贴现为相当小的现值，那么所有局中人都比在潜在阶段博弈的一个重复策略纳什均衡中

11、获益更高的结局，都可能成为无限重复博弈的均衡结局。重复博弈理论在过去五十年里获得了长足的发展。如今，人类通过重复博弈的研究对持续发展的关系所必需的合作条件有了更深刻的理解。Fudenberg和Maskin在1986年提出了引入货币价值的任意个（但有限）局中人无限重复博弈子博弈完美均衡的无名氏定理。基于1988年Abreu对最佳惩罚的刻画，就能比较方便的求得重复博弈中的稳定均衡收益集。奥曼和Sorin在1989年还指出，局中人的有限记忆会缩小那些具有社会效率的均衡集。另外，Abreu、Dutta在1994年从本质上刻画了在贴现和无限重复博弈条件下无名氏定理所描述的那类博弈。三重复博弈中的囚徒困

12、境（一）单次博弈中的囚徒困境它的基本模型是：警察抓住了两个合伙犯罪的罪犯，由于缺乏足够的证据指证他们的罪行，所以希望这两人中至少有一人供认犯罪，就能确认罪名成立。为此警察将这两个罪犯分别关押以防止他们串供，并告诉他们警方的政策是“坦白从宽，抗拒从严”：如果两人中只有一人坦白认罪，则坦白者立即释放，而另一人则将重判8年徒刑；如果两个同时坦白认罪，则他们将各判1年监禁。当然罪犯知道如果他们两人都拒不认罪，则警方只能以较轻的妨碍公务罪判处他们1年徒刑。用矩阵表示两个罪犯的得益如下（得益向量的第一个数字是囚徒1的得益，第二个数字是囚徒2的得益）。囚徒2坦白不坦白坦白不坦白（-5 -5）（0 -8

13、）（-8 0）（-1 -1）囚徒1 容易看出，由于对于每个囚徒而言，无论对方选择什么策略，坦白都是自己的最优策略，所以（坦白，坦白）是博弈的Nash均衡。这便是单次博弈的囚徒困境。经典的囚徒困境博弈单次博弈，反映了集体理性和个人理性的矛盾，假定每个参与者都是利己的，即都寻求最大自身利益，而不关心另外一个参与者的利益，甚至以损害对方利益为代价。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择此策略。另外，在单次博弈的囚徒困境中没有任何其他力量干预个人决策，参与者可完全按照自己的意愿进行策略选择。在著名的囚徒困境中由于隔绝监禁，信息不

14、明，两个参与者并不知道对方的选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比不坦白要来得低。两个参与者会进行如下博弈：若对方不坦白、不背叛会让我获释，所以会选择背叛；若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡就是（坦白，坦白）。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案，以全体利益而言，如果两个参与者都合作保持不坦白的结果比两人背叛对方、彼此判刑的情况较佳，但

15、相对于个人利益而言，这个纳什均衡又是在对方有可能不诚信的情况下的最优选择。（二）重复博弈中的囚徒困境重复博弈按重复次数的多少，可以分为无限次重复博弈和有限次重复博弈。有限次博弈就是博弈次数是有限的动态博弈。继续考虑上面的例子的两次的重复博弈（警方给警方两次交代的机会，最后得益是两阶段之和）。用逆推归纳法，先分析第二阶段。很显然，这个第二阶段仍然是两个囚徒之间的一个囚徒的囚徒困境，此前的一阶段的结果已成事实，此后又不再有任何的后续阶段。因此实现自身当前的最大利益是两博弈方在该阶段决策中的唯一原则。而第一阶段理性的博弈方对后一阶段的结局很清楚，知道第二阶段的结果必然是（坦白坦白），因此博弈方都在

16、第一阶段的基础上各加-5。得益见下表二囚徒2表二坦白不坦白坦白不坦白（-10 -10）（-5 -13）（-13 -5）（-6 -6）囚徒1 根据上述方法，同样可以证明3次、4次，或者是N次重复博弈的结果都是一样的，根据子博弈完美纳什均衡：原博弈有唯一的纯策略纳什均衡的博弈，则有限次重复博弈的唯一均衡即各博弈方在每阶段中都采用原博弈的纳什均衡。由于这样的均衡中各博弈方的策略都不存在不可信的威胁或承诺，也就是说此类博弈可能存在合作的可能性。无限次重复博弈中的囚徒困境，是指相同的博弈者会无限重逢，即无限次重复面对相似的囚徒困境的选择条件。无限次重复博弈没有结束重复博弈的确定时间，也就是最后一

17、次重复。与有限次重复博弈的另一个关键差异是，无限次重复博弈不能忽视不同时间得益的价值差异和贴现问题，必须考虑后一期得益折算成前一期得益的贴现系数，对博弈方选择和博弈均衡的分析必须一平均得益或总得益的现值为根据。重复次数的博弈为囚徒困境产生了新的动力结构，在重复博弈的囚徒困境中，理性博弈者将考虑，如果我拒绝合作，不断背叛，对方将会为了减少自己的损失而也选择背叛。通过次数上的重复，博弈者可按对手以往的选择而决定当前选择。背叛有可能遭到惩罚，合作有可能获得收益，因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现，欺骗的动机这时可能被受到惩罚的威胁所克

18、服，从而可能导向一个较好的、合作的结果，此时，作为反复接近无限的数量，纳什均衡趋向于帕累托最优。在一次性囚徒困境中，选择不合作策略的博弈者，在重复性囚徒困境中，将会采取合作策略以最大化个人利益、即有条件合作策略将是重复性囚徒困境下博弈者的占优策略，此时合作带来的团体收益要远远大于一次性囚徒困境中的团体收益。（三）重复博弈对囚徒困境的参与者的决策产生的影响随着博弈重复的次数增加，囚徒困境中的博弈者彼此之间合作的概率也不断增加。而在重复博弈中子博弈完美性仍是判断均衡是否稳定可靠的重要依据，又由于长期利益对短期行为的制约作用，因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的，

19、从而使博弈的均衡结果出现更多的可能性。如果博弈不是一次性的而是重复进行的，参与者过去行动的历史是可以观察到的，参与者就可以将自己的选择依赖于其他参与者之前的行动，因而有了更多的策略可以选择，均衡结果可能与一次博弈大不相同。在囚徒困境中，当博弈只进行一次时，每个囚徒出于自身利益最大化的考虑均会选择坦白，只关心一次性的支付，但当博弈是重复多次的，囚徒为了长远利益而牺牲眼前的利益有可能会选择不坦白最终获取长期收益的最大化。对一次性囚徒困境博弈来说，无论对手的行动可能是什么，最佳策略是简单地背叛；但是在重复的囚徒困境博弈中，博弈被反复地进行，参与者最佳策略依赖于对手可能的策略，和他们怎样对背叛和合作作

20、出反应。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。在重复博弈的囚徒困境中，由于参与者要考虑对方下一次的选择策略，他的选择策略被长远利益所制约，在一次性博弈中不可行的威胁和诺言将会被实施，参与者之间很有可能会选择彼此之间合作，因此可以通过依托重复博弈的条件从而使参与者走出囚徒困境，实现参与者之间的共赢。四在博弈中利用重复博弈可以走出囚徒困境（一）重复博弈中囚徒困境可能产生的结果重复博弈的存在使冲突可能产生合作

21、。如果双方之间的交易是一次性的，结果可能是诚信缺失，双方都不愿意相信对方，彼此之间也都不愿意合作，而争取自身利益最大化，但是如果双方能够预期到交易次数会增加，那么受长期利益的驱动，参与者就会相应增加交易双方诚信的可能性，会增加选择合作策略的概率，甚至会为了获得长期利益而在对方面前积极地建立诚信信誉。因此当人们每天面对自己的对手和竞争者时、当情形大量重复出现时，即使个体间有直接的利益冲突，为了追求长远利益，彼此达成合作的几率也会上升，最终实现博弈者的双赢或者多赢。由于重复博弈的存在使参与者之间进行相互合作，在无限次重复博弈的情况下，合作可能是稳定的。如果博弈无穷次，双方就会逐渐从互相背叛走向互相

22、合作。因为任何一次背叛都会招致对方在下一次博弈时的报复；而双方都采取合作态度将会带来合作收益，这就是“一报还一报”的策略：一开始选择不坦白，然后在其他阶段选择对手在上一阶段的策略，即如果对手在上一阶段选择坦白，则自己在本阶段选择坦白，如果对手在上阶段选择不坦白，自己在本阶段也选择不坦白。虽然规则协议的约束力对参与博弈的参与者很重要，但如果囚徒困境只是一次性的博弈，签订协议是毫无意义的，参与者不会因为此协议而改变自身的策略选择，从而博弈的纳什均衡点将不会改变。但囚徒困境一旦从一次性博弈转变为重复博弈，彼此之间签订的协议将会增加双方之间的信任，使参与者采取行动时都将主动考虑对方的策略选择，以防自己

23、失去长远合作的机会，获得长远利益的机会，从而情况会发生很大变化。（二）囚徒困境参与者选择合作的原因重复博弈是一种特殊的动态博弈，在这种情况下，当事人考虑的是所有未来利益的贴现值，而不仅仅是一次收益，从而实现了帕累托最优。重复博弈之所以能够使参与者选择合作，是因为它从根本上解决了以下几个问题：（1）提高了博弈的信息透明度重复博弈使得博弈双方都更大程度的了解了对方的信息，使得更多的私人信息变为博弈双方的公共信息。囚徒困境只允许两个囚徒做一次策略选择，当事人双方无法也不可能表达自己的诚意，即使表达自己的诚信也是毫无意义的，合作就不会出现。但是如果两个囚徒经过多次博弈之后，为了追求长远利益及自身利益最

24、大化，他们之间会形成一种诚信关系，因此他们采取合作的态度逃避法律制裁的可能性会大大增强。理性行为并不导致社会最优结果，如果交易只进行一次那么市场中便会出现大量互相欺骗的行为，诚信不可能产生，此时形成的纳什均衡解对自身利益以及对团体利益都并非是最优的。但当交易扩展到无数次之后，博弈者之间的很多私人信息将会变为公共信息，参与者会根据对方之前的策略选择而选择是否相信对方，如果对方在过去阶段的博弈过程中能表现出很好的合作的意愿，参与者将会选择相信对方，建立一种长期合作机会，此时合作解便得以出现。因此只要博弈时间足够长，博弈的次数足够多的话，参与者作为自利的个人由于对未来收益的预期，会自愿的选择诚信而不

25、愿意去进行欺诈。（2）使“惩罚机制”发生作用重复博弈的囚徒困境使“惩罚机制”发生作用。“惩罚机制”是指一旦发现博弈对方背叛自己，博弈者将选择采用“触发策略”或“针锋相对”策略两者中的一种，结束与博弈对方的合作，转而与他人合作，博弈对方将因此失去未来的与博弈者合作的所有收入贴现，即当背叛的行为发生之时，交易双方将启用这种机制来惩罚背叛者。“惩罚机制”是最为基本的信用机制，它是保证个体在交易过程中互不欺骗，保证交易的顺利进行与建立信用的关键与基础。在一次性博弈中，交易的任何一方都没有信守承诺的激励，只有当交易的双方目前进行的交易是未来交易的一个组成部分时，双方才有可能采取相互合作的态度。在动态的

26、博弈中，所有参与博弈的企业过去的行为都是可观测到的，当事人可以通过在本阶段博弈中的策略选择触发策略和针锋相对策略，通过“惩罚机制”，来回应其他参与者在上一个阶段博弈中的行为，实现对对手失信行为的惩罚，从而达到维护自身利益的目的。在触发策略情况下，博弈双方为了获得更长期、更稳定的利益，就会选择走出一次性博弈的困境，理性地克制投机行为，选择诚信与合作。触发战略的结果使得交易双方没有任何一方有积极性去偏离合作，交易得以进行下去。因为触发策略的惩罚措施比较严重，只要选择背叛，对方将永远不再相信自己，其获得的仅是眼前利益，而失去的却是长远利益，这种情况对较长关系之间的合作尤为不利，如长期合作中的贸易关系

27、。而在针锋相对策略情况下，博弈者首先选择守信，在对方背叛后，选择在未来连续一段时间内惩罚交易伙伴，如果犯规者在这期间一直守信，他将得到原谅，诚实交易将继续进行下去。如果在惩罚期间受罚人又选择了违约，那惩罚期将重新开始。针锋相对策略为博弈者提供了背叛的投机性，同时也为彼此之间的合作提供了更大的概率。针锋相对策略融善良性、严厉性和宽容性于一体，既给予对方一定程度的惩罚，但又不致使对方失去合作的信心，即使对方选择了背叛仍然可以获得对方的谅解，使得合作得以继续进行下去。针锋相对的善良性防止他陷入非合作的麻烦中，对对方背叛的报复则保证了对方背叛行为的谨慎性，宽容性则有助于在对方背叛后重新开始合作。无论是

28、触发策略还是争锋相对策略，都将会使“惩罚机制”发生作用，使得参与者为了追求自身的长远利益，选择合作策略，而且在长期的合作关系中将会与对方建立良好的信任关系，形成一种诚信机制。（3）为参与者在非合作博弈中提供了合作可能性重复博弈为参与者在非合作博弈中进行合作提供了可能性，而这种可能性在完全信息条件下是不存在的。因为只有在信息不完全条件下，参与者才有可能为了获得合作带来的利益而掩盖自己的本来面目，这在一定时间内对参与者来说又都是有益的。每一个参与者尽管在选择合作时可能会面临被对手出卖的风险，但是如果不合作则暴露了自己是非合作类型的，从而失去长期合作收益的可能。如果博弈重复的次数足够多，未来收益的损

29、失就超过短期被出卖的损失，因此，在博弈的开始，每一个参与者都想树立一个合作形象，即使他在本性上有可能并不是合作型的；只有在博弈快结束的时候，参与者才会一次性地把自己过去建立的声誉利用尽，选择背叛对方博弈者，因为此时选择背叛不仅有可能会获得较高的收益，而且不会受到博弈对方的惩罚，此时合作才会停止。在重复博弈里，任何背信（除最后一次博弈行为）都会造成参与者合作的中断，利益的受损。博弈重复的次数越多，市场主体建立信誉的积极性就越大，合作的可能性也就越大，因为信誉的净收益随博弈次数的增加而上升，双方博弈的结果就由（不守信，不守信）改为（守信，守信），从而实现了合作条件下的博弈结果，而分析这种结果其要远

30、远高于非合作条件下的博弈结果（一般获得的都是眼前利益），最终实现了帕累托改进。（三）重复博弈中合作的条件如何创造重复博弈的囚徒困境增加了合作者彼此之间的合作，提高了合作者可以获取的收益。如果能为现实中的囚徒困境创造重复博弈条件，使囚徒困境进入重复博弈框架，无论是对于博弈参与者自身还是对于整体可获取的收益来说，都是较有效率的，笔者认为可以通过以下两条措施创造重复博弈条件：（1）努力提高信息的透明度创造重复博弈条件可以通过提高信息透明度、弱化信息不对称的影响来实现，而弱化信息不对称又可以通过建设资信评级与应用现代信息技术来实现。首先，可以通过建设资信评级和信用担保弱化信息不对称，从而改善博弈双方

31、之间的信息结构。在信息不对称的市场中，市场主体在交易或签约前，难以对交易对象的信用信息有足够的掌握，由此给参与博弈的参与者进行策略选择时带来了风险。因此，可以通过“资信评级”这个有效信号，对交易对象的信用情况有所了解，来减轻自己的信用风险，保证存在的风险与可获取的收益是对称的。其次，可以通过广泛应用现代信息技术弱化信息不对称，改善博弈双方之间的信息结构。伴随着信息技术和网络技术的广泛应用，为信息发送提供了一个更大更快更有效率的平台，其完善了信息传播途径，如果能积极应用好现代信息技术，信息不对称的现象将会得到很大的改善。（2）强化激励和约束机制在一次性博弈的囚徒困境中，参与者基本不会受到激励与约

32、束，选择合作不仅不会带来额外的收益而且会减少自身可获得的收益，而选择背叛也不会因为背叛而被博弈对方所报复，所以彼此间选择背叛的概率较大，较多情况下都陷入了囚徒困境。诚信缺失是众多博弈陷入囚徒困境的主要原因，博弈者为了追求自身最大化话利益而选择背叛合作者，而诚信收益与失信成本的不对称又是诱发诚信缺失的最主要的经济动因之一，有时选择背叛获取的收益将会远远大于选择合作的收益，在收益的驱动下，理性人极有可能选择最有利于自己的方式背叛来获取收益。因此如果想打破这种非最优的纳什均衡解，达到博弈双方共赢的目的，应该加大对失信行为的惩罚力度，增加对失信行为处罚的可信性。增加违约失信行为的成本，减少违约行为的收益，使失信付出的成本大于其获取的收益。同时，应该强化对诚信行为的激励措施，增加对诚信行为奖励的可信性，使博弈者能在收益成本均衡的条件下选择诚信，从而最终在博弈双方之间建立一种诚信机制。五对于重复博弈中的相关问题的思考以及问题的解决（一）重复博弈中理性人的假设博弈论研究的主要问题是人们在互动行为中的推理问题，就是在人们的利益和行为有直接的相互影响和作用的情况下个体的理性选择与策略。理性人的本质是现实人或

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？