阅读博弈论类书籍的心得体会.docx

资源描述

阅读博弈论类书籍的心得体会.docx

《阅读博弈论类书籍的心得体会.docx》由会员分享，可在线阅读，更多相关《阅读博弈论类书籍的心得体会.docx（14页珍藏版）》请在冰豆网上搜索。

阅读博弈论类书籍的心得体会.docx

阅读博弈论类书籍的心得体会

图书情报宋静思

最近阅读的书目主要围绕在博弈论领域，由浅入深的从博弈论平话类书籍到博弈论的理论应用类书籍都有一些涉猎。

近一个月来我所阅读的书目主要有王则柯的《新编博弈论平话》、高志明的《生存博弈》、黄涛的《博弈论教程—理论、应用》以及张维迎的《博弈论与信息经济学》。

由于个人能力与知识储备的限制，对以上书目的认识理解和心得也是有限的，下面我仅对上述书目中能够引起我思考的一些理论和案例展开分析并阐述我的一点见解，以及提出我所认为的这些博弈理论可以分析的社会现象。

一、对博弈论平话类书籍的心得

首先从王则柯教授的《新编博弈论平话》和高志明教授的《生存博弈》这两本书使我我深刻的认识到博弈论作为一种科学的思维方法对我们在日常生活中科学的做出决策有重大的意义。

它们都是以比较浅显的例子和故事普及博弈论的一些知识和方法，阐发博弈论的一些思想和观念。

从囚徒困境、情侣博弈、诺曼底登陆模拟和慕尼黑谈判模拟等能够引起读者兴趣的故事入手，介绍静态博弈、动态博弈、纳什均衡、零和博弈、双赢对局、帕累托优势、子博弈精炼纳什均衡等博弈论的基本概念，以及劣势策略消去法、相对优势策略下划线法、确定混合策略纳什均衡的反应函数法、动态博弈的倒推法等博弈论基本方法，在以上两本书的论述中很少使用到高等数学的知识，这两本书是使我对博弈论产生兴趣的启蒙老师，帮助我了解博弈论的若干初步知识。

从最初对这两本书的阅读我真正理解了什么是博弈决策，就拿我们生活中报考什么学校、从事什么职业、选择何种方式度过周末闲暇时光等这些例子来说，之所以称之为博弈决策，是因为在这些例子当中，我的身边往往存在和我情形相似的决策者，我们的思维和行动相互之间产生着很微妙的互动影响。

博弈论研究的目的，就是要清晰地揭示蕴涵于这种互动影响中的基本概念和原理，从而帮助我们建立策略思维的意识。

看过囚徒困境后，我明白了为什么寡头企业不选择在市场上结盟而是竞相采取低价策略企图抢占更多的市场份额；又为什么多数情形是非合作博弈。

虽然通过囚徒困境的博弈分析我可以理解上述现象产生的原因，然而究其根本原因，是什么导致了囚徒困境呢？

这不禁引发了我的思考。

设想如果两个罪犯充分相信同伙遵守最初的约定死咬着抵赖会有最后的困境出现么？

如果联盟内部成员相信彼此遵守约定会不会是共赢的结局呢？

所以我认为产生囚徒困境这一结果的主要原因是社会中诚信的缺失。

由于经济学中理性主体的假设，经济主体即参与人都是以自身利益最大化为目标，因此在市场自由交换过程中资源的有限性和人们欲望的无限性之间的矛盾迫使人们在追求最优化过程中竞争、协作与交易。

在合作过程中，又由于社会诚信的缺失人们经常采取投机取巧和搭便车行为，损人不利已，产生“囚徒困境”。

基于这一均衡结果我认为除了加强社会诚信建设以外还有一些博弈论领域所研究的方法可以改变囚徒困境这一均衡结果。

具体方法将在下文中对张维迎教授《博弈论与信息经济学》的心得体会中提到。

在看智猪博弈后，我明白了为什么现在大企业会积极主动去技术创新，而中小企业只需要坐等技术创新后的利益。

在企业中，大企业就好比大猪，中小企业就好比是小猪。

控制按钮可以比作技术创新，可以给企业带来收益。

大企业资金雄厚，生产力大有更多的能力进行技术创新推出新产品后可以迅速占领市场获得高额利润。

而小企业的最优选择就是等待，等大企业技术创新后跟在大企业后抢占市场份额从这种创新中获得利益。

而且这样小企业所获得的利益比自己主动技术创新所获得的利益要大。

所以我明白了为什么有的企业会不重视技术创新因为他们是市场中的小猪。

所以说创新不是每个企业都要重视和加大投入的方面。

《博弈论平话》和《生存博弈》这两本书带给我的最大收获是点燃我对博弈论的兴趣，让我意识到博弈时时存在，它就在我们身边。

正是因为这两本书的引导才使我产生继续深入学习博弈论理论的动力，进而阅读《博弈论基础教程》和《博弈论与信息经济学》。

2、对博弈论理论应用类书籍的心得

（1）完全信息静态博弈

1、基础知识简介

张维迎教授的《博弈论与信息经济学》和黄涛教授的《博弈论教程》的第一章节内容都是围绕完全信息静态博弈进行讲解的，下面将两本书结合起来介绍完全信息静态博弈中我学到的内容。

通过这一章节的学习我首先知道博弈的基本概念包括参与人、行动、信息、战略、支付（效用）、结果和均衡。

参与人指的是一个博弈中的决策主体，他的目的是通过选择行动来最大化自己的支付水平。

行动是参与人在博弈的某个时点的决策变量，与行动有关的一个重要问题是行动顺序，也正是基于行动顺序做出的关于静态博弈与动态博弈的区分，同时行动顺序的不同也可能产生不同的博弈结果。

信息是参与人有关博弈的知识，特别是关于“自然”的选择、其他参与人的特征和行动的知识；在信息的概念体系下又引申出完美信息、完全信息和共同知识这几个与信息有关的概念。

完美信息指一个参与人对其他参与人的行动选择有准了解的情况。

即每一个信息集只包含一个值。

完全信息是指自然不首先行动或者自然的初始行动被所有参与人准确观察到的情况，即没有事前的不确定性。

共同知识指的是“所有参与人知道，所有参与人知道所有参与人知道，所有参与人知道所有参与人知道所有参与人知道.......”的知识。

战略是参与人在给定信息及的情况下的行动规则。

它规定参与人什么时候选择什么行动。

支付是指一个特定的战略组合下参与人得到的确定的效用水平或者期望效用水平。

支付往往是参与人最关心的东西。

结果是博弈分析者所感兴趣的所有东西，如均衡战略组合，均衡行动组合，均衡支付组合等。

均衡是所有参与人的最优战的组合。

接下来学习到的是博弈的战略表述即标准式表述，在这个表述中所以参与人同时选择各自的战略，所有参与人选择的战略一起决定每个参与人的支付。

注意这里的“同时行动”是一个信息概念而并非日历上的时间概念，只要每个参与人选择自己行动的时候不知道其他参与人的选择，就说他们在同时行动。

在有博弈论的基本概念基础知识后才开始学习完全信息静态博弈的核心内容——纳什均衡。

两本书都首先对纳什均衡的特殊情况进行了讨论，然后讨论纳什均衡的一般概念。

通过“囚徒困境”中两个嫌疑犯的最优战略博弈的分析，引出占优战略均衡的概念。

一个参与人的战略不依赖于其他参与人的战略选择，即无论让他参与人选择什么战略，他的最优战略是唯一的，这样的最优战略被称为“占有战略”。

通过运用“重复剔除劣势战略”的思路在“智猪博弈”中大猪与小猪的博弈过程中剔除小猪的劣势战略“按”进而形成新的博弈，最终找出这一博弈中的均衡，这个均衡被称为“重复剔除的占有均衡”。

上面的“重复剔除劣势战略”的思路主要是首先找出某个参与人的劣势战略，把这个劣势战略剔除掉，重新构建一个不包含已经剔除战略的新战略；然后再剔除掉新战略中某个参与人的劣势战略；继续这个过程，一直到只剩下一个唯一的战略组合为止。

然而，有很多博弈我们无法使用重复剔除劣势战略的办法找出均衡，为了找出那些博弈的均衡解而引出了纳什均衡的概念。

“纳什均衡”是完全信息静态博弈解的一般概念，如果存在这样一个策略组合——给定该策略组合中其他参与者的选择，没有人有积极性改变自己的选择，我们就说该策略组合是一个纳什均衡。

构成纳什均衡的战略一定是重复剔除严格劣势战略过程中不能剔除的战略，就是说没有任何一个战略严格优于纳什均衡战略；值得注意的是许多不存在占有战略均衡或者重复剔除的占有均衡的博弈，却存在纳什均衡。

这三个概念之间关系如下：

每一个占有战略均衡、重复剔除的占优均衡一定是纳什均衡，但并非每一个纳什均衡都是占优战略均衡或者重复剔除的占优均衡；纳什均衡一定是在重复剔除严格劣势战略中没有被剔除掉的战略组合，但是没有被剔除掉的战略组合不一定是纳什均衡，除非他是唯一的。

以上是关于纳什均衡的基本概念，作者又例举了库诺特寡头竞争模型、豪泰林价格竞争模型、公共地的悲剧、公共物品的私人自愿供给、中央政府和地方政府之间的基础设施建设博弈等经济学上的例子来说明纳什均衡在经济学上的应用，是我看到纳什均衡理论应用的广泛与实用性。

通过对社会福利博弈和猜谜游戏这两个例子的介绍，作者让我们发现有些博弈不存在纳什均衡，为了找出这些博弈的均衡结果作者又提出了一个新的概念——混合战略纳什均衡。

混合战略指的是参与人以一定的概率选择某种战略，比如，参与人以0.3的概率选择第一种战略，以0.5的概率选择第二种战略，以0.2的概率选择第三种战略。

为了区别起见，作者将原来的纳什均衡称作纯战略纳什均衡。

如果一个战略规定参与人在每一个给定的信息情况下只选择一种特定的行动，称该战略为纯战略；如果一个战略规定参与人在给定信息情况下以某种概率分布随机的选择不同行动，我们称该战略为混合战略。

作者通过监督博弈的例子来说明混合战略的求解过程，通过例子可以得出结论任何博弈都存在一个纳什均衡，如果没有纯战略纳什均衡存在，那么至少存在一个混合战略纳什均衡。

书中还介绍了“双人零和博弈”这一特殊的博弈局势，双人零和博弈中只有两个参与人参加而且支付之和总是为0，也就是说剧终人的利益总是完全对立的，一方的所得就是另一方的损失，因此也成为严格竞争博弈。

求解双人零和博弈的方法主要用到的是极小极大原理。

双人零和博弈的计算方法可以总计如下：

如果矩阵A的元素中有小于等于0的，那么加上一个常数使他们都变得大于0，然后用两个对偶的线性规划即可解出纳什均衡。

在书中章节的最后两位作者都提到纳什均衡的存在性与多重性问题，张维迎教授运用数学方法证明了纳什均衡的存在性，即任意有限博弈至少存在一个纳什均衡（纯战略的或混合战略的）。

由一个蛋糕分配的例子作者又提出了纳什均衡的多重性。

假设两个人分一块儿蛋糕，每个人独立的提出自己要求的份额。

设X为第一个人要求的份额，Y为第二个人要求的份额，按照X+Y≤1的要求进行分配，那么任何正好分割蛋糕的两个人的要求都是纳什均衡，即X+Y=1的任意X和Y都可以组成纳什均衡，因而这个博弈有无穷多个纳什均衡。

这个例子也证明了纳什均衡的多重性，可以有一个，两个或者无穷多个纳什均衡。

以上便是我在这两本书中学习到的完全信息静态博弈的基础知识，下面我将就几个博弈类型写一点我个人的感受与思考。

2、浅谈心得体会

首先我想谈一下对公共用品供给问题在博弈论上的分析。

如果一种资源没有排他性的所有权，作为一种公共用品存在不限制人们的使用，就会导致这种资源的过度使用，进而产生“公共地悲剧”。

“公共地悲剧”这一现象的产生我认为是可以运用博弈论中的“囚徒困境”来加以分析，假使有两个参与人，每个参与人都对某一种资源有需求，并且是使用的越多参与人获得的效用越大，资源是有限的，如果过度使用会对资源造成损害进而影响参与人的长期利益时期远期效用减小，面对这一情况参与人A会想假如我节约使用资源参与人B过多的使用资源将会影响我下一期的效用，所以我这一期要尽可能多的使用资源，当然参与人B也会这样的思考A，因此最终出现了两个参与人都最大化的使用资源这一均衡结果进而出现了“公共地悲剧”。

书中例举了草场放牧的例子来说明公共地悲剧的产生，那么我在思考这样的情况在信息资源也是作为一种资源存在的，会不会有这种情况出现呢？

最初我的想法是不会，因为信息资源中的很多资源是可以复制的，例如网略信息资源，由于信息资源的共享性，只要有资源存在，我们只需要复制粘贴就可以供无限的用户使用。

最近学习了图书馆学的一些知识，又是我引发了新的思考，否定了我最初的想法。

在学习读者的权利时有提到读者的自主选择权，初中提到“读者的自主选择权可以因为自由的缘故而被限制”，在那本书中的例举的是被法律界定文文物的资料原件或者某些标准界定为“古籍”的原始文献资料应被限制。

这是我意识到信息资源中也有很多资源是稀缺的，如果对这种稀缺的信息资源的使用不给予限制，就可能产生“公共地悲剧”的结果，最后导致读者自己以及其它人都无法使用的结局，因此为了保证自己和他人能够更多地使用这种稀缺资源的权利，对读者自主选择这种稀缺资源的权利加以限制是十分必要的。

那么既然公共地悲剧在信息资源利用领域是存在的，我们在构建信息生态系统的时候为了维护信息生态的平衡可以考虑把一些不可复制的资源或者稀缺性资源的使用加以限制和规定，制定出这类资源的使用规范细则。

与“公共地悲剧”相反的情况是公共物品的私人自愿供给会导致供给不足。

这时就要使用“智猪博弈”或者“斗鸡博弈”进行分析，究竟属于哪一种博弈问题要依环境而定。

就拿修路问题来说，如果一个村庄需要住户修一条公路，假设只有两户人家居住在这个村庄里，如果这两户人家一个是富人一个是穷人，这时是谁来修路的问题就是“智猪博弈”的问题，一般而言出钱的总是富人，因为富人家常常是高朋满座车进车出，路况好坏对他家的影响很大，而穷人只是自己穿着破鞋走路，路修好了走起来舒服，修不好也不是什么大不了的事情；如果两户人家都是富人，这时谁修路的问题可能就演变成“斗鸡博弈”的问题，这时如果在两户人家不和睦的情况下他们的最优战略可能都是别人修路自己就不修，别人不修路自己就修。

由此可见，相同的问题，不同的环境可能就需要不同的方法进行分析，同样，也要使用不同的应对措施做到具体问题具体分析。

既然对于公共物品的分析可以有这么多种博弈分析方法，给与我的的启示就是我们可以把信息生态建设中与公共用品概念类似的信息资源提炼出来加以分析，要对各种情况甄别，根据不同环境运用不同的博弈分析方法，结合各个博弈方法的针对性提出与之对应的构建措施。

在学习图书馆学关于读者自主选择权中有这样一条规定“被法律定为有害于公共安全和公共秩序的资料或者服务应被限制提供”，对于这条规定我的理解是可以运用“零和博弈”进行分析。

如果有害于公共安全和公共秩序的资料或服务不被限制提供，就有可能使每个人赖以生存和发展的正常秩序遭到破坏，造成更大、更多的不自由，最后导致谁都无法自由的结局。

设想参与人分为获取到损害公共安全和公共秩序的资料的一部分人A和没有获取到的部分B，如果A获取到这些资料他的需求得到满足，那么A的效用是1，而由于这部分资料的获得，使得社会的公共秩序遭到破坏，人们生存和发展的环境受到威胁，那么没有获取到的那部分人B想要获得其它原来可以获取的那部分资源的自由可能能力保证，因此B的效用是-1，所以此时出现了零和博弈的局面。

A的效用的满足是建立在损害B的利益的基础之上的，A的所得就是B的所失，二者的利益是完全对立的，因此，为了保证每个人更大、更多的自由，读者对有害于公共安全和公共秩序的资料或者服务的自主选择权应被限制。

以上是关于完全静态信息博弈的一点思考，下面阐述一下完全信息动态博弈。

（二）完全信息动态博弈

1、基础知识简介

这一章节书中的主要内容包括博弈的扩展式表述，讨论博弈树的构造，特别是信息集的概念。

接着讨论如何从扩展式博弈中构造出战略式博弈从而将上一章定义的纳什均衡应用于扩展式博弈。

第三部分定义和讨论完全信息动态博弈的基本均衡概念——子博弈精炼纳什均衡及其求解方法。

最后作者讨论了重复博弈和无名式定理。

在完全信息静态博弈中，博弈参与者同时采取行动。

但在完全信息动态博弈中，博弈参与者的行动存在先后顺序，并且后行动者在自己行动之前能观测到先行动者的行动。

由于博弈参与者的行动存在先后顺序，因此可以用更形象的方法来表示动态博弈：

博弈树。

通过支付矩阵的形式表示的博弈通常被称为策略型或正则型博弈；通过博弈树表示的博弈通常被称为扩展型博弈。

博弈树的构成要素包括：

博弈参与者、行动顺序：

在动态博弈中博弈参与者的行动存在先后次序、行动策略空间：

指博弈参与者可以采取的所有可能策略、信息集：

指博弈参与者在博弈过程中所知道的信息、支付函数：

指博弈参与者采用特定策略与所能得到的收益之间的关系。

博弈树在构造时首先行动的一方位于博弈树的最上端，根据动态博弈过程中各方的行动顺序，博弈数自上至下延展。

也有学者习惯自左至右构造博弈树。

博弈树中包含若干“节点”，节点用小圆圈表示。

位于博弈树最上端的节点称为“初始节点”。

初始节点用空心小圆圈表示，其他节点均用实心小圆圈表示。

在每个节点处均对应某个博弈参与者，将节点对应的博弈参与者标识在节点旁边。

如果初始节点处的博弈参与者存在N种策略，那么就从初始节点处分出N条路径。

路径用线段表示，在线段旁注明相应的策略。

当博弈不再有后续节点时，需要将博弈的收益标识在博弈树末端，将博弈参与者的收益放在括号里。

需要注意的是：

各博弈参与者的收益需要按照各参与者行动顺序进行排列。

先行动的博弈参与者的收益写在左边，依次类推，从左到右，最后行动的博弈参与者的收益写在最右边，各个博弈参与者的收益之间用逗号分割。

举例如下：

“市场争夺战”博弈的扩展型表达形式

在上图中“市场争夺战”博弈中，因为潜在进入者先行动，因此初始节点处对应的博弈参与者为潜在进入者。

将潜在进入者标识在博弈树初始节点旁边。

当潜在进入者决策之后，轮到在位者进行决策。

在位者所在的节点称为“后续节点”。

在位者位于两个后续节点上。

在位者都有两种策略选择：

“斗争”和“默许”。

在“市场争夺战”博弈中，首先行动的潜在进入者可以采取两种策略：

“不进入”和“进入”。

因此，从初始节点处引出两条线段，在两条线段旁分别标识“不进入”和“进入”。

当潜在进入者选择结束后，达到在位者的节点。

在位者有两个选择：

“斗争”和“默许”。

因此，从在位者的节点处引出两条线段，在两条线段旁分别标识“斗争”和“默许”。

构造博弈树时只能按照由上至下的路径，而不能存在由下向上的路径，也不能形成循环路径，回溯路径唯一性在求解完全信息动态博弈时非常重要。

因为在求解动态博弈均衡时，一个很重要的方法是“逆向归纳法，只有首先确保从博弈树任何最终节点向上回溯时路径唯一，才能确保逆向归纳法的可操作性。

接下来作者通过海盗分宝的例子直观的介绍了逆向归纳法，在有限博弈中，我们可以用逆向归纳法求解精炼纳什均衡：

从最后一个决策点开始，找出该子博弈的纳什均衡；然后再倒回到倒数第二个决策点，找出决策者的最优决策（假定最后一个决策者的决策是最优的；如此一直到初始决策点，所有子博弈上的最优选择就是精炼纳什均衡。

这里有出现了一个新的概念——子博弈，子博弈是原始动态博弈的一部分。

子博弈包含博弈所需的各种信息，能独立构成一个博弈。

一个博弈的子博弈需要满足四个条件：

（1）子博弈的起始节点不能是原来博弈的起始节点；

（2）子博弈不能分割信息集；（3）有些博弈包含多个子博弈；（4）有些博弈没有子博弈。

对子博弈有了了解之后，作者把章节的重点内容放在介绍子博弈精炼纳什均衡的内容和解法上。

泽尔滕在1965年提出了“子博弈精炼纳什均衡”的概念。

他提出子博弈精炼纳什均衡的目的是把那些包含不可置信威胁战略的纳什均衡从均衡中剔除，从而给出动态博弈结果的一个合理预测。

子博弈精炼纳什均衡也被称为子博弈完美纳什均衡。

正如纳什均衡是完全信息静态博弈的基本概念一样，子博弈精炼纳什均衡是完全信息动态博弈的基本内容。

子博弈精炼纳什均衡的定义有两方面要求：

（1）在原博弈是一个纳什均衡；

（2）在每一个子博弈上都是纳什均衡。

我们也注意到上面作者提到“不可置信威胁”，那么什么是不可置信威胁呢？

举个例子来说，如果你对竞争对手说“你不给我馅饼市场的一般的话，我就在今后一年中免费发放馅饼，让你一个也卖不出去”，这是对手是不会相信你这种威胁的，因为实施威胁行动对威胁者自己来说损失巨大，得不偿失，那么这里你对竞争者的威胁就是一种不可置信威胁。

简单地说不可置信威胁是发出威胁者并不会真正实施的威胁，原因是对他自己不利。

我们再来看一下前面的“市场争夺战”博弈的例子，如果在位者选择“斗争”，那么潜在进入者会选择“不进入”。

如果在位者选择“默许”，那么潜在进入者会选择“进入”。

对潜在进入者来说，在位者的“斗争”策略是一种不可置信的威胁，因此（潜在进入者不进入，在位者斗争）这个纳什均衡包含不可置信的威胁，因此不是一个子博弈精练纳什均衡。

子博弈精炼纳什均衡就是把包含不可置信威胁的纳什均衡从可能的均衡中剔除出去。

顾名思义，“子博弈精练纳什均衡”是对纳什均衡的“精练”。

通过剔除包含不可置信威胁的纳什均衡，减少纳什均衡的数目。

我们看到有些纳什均衡之所以不是精炼纳什均衡是因为它们包含了不可置信威胁战略。

这就意味着，如果参与人在博弈之前采取措施改变自己的行动空间或支付寒暑，原来的不可置信威胁就可能变得可置信，博弈的精炼均衡就会相应改变。

这里为改变博弈结果而采取的措施成为“承诺行动”。

承诺是将不可置信的威胁变成可置信的威胁的行动。

承诺意味着限制自己的自由，然而选择少反而对自己好。

例如破釜沉舟的故事就是一个运用承诺行动减少自己的选择，改变了博弈结果的成功案例。

再比如假定企业一开始定价80，如果前两个消费者购买了，企业将有积极性在50的价格下向第三个顾客出售。

预期到这一点，前两个顾客将不会购买。

如果企业向保证，任何降价的差额将返还顾客，前两个顾客将会购买。

因为企业事实上不会降价了。

那么这里的“保证返还差价”就是一种承诺行动，进而改变了消费者的行动而选择了购买产品的行动。

作者提到的逆向归纳法虽然是求解动态博弈子博弈精炼纳什均衡的有力工具，但根据逆向归纳法求解出的均衡有时却是和常理相悖的。

或者说通过逆向归纳法有时也会求解出“不合理”的均衡。

经济学家罗森赛尔提出的“蜈蚣博弈”就是这样一个典型例证。

虽然通过逆向归纳法可以求出蜈蚣博弈的均衡解，但通过逆向归纳法求解出的蜈蚣博弈子博弈精炼纳什均衡与人们现实生活的普遍行为模式相悖，这是“逆向归纳法”这种博弈求解方法受到质疑的原因之一。

最后作者讲到的是重复博弈和无名式定理。

动态博弈的另一种特殊但是非常重要的类型就是所谓的“重复博弈”。

重复博弈是指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”。

重复博弈又分为有限重复和无限重复。

作者把囚徒困境纳入到有限重复博弈进行分析，博弈结果并没有改变。

结果表明：

只要博弈的重复次数是有限的，重复本身并不改变囚徒困境的结果。

当博弈重复无穷次而不是有限次时，存在着完全不同于一次博弈的子博弈精炼均衡。

这时存在一个“冷酷战略”的概念，即：

（1）开始选择沉默；

（2）选择沉默直到有一方选择坦白，然后永远选择坦白。

根据这个战略，一旦一个囚徒在某个阶段博弈中选择了坦白，之后他将永远选择坦白。

由于双方都抵赖是纳什均衡且帕累托最优，所以冷酷战略对于无限次重复博弈均衡结果的改变是有效的。

2、浅谈心得体会

首先，结合这两个章节的学习，我对纳什均衡和子博弈精炼纳什均衡进行了对比，发现二者既有区别又有联系。

纳什均衡要求：

给定其他参与者在均衡处的策略，任何一方博弈参与者在均衡处选择的策略都是自己所能选择的最优策略，没有博弈参与者有动机改变自己在均衡时的策略。

子博弈精炼纳什均衡不仅要求均衡解是纳什均衡，而且要求均衡解在每一个信息集上都是最优解。

通过逆向归纳法求解博弈树得到的均衡是子博弈精炼纳什均衡。

而纳什均衡是通过战略式表述的矩阵法求解的。

纳什均衡仅需要在均衡处，每个博弈参与者没有动机改变自己的策略。

子博弈纳什均衡不仅要求均衡满足纳什均衡要求的条件，还要求在动态博弈中，此均衡是每个子博弈的最优解。

也就是说：

纳什均衡只对均衡处的策略有要求。

子博弈精炼纳什均衡不仅对均衡处的策略有要求，而且对到达均衡的路径有要求。

要求从博弈初始节点开始，博弈参与者到达均衡处所经过的路径也必须是最优的。

以上几点是我对纳什均衡和子博弈精炼纳什均衡粗浅的比较，觉得对于区分学习两个均衡概念有些帮助。

接着上文中有关于诚信问题而导致的囚徒困境局面，下面继续讨论还有哪些法律建设以外的方式来改善这种局面，化解诚信危机。

张维迎教授《博弈论与信息经济学》中完全信息动态博弈理论中有提到关于重复博弈的内容，书中指出重复博弈可能带来一些“额外的”均衡结果，这些均衡结果是在一次博弈中不会出现的。

为什么一次性博弈会倾向于刺激交易双方不合作?

其背后的原因就是因为博弈是一次性的。

如果“你”这一次欺骗了对方，对方以后根本没有机会报复“你”：

同样的，如果“你”这一次对对方讲诚信，对方以后也没有机会报答“你”。

因此，在这唯一的一次博弈中，不合作、不讲诚信也就成为了机会主义者的占优策略：

因为给定对方不合作

展开阅读全文