转载你真的懂NASH吗.docx

资源描述

转载你真的懂NASH吗.docx

《转载你真的懂NASH吗.docx》由会员分享，可在线阅读，更多相关《转载你真的懂NASH吗.docx（5页珍藏版）》请在冰豆网上搜索。

转载你真的懂NASH吗.docx

转载你真的懂NASH吗

【转载】你真的懂NASH吗？

摘要我们可以毫无疑问地说，纳什均衡是非合作博弈论解概念大厦的基石，迄今为止，几乎所有因博弈论获得诺贝尔经济学奖的理论贡献都与纳什的工作有一定的关联。

【不朽的名字属于NASH】5月24日，一个令人震惊的沉痛消息传来，著名的博弈论大师和天才数学家约翰·纳什“刚从挪威领取阿贝尔奖（AbelPrize），返抵美国后由机场乘出租车返家，谁料因此不幸遇难”。

相比二十几岁早逝的伟大数学家阿贝尔，纳什的一生经历尤为曲折跌宕。

但，他与阿贝尔（挪威著名数学家）一样，“斯人已逝、英名不朽”。

博弈论作为关于“理性人的互动行为”的理论，已经发展成为分析理性决策者在策略互动局势下的行为选择模式的标准工具。

可以说，博弈论在今天的社会科学体系中起着社会物理学的作用，成为几乎所有社会科学的语言。

而纳什所提出的策略均衡解的概念和思想，是博弈论的核心与基础。

他对博弈论的伟大贡献至少包括如下四个方面：

给出纳什均衡的形式定义，并证明其存在性；对二人讨价还价问题进行公理刻画并得到纳什谈判解；提出探寻非合作博弈与合作博弈之间关系的纳什规划（NashProgram）；开启关于博弈论基础的研究的大门。

【纳什均衡】在《20世纪数学的五大指导理论》中，卡斯蒂把冯·诺伊曼的最小最大定理列为其中的第一个，而在第一章的中间引入了作为其推广的纳什均衡存在性定理。

这两个定理在博弈论发展史中起着里程碑式的巨大影响，尤其纳什的定理被视为博弈论的基本定理，也是他1994年与豪尔绍尼、赛尔顿同获诺贝尔经济学奖的主要原因。

一个博弈就是策略互动情形的刻画，包括博弈者、他们可选择的行动集合、他们行动的先后顺序，他们在博弈进行到不同阶段所掌握的信息，他们的各种行动组合导致的结果以及每个人对结果的评价；而博弈的解就是对一类博弈能够如何进行并产生何种结果的刻画。

冯·诺伊曼1928年（巧合的是纳什在这一年出生）关于二人零和博弈的“最小最大定理”是博弈论解概念的第一个基础性贡献，如果两个人进行一项零和博弈（即常和博弈，你之所得为我之所失），那么双方都存在一个可能是混合策略的行动方案使得：

你针对我的每一个策略而选择恰当的应对而产生我的一组最小支付，然后由我选择相应的对策而得到其中的最大值，这个值就等于，我针对你的每一个策略而选择恰当的应对而产生的一组最大支付，然后由你选择相应的对策而得到其中的最小值。

用冯·诺伊曼自己的话说，如果没有最小最大定理，也许就没有博弈论。

但是，对于范围更大的非零和博弈，这个定理并不成立。

在冯·诺伊曼和摩根斯顿合著的巨作《博弈论与经济行为》中，对任何非零和博弈，通过引入虚拟的参与者——自然，把N人非零和博弈转化为N+1人的零和博弈，但这种变换的社会科学含义并不清晰，因而问题依然存在。

这样纳什的工作就登堂入室了。

在普林斯顿大学的博士学位论文（除了附录的大部分1951年发表于《数学年刊》）中，纳什引入了以其名字命名的策略均衡并运用布劳威尔不动点定理，证明其在任何有限博弈（参与者集合与每个参与者的行动集合都是有限的）中的存在性。

纳什均衡的原始思想和概念可以追溯到法国经济学家古诺对双寡头竞争的分析（Cournaut，1838），但是纳什给出了一般情形下的定义，即，一个行动组合（严格来说是策略组合）：

在其他人不改变行动的情况下，每个人都没有动力单方面偏离而选择其他行动（定义中隐含地假设博弈者们独立选择行动，如果允许他们之间存在某种相关性，则可得到奥曼提出的相关均衡）。

换句话说，所有参与人的行动互为最优的应对。

爱好武侠小说的朋友可以想象一下，两个武功高手以内力比拼的僵局，他们谁也不能撤回自己的掌力，这就形成一个纳什均衡。

我们也可以用一个囚徒困境博弈的翻版来说明纳什均衡。

假想在一个法治不是特别健全的社会里，原被告打一场100万的官司，每个人都可以选择以30万金额贿赂法官或不贿赂（简单起见，我们假设只有这两种行动）。

如果都不贿赂，那么法官会给出一个基本公正的裁定：

原告60万，被告40万；但如果有一个人贿赂而对方没有，自然是没有贿赂的倒了大霉，一分也拿不到；当然如果两个人都贿赂了法官，那么两下里扯平，他该怎么判就怎么判。

这个博弈中的原告和被告，都有一个占优策略（看过《射雕英雄传》的人可以记起，郭靖如何用刚学到的亢龙有悔这一招对付梁子翁），即不管其对手如何选择，他选择贿赂带来的结果要更好。

所以，博弈的结局就是，他们两个都会理性地选择贿赂法官（这个行动组合也构成纳什均衡），然后出现前些年民谣里的结果：

大盖帽，两头翘，吃了原告吃被告。

这个博弈也提示我们，理性的人玩出的结果也许是集体“非理性”，因为（不，不）的结果帕雷托优超于（贿赂，贿赂）。

一个结果帕雷托优超另一个结果，是说从后者到前者没有人受损，但至少有一个人受益，所以我们很难从直觉上否认前者好过后者。

纳什均衡是否一定给出一个博弈合理进行的建议或预见呢？

Kreps曾给出一个例子，其中纳什均衡所指派的策略太不合理。

两个人同时选择X或Y。

若同时选择X，则各得支付1；若一人选X，另一人选Y，则前者得1，后者得0；若同时选择Y，则进入一个报整数比赛。

大者得250，小者得100。

如果所报数字相同，则各得25。

显然，此博弈的子博弈完美均衡是两人同时选择X，各得支付1。

但是，他们为什么不同时选择Y而进入报整数比赛呢？

其中最差的结果也是远远好于1的25。

原因只是，这个报整数的子博弈由于纯策略是无限多的而导致没有纳什均衡存在。

如果加上有限性的限制，问题会自然解决。

纳什均衡的思想非常简单又美妙。

如博弈论的经典之一《博弈和决策》的作者卢斯和莱法所指出：

“如果我们的非合作理论导致一个策略选择的组合，并且它具有这样的性质，即关于理论的知识不会导致一个人做出一个不同于理论预见到的选择，那么理论剥离出来的策略一定是均衡点。

”

当然，这并不意味着纳什均衡是博弈论的终结。

实际上，与纳什同时获奖的豪尔绍尼就把它推广到处理信息不完全情形的贝叶斯博弈；而赛尔顿则表明一个博弈中并不是所有的纳什均衡都有道理，博弈进行中参与人选择某个行为的可信性特别复杂微妙，由此引发了均衡的精炼与筛选的研究，这方面蔚为大观，此处就不赘述了。

【博弈论基础】有哲学趣味的人会关心，纳什均衡及其精炼作为博弈的解在何种意义上是合理的。

这也正是纳什在他的博士论文附录里所指出的：

“在所讨论的博弈中，对理性地进行博弈的可预期的行为的一个合理预测是什么？

通过运用一些原则，如一个合理的预测应该是唯一的，参与人应能充分推理和利用知识，并且对于每一个参与人，关于其他参与人行动的知识将不会导致他的行动偏离这个合理的预期。

这样我们就得到上面我们定义的解的概念。

在这种解释下，我们需要假定参与人了解整个博弈的结构，从而能各自推导出这个预期。

这是一个理性和理想化要求很强的解释。

”

故此，纳什又提出“大众行为”（massaction）的解释。

“在经济或国际政治的一些场合，利益集团不自觉地被卷入到一个非合作的博弈之中，这种不自觉使得这个场合变成了一个非合作博弈。

在这种解释下，假定参与人对整个博弈的结构有完全的知识或者有能力进行复杂的推理不是必需的。

但是我们假定参与人能对他们的各种纯策略的相对益处积累经验性的信息。

我们假定存在一定的参与人群并且这些参与人的“中间分子”运用纯策略有一个稳定的平均频率”。

纳什的洞察预示着20世纪后期关于博弈论基础的研究，即宾莫尔所强调的，演绎（eductive）的与进化（evolutive）的两种均衡化过程。

知识论与进化论关于博弈论解概念的解释与论证是互补的。

前者对应着纳什均衡在规范意义上是任何一种理性决策理论的合理内核；后者对应着纳什均衡在实证意义上，只能看作是对一种在进化过程中稳定下来的行为模式的近似刻画。

知识论基础的要求，如博弈结构、解理论是博弈者之间的共同知识（每个人都知道，每个人都知道每个人都知道，如此以至无穷），不受限制的计算能力等，是如此之强以致我们很难认为它是现实的。

但是，如果我们把所有行动看作是两种行动的叠加，即均衡行为与趋向均衡的行为，那么很强的理性和信息结构指引下的均衡行为模式可以通过在模型中满足种种稳健性（robustness）和稳定性（stability）的要求以弱理性下的非均衡行为来近似地逼近。

正如韦布尔所指出，如果我们能够表明博弈者“好像是”（asif）具有很好的理性和知识一样行为的，那么这就为研究者采取这样一种描述世界的方式提供了合理性辩护。

进化博弈理论（包括学习理论），就是要在更弱也更合理的假设上探讨博弈者的长期行为，以便达到与知识论殊途同归，甚而给出更丰富的结论。

也就是说，我们要探讨的是，从长期（long-run）或大范围来看，博弈者通过学习和进化，他们的行为模式，在统计或极限意义上是什么，以此为各种解概念下的理性行为提供合理化论证。

特别地，针对纳什均衡及其各种精炼，有众多结果刻画了在什么条件下，均衡解可以看作是进化学习的收敛或统计意义上的近似，即佩顿·杨所谓的“高理性的解概念能够从低理性的环境中涌现，如果我们赋予这个过程足够的时间进化。

换句话说，社会反馈机制可以取代在个体方面的知识和推理能力的高水平”。

并且，通过进化博弈及其应用社会生物学，我们发现博弈论和纳什均衡的思想与方法可以有更广泛的应用天地。

【纳什谈判解与纳什规划】现在，我们转向纳什的另一项贡献——谈判或讨价还价理论。

在纳什的基本定理之前，他1949年（第二年发表）已经有了一项了不起的经济学成果。

作为读大学时选修的一门国际贸易课程的产物，他讨论了交易中分配合作利益的讨价还价问题，并给出了有关的纳什谈判解的公理刻画。

如果二人进行一个谈判，有一组备选方案，也有一个协议未成点或现状是大家的退路。

达成的分配方案应该具有这样几个好的性质（我们这里的表述本质上与纳什当年没有差异）：

谈判是有效率的，即不存在另一个备选方案帕雷托优超于达成共识的；谈判是非强迫性的，每个人都不差于协议未成点；不相关方案的独立性，如果某方案是一个谈判问题的解，现在缩小方案范围但它仍在其中，则它依然是新谈判问题的解；对称性，如果有倾向于甲的方案就有同样对乙有利的方案，并且二人的退路相同，那么结果应该是二人所得相同。

加上其他一些数学上的适当条件，纳什证明，合理的解应该最大化二人的净支付的乘积。

三年后的文章中，纳什还提出了现在所谓的纳什规划，以整合非合作博弈与合作博弈。

如奥斯本与鲁宾斯坦所指出，“结盟模型区别于非合作模型本质上是因为，它把重点放在博弈者团体能实现什么而不是单个博弈者能做什么上，并且它不考虑博弈者团体内部是如何作用的。

如果我们希望在一个非合作博弈中模拟结盟形成的可能性，那么我们必须叙述结盟是如何形成的以及他们的成员是如何选择加入的。

一个结盟博弈没有这些细节，这样一个博弈的结果也不依赖于它们”。

这样，囚徒困境博弈所谓的困境在合作博弈中就不可能出现。

但合作博弈却不存在象非合作博弈中的纳什均衡及其精炼等具有统一性的解理论。

纳什提出，合作博弈的解，可以归结为谈判解，而谈判问题又可以转换成一个动态的非合作博弈，这样就可以用非合作博弈的解概念来重新阐释合作博弈的各种解概念。

沿着纳什规划的后续研究就包括鲁宾斯坦的重要工作，他表明纳什谈判解可以由一个无限期动态讨价还价博弈的子博弈完美均衡来得到。

在这个意义上，非合作博弈是比合作博弈更基本的。

当然，现在大部分学者会公允地认为合作博弈与非合作博弈是一枚硬币的不可分割的两面。

也许冥冥中注定，宾默尔1992年的教科书《游戏与博弈》中提到，纳什名字的拼写NASH代表了博弈论的英雄榜。

其中最杰出的贡献者有：

N当然指博弈论的创始人冯诺依曼（vonNeumann）和纳什；A是奥曼（Aumann）；S代表了沙普利（Shapley）、塞尔顿（Selten）和谢林（Schelling）（焦点效应的提出者）；H则是豪尔绍尼（Harsanyi）。

如果说，由于偶然，纳什的名字被用于构成博弈论圣殿建造者的谱系（实际上杰出的博弈论学者的名单非

展开阅读全文