高级微观经济学8博弈论.docx

资源描述

高级微观经济学8博弈论.docx

《高级微观经济学8博弈论.docx》由会员分享，可在线阅读，更多相关《高级微观经济学8博弈论.docx（128页珍藏版）》请在冰豆网上搜索。

高级微观经济学8博弈论.docx

高级微观经济学8博弈论

第八章博弈论

前面章节对经济人最优决策的讨论，是在简单环境下进行的，没有考虑经济人之间决策相互影

响的问题。

本章讨论这个问题，建立复杂环境下的决策理论。

开展这种研究的的理论叫做博弈

论，也称为对策论（GameTheory）。

最近十几年来，博弈论在经济学中得到了广泛应用，在揭示经济行为相互制约性质方面取得了重大进展。

大部分经济行为都可视作博弈的特殊情况，比

如把经济系统看成是一种博弈，把竞争均衡看成是该博弈的古诺-纳什均衡。

博弈论的思想精

髓与方法，已成为经济分析基础的必要组成部分。

第一节博弈事例

博弈是一种日常现象，例如棋手下棋，双方都要根据对方的行动来决定自己的行动，双方的目

的都是要战胜对方，互不相容，互相影响，互相制约。

一般来讲，博弈现象的特征表现为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中，一方的行动取决于对方的行动，每个当事人的收益都取决于所有当事人的行动。

当所有当事人都拿定主意作出决策时，博弈的

局势就暂时确定下来。

博弈论就是研究这种不相容现象的一种理论，并把当事人叫做局中人

（player）。

博弈论推广了标准的一人决策理论。

在每个局中人的收益都依赖于其他局中人的选择的情况下，追求收益最大化的局中人应该如何采取行动？

显然，为了确定出可行的策略，每个局中人

都必须考虑其他局中人面临的问题。

下面来举例说明。

例1.便士匹配（MatchingPennies）（二人零和博弈）

设博弈中有两个局中人甲和乙，每个局中人都有一块硬币，并且各自独立安排硬币是否正面朝

上。

局中人的收益情况是这样的：

如果两个局中人同时出示硬币正面或反面，那么甲赢得1元,

乙输掉1元；如果一个局中人出示硬币正面，另一个局中人出示硬币反面，那么甲输掉1元，乙赢得1元。

正面

反面

正面

（正，正）

（正，反）

反面

（反，正）

（反，反）

表1:

便士匹配博弈局势表

对于这个博弈，每个局中人可选择的策略都有两种：

正面朝上和反面朝上，即甲和乙的策略集合都是｛正面，反

面｝。

当甲和乙都作出选择时，博弈的局势就确定了。

显然，该博弈的局势集合是｛（正面,正面），（正面,反面）,（反面,正面），（反面，反面）｝，即各种可能的局势的全体，也称为局势表，即表1。

甲

正面

反面

正面

「1,1

1,1

反面

1,1

表2:

甲和乙的收益表

每个局中人的收益都取决于所有局中人的决策，也就是说，局中人的收益是博弈局势的函数。

本例中，甲的收益函数f为：

f（正,正）1，f（正,反）1，

f（反,正）1，f（反,反）1；乙的收益函数g为：

g（正,正）1，g（正，反）1，g（反,正）1，g（反，反）1。

局中人的收益函数也可用表格或矩阵加以表示，并称其为

收益表或收益矩阵。

表2中，甲的收益列在左边，乙的收益列在右边。

该博弈的特点在于每个局中人的收益都是另一个局中人的付出，即甲和乙的收益之和为零，收

支发生在局内，不涉及任何局外人。

这种博弈就是所谓的二人零和博弈。

习惯上，人们喜欢把二人博弈的第一个局中人甲叫做“列”，第二个局中人乙叫做“行”，而且总是把列的收益写在

前面（即左边），行的收益写在后面（即右边）。

例2.囚徒难题（Prisoner'sDelimma）（二人变和博弈）

有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。

他们可以选择合作，拒绝供出任

何犯罪事实；也可以选择背叛，供出对方的犯罪行径。

这就是所谓的囚徒博弈，也叫做囚徒难题。

博弈的局中人甲和乙都有两种可选择的策略：

合作与背叛。

合作

背叛

合作

（合作，合作）

（合作，背叛）

背叛

（背叛，合作）

（背叛，背叛）

表3:

囚徒博弈局势表

那么乙就能得到3000元的收益。

同样

囚徒博弈的意义在于它可以解释寡头垄断厂商的行为，关键是赋予合作与背叛具体的经济含义。

比如在双头垄断的情况下，合作可以解释为“保持索要一个高价”，背叛可解释为“降价以争夺对手的市场”。

右

表给出了囚徒博弈的局势表。

局中人可以事先讨论这局博弈，但实际决策必须独立地做出。

如果甲采取合作策略，不供出乙的犯罪事实，如果乙采取合作策略，那么甲就能得到3000元的收益。

可见，如果甲乙双方都采取合作策略,双方各得3000元收益。

但是，审讯者用1000元奖赏来鼓励局中人采取背叛策略。

这样，只要局中人选择背叛，他就

这正是囚徒博弈同便士匹配博

会得到1000元鼓励，而不管另一个局中人会采取什么策略。

需要注意的是，囚徒博弈中的货币支付来自第三方一一局外人,

弈的不同之处。

奥曼（Aumann）1987年对囚徒博弈给出了一个特别简单的描述：

每个局中人都可以对仲裁人简单地宣告“给我1000元”或“给对方3000元”。

合作

背叛

合作

3000,

3000

4000

背叛

4000,

1000,

1000

表4:

甲和乙的收益表

甲乙双方的收益之和不为零，而且收益和是

简单分析一下就会发现，如果一个局中人采取合作策略，而另一个局中人采取背叛策略，那么采取合作策略的局中人的收益为零，而采取背叛策略的局中人的收益为4000元（3000元收

益再加上1000元的背叛鼓励）。

如果双方都采取背叛策略，则双方的收益各为1000元。

表4

列出了甲乙双方的收益情况。

从收益表可以看出，

变化的。

因此，囚徒博弈是一种变和博弈。

直觉上看，甲和乙都应采取合作策略（互不供出对方的犯罪事实），各得3000元收益。

但从收

益表可以得出这样的结论：

如果一个局中人认为另一个局中人将合作，从而他将得到3000元

收益，那么他若采取背叛策略，就将总共能获得4000元的收益；如果他认为另一个局中人为

了得到1000元鼓励而将背叛，那么他也就只好为了自己也取得1000元鼓励而采取背叛策略（否

则，他将一无所获）。

总之，在收益最大化动机的驱使下，局中人的最优选择是背叛。

这样一来，甲乙双方都采取背叛策略，各得1000元收益；而不是都采取合作策略，各得3000元。

这

是一个典型的博弈悖论，问题的关键在于每个局中人都有背叛的鼓励，而不管其他局中人将做

什么。

例3.古诺博弈（双头垄断：

产量较量）

法国经济学家古诺（Cournot）于1838年以天然矿泉井为例，首次建立了简单的双头垄断博弈模型，其特点是，垄断厂商双方都天真地以为对方不会改变原有产量水平，双方都追求各自利润

最大化。

古诺假定：

①有两个天然矿泉在一起，分别为厂商甲和乙占有；②两个矿泉都为自流

井，生产成本为零，边际成本也为零；③甲和乙面对相同的需求曲线，采用相同的价格；④双方都以为对方的产量水平不会改变。

在这些假设前提下，甲和乙各自独立决定自己的产量水平，

以求利润最大化。

设P（Q）是甲乙双方共同面临的反需求函数。

当甲的矿泉水产量为Qj，乙的产量为Q2时,

矿泉水的市场价格为P（QiQ2），甲的利润iPQi,乙的利润为2PQ2。

在这个博弈中，甲乙双方的策略都表现为选择产量水平，局中人的收益即为厂商的利润。

当甲的产量为

Qi时，乙以为甲不会改变这一产量，而选择一个合适的产量水平Q2以使自己的利润2达到

最大。

同样，当乙的产量水平为Q2时，甲以为乙不会改变这一产量，而选择一个合适的产量

水平Qi以使自己的利润1达到最大。

为了说明这个博弈的结果，假设甲乙双方面临的反需求函数P（Q）P0kQ。

用Qi表示这

局博弈中甲选择的最优产量，Q2表示乙选择的最优产量水平，则甲乙各自的收益分别为

1（Pok（QiQ2））Qi和2（Pok（QiQ2RQ2。

由于实现了利润最大化，因此

—0,20

QiQ2

解之得：

当乙的产量水平为Q2时，甲决定的产量水平为Qi（QoQ2）2（这是甲对乙的反应函数）；当甲的产量水平为Qi时，乙决定的产量水平为Q2（QoQi）2（这是乙对甲的反应函数）。

其中，QoPo.k表示矿泉水市场容量（即价格为零时的矿泉水需求量）。

进一步求解可得：

QiQ2Qo「3,即博弈的结果是双方最终各占据矿泉市场的三分之一。

反应函数说明，古诺博弈中每个局中人的决策（选定的产量水平）不但依赖于其他局中人的决策，而且与市

场的容量有关。

例4.贝特兰博弈（双头垄断：

价格较量）

古诺博弈模型描述了双头垄断厂商之间展开的产量较量。

实际上厂商之间的产量较量并不如价

格较量那么普遍，寡头之间应该有激烈的价格竞争。

不论市场价格如何，只要某一厂商降低价

格，而其他竞争对手保持原价格不变，那么降价厂商就能占有全部市场。

这就是说，我们假定

消费者只从最低价格厂商那里购买产品。

为此，法国经济学家贝特兰（Bertrand）于i883年提

出了以价格为选择策略的贝特兰博弈模型，反对古诺关于产量的博弈模型。

还以矿泉水为例，在贝特兰博弈模型中各厂商都预期对手不会改变价格，从而将自己的价格确

定在利润最大化的水平之上。

这就是说，贝特兰博弈的构建同古诺博弈相似，所不同的是贝特兰博弈中局中人的策略是选择价格，而古诺博弈局中人的策略是选择产量水平。

贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数，不过现在价格是自变量，产量

为因变量（古诺模型正好相反）。

设市场需求函数为QD（P）,为了分析上简单起见，进一步设QQobP（这里，QoPok,bik，即与古诺模型中的市场需求相同）。

局中人的收益

仍是他所获得的利润。

如果甲和乙不相互勾结串通，当乙采取了价格水平P2时，甲认为乙不会改变这一价格水平，

从而为了占领市场而要采取低于乙的价格水平P2的价格Pi，于是甲的利润为iPiD（^）,

乙的利润为零；同样，当甲采取了价格水平片时，乙认为甲不会改变这一价格水平，从而为

了占领市场而要采取低于甲的价格水平Pi的价格P2，于是乙的利润为2P2D（P2）,甲的利

润为零。

如果甲和乙相互勾结串通起来，采取相同的价格策略，即PiP2，那么甲和乙就能索要一个

垄断价格，并且每人可收取一半的垄断利润。

由此可见，甲和乙的利润函数分别为：

PiD（PI）,当Pi卩2时P2D（P2）,当P|卩2时

ii（Pi,P2）PiD（R）/2,当PiP2时，22（Pi,P2）P2D（P2）/2,当PiP2时

o,当PiP2时0,当PiP2时

23o

如果甲和乙勾结串通，合作起来，那么双方就能按照最大利润价格PQ°「（2b）获得垄断价格，

并且各得最大利润的一半。

这里，利润最大化价格是按照

P（QobP）Qo2bP0

确定的。

但是，占领市场的诱惑对每个局中人都存在，只要他稍微降价，他就能获得全部市场。

假如甲先进入该矿泉市场，那么甲就按照利润最大化价格$P_仁Q_o/（2b）$获取最大利润。

继

而乙进入这个市场，且乙认为甲不会改变他的价格$P_1$，于是乙为了夺取市场而采取低于甲

的价格水平R的一个价格P2（P2R）。

由于乙夺走了市场，甲同样又会采取低于乙的价格水平P2的价格P3，以夺回市场。

这样不断往复下去，直至最后甲乙双方都把价格水平定为零时才可达到均衡，此时双方的收益为零，市场各占一半（即甲的销售量Q,和乙的销售量Q2相等,且Q!

Q2Q。

「2）。

这就是甲乙双方不合作的结果，双方都变得更差。

以上分析表明：

把贝特兰博弈与古诺博弈作比较，对同一市场来说，由于选择了不同的策略集

合（一个以产量作为策略，另一个以定价作为策略），得出了不同的博弈结果，贝特兰博弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态（超额利润为零），而古诺博弈的结果不是这样；

再把贝特兰博弈同囚徒难题博弈作比较，二者具有相似的结构，即局中人合作会取得最好的结

果，但利益的诱惑促使他们采取不合作的行动，致使双方博弈的结局都变得更差。

贝特兰博弈也可用囚徒博以来解释：

合作是指两个厂商的勾结，背叛是指两个厂商独立行动，没有勾结。

合作，可以索要一个高的垄断价格；背叛，则导致市场价格为零，双方利润为零。

可见，双方合作起来，对两个厂商都有利，似乎应该合作。

但博弈的最终结果是双方都采取背叛策略，导致谁也得不到利润。

本节所举的这些事例说明，寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描述和研究。

实际上，经济学中大部分经济现象都可以作为博弈的特殊情形进行研究，比如历史上解决

竞争均衡的存在性这一经济学基本问题时，就把经济系统看成为一局博弈。

为了研究博弈，必须抓住博弈现象的基本要素，这些要素是：

局中人、策略、收益。

也就是说，

博弈可以用局中人集合、策略集合和收益函数加以描述。

局中人从策略集合中选择一种策略后所获得的效用或利益，就是局中人的收益（payoffs），也叫做得失。

我们假定每一个局中人都

知道他自己和别人的策略集合与收益函数，这就是说，每个局中人的策略集合与收益函数为所

有局中人所共知。

当然，每个局中人都知道其他局中人掌握着这些信息和知识。

局中人的收益

不但依赖于他自己的策略选择，而且依赖于其他局中人的策略选择。

我们再假定每个局中人在

给定的主观信念下会选择收益最大化的行动，并且当新的信息根据贝叶斯规则到来时，这些信

息会得到修正（即根据贝叶斯全概率公式从先验概率计算后验概率）。

第二节策略博弈

为了能够正确地应用博弈论研究经济问题，需要对博弈加以准确地描述和定义。

要定义一个博

弈，需要确定三件事情：

一是局中人集合（setofplayers），一是局中人的策略集合（setof

strategies），一是局中人的收益函数（payofffunction）。

这三件事情中，确定策略集合是至关重要的。

局中人以策略决定胜负，目标是使他的收益最大化。

这种以策略定胜负的博弈，称

为策略博弈（gameofstrategy）。

正象比较古诺博弈和贝特兰博弈时说明的问题一样，用博弈论研究经济问题时，对于同一经济现象，由于选择了不同的策略集合，得到的博弈结果截然不同。

用A表示博弈的局中人集合，Sa表示局中人aA的策略集合，fa表示a的收益函数，则

G（Sa，fa）aA就表示了一个博弈。

根据局中人的多少，博弈可分为二人博弈和多人博弈。

根

据博弈的策略集合是否有限，博弈还又可分为有限博弈和无限博弈。

例如，便士匹配和囚徒难

题都是有限博弈，而古诺博弈和贝特兰博弈都是无限博弈。

还可根据所有局中人的收益总和是

否固定，把博弈分为常和博弈和变和博弈。

常和博弈分为零和博弈（即收益总和为零的博弈）和非零和博弈。

二人零和有限博弈是所有博弈中最简单、最重要的一类，通常称为矩阵博弈。

本节以二人博弈为重点，介绍有关策略博弈的概念与理论。

.策略表与收益矩阵

设二人博弈的局中人是甲和乙。

甲有m种可选策略，策略表为Xx1,x2,,xm；乙有n种可选策略，策略表为Yyi,y2,,yn。

当甲采取策略Xi，乙采取策略yj时，（xi,yj）称为博弈的局势，集合SXY就是局势集合（局势表、局势矩阵），即

（X1,y1）

（X1,y2）

（X1,yn）

S（Xi,yj）:

i1,2,,m;j

（X2,yj

（X2,y2）

（X2,yn）/\

1,2,,n

（Bj）m

（Xm,y1）

（Xm,y2）

（xm,yn）

每个局中人选择自己的策略时，

都要考虑对手的行动。

这样每个局中人的收益不但与自己的选

择有关，而且与对手的选择有关，收益函数是定义在局势集合S上的函数，这里假定了局中人的收益是可以用实数来都来计量的。

用f表示局中人甲的收益函数，用g表示局中人乙的收

益函数。

由于局势集合S是有限集合，收益函数f和g都可用矩阵加以表示，这些矩阵就称为收益矩阵。

记论f（Xi,yj）,gijg（Xi,yj），则甲和乙的收益矩阵分别为：

当fijgijC（常数）（i1,2,,m;j1,2,,n）时，该博弈就是常和博弈。

否则，就是变和

博弈。

局中人的策略与收益也可用收益表加以表达：

表1:

博弈的收益表

乙的策略甲的策略'

fn,gn

f12,g12

n,g1n

f21,g21

f22,g22

f2n，g2n

fm1,gm1

fm2,gm2

fmn,gmn

一般情况下，二人博弈可表示成GG2（X,f；Y,g）。

但对于二人常和博弈，则可简单地表

示成GG2（C）（X,Y,f,C），其中C为收益的常数和。

而矩阵博弈则可更简单地表示成

GG2（X,Y,f），或者直接用甲的收益矩阵f来表示矩阵博弈。

二.最小最大原理

局中人的目标是选择使自己收益最大化的策略，我们来分析局中人如何决策。

假定甲乙双方彼

此了解对方的收益表。

如果甲通过间谍获悉乙采取某种策略yj时，甲必然会采取相应的某种

策略Xi，以求自己的收益最大，即选择Xi使下式成立：

fijmaxfij,f2j,,fmj

那么他必将作最坏的打算，以

Xi下至少可获得的收益（即,m），然后从这些最小收益策。

从收益矩阵来看这个决策过

但是，当甲不知道乙会采取什么策略时，如果甲是一个避险者，

求取得较好的效果。

首先，甲要从收益表中找出自己的每一种策略所能获得的最小收益），即先求解min怙，"，,fin（i1,2,略中选择出收益最大的策略，即“从最小收益中选择最大收益”

程，即甲首先选出自己的收益矩阵f的各行的最小值，然后从这些最小值中再选出最大值:

maxminfijmaxminfij

ij1im1jn

这就是求解策略博弈的最小最大原理，其合理性表现为：

如果甲采取按照最小最大原理确定的策略，那么不论乙采取什么策略，甲都可至少得到这个最小最大收益。

由此可见，最小最大原

理是能够确保局中人收益的一种原理。

今后，我们把局中人甲按照最小最大原理所确定的策略，叫做甲的稳妥策略。

对于局中人乙来说，他的决策行为和决策过程同甲是一样的，只不过乙要依赖于收益矩阵g。

乙决策的最小最大原理是：

乙先选出收益矩阵g的各列的最小值，然后从这些最小值中选出

最大值：

maxmingijmaxmingij

ji1jn1im

局中人乙按照最小最大原理确定的策略，称为乙的稳妥策略。

读者可能会问：

甲先找出他的收益矩阵各列的最大值，然后再从这些最大值中选出最小值，不

也是一种很好的决策办法吗？

其实，这种决策办法叫做最大最小法，照此办法做出的决策，在

甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。

原因在于最大最小

法需要确定出乙的每种策略下甲的最大可能的收益。

假如甲按照最大最小法选出了策略

（Xi,yj）,那么当乙采用策略yj时，甲可得到最大最小收益fij。

但是，若乙采用的不是策略yj,而是策略yjkj），那么甲如不重新选择他的收益矩阵第k列的最大值的话，他的最大最小

收益fij就不一定能够达到，这正是最大最小法同最小最大原理的区别。

实际中，在甲不知道乙会采取什么策略的情况下选定了自己的策略以后，乙的策略才出台，为

甲也获悉了乙的这一行动时，甲很有可能来不及调整自己原定的策略，从而给甲带来一定的损

失。

因此，最大最小法在保证局中人收益方面不如最小最大原理那么保险。

当甲和乙的稳妥策略都已选定时，二者结合起来能否成为博弈的结果呢？

答案是未必。

请看下

面二人零和博弈的事例。

例1.高度不确定的博弈

考虑二人博弈G2（X,f;Y,g），甲的策略集合XX1,X2，乙的策略集合Yy1,y2，甲

和乙的收益矩阵f和g通过博弈的收益表给出（见表2）。

3。

这说明甲的稳妥策略是表2：

甲和乙的收益表

对于甲来说，maximinjfij2；对于乙来说，max」minigij

4，

1，

2，

3，

X2，乙的稳妥策略是y2。

但是，当甲采取X2时，乙采取y2的收益g223小于采取y1

的收益g211，因而乙要改用策略屮。

在乙改用屮后，甲

采取策略X2的收益f212小于采取X1的收益f114，因而甲也要改用策略X1。

而当甲改用X1后，乙采用y的收益g114

小于采用y2的收益g12，于是乙又要改回到y2；在乙改回到y2后，甲也要改回到收益最大的策略X2。

这就让我们看到：

当甲采取X2时，乙要采用y1；然后甲改用X1，乙随之改用y2；

甲再改用X2，乙又改用y1，如此不断往复下去，博弈的结局是高度不确定的。

一般来讲，要想一个二人博弈G2（X,f;Y,g）具有确定的结局，必须存在这样的局势

（x*,y*）SXY：

f（x*,y*）maxf（x,y*）

g（x*,y*）maxg（x*,y）

满足这个条件的的局势（x*,y*），叫做博弈G2的均衡或最优解或最优局势，其中的x*和y*分

别叫做局中人甲和乙的最优策略或均衡策略。

这个条件也就叫做博弈的均衡条件。

对于二人常和博弈G2（X,Y,f）来说，（x*,y*）是博弈的最优解当且仅当

f（x*,y*）maxf（x,y*）minf（x*,y）

xXyY

数学中，满足这个条件的点（x*,y*）叫做函数f的鞍点。

因此，（x*,y*）是博弈的最优解当且

仅当（x*,y*）是收益函数f的鞍点。

下面的定理给出了鞍点的判别条件。

鞍点定理．（x*,y*）是收益函数f:

XYR的鞍点的充要条件是：

f（x*,y*）maxminf（x,y）minmaxf（x,y）

xXyYyYxX

证明：

必要性（）.设（x*,y*）是f的鞍点，即f（x*,y*）maxf（x,y*）minf（x*,y）。

xXyY

从minf（x,y）f（x,y）可知，minf（x,y）maxf（x,y）对一切（x,y）XY成立，这就蕴

yYyYxX

含着maxminf（x,y）minmaxf（x,y），即maxminf（x,y）minmaxf（x,y）。

xXyYyYxXxXyYyYxX

注意，maxminf（x,y）minf（x*,y）f（x*,y*）maxf（x,y*）minmaxf（x,y）。

这就证明

xXyY

xXyYxX

了f（x*,y*）

maxmin

f（x,y）

minmaxf（x,y）。

展开阅读全文