博弈论.docx - 冰豆网

资源描述

博弈论.docx

《博弈论.docx》由会员分享，可在线阅读，更多相关《博弈论.docx（13页珍藏版）》请在冰豆网上搜索。

博弈论.docx

博弈论

第一章完全信息非合作静态博弈

例一囚徒困境本例子对奠定非合作博弈理论基础起着重大作用。

假定有两个嫌疑犯A和B作案后被抓住，关在不同审讯室审讯，他们部知道，如果两人都坦白各判刑8年，若两人都抵赖各判1年，若一人坦白另一人抵赖坦白者释放抵赖者判十年，下图给出本例的完整数学描述：

囚徒B

坦白抵赖

－8，－8

0，－10

－10，0

－1，－1

坦白

囚徒A

抵赖

（囚徒A，囚徒B）

基本假定：

1）两囚徒都是理性的；

2）两囚徒都了解对方是理性的；

3）两囚徒都了解在各种情况下审判后果的信息；

4）两囚徒都了解对方了解在各种情况下审判后果的信息。

研究问题：

预测最终结果。

结论：

从上表看出A与B同样是：

不管对方采取什么行动，坦白都是最优的，因而两囚徒若满足上述条件他们所采取的行动都是坦白。

（坦白，坦白）称为本博弈的均衡解。

从上述模型中看出，如果两人都选择抵赖，对两人都是最好的，但结果他们只能选择较差的结果，都坦白，不论他们事先如何订立攻守同盟都无效，原因出在上述四点假设上。

囚徒困境表现为个人理性压倒集体理性。

例二智猪博弈

猪圈有两头理性的智猪，一头大猪，一头小猪。

猪圈一头放着食，另一头有一按钮，供智猪食供应。

按一下按钮会有10单位猪食进糟，但谁按谁就要付出2单位代价。

若大猪先到、大猪吃到9单位，小猪吃到1单位，若同时到大猪吃到7单位，小猪吃到3单位，若小猪先到，大猪吃到6单位，小猪吃到4单位。

本问题可用下形式表示：

小猪

按等待

5，1

4，4

9，－1

0，0

按

大猪

等待

（大猪，小猪）

基本假设：

与囚徒困境相同，即理性人假设和完全对称信息假设。

问题分析：

很显然小猪的最优策略是等待，大猪很清楚小猪最优策略是等待，而且必然采取等待行动，那么大猪的策略是按，于是其结果必然是大猪按小猪等待。

（大猪按，小猪等待）为本博弈均衡解。

智猪问题本质：

在合作共事中谁享受成果多谁多出力。

三、基本概念

包括：

参与人、行动、信息、战略、支付（效用）、结果、均衡。

其中参与人、战略、支付是描述一个博弈所需的最少要素；行动和信息是其“积木（建材）”；参与人、行动和结果称为“博弈规则”。

博弈分析的目的是使用博弈规则预测均衡。

1.参与人博弈中决策主体，他的目的是通过迭择行动（或战略）以最大化自己的支付（效用）水平。

除一般意义的参与人外，博弈论把“自然”作为虚拟参与人来处理。

2.行动参与人在博弈的某个时点的决策变量。

用ai表示第i个参与人的一个行动，Ai={ai}表示第i个参与人可选择的行动集合。

在n人博弈中参与人的行动有序集a=（a1，…，an）称为行动组合。

与行动相关的一个重要问题是行动的顺序，行动顺序往往决定博弈的结果。

实际上静态博弈与动态博弈是由行动顺序来划分的。

在博弈论中一般假定参与人的行动空间和行动顺序是析有参与人的共同知识。

3.信息参与人有关博弈的知识。

（关于信息以后将更详细介绍）。

“共同知识”是所有人知道，所有人知道所有知道……的知识。

4.战略参与人在给定信息集下的行动规则。

战略与行动不同。

5.支付特定的战略组合下参与人确定的效用水平，或期望效用水平。

6.结果博弈分析者所感兴趣的所有东西，加均衡战略组合、均衡行动组合、均衡支付组合等。

7.均衡所有参与人的最优战略组合。

四、战略表达式

一个博弈可以用两种不同方式来表示，一种是战略表达式，另一种是扩展式，战略式适于分析静达博弈，扩展式适于表示动态博弈。

战略式又称标准式，在这种表述中，所有参与人同时各自选择各自的战略。

战略式更准确表述为：

1.博弈参与人集合：

i∈，=（1，2，…，n）；

2.每个参与人战略空间：

Si；

3.每个参与人的支付函数：

ui（s1，…，sn）。

用G={s1，…，sn；u1，…，un}代表战略式表述博弈。

当参与人为两人时则可表示为矩阵形式。

五、纳什均衡

纳什均衡描述性陈述定义，如果一个博弈存在一个战略组合，任何参与人要改变这一战略组合都可能导致降低自身的效用水平（或只能保持原有的效用水平），因而任何参与人都没有积极性去改变这一战略组合，这一战略组合称该博弈的纳什均衡。

六、求解纳什均衡方法（一般方法）

定义：

有n个参与人的战略表述博弈G={s1，…，sn；u1，…，un}，战略组合s*=（s1*，…，si*，…，sn*）是一个纳什均衡，如果对于每个i，si*是给定其他参与人选择

s-i*=（s1*，…，si-1*，si+1*，…，sn*）

的情况下第i个参与人的最优战略，即：

Ui（si*，s-i*）≥Ui（si，s-i*）siSi，I（﹡）

或表述为：

si*=argmaxui（s1*，…，si-1*，si，si+1*，…，sn*）（﹡﹡）

（﹡﹡）式为纳什均衡求解的基本公式。

从上式得出以下方法：

Дi（s1，…，sn）=ui（s1，…，sn）/si=0

Дi（s1，…，sn）称为si对（s1，…，si-1，si+1，…，sn）反应方程，即第i个参与人对其它参与人如果采取行动（s1，…，si-1，si+1，…，sn）的行动对策。

对反应方程组

Дi（s1，…，sn）=0i=1，2，…，n

求解，则得出纳什均衡解。

七、公共用地悲剧

这是制度经济学中典型的例子，是1968年Hardin所提出的，他证明了，如果一种资源没有排他性产权，就会导致这种资源过度使用而使效益下降。

现假设有三个农户n＝3每只羊的价格为

V＝100－（g１＋g２＋g３），成本为c＝４。

那么三个农户的收益分别为：

π1＝g１［100－（g１＋g２＋g３）-4］

π2＝g2［100－（g１＋g２＋g３）-4］

π3＝g3［100－（g１＋g２＋g３）-4］

由一阶导数条件分别求出反应函数为：

g１＝48－（g２＋g３）／2

g2＝48－（g３＋g1）／2

g3＝48－（g２＋g1）／2

求得g１＝g2＝g3＝24；π1＝π2＝π3＝576

G＝72；π＝1728

现研究该草地为一个农民所有，由它一个人放牧的情况。

这时π＝G（100－G-4）

可求得G＝48，π＝2304

显然，草地为一个人所有由一个人使用，养羊少收益大，这就是共公用地悲剧。

八、混合战略纳什均衡

例一社会福利博弈

有些博弈并不存在纳什均衡，例如社会福利博弈问题：

流浪汉

找工作游荡

3，2

－1，3

－1，1

0，0

救济

政府

不救济

很显然上述博弈不存在纳什均衡。

给定政府政策是救济流浪汉最优策略是游荡；给是流浪汉对策是游荡政府最优政策是不救济；给定政府政策是不救济浪浪汉的最优策略是找工作；而给定流浪汉对策是找工作政府最优策略是救济，因而不存在纳什均衡解。

但可以把均衡的概念放宽定义下面混合战略纳什均衡的概念。

混合战略纳什均衡是参与人以一定的概率选择某种战略。

如在本例中政府以概率θ选择救济，以（1-θ）选择不救济；流浪汉以概率γ选择找工作，以（1-γ），选择流荡。

在以上假设下

政府的期望效用函数为：

vG（θ，γ）=θ（3γ+（-1）（1-γ））+（1-θ）（-γ+0（1-γ））=θ（5γ-1）-γ

流浪汉的期望效用函数为：

vl（θ，γ）=γ（2θ+1（1-θ））+（1-γ）（3θ+0（1-θ））=-（2θ-1）+3θ

从中vG，vl求出使vG，vl最优的θ，γ则θ，γ为混合战略纳什均衡。

为此，按最优一阶条件：

∂vG（θ，γ）/∂θ=（5γ-1）=0

∂vl（θ，γ）/∂γ=-（2θ-1）=0

得出：

θ*=0.5;γ*=0.2

为混合战略纳什均衡。

上述混合战略纳什均衡可以解释为：

如果政府预测流浪汉选择寻找工作的概率严格小于0.2则政府的唯一最优选择的战略是不救济，如果政府预测流浪汉选择寻找工作的概率严格大于0.2则政府的唯一最优选择的战略是救济；如果流浪汉预测政府选择救济的概率严格小于0.5则流浪汉的唯一最优选择的战略是寻找工作，如果流浪汉预测政府选择救济的概率严格大于0.5则流浪汉的唯一最优选择的战略是游荡。

上述例子很显然看出，参与人选择纯战略的概率分布不是由自已的支付决定的，而是由对手的支付决定的。

例二监督博弈

监督博弈包括：

税收检查、质量检查、对雇员监督、惩治犯罪等一系列十分有现实意义的博弈问题。

下面例子是税收检查：

纳税人

逃税不逃税

a-C+F,-a-F

a-C,-a

0,0

a,-a

检查

税收机关

不检查

C表示检查成本，F表示罚款，a表示应交税款，并假设C

θ表示税收机关检查概率，γ表示纳税人逃税概率。

从上述博弈问题得出税收机关和纳税人的期望效用函数分别为：

vG（θ,γ）=θ（γ（a-C+F）+（1-γ）（a-C））+（1-θ）（γ0+（1-γ）a）

vM（θ,γ）=γ（θ（-a-F）+（1-θ）（0））+（1-γ）（θ（-a）+（1-θ）（-a））

由一阶导数条件求最优θ,γ：

∂vG（θ,γ）/∂θ=0

∂vm（θ,γ）/∂γ=0

得出：

θ*=a/（a+F）;γ*=C/（a+F）

为混合战略纳什均衡解。

这意味：

若税收机关检查概率小于a/（a+F）时纳税人采取逃税战略，若税收机关检查概率大于时a/（a+F）纳税人采取不逃税战略；若纳税人逃税概率小于C/（a+F）时税收机关的最优战略是不检查，若纳税人逃税概率大于C/（a+F）时税收机关最优战略是检查。

九、四种均衡关系

上面介绍了占优战略均衡（DSE）、重复剔除占优均衡（IEDE）、纯战略纳什均衡（PNE）和混合战略纳什均衡（MNE）四个概念，四种均衡均称为纳什均衡，它们之间存在下图所示的关系：

DSE>IEDE>PNE>MNE

第二章完全信息动态博弈

一、博弈的扩展表达式

在静态博弈中，参与人的行动是同时进行的，参与人并未考虑自身的行动对别人的影响，亦未考虑别人的行动。

而在动态博弈中参与人的行动是有先后顺序的，后行者观察到先行者的行动，并根据获得先行者的行动信息而采取对策。

对于动态博弈用扩展表达式来表示。

扩展表达式包括以下六个要素：

1.参与人集合；

2.参与人顺序；

3.参与人行动空间；

4.参与人信息集每次行动时参与人知道什么；

5.参与人支付函数；

6.自然选择的概率分布。

在静态博弈中，战略式用博弈矩阵来表示，在动态博弈中扩展式用博弈树来表示。

二、子博弈精炼纳什均衡

子博弈精炼纳什均衡是泽尔腾（1965）解决动态博弈问题所引出的，办法是把纳什均衡中把不可置信的纳什均衡剔除。

为了给出这概念的定义，首先给出“子博弈”的概念。

子博弈粗略而言是博弈树中从一个决策点开始的一个分支。

准确来说是用下面定义。

定义：

一个博树的子博弈是由一个决策点x和它的所有所有后续结所组成，并满足以下条件：

（1）x是单结信息集；

（2）如果x1是x的后续结而x2是与x1同属于原博弈的一个信息集，则x2亦在子博弈中，即不破坏原博弈的结构。

下面定义子博弈精炼纳什均衡。

定义：

扩展式（博弈树）的战略组合

s=（s1，…，si，…sn）

是一个子博弈精炼纳什均衡，如果：

（1）它是原博弈的纳什均衡；

（2）它在每个子博弈上给出纳什均衡。

逆向归纳法是求解子博弈精炼纳什均衡最简便的方法,亦即由下而上求优。

三、斯坦克尔格寡头竞争模型

在第一章中我们研究过库诺特静态博弈寡头竞争模型。

在这节研斯坦克尔格动态博弈寡头竞争模型，它是在1934年由斯坦克尔格给出的。

设有两个企业：

企业1和企业2垄断某产品市场，设企业1为领头企业先选择产品产量为q1，企业2根据企业1的产量选择产量为q2。

设产品的价格为

P=a-q1-q2

第企业1的收益为

π1（q1,q2）=q1（P-c）=q1（a-q1-q2-c）

第企业2的收益为

π2（q1,q2）=q2（P-c）=q2（a-q1-q2-c）

求子博弈精炼纳什均衡。

用逆向求解法，先对企业收益求最优

∂π2（q1,q2）/∂q2=（a-q1-q2-c）-q2=0

q2=（a-q1-c）/2

即q1在确定下的反应函数。

代入π1（q1,q2）得出

π1（q1,q2）=q1（a-q1-（（a-q1-c）/2）-c）

对π1（q1,q2）求最优

∂π1（q1,q2）/∂q1=

a-q1–（（a-q1–c）/2）-c=0

得出q1*=（a-c）/2

并得出q2*=（a-c）/4

而在静态博弈库诺特模型中

q1*=q2*=（a-c）/3

从本例中可看到“先动优势”。

第三章不完全信息静态博弈

不完全信息库诺特模型

有两企业，企业1和企业2生产同一种产品，在同一市场上进行决定产量的博弈竞争。

设价格是而企业总产量的函数：

p=a-q1-q2

企业1的产品单位成本为c1是共公知识，是确定的；企业2产品单位成本c2有两种类型，即c2L,c2H。

企业1只知道企业2低成本的概率为µ，高成本概率为1-µ。

第i个企业的利润为：

πi=qi（a-q1-q2-ci）

为了求纳什均衡，确定两企业的产量，使两企业利润最大化。

对于第二个企业，最优化条件为：

∂π2/∂q2=∂（q2（a-q1-q2-c2））/∂q2=0

得出：

q2*（q1,t）=（a-c2-q1）/2其中t=a-c2

因此，

q2L*=（a-c2L-q1）/2；q2H*=（a-c2H-q1）/2

对于第一个企业，则要求企望期最优，期望值为：

Eπ1=µq1（a-q1-q2L-c1）+（1-µ）q1（a-q1-q2H-c1）

求最优化条件得出：

µ（a-q1-qL2-c1）-pq1+（1-µ）（a-q1-qH2-c1）-（1-P）q1=0

µ（a--qL2-c1）+（1-µ）（a--qH2-c1）-2q1=0

q1*=（µ（a--q2L-c1）+（1-µ）（a--q2H-c1））/2

现解得方程为：

q1*=（µ（a--q2L*-c1）+（1-µ）（a--q2H*-c1））/2

q2L*=（a-c2L-q1）/2；q2H*=（a-c2H-q1）/2

若设

µ=1/2,a=2,c1=1,c2L=3/4,c2H=5/4,

则得出：

q1*=1/3;qL*2=11/24;qH*2=5/24

第四章不完全信息动态博弈

一、不完全信息动态博弈定义

在不完全信息博弈中，“自然”首先选择参与人的类型，参与人知道自己的类型，其它参与人不知道，只从一些信息产生对类型的分布概率的信念（称为先验概率），自然选择后，参与人采取行动，后行者能观察到先行者的行动。

这就产生两个很有意思的问题：

第一个问题是，不完全信息博弈中先行知道后行者能观察到自已的行动，而行动就有可行暴露自身所属的类型，这是先行者不希望的，因而先行者往往采取一种行动去迷惑后行者，使后行者误判；第二个问题是，后行者可能从先行者的行动中对先验概率修正，而使自身获益，修正后的概率称为后验概率。

二、精炼贝叶斯均衡的定义

定义：

精炼贝叶斯均衡是一个战略组合

s*（θ）=（s1*（θ1），…，sn*（θn））

和一个后验概率P=（p1,…，pn）组合，满足：

（1）S*i（s-i,θi）=argmax∑pi（θ-i︳ah-i）ui（si，s-i，θi）

（2）pi（θ-i|ah-i）是从先验概率通过观察到ah-i使用贝叶斯法则得到的后验概率

三、举例用负债比例显示企业质量

上世纪五十年代以来，经济学家—直研究什么因素决定企业资本结构（资本负债率），资本结构的信号传递理论是该领域最有影响的理论之一。

这一理论证明，如果内部经理人与外部投资者之间存在信息不对称，资本结构就可以通过传递内部信息对企业的市场价值发生影响。

下面介绍罗斯（1977）模型。

假设企业经理知道企业利润真实分布函数，投资者不知道；企业利润分布函数是根据一阶隨机占优排序的（即越好的企业高利润的概率越高）。

设经理的效用是企业市场价值的增函数，但企业破产，经理将受到惩罚。

经理使用企业负债比向投资者传递企业利润分布信息，投资者把较高的负债比看作是企业高质量的表现，由于低质量的企业经理人不敢过渡举债，因为破产经理将受到惩罚。

假定博弈有两个参与人，即企业经理与投资者，并且博弈有两个时期。

令π为企业第二时期的利润并在区间[0,θ]上均匀分布。

经理知道真实情况，投资者只知道其分布概率为µ（θ）。

第—期企业经理首先选择负债水平为D，投资者根据D确定企业的市场价值。

经理的目标是极大化企业1期市场价值和2期期望价值的加权平均值，即：

u（D,V0（D）,θ）=（1-γ）V0（D）+γ（θ/2-LD/θ）

其中V0（D）是给定负债水平为D时第1期企业市场价值，θ/2为2期市场价值，D/θ为破产概率，L为破产惩罚，γ为权数。

并假定为分离均衡。

首先注意：

∂2u（D,V0（D）,θ）/∂D∂θ=γL/θ2>0

即质量越高的企业越不怕负债。

另一方面注意，当经理选择负债水平为D他预测投资者从D推得企业利润为θ，从而选择V0（D），期望值θ（D）为市场价值为

V0（D）=θ（D）/2

把上式代入u（D,V0（D）,θ）求一阶最优条件得出：

（（1-γ）∂θ（D）/∂D）/2-γL/θ=0

可改写为

2γL∂D/∂θ-（1-γ）θ=0

解上述微分方程得出：

D（θ）=（1-γ）θ2/4γL+C

由于V0（D）=θ/2得出

V0（D）=（（D-c）γL/（1-γ））1/2

展开阅读全文