完全信息静态博弈及其纳什均衡解.docx

资源描述

完全信息静态博弈及其纳什均衡解.docx

《完全信息静态博弈及其纳什均衡解.docx》由会员分享，可在线阅读，更多相关《完全信息静态博弈及其纳什均衡解.docx（11页珍藏版）》请在冰豆网上搜索。

完全信息静态博弈及其纳什均衡解.docx

完全信息静态博弈及其纳什均衡解

第三章完全信息静态博弈及其纳什均衡解

1.完全信息静态博弈

定义3.1.完全信息静态博弈。

完全信息静态是指，博弈中的参与人同时采取行动，或者尽管参与人行动的采取有先后顺序，但后行动的人在行动时不知道先采取行动的人采取的是什么行动；同时博弈参与人的策略空间及策略组合下的支付是博弈中所有参与人的“公共知识”。

两个特点：

（1）静态；

（2）完全信息。

完全信息静态博弈例子。

例1：

锤子-剪刀-布

例2：

交通行驶

甲

乙

左

右

左

1,1

0,0

右

0,0

1,1

非“完全信息静态博弈”例子：

英式拍卖——动态博弈；第一密封价格及第二密封价格拍卖——不完全信息博弈。

2.纳什均衡及其判定

定义3.2纳什均衡。

在一个n人博弈的标准式G={S1,S2，…,Sn;u1,u2,…,un}中，一个策略组合{s1*,s2*,…，sn*}，若满足ui（s1*,…,si*,…sn*）≥ui（s1*,…si,…，sn*）（i=1…n），则称这个策略组合为{s1*,s2*,…，sn*}为该博弈G的一个纳什均衡。

某策略组合是纳什均衡指的是，在该策略组合上任何一个参与人的收益在其他人策略不改变的情况下都至少是弱优的。

特点：

（1）每个人没有单独改变策略的动机；

（2）局部最优。

纳什均衡判定方法：

用定义来判定：

某点是均衡看它是否符合纳什均衡的定义。

求解纳什均衡的方法：

（1）剔除严格被占优策略。

例3：

囚徒困境

甲

乙

不合作

合作

不合作

2,2

1,4

合作

4，1

3,3

缺点：

只有当仅有一个纯策略均衡点的时候，该方法才是有效的。

（2）用定义来求解

（3）对于策略空间为连续的博弈，用求极值的方法来求得。

3.纳什均衡存在定理：

（纳什）定理3.1.在一个n人博弈的标准式G={S1,S2，…,Sn;u1,u2,…,un}中，如果n是有限的，且对每个i,Si是有限的，则博弈至少存在一个纳什均衡。

这里的均衡可能包含混合策略均衡。

证明：

略

例子3：

囚徒困境的均衡

例1：

“锤子-剪刀-布”的均衡？

甲

乙

锤子

剪刀

布

锤子

0,0

1,-1

-1,1

剪刀

-1,1

0,0

1，-1

布

1，-1

-1,1

0,0

4.混合策略与混合策略的均衡

纯策略与混合策略概念。

定义.3.3.一个策略是纯策略指的是参与人策略空间中的某个确定策略；而一个混合策略是参与人策略空间上的一个概率分布，一般地，某个人i的策略空间为{si1,si2,…，sik},则参与人i在策略空间上的一个概率分布pi=（pi1,pi2,…，pik）构成他的一个混合策略，其中pi1+pi2+…+pik=1。

如：

在取经的过程中猪八戒的策略空间为{西天取经，散伙（回高老庄）}，“采取西天取经”（或“采取回高老庄”）是纯策略。

而“70%的可能性采取西天取经、30%的可能性回高老庄”为猪八戒的一个混合策略。

沙僧采取纯策略（西天取经）；而孙悟空也在采取混合策略，只不过“西天取经”的概率比较高。

由此可见，这里的混合策略中的概率分布体现了参与人采取某个策略的意志或忠诚程度。

混合策略体现了参与人选择纯策略的不确定性，它的引入使博弈有完美的数学解。

然后，该概念自上世纪80年代一直被人们认为“直觉上有问题的”。

混合策略的核心是随机性。

但它缺乏支持：

人们怎么会通过投掷骰子来进行选择呢？

人们不会随身带着随机发生器。

三个解释：

第一，ArielRubinstein（1991）解释说，它反映我们对参与人的信息和进行决策的过程没有足够的知识；但这种解释不令人满意。

第二，想象一个参与人群体。

混合策略反映被选择的纯策略的分布；但这种解释不能说明个体进行这样选择时的选择。

第三，AumannandBrandenburger（1995）将纳什均衡重新解释成信念中的均衡而不是行动中的均衡：

参与人对其他人采取各个策略的可能性的信念。

这种解释弱化了纳什均衡的解释力，因为这是可能的：

在这样的均衡中每个参与人实际上采取纯策略。

混合策略均衡案例：

例4.田忌赛马

分析：

1.田忌每次均输，是因为他采取了纯策略，对方也采取了纯策略——不是均衡点（表中的对角线上的点）；

2.田忌改变策略，采取了孙膑的方法，偏离均衡点，此时，在对方不改变策略的情况下收益提高，而获胜。

此点（如图中*标明的点）是均衡点吗？

3.均衡策略是什么？

齐王

田忌

上中下

上下中

中上下

中下上

下上中

下中上

上中下

-3,3

-1,1

1*，-1*

-1,1

上下中

-1,1

-3,3

1，-1

-1,1

中上下

-1,1

-3,3

-1,1

1，-1

中下上

-1,1

-3,3

1，-1

-1,1

下上中

1，-1

-1,1

-3,3

-1,1

下中上

-1,1

1，-1

-1,1

-3,3

均衡策略是：

齐王与田忌均随机化他的出马顺序，即双方都应当采取混合策略。

对于齐王与田忌，将“上”、“中”、“下”安排在第一次、第二次及第三次的概率是相同的，均为1/3。

每次比赛是上述36个可能性中的一个，并且它们是等可能性的。

因此，当他们采取这样的均衡策略下，齐王能够“赢”的概率为30/36=5/6，田忌能够“赢”的概率为6/36=1/6。

此时，

田忌的期望收益为:

-3*6/36+1*6/36+-1*6/36=-1，

齐王的期望的收益为1

例2：

交通通行中有三个纳什均衡点。

这三个均衡为（左，左）、（右，右）和甲乙均以1/2走“左”，1/2的概率走“右”。

4.混合策略均衡的计算

因为参与人决不会使用较低期望支付的策略，在一个纳什均衡中，如果参与人的两个纯策略都有正的概率，那么这两个策略在这个均衡中一定给他相同的期望支付。

即在均衡中，一个参与人必须对他在其随机策略中具有正概率的策略表现出无差异。

例5.性别之战。

妻子

丈夫

拳击q

歌剧1-q

拳击p

3,1

0,0

歌剧1-p

0,0

1,3

三个均衡:

两个纯策略均衡（拳击，拳击）和（歌剧，歌剧）和一个混合策略均衡（随机策略均衡）：

若妻子选择“拳击”：

U2’=1*p+0*（1-p）

若妻子选择“歌剧”

U2’’=0p+3（1-p）

U2’=U2’’

P=0.75

同样可得：

q=0.25

混合策略均衡为（0.75[拳击]+0.25[歌剧]，0.25[拳击]+0.75[歌剧]）

此时的期望收益均为0.75.

例6.警察与小偷的故事。

特征：

零和博弈。

小偷

警察

3，0

2，1

1，2

3，0

给定警察选择A地的概率p,B地的概率1-p,

小偷：

Ua=2（1-p）

Ub=p

Ua=Ub:

p=2/3

给定小偷选择A地的概率为q,B地1-q，

警察：

U’a=3q+2（1-q）

U’b=q+3（1-q）

U’a=U’b:

Q=1/3

于是警察的期望收益：

7/3;小偷的期望收益:

2/3.

5.案例：

例7.古诺模型。

两个厂商同时行动，各自决定产量。

市场需求函数为p=a-Q。

厂商的单位产品的成本c。

这些是他们的公共知识。

问：

厂商所决定的生产产量q1,q2是多少采纳使他们利润最大？

分析：

利润L1,2=p

q1,2-c

q1,2

=（a-Q）

q1,2-c

q1,2

其中Q=q1+q2

因此，原问题变为：

求L1,2=（a-q1-q2）

q1,2-c

q1,2极值

根据纳什均衡定义，均衡点处满足：

dL1,2/dq1,2=0

于是：

q1,2=（a-c）/3

Q=q1+q2

P=a-Q

假如市场上只有一个企业，即：

垄断下的市场情况如何：

企业所确定的产量为Q：

L=pQ-cQ

=（a-Q）Q-cQ

dL/dQ=0:

a-Q-Q-c=0

Q=（a-c）/2（小于两个企业的产量总和：

2（a-c）/3）

此时的价格为：

p=（a+c）/2（大于两个企业时的价格：

（a+2c）/3）

利润为（a-c）2/4,（大于两个企业时的利润之和：

2（a-c）2/9）

例8.鹰鸽博弈

三个均衡：

（鹰，鸽）、（鸽，鹰）及一个混合策略均衡。

甲

乙

鹰

鸽

鹰

-3,-3

2,-2

鸽

-2，2

-1,-1

6.均衡的拓展：

谢林的聚点均衡与奥曼的相关均衡

博弈论所研究的模型是现实的抽象。

博弈论专家研究博弈期目的是为了预测，预测博弈参与人的策略选择及博弈结果。

然而，当一个博弈包含不止一个纳什均衡时，我们往往无法对之预测。

为了解决这个问题，博弈论专家进行尝试。

焦点效应。

在一个具有多重均的博弈中，某些事情使得一个博弈的参与人将注意力集中到一个均衡，使他们预期并实现这个均衡，这便是谢林所说的焦点效应。

一个焦点均衡（focalequilibrium）就是一个具有某种使它显著地区别于所有其他均衡之性质的均衡。

焦点又称为谢林点（Schellingpoint），这一概念最早由诺贝尔奖获得者谢林于1960年在《冲突的策略》一书中提出：

“人们如果得知别人也正试图做出和自己同样的行为时，常常能使他们的意图或期望达成一致。

大多数情况——或许每一种情况都能为此种博弈参与人的合作提供一些线索，为每个人的期望提供‘聚点’（focalpoint），其中每个人的期望是别人期望他期望被期望去做的事。

”也就是说，聚点是在协调博弈中博弈参与人通过相互期望所做出的共同选择形成的那个均衡点，它显示出了博弈中人们在没有沟通的情况下的共同选择倾向；或者说聚点就是参与人所选的最突出的那个解。

焦点均衡的两个例子。

例1.谢林曾经有过这样的实验：

“请选择下列数字中的一个，如果你们的选择相同，你们都将获胜。

”

71001326199555

实验结果是在41人中37人选择了前三项，7略微领先于100，13位于第三位。

可以看出，在这三项中，选择人数按数字排列的位置呈递降趋势。

在谢林的实验中，聚点在选择第一个数上形成，协调博弈的结果与被选择对象呈现的次序有关。

“如果问到在所有正数当中哪个是最明显独特的，或者什么样的选择规则将导致明确结果，人们将会受到这种事实的强烈影响：

即最普遍的选择是‘第一个’或‘最小’的那个正数。

”

谢林进行的其他一系列实验也验证了这种“位置优先性”：

在“正面”和“反面”二者之间，聚点在选择“正面”形成；在十六个方块列成的矩阵之间，聚点在选择第一个方块时形成。

从谢林的实验可以看出，在无差异的选择对象之间，被试往往倾向于选择位置处于第一个的对象。

另外的例子。

我们进行了一个关于协调博弈的实验：

请从‘2、7、8、9’这4个数字中选出一个数字，若你所选的数字为在座的同学中最多的人所选的，那么你将是获胜者，请解释你的选择。

该博弈作为南京大学文化素质课“逻辑与科学方法基础”选课学生考试题之一，即该实验是在考试中进行的（本题略带欺骗的性质，因为学生预先不知道该题做任何选择都给满分）。

实验总人数：

167人。

在实验之前，学生没有听说过该类测试，在实验中学生之间没有任何交流。

表1

数字

其他

人数

比例（%）

32.34%

8.98%

51.50%

4.19

2.99%%

图1

实验数据如附表1所示，有51.50%的人“不约而同”地选择了“8”。

按照题意，选“8”的人为胜出者。

再进一步考察选“8”的理由可以看出，选“8”的86个答案中，有69个是根据公共知识进行推理得出的。

他们的理由是：

“8”在中国人心中有特殊意义，人们对8代表“发”了解最为广泛，买车牌号码、电话号码等都喜欢带8的，寓发财发达之意、是国人喜欢的吉利数字、幸运发财之数，这是公共知识。

奥曼的相关均衡

定义。