博弈论部分内容剖析Word文档格式.docx

资源描述

博弈论部分内容剖析Word文档格式.docx

《博弈论部分内容剖析Word文档格式.docx》由会员分享，可在线阅读，更多相关《博弈论部分内容剖析Word文档格式.docx（21页珍藏版）》请在冰豆网上搜索。

博弈论部分内容剖析Word文档格式.docx

有时，要引入一个特殊的参与者，自然（nature）。

比如，一个人猜硬币，可以看成是你在和自然或上帝博弈。

（2）行动集（actionset）：

规定每个参与者可以采取的行动的集合。

比如，猜硬币博弈，一个人有两个行动可供选择：

正面，反面。

如果是两个硬币，则行动集中的行动增加一倍：

（正面，正面），（正面，反面），（反面，正面），（反面，反面）。

（3）时序（playingsequence）：

游戏规则中规定的每个参与者决策的先后次序。

一般来说，在静态博弈中，局中人同时行动；

在动态博弈中，局中人有行动的次序。

（4）策略（strategies）：

策略是局中人在一局博弈中的一套完整的行动计划。

策略与行动不同，策略包括信息。

比如囚徒困境，每个局中人的行动只有两种：

坦白，抵赖。

但策略就包括：

（坦白，抵赖）、（抵赖，抵赖）、（抵赖，坦白）、（坦白，坦白）四种。

尽管最后的均衡是（坦白，坦白），但策略有四种。

策略告诉局中人，在每一种可预见的情况下选择什么行动。

（5）报酬（支付、收益）（payoffs）：

局中人在不同情况下所得到的效用。

（6）信息（information）：

局中人决策所依据的信息。

信息分为完全信息和不完全信息。

在完全信息中，局中人在决策时知道在此之前的全部信息，并且局中人A知道局中人B知道全部信息，并且局中人A知道局中人B知道局中人A知道全部信息，如此以至无穷。

比如下棋。

在不完全信息中，局中人不知道与博弈有关的全部信息。

比如猜“石头——剪刀——布”的游戏。

（7）结果（outcome）：

结果是博弈分析者所感兴趣的所有东西，或者说，博弈分析者（建模者）从行动、支付和其他变量中所挑选出来的他感兴趣的要素的组合。

比如，均衡战略组合，均衡行动组合，均衡支付组合等。

（8）均衡（equilibria）：

均衡是所有局中人选取的最佳策略所组成的策略组合。

在上述要素中，局中人、行动集、时序、策略、报酬和信息规定了一局博弈的游戏规则。

下面以囚徒困境为例，分析以上各个要素。

囚徒乙

坦白抵赖

-6，-6

0，-10

-10，0

-1，-1

坦白

囚徒甲

抵赖

在囚徒困境中，

局中人：

囚徒A和囚徒B；

行动集：

每个囚徒的行动集是一样的，都是（坦白，抵赖）。

时序：

同时。

策略：

每个囚徒的策略集也是一样的，都是（坦白，抵赖）、（抵赖，抵赖）、（抵赖，坦白）、（坦白，坦白）。

报酬：

（坦白，抵赖）=（0，-10）

（抵赖，抵赖）=（-1，-1）

（抵赖，坦白）=（-10，0）

（坦白，坦白）=（-6，-6）

信息：

每个囚徒都知道上述报酬，并且也知道对方知道上述报酬。

但每个囚徒在决策时不知道对方是怎么决策的。

因为他们是同时决策的。

而且只博弈一次。

结果：

有四种可能的结果。

结果1：

囚徒A想，囚徒B可能会选择抵赖，因为这是对双方来说最好的结果。

囚徒A是个无赖，他乘人之危，不顾同伙的命运，选择了坦白，这样，得到的结果是（坦白，抵赖）。

结果2：

结果1中的囚徒B和囚徒A刚好倒过来，则得到的结果是（抵赖，坦白）。

结果3：

囚徒A是个照顾朋友的人，他也选择抵赖，这样，得到的结果是（抵赖，抵赖）。

结果4：

囚徒A和B互相不信任，则结果是（坦白，坦白）。

均衡：

（坦白，坦白）。

4、更多的博弈例子

在上学期的教学中，介绍了“囚徒困境”博弈。

现在再介绍几个著名的博弈。

（1）性别战（battleofthesexes）

设有一对恋人，男的喜欢看足球，女的喜欢看芭蕾，但两人更愿意在一起。

女

足球芭蕾

2，1

0，0

1，2

足球

男

芭蕾

在这个博弈中，有两个均衡（足球，足球）和（芭蕾，芭蕾）。

但完全可能出现（足球，芭蕾）或（芭蕾，足球）的结果。

（2）智猪博弈（boxedpigs）

设有两头猪，大猪和小猪。

猪圈的一头是食槽，另一头是按键。

按键的成本（劳动）为2。

如大猪先到，吃9个单位，小猪吃1个单位；

如小猪先到，吃4个单位，大猪吃6个单位；

如同时到，大猪吃7个单位，小猪吃3个单位。

小猪

按等待

5，1

4，4

9，-1

按

大猪

等待

均衡的结果是：

（按，等待）。

这个博弈可应用到（大股东，小股东），（庄家，散户），（大企业，小企业），（富人，穷人），（领导，下属）等。

（3）斗鸡博弈（chickengame）

设有两人同时走到一条独木桥的中央。

进退

-3，-3

2，0

0，2

进

退

这个博弈也有两个均衡：

（进，退）、（退，进）。

冷战时期，美苏各占地盘，而不是在同一块地盘上争夺。

夫妻矛盾。

警察与游行队伍。

“两军相逢勇者胜”。

政治上、军事上的强硬派往往能够出奇制胜，因为他们敢于“血战到底”。

但如果对方不相信你是真正的勇士，或者，如果对方也是强硬派，则可能“两败俱伤”。

毛泽东的“敌进我退，敌退我进”游击战术。

这是弱的时候的战略，后来，强大了，毛泽东又提出了“人不犯我，我不犯人；

人若犯我，我必犯人”的战略。

表述如下：

敌

犯不犯

0，-3

-3，0

1，1

犯

我

不犯

即，两个均衡：

（犯，犯）、（不犯，不犯）。

（4）市场进入阻挠（entrydeterrance）

设有两家企业，一家已在市场上，另一家想进入这个市场。

进入成本为10。

垄断利润为200，寡头利润为100。

在位者

默许斗争

40，50

0，200

进入

进入者

不进入

（进入，默许）、（不进入，斗争）。

注意：

（不进入，默许）虽然支付与（不进入，斗争）一样，但不是均衡。

（5）协调博弈（coordinationgame）

设甲乙两人去狩猎，如果合作捕杀老虎，则每人得到3；

如合作捕杀野牛，则每人得到2；

如不合作，则什么也得不到。

成本（劳动）为1。

乙

虎牛

2，2

虎

甲

牛

该博弈有两个均衡：

（虎，虎）、（牛，牛）。

一般来说，他们先碰上什么，就会合作去捕杀什么。

假如虎和牛同时出现，会怎样呢？

甲乙两人如果可以协商，则会选择（虎，虎）。

但如果不能协商，则结果会是，看到对方去捕杀什么，就跟进。

如果把上述博弈改写一下，就得到所谓的“危险的协调”。

乙

-1000，-1

从理论上说，上面博弈的两个均衡解（A，A）和（B，B）中，虽然后者优于前者，但由于对于甲来说，一旦受到乙的欺骗，则损失惨重。

所以，对于甲来说，更可能选择的是A。

（6）诺曼底登陆

这是美国普林斯顿大学（现代博弈论奠基者JohnF.Nash获得博士学位和工作的地方，纳什后来得了精神分裂症，普林斯顿宽容的环境以及妻子的爱护使纳什的病情奇迹般地好转。

）1981年的博弈论课程中的一道练习题，模拟诺曼底登陆。

我方2个师的兵力，敌方3个师的兵力，只能整师调动。

有两条进攻路线。

我方兵力超过敌方，则获胜；

我方兵力小于或等于敌方兵力，则我方负。

问如何决策？

1944年，艾森豪威尔为总司令的盟国远征军经过近一年的准备，在英国集结了强大的军事力量，准备横渡英吉利海峡，在欧洲开辟第二战场。

当时可供盟军选择的登陆地点有两个，一是塞纳河东岸的布隆涅——加来——敦刻尔克一带，这里海峡最狭窄的地方只有几十公里，是一个理想的登陆地点；

另一个地点是塞纳河西岸的诺曼底半岛，这里海面宽阔，渡海时间较长，容易被敌人发现。

当时德军的总兵力是58个师，比盟军略多。

所获情报表明，德军在布隆涅一带的防守兵力多于在诺曼底的防守兵力，盟军拟以诺曼底为登陆点。

诺曼底登陆战本来是计划在6月5日打响的，但遇上了暴风雨。

盟军参谋部预测在6月6日有一段时间的好天气，艾森豪威尔当机立断，决定冒险抓住这个机会，发起进攻。

6月6日凌晨两点，盟军的2个伞兵师空降道德军的防线后面，接着，飞机和军舰猛烈轰击德军的防御阵地，凌晨6点半，第一批地面部队登陆。

现在回到普林斯顿的博弈论练习题。

敌方有四种方案：

A、三个师都驻守甲方向；

B、反过来，三个师都驻守乙方向；

C、两个师驻守甲方向，一个师驻守乙方向；

D、反过来，一个师驻守甲方向，两个师驻守乙方向。

我方有三种方案：

a、两个师从甲方向进攻；

b、反过来，两个师从乙方向进攻；

c、兵分两路，两个方向各派一个师进攻。

下面，我们用“+”表示获胜，用“-”表示失败，用上面大家熟悉的矩阵方式列于下面：

敌方

ABCD

-,+

+,-

我方b

在上面的对策矩阵中，“-”表示“负”，“+”表示“胜”。

现在我们来分析敌方的策略选择。

A方案不如C方案，B方案不如D方案。

所以，敌方不会选择A、B方案，于是，剔除掉这两个方案，得到下面的对策矩阵：

在剩下的对策矩阵中，再分析我方的策略选择。

c方案比a、b方案都要差，所以，要将c方案剔除，得到下面的对策矩阵：

我方

所以，最后的均衡是：

敌方不可能把所有兵力驻守在一个方向，我方也不可能兵分两路进攻，在两个进攻方向上，如果我方攻在敌方的薄弱之处，则我方取胜，反之，若攻在敌方的强大之处，则我方失败。

因此，信息就非常重要。

不仅信息重要，而且，信号传递、双方统帅的性格等因素也非常重要。

有时，佯攻甲方向实攻乙方向；

有时，给人佯攻甲方向而实际上就是进攻甲方向。

等等。

对于企业、个人的发展来说，该博弈也有参考意义。

对于弱势方来说，一般是集中时间、精力和财力发展某一个方向，否则，只有失败。

二、优势策略与纳什均衡

1、优势策略

在囚徒困境中，不管乙的策略是坦白还是抵赖，甲的最优策略都是坦白；

反之亦然。

这种策略就叫优势策略（dominantstrategy）。

那么，两个囚徒能不能暗自订立“攻守同盟”呢？

问题是，没有一个会相信对方的承诺是可信的。

这叫“不可置信承诺”。

黑社会采取以下办法让承诺变得可以置信。

黑社会对于供出同伙的人，往往采取“格杀”的惩罚。

这样，囚徒困境就改写为：

-∞，-∞

-∞，-10

-10，-∞

这时，（抵赖，抵赖）就成了优势策略。

2、纳什均衡（NashEquilibrium）

给定其他参与人的战略s-i*，参与人i的战略si*是优的，如果对于所有的参与人和参与人的所有的策略来说，下式成立：

ui（si*，s-i*）≥ui（si，s-i*）

如果不等式严格成立，则成为严格优势策略。

3、优势策略与纳什均衡

优势策略肯定是纳什均衡，但纳什均衡不一定是优势策略。

在性别战、斗鸡博弈等博弈中，没有优势策略，但有两个纳什均衡。

4、博弈求解

一种方法是剔除劣势策略。

比如在诺曼底登陆博弈中的做法。

但经常没有严格劣势的策略，比如性别战。

另一种方法是划线法：

取每一种策略局中人最大的收益，在其支付下划线（或画圈），如果一个格中的两个支付都被划上线，则这个策略就是一个均衡。

复习上面讲过的博弈，用划线法求解。

5、博弈的分类

（1）静态（static）与动态（dynamic）

静态是指局中人同时决策或同时行动（simultaneous-move）。

同时决策或同时行动不是指的时间上完全一致，而是指每个参与者不知道其他参与者的决策或行动。

比如囚徒困境，也许两个囚徒的坦白时间是不同的，但互相不知到对方是否坦白，所以是同时行动。

再比如工程招标，不同的投标者投标的时间也许不同，但只要互相不知道对方的报价，则是同时行动。

如果局中人的决策或行动按照规则是有先后次序的（sequential-move），则是动态博弈。

后面要进行简单介绍。

（2）完全信息（completeinformation）与不完全信息（incompleteinformation）

完全信息是指各种策略组合下局中人的支付函数是所有局中人的共同知识（commonknowledge）。

（3）完美信息（perfectinformation）与不完美信息（imperfectinformation）

完美信息是指局中人完全清楚到他决策时为止所有局中人的所有决策，或者说，了解博伊进行的历史。

（4）博弈的分类

博弈可分为以下几种基本的大类：

完全信息静态博弈（staticgamesofcompleteinformation）

完全信息动态博弈（dynamicgamesofincompleteinformation）

不完全信息静态博弈（staticgamesofcompleteinformation）

不完全信息动态博弈（dynamicgamesofincompleteinformation）

如果把信息完美与否考虑进来，则有：

完全且完美信息博弈（gamesofcompleteandperfectinformation）

完全但不完美信息博弈（gamesofcompletebutimperfectinformation）

不完全但完美信息博弈（gamesofincompletebutperfectinformation）

不完全且不完美信息博弈（gamesofincompleteandimperfectinformation）

只有动态博弈才考虑完美或不完美信息。

注意，在英语中，（不）完全信息博弈与（不）完美信息博弈的表达有细微的区别：

gamesofcompleteinformation与gameswithperfectinformation。

另外，根据局中人支付的情况，又有以下分类：

零和博弈（zero-sumgame）和非零和博弈（non-zero-sumgame）。

常和博弈（constant-sumgame）和变和博弈（variable-sumgame）。

做一定的数学处理，可以把常和博弈处理成零和博弈。

变和博弈包含一个很重要的哲理：

双赢（win-win）。

当然，也有共亏的局面，如囚徒困境，这也是一个重要的课题：

个人理性与集体理性的矛盾。

三、动态博弈与重复博弈

1、动态博弈

前面讨论的博弈有两个共同特点：

一，只博弈一次，博弈结束；

二，博弈双方同时行动。

这是静态博弈。

在动态博弈中，博弈双方进行多次博弈。

比如下棋，你下一步，我下一步，这就是一个动态博弈。

动态博弈一般采用博弈树的形式表达，如以下博弈：

“利益一致”的“抓钱博弈”

“你死我活”的“抓钱博弈”

“温和对抗”的“抓钱博弈”

动态博弈采用“逆向归纳法”求解。

逆向归纳法（backwardinduction）：

也称倒推法（rollbackmethod），从博弈的最后一个决策阶段开始分析，确定该阶段局中人的策略选择；

然后再确定前一阶段局中人的策略选择，一直推到起始点。

现在我们来分析前面的“抓钱博弈”。

在利益一致的博弈中，第4阶段由乙决策：

乙如果拿，只能得到4，而如果不拿，则进入下一结点，得到支付5，所以乙选择不拿。

到第3阶段，由甲来决策，同样，甲会选择“不拿”。

所以，该博弈的均衡是：

在前面几个阶段，甲乙都选择“不拿”，直到进入最后的结点，每人得到5的支付。

在“你死我活”的博弈中，在第4阶段，乙如果选择不拿，则进入最后的结点，得到0的支付；

而如果选择拿，则得到8的支付，于是，选择拿，博弈结束。

到第3阶段，甲知道乙会在下一阶段会选择拿，因此，自己在本阶段的最有选择也是拿，一直倒推到起点。

本博弈的均衡是：

甲一开始就选择拿，博弈结束。

在温和对抗的博弈中，第4阶段由乙选择，若选择拿，得到支付5，若选择不拿，得到支付4，所以，乙选择拿，博弈结束。

到第3阶段，甲知道乙在第4阶段会选择拿，甲若选择不拿，只能得到3，而选择拿，则得到4。

所以，甲的选择也是拿，博弈结束。

本博弈的均衡也是：

2、重复博弈

重复博弈（repeatedgame）是指同一博弈重复多次。

一次博弈中存在的欺骗，可能在重复博弈中消除。

典型的例子是游贩和坐摊的区别。

游贩与买者之间因为是一次性博弈，往往采用欺骗的办法；

而坐摊与买者之间是重复博弈，所以，能够诚信经商。

重复博弈之所以能够消除欺骗，是因为存在报复。

比如坐摊，买者会采取报复手段：

你如果卖了假冒伪劣商品给我，那我，一，会回来找你的麻烦，要求赔偿，甚至告发你的不正当行为；

二，我今后再也不到你这里买东西。

现在以囚徒困境为例，分析无穷次重复博弈的结果。

所谓无限次重复，是指局中人不知道会重复多少次，而不一定是真正的无穷多次。

两个囚徒都知道，大家保持沉默（抵赖）是集体利益最大的选择。

但正如前面所说的，如果只是一次性博弈，则（坦白，坦白）是均衡的结果。

我们选择囚徒困境的另一种情况来说明比较好，因为严格的囚徒困境会限制博弈的次数，因为一个人的生命是有限的。

比如抛硬币博弈，如果甲乙两人都出正面，则1人得到1元的奖赏，如果两人都出反面，则1人得到3元的奖赏，如果不同，则出正面的得到4元的奖赏，出反面的没有奖赏。

得到下面的博弈矩阵：

正面反面

4，0

0，4

3，3

正面

反面

双方都知道出反面最好，所以，假定开始的时候大家都承诺要出反面。

但这样的承诺是否可信呢？

如果只是一次行博弈，则这样的承诺是不可信的，因为每个人有改变策略的驱动。

现在是无穷多次重复博弈，双方都知道，如果对方发现我上次出正面，那他就不会相信我的话了，今后就会出正面进行报复。

也就是说，我只能占一次便宜；

而对方也只会吃一次亏。

从长远利益考虑，我的最优选择是信守承诺，出反面。

假定是n次博弈，局中人的计算是：

如果我前面m次出反面，第m+1次违背承诺出正面，那么我的支付是3m+（n-m），而如果一直出反面，则支付是3n，显然3n>

3m+（n-m）。

所以，我会选择一直出反面。

当然，如果知道n的确切数值，则狡猾的局中人会在最后一次改变策略，出正面，希望得到3（n-1）+4的支付，因为3（n-1）+4>

3n。

但问题是，对方也不是笨蛋。

所以，只有当n为不确切的数值时，双方才会信守承诺。

四、信息经济学的基本问题

1、信息不对称（asymmetricinformation）

信息不对称：

一方拥有的信息对方不知道。

比如说，经理人是否努力工作，经理人自己最清楚，老板不一定清楚。

所以，设计机制或合约时，一定要以可证实的变量为基础。

比如，工作是否努力是不可证实的。

至于目前各单位采用的许多变量，比如“政治上与党中央保持高度一致”、“廉洁奉公”、“努力学习”等等，都是不可证实的变量。

因此，靠这些条件来考核，是不能真正考核出优劣的。

为什么会出现“会做的不如会写的，会写的不如会编的，会编的不如会唱的，会唱的不如会吹的”这样的结果？

就是因为设计机制或合约时所依据的变量是不可证实的。

相对于“努力工作”来说，“工作业绩”（如销售收入、利润、成本）等是可证实的。

高校排名，评价的指标中主要是可证实的变量，如资产规模、教授数、学术论文、论著、科研经费等。

设想一下，如果是采取一些不可证实的变量来排名，则恐怕谁也不服谁。

同样，教师不能完全以是否努力学习来评判学生，而需要采用成绩。

这就是为什么不论哪个国家都要进行考试的原因。

在信息不对称的情况下，主要有道德风险、逆向选择、信号传递等基本问题。

moralhazard）

亚当•斯密（1776）在《国富论》中就已经意识到了道德风险的存在，只是没有采用这样一个名词。

“无论如何，由于这些公司的董事们是他人钱财而非自己钱财的管理者，因此很难设想他们会像私人合伙者照看自己钱财一样地警觉，所以，在这类公司事务的管理中，疏忽和浪费总是或多或少地存在的。

”

道德风险是指从事经济活动的人在最大限度地增进自身效用时作出不利于他人的行动。

道德风险存在于信息不对称、合同不完备、合同实施成本过大等情况下。

由于一个人拥有私人信息，就占有信息优势，从而可以找机会偷懒或不负责任。

在委托-代理问题中

展开阅读全文