博弈复习题及参考答案文档格式.docx

资源描述

博弈复习题及参考答案文档格式.docx

《博弈复习题及参考答案文档格式.docx》由会员分享，可在线阅读，更多相关《博弈复习题及参考答案文档格式.docx（36页珍藏版）》请在冰豆网上搜索。

博弈复习题及参考答案文档格式.docx

0=105＞100

肯定会选择开。

（c）如果成功的概率降低到0.3，那么因为这时候开的期望收益与不开的收益比较：

0.30×

300+0.70×

0=90＜100

因此会选择不开，策略肯定会变化。

（d）如果我是风险规避的，开的期望收益为：

0.9×

（0.35×

0）=0.9×

105=94.5＜100

因此也会选择不开。

（e）如果我是风险偏好的，那么因为开的期望收益为：

1.2×

0）=1.2×

105=126＞100

因此这时候肯定会选择开。

10、首先需要注意的是，在该博弈方的得益单位不同，逃犯得到的是增加或者减少的刑期（年），而看守得到的则是奖金（元），因此除非先利用效用概念折算成相同的单位，否则两博弈方的得益相互之间不能比较和加减。

直接采用单位不同的得益，该博弈的得益矩阵如下：

看守

路线一路线二

-10，1000

10，0

逃路线一

犯路线二

该博弈的扩展形表示如下：

根据上述得益矩阵和扩展形不难清楚，该博弈中两博弈方的利益是对立的。

虽然由于两博弈方得益的单位不同，相互之间得益无法相加，因此无法判断是否为零和博弈，但两博弈方关系的性质与猜硬币等博弈相同，也是对立的。

因此，该博弈同样没有两博弈方都愿意接受的具有稳定性的策略组合，两博弈方最合理的策略都是以相同的概率随机的选择路线。

补充习题：

1.判断下列叙述是否正确，并作简单分析。

a）囚徒的困境博弈中两个囚徒之所以会处于困境，无法得到较理想的结果，是因为两囚徒都不在乎坐牢时间长短本身，只在乎不能比对方坐牢的时间更长。

b）合作博弈就是博弈方采取互相合作态度的博弈。

参考答案：

a）错误。

结论恰恰相反，也就是囚徒的困境博弈中两囚徒之所以处于困境，根源正是因为两囚徒很在乎坐牢的绝对时间长短。

此外，我们已开始就假设两囚徒都是理性经济人，而理性经济人都是以自身的（绝对）利益，而不是相对利益为决策目标。

b）不正确。

合作博弈在博弈论中专门指博弈方之间可以达成和运用有约束力协议限制行为选择的博弈问题，与博弈方的态度是否合作无关。

2.博弈与游戏有什么关系？

现代博弈论和经济学中的博弈通常指人们在经济、政治、军事等活动中的策略选择，特别是在有各种交互作用、策略互动条件下的策略选择和决策较量。

游戏则是指日常生活中的下棋打牌、赌胜博彩，以及田径、球类等各种体育比赛。

因此博弈和游戏之间当然是有明显区别的。

但博弈和游戏之间其实也有重要的了解，因为博弈与许多游戏之间在本质特征方面有相同的特征：

（1）都有一定的规则；

（2）都有能用正或负的数值表示，或能按照一定的规则折算成数值的结果；

（3）策略至关重要；

（4）策略和利益又相互依存性。

正是因为存在这些共同的本质特征，因此从研究游戏规律得出的结论可用来指导经济政治等活动中的决策问题，或者把这些决策问题当作游戏问题研究。

因此博弈在一定程度上可以理解成就是游戏。

其实“博弈”的英文名称“Game”的基本意义就是游戏。

3.一个工人给一个老板干活，工资标准是100元。

工人可以选择是否偷懒，老板则选择是否克扣工资。

假设工人不偷懒有相当于50元的负效用，老板想克扣工资则总有借口扣掉60元工资，工人不偷懒老板有150元产出，而工人偷懒是老板只有80元产出，但老板在支付工资之前无法知道实际产出，这些情况使双方都知道的。

请问

a）如果老板完全能够看出工人是否偷懒，博弈属于哪种类型？

用得益矩阵或扩展形表示该博弈并作简单分析。

b）如果老板无法看出工人是否偷懒，博弈属于哪种类型？

用得益矩阵或扩展形表示并简单分析。

a）

由于老板在决定是否克扣工资欠可以完全清楚工人是否偷懒，因此这是一个动态博弈，而且是一个完全信息的动态博弈。

此外，由于双方都有关于得益的充分信息，因此只是一个完全且完美信息的动态博弈。

该博弈用扩展形表示如下：

根据上述得益情况可以看出，在该博弈中偷懒对工人总是有利的，克扣对老板也总是有利的，因此在双方都只考虑自己的利益最大化的情况下，该博弈的通常结果应该是工人偷懒和老板克扣。

b）由于老板在决定是否克扣工资欠无法清楚工人是否偷懒，因此该博弈可以看作静态博弈。

由于双方仍然都有关于得益的充分信息，因此是一个完全信息的静态博弈。

该博弈用得益矩阵表示如下：

老板

克扣

不克扣

工人

偷懒

40，40

100，-20

不偷懒

-10，110

50，50

其实，根据该得益矩阵不难得到与上述动态博弈相同的结论，仍然是工人会选择偷懒和老板会选择克扣。

这个博弈实际上与囚徒的困境是相似的。

第二章复习题

4，5，7，9，11，12

第二章参考答案

4、多重纳什均衡不会影响纳什均衡的一致预测性质。

这是因为一致预测性不是指各个博弈方有一致的预测，而是指每个博弈方自己的策略选择与自己的预测一致。

对博弈分析主要的不利影响是，当博弈存在多重纳什均衡，而且相互之间没有明确的优劣之分时，会造成预测分析的困难，影响以纳什均衡为核心的博弈分析的预测能力。

存在帕累托上策均衡、风险上策均衡、聚点均衡或相关均衡的可能性，并且博弈方相互之间有足够的默契和理解时，多重纳什均衡造成的不利影响会较小。

5、博弈方2

LCR

2，0

1，1

4，2

3，4

1，2

2，3

1，3

0，2

3，0

博T

弈M

方B

首先，运用严格下策反复消去法的思想，不难发现在博弈方1的策略中，B是相对于T的严格下策，因此可以把该策略从博弈方1的策略空间中消去。

把博弈方1的B策略消去后又可以发现，博弈方2的策略中C是相对于R的严格下策，从而也可以消去。

在下面的得益矩阵中相应策略和得益处划水平线和垂直线表示消去了这些策略。

博弈方2

两个博弈方各消去一个策略后的博弈是如下的两人2×

2博弈，已经不存在任何严格下策。

再运用划线或箭头法，很容易发现这个2×

2博弈有两个纯策略纳什均衡（M，L）和（T，R）。

方

由于两个纯策略纳什均衡之间没有帕累托效率意义上的优劣关系，双方利益有不一致性，因此如果没有其他进一步的信息或者决策机制，一次性静态博弈的结果不能肯定。

由于双方在该博弈中可能采取混合策略，因此实际上该博弈的结果可以是4个纯策略组合中的任何一个。

7、我们用反应函数法来分析这个博弈。

先讨论博弈方1的选择。

根据问题的假设，如果博弈方2选择金额s2（0≤s2≤10000），则博弈方1选择s1的利益为：

u（s1）=

因此博弈方1采用s1=1000—s2时，能实现自己的最大利益u（s1）=s1=1000—s2。

因此s1=1000—s2就是博弈方1的反应函数。

博弈方2与博弈方1的利益函数和策略选择是完全相似的，因此对博弈方1所选择的任意金额s1，博弈方2的最优反应策略，也就是反应函数是s2=1000-s1。

显然，上述博弈方1的反应函数与博弈方2的反应函数是完全重合的，因此本博弈有无穷多个纳什均衡，所有满足该反应函数，也就是s1+s2=10000的数组（s1，s2）都是本博弈的纯策略纳什均衡。

如果我是两个博弈方中的一个，那么我会要求得到5000元。

理由是在该博弈的无穷多个纯策略纳什均衡中，（5000，5000）既是比较公平和容易被双方接受的，也是容易被双方同时想到的一个，因此是一个聚点均衡。

9、

（1）第i个厂商的利润函数为：

πi=pqi-ciqi=（a-qi-qj）qi-ciqi

将利润函数对产量求导并令其为0得：

=a-qj-ci-2qi=0

解得两个厂商的反应函数为：

qj=（a-qj-ci）/2

或具体写成：

q1=（a-q2-c1）/2

q2=（a-q1-c2）/2

（2）当0＜ci＜a/2时，我们根据上述两个厂商的反应函数，直接求出两个厂商的纳什均衡产量分别为：

q1=

q2=

（3）当c1＜c2＜a，但2c2＞a+c1时,根据反应函数求出来的厂商2产量q2＜0。

这意味着厂商2不会生产，这时厂商1成了垄断厂商，厂商1的了优产量选择是利润最大化的垄断产量

q1=q*=

因此这种情况下的纳什均衡为[（a-c1）/2,0]。

11、

（1）两个候选人竞争时，纯策略纳什均衡为（0.5，0.5），即两个假选人都宣布自己是中间立场。

我们用直接分析法加以证明：

首先，如果一个候选人的立场是0.5而另一个候选人的立场不是0.5，那么不难证明有者将获胜而后者必然失败，因为根据投票原则前者得票比例将大于0.5，那么双方都有一半机会获胜。

因此对任意一个候选人来说，都是不管对方选择的立场是否为0.5，0.5都是自己的正确选择，也就是说0.5都是上策。

因此（0.5，0.5）是本博弈的一个上策均衡，当然也是纳什均衡。

事实上，即使两个假选人开始时没有立即找到最佳立场0.5，他也会通过边竞争边学习很快调整到该纳什均衡策略。

因为当两个候选人的立场都不在0.5时，谁更靠近0.5谁选票就多，观察到这一点，两个候选人必然都会向0.5靠拢，直到最后都取0.5的立场。

当两个候选人都选择0.5时，各自都能得到一半选民的支持，谁能够取胜往往取决于双方竞选立场以外的东西，例如候选人的个人魅力和演说才能等。

（2）三个候选人时问题比较复杂。

因为当三个候选人的立场都处于中点附近位置时，立场夹在其他两个候选人之间的候选人只能获得很少的选票，从而他（或她）有转变成比“左”倾者更“左”倾，或比右倾者更右倾立场的动机。

这时候三个候选人在中点附近处于一种不稳定的平衡。

（0.5±

δ，0.5±

ε，0.5±

ξ），其中δ,ε和ξ是小正数。

如果考虑到现实中竞选者的立场不可能由一维数学坐标精确描述，选民对候选立场差别的分辨能力也不可能很精细，那么当候选人的立场堵接近中点时，选民很难识别究竟哪个候选人偏右倾或“左”倾一些，因此三个候选人的立场都接近中点时可理解为是相同的。

这样，三个候选人与两个候选人竞选的纳什均衡策略可以看成是相同的，即都选择（0.5，0.5，0.5）。

三个候选人时在数学上还可能求出其他纯策略纳什均衡。

如策略组合（0.4，0.6，0.8）就是其中一个。

因为当三个候选人分别选择这些立场时，每项悠悠民选人没有改变自己立场的动机，因为该策略组合的结果是他取胜，而第二和第三个候选人则单独改变自己的立场并不能改善自己的命运，无论只是稍微改变自己的立场，还是与其他候选人的相对立场发生逆转，都没有限胜的机会。

因此根据纳什均衡的定义，这是一个纯策略的纳什均衡。

类似的熏略组合还有许多。

不过，虽然在数学上这些纳什均衡完全符合纳什均衡的定义，但是它们在现实选举问题中的意义却并不大，因为这种纳什均衡本身只是弱均衡（部分博弈方改变策略不损害自己的利益），而且部分博弈方（第二、第三个候选人）属于典型的“破坏者”，他们的策略改变不影响自己的利益，但却会对其他博弈方的利益产生决定性的影响，因此这些纳什均衡其实是不稳定的，不会是现实中的均衡结果。

上述博弈模型不仅在政治选举问题中有意义，在分析经济经营活动中的选址和产品定位等问题方面也非常有用。

读者可以自行找一些例子进行分析。

12、在纳什均衡分析的基础上，再进一步考虑运用其他均衡概念或分析方法，如风险上策均衡等进行分析。

首先，很容易根据划线法等找出本博弈的两个纯策略纳什均衡（U，R）和（D，L）。

本博奕还有一个混合策略纳什均衡，即两博弈方各自以2/3、1/3的概率在自己的两个策略U、D和L、R中随机选择。

但本博弈的两个纯策略纳什均衡中没有帕累托上策均衡，两个博弈方各偏好其中一个，而且另一个策略组合（U，L）从整体利益角度优于这两个纯策略纳什均衡，因此博弈方很难在两个纯策略纳什均衡的选择上达成共识。

混合策略纳什均衡的效率也不是很高，因为有一定概率会出现（D，R）的结果。

根据风险上策均衡的思想进行分析，当两个博弈方各自的两种策略都有一半可能性被选到时，本博弈的两个纯略纳什均衡都不是风险上策均衡，而策略组合（U，L）却是风险上策均衡。

因为此时博弈方1选择U的期望得益是4，选择D的期望是益是3.5，博奕方2选择L的期望得益是4，选择R的期望得益是3.5。

因此当两个博弈方考虑到上述风险因素时，他们的选择将是（U，L），结果反而比较理想。

如果博弈问题的基本背景支持，对本博弈还可以用相关均衡的思想进行分析。

读者可自己作一些讨论。

1.判断下列表述是否正确，并作简单分析：

a）纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。

b）如果以博弈有两个纯策略纳什均衡，则一定还存在一个混合策略均衡。

c）上策均衡一定是帕累托最优的均衡吗？

并说明哪一个均衡更稳定些。

只要任一博弈方单独改变策略不会增加得益，策略组合就是纳什均衡了。

单独改变策略只能得到更小得益的策略组合是严格纳什均衡，是比纳什均衡更强的均衡概念。

b）正确。

这是纳什均衡的基本性质之一——奇数性所保证的。

c）不正确。

囚徒的困境博弈中的（坦白，坦白）就是上策均衡（同时也是纳什均衡），但该均衡显然不是帕累托最优的，否则就不会称其为囚徒的困境了。

2.下面的得益矩阵表示一个两人静态博弈。

问当a、b、c、d、e、f、g和h满足什么条件时，该博弈：

a）存在严格上策均衡；

b）可以用严格下策反复消去法简化或找出博弈的均衡；

c）存在纯策略纳什均衡。

博弈方2

博弈方1

a，b

c，d

e，f

g，h

a）严格上策均衡是由各个博弈方的严格上策组成的策略组合。

对于博弈方1，如果a>

e且c>

g，则U是相对于D的严格上策；

如果a<

e且c<

g，则D是相对于U的严格上策

。

对于博弈方2，如果b>

d且f>

h，则L是相对于R的严格上策；

如果b<

d且f<

h，则R是相对于L的严格上策。

上述两个博弈方各自有两种严格上策的相对得益情况的组合，总共可能构成四种严格上策均衡。

b）只要出现a>

g、a<

g、b<

h或b<

h四种情况中的任何一种，就可以用严格下策反复消去法简化或直接求出博弈的均衡，因为这个时候D、U、R、L分别是相应博弈方相对于各自另一策略的严格下策。

c）纯策略纳什均衡是个博弈方单独改变策略都无利可图的策略组合。

在上述博弈中，只要满足a≥e且b≥d、c≥g且d≥b、e≥a且f≥h，g≥c且h≥f四种情况中的任何一种，就存在纯策略纳什均衡。

3.如果双寡头垄断的市场需求函数是p（Q）=a-Q，两个厂商都无固定生产成本，边际成本为相同的c。

如果两个厂商都只能要么生产垄断产量的一半，要么生产古诺产量，证明这是一个囚徒困境型的博弈。

根据市场需求函数p（Q）=a-Q和厂商的生产成本，不难计算出该市场的垄断产量为qm=（a-c）/2，双寡头垄断的古诺产量（纳什均衡产量）为qc=（a-c）/3。

两个厂商都生产垄断产量的一半（a-c）/4时，各自的利润为

两个厂商都产生古诺产量（a-c）/3时，各自的利润为：

若一个厂商产生垄断产量的一半（a-c）/4，，另一方生产古诺产量（a-c）/3，前者利润为：

后者利润为：

因此上述博弈用下列得益矩阵表示就是：

企业乙

qm/2

企业甲

（a-c）2/8，（a-c）2/8

5（a-c）2/48，5（a-c）2/36

5（a-c）2/36，5（a-c）2/48

（a-c）2/9，（a-c）2/9

分析这个得益矩阵可以看出，因为（a-c）2/8<

5（a-c）2/36，5（a-c）2/48<

（a-c）2/9，因此qm/2对两个厂商都是相对于qc的严格下策。

所以该博弈唯一的纳什均衡，也是上策均衡，是（qc,qc）。

这个纳什均衡的双方得益（a-c）2/9，显然不如双方都采用qm/2的得益（a-c）

2/8，因此这个博弈是一个囚徒困境型的博弈。

4.试用反应函数法寻找博弈的纯策略纳什均衡及混合策略的纳什均衡：

博弈方乙

红黑

3，1

0，0

1，4

博红

弈黑

方

甲

（答案略）

第三章复习题

1，3，4，6

第三章参考答案

1、子博弈完美纳什均衡即动态博弈中具有这样特征的策略组合；

它们不仅在整个博弈中构成纳什均衡，而且在所有的子博弈中也都构成纳什均衡。

在动态博弈分析中引进子博弈完美纳什均衡概念的原因在于，动态博弈中各个博弈方的行为有先后次序，因此往往会存在相机抉择问题，也就是博弈方可能在博弈过程中改变均衡策略设定的行为，从而使得均衡策略存在可信性问题，而且纳什均衡无法消除这种问题，只有子博弈完美纳什均衡能够解决它。

子博弈完美纳什均衡一定是纳什均衡，但纳什均衡不一定是子博弈完美纳什均衡。

因此一个动态博弈的所有子博弈完纳什均衡是该博弈所有纳什均衡的一个子集。

3、博弈方的理性问题对动态博弈分析的影响肯定比对静态博弈分析的影响更大。

虽然博弈方的理性问题，博弈方实际理性与博弈分析假设的有差距，对博弈分析的影响在静态博弈分析中也存在，教材第二章多次提到了这个问题，但博弈方的理性问题对动态博弈分析的影响肯定更大。

因为以子博弈完美纳什均衡和逆推归纳法为核心的动态博弈分析，对博弈方理性的要求比静态博弈的纳什均衡分析的更高，而且博弈方理性的缺陷还会引出理性判断的动态调整等更复杂的问题。

例如某个博弈方由理性问题在某时刻“犯错误”，采用偏离子博弈完美纳什均衡的行为、路径，这时候后面阶段行为博弈方的判断和行为选择就会有困难。

这种困难是动态博弈所特有的，在静态博弈分析中并不存在。

4、括号中的第一个数字代表乙的得益，第二个数字代表甲的得益，所以a表示乙的得益，而b表示甲的得益。

在第三阶段，如果a＜0，则乙会选择不打官司。

这时逆推回第二阶段，甲会选择不分，因为分的得益2小于不分的得益4。

再逆推回第一阶段，乙肯定会选择不错，因为借的最终益0比不借的得出终得益1小。

第三阶段，如果a＞0，则乙轮到选择的时候会选择打官司，此时双方得益是（a，b）。

逆推回第二阶段，如果b＞2，则甲在第二阶段仍然选择不分，这时候双方得益为（a，b）。

在这种情况下再逆推回第一阶段，那么当a＜1时乙会选择不借，双方得益（1，0），当a＞1时乙肯定会选择借，最后双方得益（a，b）。

在第二阶段如果b＜2，则甲会选择分，此时双方得益为（2，2）。

再逆推回第一阶段，乙肯定选择借，因为借的得益2大于不借的得益1，最后双方的得益（2，2）。

根据上述分析我们可以看出，该博弈比较明确可以预测的结果有这样几种情况：

（1）a＜0，此时本博弈的结果是乙在第一阶段不愿意借给对方，结束博弈，双方得益（1，0），不管这时候b的值是多少；

（2）0＜a＜1且b＞2，此时博弈的结果仍然是乙在第一阶段选择不错，结束博弈，双方得益（1，0）；

（3）a＞1且b＞2，此时博弈的结果是乙在第一阶段选择借，甲在第二阶段选择不分，乙在第三阶段选择打，最后结果是双方得益（a，b）；

（4）a＞0且b＜2，此时乙在第一阶段会选择借，甲在第二阶段会选择分，双方得益（2，2）。

要本博弈的“威胁”，即“打”是可信的，条件是a＞0。

要本博弈的“承诺”，即“分”是可信的，条件是a＞0且b＜2。

注意上面的讨论中没有考虑a=0、a=1、b=2的几种情况，因为这些时候博弈方的选择很难用理论方法确定和预测。

不过最终的结果并不会超出上面给出的范围。

6、首先，设三个厂商的产量分别为q1、q2和q3.三个厂商的利润函数为：

π1=（100—q1—q2—q3）q1—2q1

π2=（100—q1—q2—q3）q1—2q2

π3=（100—q1—q2—q3）q1—2q3

根据逆推归纳法，先分析第二阶段是厂商3的选择。

将厂商1的利润函数对其产量求偏导数并令其为0得：

=100—q1—q2—2q3—2=0

因此厂商3的反应函数为：

q3=（98—q1—q2）/2

再分析第一阶段是厂商1和厂商2的决策。

先把厂商3的反应函数代入厂商1和厂商2的利润函数得：

π1=（100—q1—q2—q3）q1—2q1=

π2=（100—q1—q2—q3）q2—2q2=

分别对q1和q2求偏导数并令为0得：

-q1=0

-q2=0

联立两个方程可解得q1=q2=98/3。

再代入厂商3的反应函数得q3=（98-q1-q2）/2=98/6。

把三个厂商产量代入各自的利润函数，可得三个厂商的利润分别为4802/9、4802/9和2401/9。

1.判断下列论述是否正确，并进行分析：

a）在动态博弈中，因为后行为的博弈方可以先观察对方行为后再选择行为，因此总是有利的。

b）逆推归纳法并不能排除所有不可置信的威胁。

c）如果动态博弈的一个策略组合在均衡路径上是纳什均衡，就构成了该动态博弈的一个子博弈完美纳什均衡。

a）不正确。

实际上动态博弈中先行为的博弈方往往有先行优势，因此常常是先行为的博弈方更有利而不是后行为的博弈方有利。

展开阅读全文