博弈考试资料.ppt

资源描述

博弈考试资料.ppt

《博弈考试资料.ppt》由会员分享，可在线阅读，更多相关《博弈考试资料.ppt（59页珍藏版）》请在冰豆网上搜索。

博弈考试资料.ppt

期末考试期末考试考试形式：

考试形式：

开卷（满分开卷（满分9090分）或闭卷（满分分）或闭卷（满分100100分）分）考试时间：

考试时间：

第第1111周晚上上课时间周晚上上课时间考试地点：

考试地点：

上课课室上课课室考试内容：

考试内容：

在下面的六个内容中自选两个或以上的内容在下面的六个内容中自选两个或以上的内容写一篇学习心得，要求写一篇学习心得，要求800800字以上。

字以上。

11、囚徒困境、囚徒困境22、纳什均衡、纳什均衡33、理性假设、理性假设44、逆向归纳法、逆向归纳法55、重复博弈、重复博弈66、触发策略、触发策略第二章第二章囚徒困境与纳什均衡囚徒困境与纳什均衡一、经典案例一、经典案例囚徒困境囚徒困境二、现实生活中的二、现实生活中的“囚徒困境囚徒困境”三、纳什均衡与优势策略三、纳什均衡与优势策略本章内容本章内容一、经典案例一、经典案例囚徒困境囚徒困境经典案例经典案例囚徒困境囚徒困境两个嫌疑犯（甲和乙）作案后被警察抓住，两个嫌疑犯（甲和乙）作案后被警察抓住，隔离隔离审讯；警审讯；警方的政策是方的政策是“坦白从宽，抗拒从严坦白从宽，抗拒从严”：

p如果两人都坦白则各判如果两人都坦白则各判88年；年；p如果一人坦白另一人不坦白，坦白的放出去，不坦白的如果一人坦白另一人不坦白，坦白的放出去，不坦白的判判1515年；年；p如果都不坦白则各判年。

如果都不坦白则各判年。

这两个囚犯该怎么办呢？

是选择互相合作（不坦白）还是这两个囚犯该怎么办呢？

是选择互相合作（不坦白）还是互相背叛（坦白）？

互相背叛（坦白）？

1950年，斯担福大学客座教授、数学家年，斯担福大学客座教授、数学家图克图克（Tucker）为了形象地说明为了形象地说明博弈过程，构造了著名的博弈过程，构造了著名的“囚徒困境囚徒困境”（prisonersdilemma）模型。

）模型。

经典案例经典案例囚徒困境囚徒困境（15，0）（0，15）（1，1）乙乙甲甲不坦白不坦白不坦白不坦白坦白坦白坦白坦白（8，8）囚徒困境的收益矩阵囚徒困境的收益矩阵p两人都作出招供的选择，是其优势策略，两人都作出招供的选择，是其优势策略，最符合个体理性的选择。

但收益却未必最最符合个体理性的选择。

但收益却未必最大，这就是大，这就是“困境困境”。

p照博弈论的说法，这是本问题惟一的纳什照博弈论的说法，这是本问题惟一的纳什均衡点。

均衡点。

只有在这一点上，任何一人单方只有在这一点上，任何一人单方面改变选择，他只会得到较差的结果面改变选择，他只会得到较差的结果。

这这一点就是一点就是纳什均衡纳什均衡（NashEquilibriumNashEquilibrium）。

）。

纳什均衡：

局中人单独改变策略不会得到局中人单独改变策略不会得到好处的对局策略组合。

好处的对局策略组合。

p当博弈达到纳什均衡，并不一定是对参与当博弈达到纳什均衡，并不一定是对参与者最有利的结果，更不意味着是对整个社者最有利的结果，更不意味着是对整个社会最有利的结果。

会最有利的结果。

纳什均衡纳什均衡纳什纳什p在在“囚徒困境囚徒困境”中表现最好的策略直接中表现最好的策略直接取决于对方采用的策略。

独立于对方所取决于对方采用的策略。

独立于对方所用策略之外的最好决策是不存在的。

用策略之外的最好决策是不存在的。

p在博弈达到纳什均衡时，在外界环境没在博弈达到纳什均衡时，在外界环境没有变化的情况下，倘若各方坚持原有的有变化的情况下，倘若各方坚持原有的利益最大化原则并理性面对现实，那么利益最大化原则并理性面对现实，那么这种均衡状况就能够长期保持稳定。

这种均衡状况就能够长期保持稳定。

经典案例经典案例囚徒困境囚徒困境纳什纳什纳什均衡纳什均衡纳什均衡是一种纳什均衡是一种“不后悔不后悔”均衡均衡。

p张三和李四都想要加薪。

假如只有一个员工要求加薪，张三和李四都想要加薪。

假如只有一个员工要求加薪，老板会同意，但如果两个人都要求加薪，老板就会生气，老板会同意，但如果两个人都要求加薪，老板就会生气，并把两个人统统开除。

并把两个人统统开除。

p两个员工都不要求加薪并不是纳什均衡，因为当一方知两个员工都不要求加薪并不是纳什均衡，因为当一方知道另一方没有提出加薪要求时，就会后悔自己的选择。

道另一方没有提出加薪要求时，就会后悔自己的选择。

p两个员工都要求加薪也不是纳什均衡，因为两个人事后两个员工都要求加薪也不是纳什均衡，因为两个人事后都会被开除而后悔自己的策略。

都会被开除而后悔自己的策略。

p这场博弈有这场博弈有两个纳什均衡点两个纳什均衡点，张三要求加薪而李四不要，张三要求加薪而李四不要求；或李四要求而张三不要求。

求；或李四要求而张三不要求。

二、现实生活中的二、现实生活中的“囚徒困境囚徒困境”“囚徒困境囚徒困境”是一些非常普遍而有趣的情形的简单抽象。

是一些非常普遍而有趣的情形的简单抽象。

明明宋濂宋濂宋文宪公全集宋文宪公全集记有一个故事：

记有一个故事：

玉寅生与三乌丛臣是朋友，他们曾歃血盟誓：

“我辈应我辈应自励，他日入朝为官，绝不趋炎附势。

如有违此誓，请神明自励，他日入朝为官，绝不趋炎附势。

如有违此誓，请神明惩罚。

惩罚。

”没多久，他们一起到晋国为官。

当时赵宣子是晋王宠臣，没多久，他们一起到晋国为官。

当时赵宣子是晋王宠臣，各大夫均奔走于他家。

玉寅生重申以前的誓言，三乌丛臣也各大夫均奔走于他家。

玉寅生重申以前的誓言，三乌丛臣也说：

说：

“说过的话犹在耳畔，岂敢忘记！

说过的话犹在耳畔，岂敢忘记！

”但三乌丛臣后悔当初的誓言，又怕玉寅生知道。

于是在但三乌丛臣后悔当初的誓言，又怕玉寅生知道。

于是在一个大清早，鸡刚一报晓，他就前去拜望赵宣子。

一进门，一个大清早，鸡刚一报晓，他就前去拜望赵宣子。

一进门，他忽然看到东边走廊有个人坐在那里，他走前举灯一照，那他忽然看到东边走廊有个人坐在那里，他走前举灯一照，那个人原来是玉寅生。

个人原来是玉寅生。

现实生活中的现实生活中的“囚徒困境囚徒困境”现实生活中的现实生活中的“囚徒困境囚徒困境”（升升官官或或落落选选，升官或落选升官或落选）（落选落选，升官升官）三乌丛臣三乌丛臣玉寅生玉寅生不不巴结巴结巴结巴结不巴结不巴结巴结巴结（升官升官，落选落选）（升升官官或或落落选选，升官或落选升官或落选）取决于谁巴结得更到位如果巴结上司会有升官的机会，则其他人也面对同样的如果巴结上司会有升官的机会，则其他人也面对同样的局面。

假定两个人竞争一个官职，则局面。

假定两个人竞争一个官职，则双方均巴结，则双方成本高；双方均不巴结，则双方成本双方均巴结，则双方成本高；双方均不巴结，则双方成本低。

然而低。

然而“巴结巴结”是双方的最佳的策略。

是双方的最佳的策略。

电信价格竞争的电信价格竞争的“囚徒困境囚徒困境”学生的囚徒困境学生的囚徒困境数十道数十道“减负令减负令”难见效难见效中小学生课业负担不减反增中小学生课业负担不减反增仅仅19851985年至年至20002000年的年的1515年里，中央就年里，中央就下达下达“减负令减负令”4949次。

减轻中小学生过重次。

减轻中小学生过重负担喊了负担喊了2020多年，实际情况却是学生课业多年，实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。

然上课、业余时间奔忙于各种补习班等。

为什么数十道为什么数十道“减负令减负令”难见效？

难见效？

三、纳什均衡与优势策略三、纳什均衡与优势策略位置博弈位置博弈国美与苏宁为什么总喜欢贴身撕杀国美与苏宁为什么总喜欢贴身撕杀?

位置博弈位置博弈麦当劳和肯德基为什么总是相邻设店麦当劳和肯德基为什么总是相邻设店?

位置博弈位置博弈假设某条路上的顾客流量是均匀分布的，且顾客对麦当假设某条路上的顾客流量是均匀分布的，且顾客对麦当劳和肯德基无偏好，而总是乐意惠顾距自己最近的快餐店。

劳和肯德基无偏好，而总是乐意惠顾距自己最近的快餐店。

1/4麦当劳3/4肯德基1/20A1B在顾客均匀散布的情况下，从资源的最佳配置来看，麦在顾客均匀散布的情况下，从资源的最佳配置来看，麦当劳、肯德基应该分别开在当劳、肯德基应该分别开在1/41/4、3/43/4处是最优，各自拥有处是最优，各自拥有1/21/2的顾客量，同时顾客到快餐店的总距离最短。

的顾客量，同时顾客到快餐店的总距离最短。

位置博弈位置博弈1/4麦当劳3/4肯德基1/20A1B出于理性考虑，肯德基肯定会想到：

如果将店铺从出于理性考虑，肯德基肯定会想到：

如果将店铺从3/43/4点处点处向左移一点，将从麦当劳抢夺走部分顾客。

而麦当劳自然向左移一点，将从麦当劳抢夺走部分顾客。

而麦当劳自然也想到从也想到从1/41/4点处向右移动以争取更多的顾客。

点处向右移动以争取更多的顾客。

不难想象，双方博弈的结果将使他们的店铺设置在不难想象，双方博弈的结果将使他们的店铺设置在l/2l/2中点中点附近达到纳什均衡状态，相依为邻且相安无事地做起快餐生附近达到纳什均衡状态，相依为邻且相安无事地做起快餐生意。

这在博弈论中称为意。

这在博弈论中称为位置博弈位置博弈。

位置博弈位置博弈p现实生活中，在这条路上，顾客流量不是均匀分布的，现实生活中，在这条路上，顾客流量不是均匀分布的，那么这个模型是否就没有用了呢？

那么这个模型是否就没有用了呢？

p模型是现实的抽象，让我们更容易了解现象的本质以及模型是现实的抽象，让我们更容易了解现象的本质以及分析的思路。

分析的思路。

p在现实应用中，我们可以加入其他约束条件以完善模型。

在现实应用中，我们可以加入其他约束条件以完善模型。

p事实上，即使顾客流量不是均匀分布，结果并没有改变。

事实上，即使顾客流量不是均匀分布，结果并没有改变。

11%2%23%9%15%6%2%18%9%5%政党的位置博弈政党的位置博弈p两个政党要决定自己究竟处于自由两个政党要决定自己究竟处于自由-保守意识形态的哪保守意识形态的哪一个位置一个位置p假定选民平均分布在整个划分表的各个区间，并选举意假定选民平均分布在整个划分表的各个区间，并选举意识形态与自己相近的党派。

为使问题具体化，我们把各识形态与自己相近的党派。

为使问题具体化，我们把各个政治立场定为从个政治立场定为从00到到100,0100,0代表极自由，而代表极自由，而100100代表极代表极保守。

保守。

500100自由自由保守保守政党的位置博弈政党的位置博弈p在实践中，两党不可能选择完全一致在实践中，两党不可能选择完全一致的立场，但大家都在想方设法靠近中的立场，但大家都在想方设法靠近中点。

这一现象最早是由哥伦比亚大学点。

这一现象最早是由哥伦比亚大学经济学家哈罗德经济学家哈罗德霍特林霍特林（Harold（HaroldHotellingHotelling）在）在19291929年发现的。

年发现的。

p霍特林指出经济和社会事务存在相似霍特林指出经济和社会事务存在相似的案例：

的案例：

“我们的城市大得毫无经济我们的城市大得毫无经济效益，其中的商业区也太集中。

卫理效益，其中的商业区也太集中。

卫理公会以及基督教长老会的教堂简直一公会以及基督教长老会的教堂简直一模一样；苹果酒也是一个味道。

模一样；苹果酒也是一个味道。

”哈罗德哈罗德霍特林霍特林麦当劳与肯德基产品的位置博弈麦当劳与肯德基产品的位置博弈p假如你有一个劣势策略，你应该避免采用，并且知道你的对手假如你有一个劣势策略，你应该避免采用，并且知道你的对手若是有一个劣势策略他也会规避。

若是有一个劣势策略他也会规避。

p在你没有优势策略的情况下，你要做的就是：

不能追求最佳，在你没有优势策略的情况下，你要做的就是：

不能追求最佳，就要避免最差。

即剔除所有劣势策略，不予考虑。

如此一步一就要避免最差。

即剔除所有劣势策略，不予考虑。

如此一步一步做下去。

步做下去。

p“重复剔除严格劣势策略重复剔除严格劣势策略”（iteratedeliminationof（iteratedeliminationofstrictlydominateds

展开阅读全文