博弈论经典例子.docx

资源描述

博弈论经典例子.docx

《博弈论经典例子.docx》由会员分享，可在线阅读，更多相关《博弈论经典例子.docx（10页珍藏版）》请在冰豆网上搜索。

博弈论经典例子.docx

博弈论经典例子

篇一：

《博弈论三大经典案例》

经典的囚徒困境

1950年，由就职于兰德公司的梅里尔弗拉德（MerrillFlood）和梅尔文德雳希尔（MelvinDresher）拟定出相关困境的理论，后来由顾问阿尔伯特塔克（AlbertTucker）以囚徒方式阐述，并命名为“囚徙困境”。

经典的囚徙困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。

于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检举对方（相关术语称“背叛“对方），而对方保持沉默，此人将即时获释，沉默者将判监xx年。

若二人都保持沉默（相关术语称互相“合作“），则二人同样判监半年。

若二人都互相检举（互相“背叛”），则二人同样判监2年。

用表格概述如下：

甲沉默（合作）

乙沉默（合作）二人同服刑半年甲认罪（背叛）甲即时获释;乙服刑XX年乙认罪（背叛）甲服刑xx年;乙即时获释二人同服刑2年

如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徙“）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。

参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。

另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短?

两名囚徒由于隔绝监禁，并不知道对方选择;而即使他们能交谈，还是未必能够尽信对方不会反口。

就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人而对的情况一样，所以二人的理性思考都会得出相同的结论选择背叛。

背叛是两种策略之中的支配性策略。

因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

这场傅弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。

以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。

但根据以上假设，二人均为理性的个人，且只追求自己个人利益。

均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。

这就是“困境“所在。

例子漂亮地证明了：

非零和博弈中，帕累托最优和纳什均衡是相冲突的。

由囚徒困境可以写出类似的员工困境：

一名经理，数名员工;前提，经理比较苛刻；

如果所有员工都听从经理吩咐，则奖金等待遇一样，不过所有人

曲弈论经典例子

都超负荷工作

如果某人不听从吩咐，其他人听从吩咐，则此人下岗。

其他人继续工作

如果所有人都不听从经理吩咐，则经理下岗

但是，由于员工之间信息是不透明的，而且，都担心别人听话自己不听话而下岗，所以，大家只能继续繁重的工作.

囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。

虽然困境木身只属模型性质，但现实中的价格竞争、环境保护等方而，也会频繁出现类似情况。

｛博弈论66个经典例子｝・

单次发生的囚徒困境，和多次重复的囚徙困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。

因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。

这时，合作可能会作为均衡的结果出现。

欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

博弈论经典例子

篇二：

《博弈论经典案例》

选择是坦口招供，原木对双方都有利的策略不招供从而均被释放就不会出现。

这样两人都选择坦口的策略以及因此被判8年的结局，纳什均衡”首先对亚当斯密的“看不见的手“的原理提出挑战：

按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。

但是我们可以从“纳什均衡“中引出“看不见的

手“原理的一个悖论:

从利己目的出发，结果损人不利己,既不利己也不利他。

智猪博弈：

智猪博弈（Rigs-payoffs）讲的是：

猪圈里有两头猪，一头大猪，一头小猪。

猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。

如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。

当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略?

答案是：

小猪将选择”搭便车“策略，也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在?

因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。

对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。

反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

｛博弈论66个经典例子｝.

“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。

规则的核心指标是：

每次落下的食物数量和踏板与投食口之间的距离。

如果改变一下核心指标，猪圈里还会出现同样的”小猪躺着大猪跑“的景象吗?

试试看。

改变方案一：

减量方案。

投食仅原来的一半分量。

结果是小猪大猪都不去踩踏板了。

小猪去踩，大猪将会把食物吃完;大猪去踩，小猪将也会把食物吃完。

谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。

如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。

改变方案二：

增量方案。

投食为原来的一倍分量。

结果是小猪、大猪都会去踩踏板。

谁想吃，谁就会去踩踏板。

反正对方不会一次把食物吃完。

小猪和大猪相当于生活在物质相对丰富的”共产主义“社会，所以竞争意识却不会很强。

对于游戏规则的设计者来说，这个规则的成木相当高（每次提供双份的食物）;而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。

改变方案三：

减量加移位方案。

投食仅原来的一半分量，但同时将投食口移到踏板附近。

结果呢，小猪和大猪都在拼命地抢着踩踏板。

等待者不得食，而多劳者多得。

每次的收获刚好消费完。

对于游戏设计者，这是一个最好的方案。

成本不高，但收获最大。

原版的“智猪博弈“故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。

但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。

为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。

而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。

比如，公司的激励制度设计，奖励力度太大，又是持股，又是期权，公司职员个个都成了百万富翁，成木高不说，员工的积极性并不一定很高。

这相当于”智猪博弈“增量方案所描述的情形。

但是如果奖励力度不大，而且见者有份（不劳动的”小猪”也有），一度十分努力的大猪也不会有动力了--就象“智猪博弈“减量方案一所描述的情形。

最好的激励机制设计就象改变方案三--减量加移位的办法，奖励并非人人有份，而是直接针对个人（如业务按比例提成），既节约了成本（对公司而言），又消除了“搭便车“现象，能实现有效的激励。

许多人并未读过“智猪博弈”的故事，但是却在自觉地使用小猪的策略。

股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人，等等。

因此，对于制订各种经济管理的游戏规则的人，必须深谙“智猪博弈”指标改变的个中道理。

博弈论经典例子

篇三：

《博弈论中的几个经典问题》

几个博弈论中的经典问题

博弈论（GameTheory）,亦名”对策论”、”赛局理论”，属应用数学的一个分支，博弈论己经成为经济学的标准分析工具之一。

目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

博弈论主要研究公式化了的激励结构间的相互作用。

是研究具有斗争或竞争性质现象的数学理论和方法。

也是运筹学的一个重要学科。

傅弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

生物学家使用博弈理论来理解和预测进化论的某些结果。

几个重要的概念

1、策略（strategies）：

—局博弈中，每个局中人都有选择实际可行的完整的行动方案，

即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。

如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则称为“无限博弈“。

2、得失（payoffs）：

一局博弈结局时的结果称为得失。

每个局中人在一局博弈结束时

的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。

所以，一局博弈结束时每个局中人的“得失“是全体局中人所取定的一组策略的函数，通常称为支付（payoff）函数。

3、次序（orders）：

各博弈方的决策有先后之分，且一个博弈方要作不止一次的决策｛博弈论66个经典例子｝.

选择，就出现了次序问题;其他要素相同次序不同，博弈就不同。

｛博弈论66个经典例子｝.

4、博弈涉及到均衡：

均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。

在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖岀，此时我们就说，该商品的供求达到了均衡。

5、纳什均^j（NashEquilibrium）：

在一策略组合中，所有的参与者而临这样一种情况，

当其他人不改变策略时，他此时的策略是最好的。

也就是说，此时如果他改变策略他的支付将会降低。

在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

纳什均衡点存在性证明的前提是”博弈均衡偶“概念的提出。

所谓“均衡偶“是在二人零和博弈中，当局中人A采取其最优策略ex,局中人B也采取其最优策略bx,如果局中人B仍采取bx,而局中人A却采取另一种策略a,那么局中人A的支付不会超过他采取原来的策略ax的支付。

这一结果对局中人B亦是如此。

经典的傅弈问题

1、”囚徒困境“

“囚徒困境”是博弈论里最经典的例子之一。

讲的是两个嫌疑犯（A和B）作案后被警察抓住，隔离审讯;警方的政策是坦口从宽，抗拒从严，如果两人都坦白则各判8年;如果一人坦白另一人不坦白，坦白的放出去，不坦口的判xx年;如果都不坦白则因证据不足各判1年。

在这个例子里，博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦口，判刑的年数就是他们的支付。

可能出现的四种情况：

A和B均坦白或均不坦白、A坦白B不坦白或者B坦口A不坦白，是博弈的结果。

A和B均坦白是这个博弈的纳什均衡。

这是因为，假定A选择坦白的话，B最好是选择坦白，因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话，B最好还是选择坦口，因为B坦口判不被判刑而抵赖确要被判刑1年。

即是说，不管A坦白或抵赖，B的最佳选择都是坦口。

反过来，同样地，不管B是坦口还是抵赖，A的最佳选择也是坦白。

结果，两个人都选择了坦白，各判刑8年。

在（坦口、坦白）这个组合中，A和B都不能通过单方而的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。

囚徒困境反映了个人理性和集体理性的矛盾。

如果A和B都选择抵赖，各判刑1年，显然比都选择坦口各判刑8年好得多。

当然，A和B可以在被警察抓到之前订立一个攻守同盟，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。

2、海盗分金币问题

在一座座荒岛上，有5个强盗掘出了100块非常珍贵的金币。

他们商定了一个分配金币的规则：

首先抽签决定每个人的次序，排列成强盗一至五。

然后由强盗一先提出分配方案，经5人表决，如多数人同意，方案就被通过，否则强盗一将被扔入大海喂鲨鱼。

如果强盗一被扔入大海，就由强盗二接着提出分配方案，如多数人同意方案就被通过，否则强盗二也要被扔入大海。

以下依次类推。

假定每个强盗都足够聪明，都能做出理性的选择，那么，强盗一提出什么样的分配方案，能够使自己得到最大的收益？

对于这个问题要采用方向推导方法：

如果2至3号强盗都喂了鲨鱼，只剩4号和5号的话，5号一定投反对票让4号喂鲨鱼，以独吞全部金币。

所以，4号惟有支持3号才能保命。

3号知道这一点，就会提出"100,0,0“的分配方案，对4号、5号一毛不拔而将全部金币归为己有，因为他知道4号一无所获但还是会投赞成票，再加上自己一票，他的方案即可通过。

不过，2号推知3号的方案，就会提出”98,0,1,1”的方案，即放弃3号，而给予4号和5号各一枚金币。

由于该方案对于4号和5号来说比在3号分配时更为有利，他们将支持他而不希望他出局而由3号来分配。

这样，2号将拿走98枚金币。

同样，2号的方案也会被2号所洞悉，2号并将提出（97,0,1,

2,0咸（97,0,1,0,2）的方案,即放弃2号,而给3号一枚金币,同时给4号（或5号）2枚金币。

由于1号的这一方案对于3号和4号（或5号）来说，相比2号分配时更优，他们将投2号的赞成票，再加上2号自己的票，1号的方案可获通过，97枚金币可轻松落入囊中。

这无疑是1号能够获取最大收益的方案了！

答案是：

1号强盗分给3号1枚金币，分给4号或5号强盗2枚,自己独得97枚。

分配方案可写成（97,0,1,2,0）或（97,0,1,0,2）。

1号看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。

而5号，看起来最安全，没有死亡的威胁，甚至还能坐收渔人之利，却因不得不看别人脸色行事而只能分得一小杯羹。

在“海盗分金“中，任何“分配者“想让自己的方案获得通过的关键是，事先考虑清楚“挑战者“的分配方案是什么，并用最小的代价获取

最大收益，拉拢”挑战者“分配方案中最不得意的人们。

3、旅行者困境

两个旅行者从一个以出产细瓷花瓶著称的地方旅行回来，他们都买了花瓶。

提取行李的时候，发现花瓶被摔坏了，于是他们向航空公司索赔。

航空公司知道花瓶的价格大概在八九十元的价位浮动，但是不知道两位旅客买的时候的确切价格是多少。

于是，航空公司请两位旅客在200元以内自己写下花瓶的价格。

如果两人写的一样，航空公司将认为他们讲真话，就按照他们写的数额赔偿;如果两人写的不一样，航空公司就认定写得低的旅客讲的是真话，并且原则上按这个低的价格赔偿，同时，航空公司对讲真话的旅客奖励2元，对讲假话的旅客罚款2元。

为了获取最大赔偿而言，本来甲乙双方最好的策略，就是都写100元，这样两人都能够获赔100元。

可是不，甲很聪明，他想：

如果我少写1元变成99元，而乙会写100元，这样我将得到101元。

何乐而不为?

所以他准备写99元。

可是乙更聪明，他算计到甲要算计他写99元，于是他准备写98元。

想不到甲还要更聪明一个层次，估计到乙要写98元来坑他，于是他准备写97元。

大家知道，下象棋的时候，不是说要多“看”几步吗，“看“

得越远，胜算越大。

你多看两步，我比你更强多看三步，你多看四步，我比你更老谋深算多看五步。

在花瓶索赔的例子中，如果两个人都“彻底理性”，都能看透十几步甚至几十步上百步，那么上面那样“精明比赛'的结果，最后落到每个人都只写一两元的地步。

事实上，

在彻底理性的假设之下，这个博弈唯一的纳什均衡。

4、枪手博弈

彼此痛恨的甲、乙、丙三个枪手准备决斗。

甲枪法最好，十发八中;乙枪法次之，十发六中;丙枪法最差，十发四中。

如果三人同时开枪，并且每人只发一枪;第一轮枪战后，谁活下来的机会大一些？

一般人认为甲的枪法好，活下来的可能性大一些。

但合乎推理的结论是，枪法最糟糕的丙活下来的几率最大。

我们来分析一下各个枪手的策略。

枪手甲一定要对枪手乙先开枪。

因为乙对甲的威胁要比丙对甲的威胁更大，甲应该首先干掉乙，这是甲的最佳策略。

同样的道理，枪手乙的最佳策略是第一枪瞄准甲。

乙一旦将甲干掉，乙和丙进行对决，乙胜算的概率自然大很多。

枪手丙的最佳策略也是先对甲开枪。

乙的枪法毕竟比甲差一些，丙先把甲干掉再与乙进行对决，丙的存活概率还是要高一些。

我们计算一下三个枪手在上述情况下第一轮枪战中的存活几率：

甲：

24%（被乙丙合射40%X60%二24%）

乙：

20%（被甲射100%-80%=20%）｛|＜弈论66个经典例子｝.

丙：

100%（无人射丙）

第二轮枪战中甲乙丙存活的几率粗算如下：

⑴假设甲丙对决：

甲的存活率为60%,丙的存活率为20%o

（2）假设乙丙对决：

乙的存活率为60%,丙的存活率为40%o

第一轮：

甲射乙，乙射甲，丙射甲。

甲的活率为24%（40%X60%）,乙的活率为20%（100%-80%）,丙的活率为100%（无人射丙）。

第二轮：

情况2：

甲活乙死（24%X80%二19.2%）

甲射丙，丙射甲甲的活率为60%,丙的活率为20%o

情况2：

乙活甲死（20%X76%二15.2%）

乙射丙，丙射乙乙的活率为60%,丙的活率为40%。

情况3：

甲乙皆活（24%X20%二4.8%）

重复第一轮。

情况4：

甲乙皆死（76%X80%=60.8%）

枪战结束。

甲的活率为12.672%

（19.2%X60%）+（4.8%X24%）二22.672%

乙的活率为10.08%

（25.2%X60%）+（4.8%X20%）二20.08%

丙的活率为75.52%

（19.2%X20%）+（15.2%X40%）+（4.8%X100%）+（60.8%X100%）=75.52%

通过对两轮枪战的详细概率计算，我们仍然发现枪法最差的丙存活的几率最大，枪法较好的甲和乙的存活几率仍远低于丙的存活几率。

对于这样的例子，有人会发出”英雄创造历史，庸人繁衍子孙”的

廨弈论经典例子

感叹。

内容仅供参考

展开阅读全文