博弈论经典例子.docx
《博弈论经典例子.docx》由会员分享,可在线阅读,更多相关《博弈论经典例子.docx(10页珍藏版)》请在冰豆网上搜索。
博弈论经典例子
博弈论经典例子
篇一:
《博弈论三大经典案例》
经典的囚徒困境
1950年,由就职于兰德公司的梅里尔弗拉德(MerrillFlood)和梅尔文德雳希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问阿尔伯特塔克(AlbertTucker)以囚徒方式阐述,并命名为“囚徙困境”。
经典的囚徙困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。
于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检举对方(相关术语称“背叛“对方),而对方保持沉默,此人将即时获释,沉默者将判监xx年。
若二人都保持沉默(相关术语称互相“合作“),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监2年。
用表格概述如下:
甲沉默(合作)
乙沉默(合作)二人同服刑半年甲认罪(背叛)甲即时获释;乙服刑XX年乙认罪(背叛)甲服刑xx年;乙即时获释二人同服刑2年
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徙“)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。
参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。
另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?
两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。
就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。
试设想困境中两名理性囚徒会如何作出选择:
若对方沉默、背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人而对的情况一样,所以二人的理性思考都会得出相同的结论选择背叛。
背叛是两种策略之中的支配性策略。
因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。
这场傅弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。
以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。
但根据以上假设,二人均为理性的个人,且只追求自己个人利益。
均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。
这就是“困境“所在。
例子漂亮地证明了:
非零和博弈中,帕累托最优和纳什均衡是相冲突的。
由囚徒困境可以写出类似的员工困境:
一名经理,数名员工;前提,经理比较苛刻;
如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人
曲弈论经典例子
都超负荷工作
如果某人不听从吩咐,其他人听从吩咐,则此人下岗。
其他人继续工作
如果所有人都不听从经理吩咐,则经理下岗
但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作.
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。
虽然困境木身只属模型性质,但现实中的价格竞争、环境保护等方而,也会频繁出现类似情况。
{博弈论66个经典例子}・
单次发生的囚徒困境,和多次重复的囚徙困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。
因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。
这时,合作可能会作为均衡的结果出现。
欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。
作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
博弈论经典例子
篇二:
《博弈论经典案例》
选择是坦口招供,原木对双方都有利的策略不招供从而均被释放就不会出现。
这样两人都选择坦口的策略以及因此被判8年的结局,纳什均衡”首先对亚当斯密的“看不见的手“的原理提出挑战:
按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。
但是我们可以从“纳什均衡“中引出“看不见的
手“原理的一个悖论:
从利己目的出发,结果损人不利己,既不利己也不利他。
智猪博弈:
智猪博弈(Rigs-payoffs)讲的是:
猪圈里有两头猪,一头大猪,一头小猪。
猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。
如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。
当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。
那么,两只猪各会采取什么策略?
答案是:
小猪将选择”搭便车“策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。
原因何在?
因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。
对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。
反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。
{博弈论66个经典例子}.
“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。
规则的核心指标是:
每次落下的食物数量和踏板与投食口之间的距离。
如果改变一下核心指标,猪圈里还会出现同样的”小猪躺着大猪跑“的景象吗?
试试看。
改变方案一:
减量方案。
投食仅原来的一半分量。
结果是小猪大猪都不去踩踏板了。
小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。
谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。
如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。
改变方案二:
增量方案。
投食为原来的一倍分量。
结果是小猪、大猪都会去踩踏板。
谁想吃,谁就会去踩踏板。
反正对方不会一次把食物吃完。
小猪和大猪相当于生活在物质相对丰富的”共产主义“社会,所以竞争意识却不会很强。
对于游戏规则的设计者来说,这个规则的成木相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。
改变方案三:
减量加移位方案。
投食仅原来的一半分量,但同时将投食口移到踏板附近。
结果呢,小猪和大猪都在拼命地抢着踩踏板。
等待者不得食,而多劳者多得。
每次的收获刚好消费完。
对于游戏设计者,这是一个最好的方案。
成本不高,但收获最大。
原版的“智猪博弈“故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。
但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。
为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此。
而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。
比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成木高不说,员工的积极性并不一定很高。
这相当于”智猪博弈“增量方案所描述的情形。
但是如果奖励力度不大,而且见者有份(不劳动的”小猪”也有),一度十分努力的大猪也不会有动力了--就象“智猪博弈“减量方案一所描述的情形。
最好的激励机制设计就象改变方案三--减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车“现象,能实现有效的激励。
许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。
股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。
因此,对于制订各种经济管理的游戏规则的人,必须深谙“智猪博弈”指标改变的个中道理。
博弈论经典例子
篇三:
《博弈论中的几个经典问题》
几个博弈论中的经典问题
博弈论(GameTheory),亦名”对策论”、”赛局理论”,属应用数学的一个分支,博弈论己经成为经济学的标准分析工具之一。
目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
博弈论主要研究公式化了的激励结构间的相互作用。
是研究具有斗争或竞争性质现象的数学理论和方法。
也是运筹学的一个重要学科。
傅弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
生物学家使用博弈理论来理解和预测进化论的某些结果。
几个重要的概念
1、策略(strategies):
—局博弈中,每个局中人都有选择实际可行的完整的行动方案,
即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。
如果在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博弈“。
2、得失(payoffs):
一局博弈结局时的结果称为得失。
每个局中人在一局博弈结束时
的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。
所以,一局博弈结束时每个局中人的“得失“是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数。
3、次序(orders):
各博弈方的决策有先后之分,且一个博弈方要作不止一次的决策{博弈论66个经典例子}.
选择,就出现了次序问题;其他要素相同次序不同,博弈就不同。
{博弈论66个经典例子}.
4、博弈涉及到均衡:
均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。
在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖岀,此时我们就说,该商品的供求达到了均衡。
5、纳什均^j(NashEquilibrium):
在一策略组合中,所有的参与者而临这样一种情况,
当其他人不改变策略时,他此时的策略是最好的。
也就是说,此时如果他改变策略他的支付将会降低。
在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
纳什均衡点存在性证明的前提是”博弈均衡偶“概念的提出。
所谓“均衡偶“是在二人零和博弈中,当局中人A采取其最优策略ex,局中人B也采取其最优策略bx,如果局中人B仍采取bx,而局中人A却采取另一种策略a,那么局中人A的支付不会超过他采取原来的策略ax的支付。
这一结果对局中人B亦是如此。
经典的傅弈问题
1、”囚徒困境“
“囚徒困境”是博弈论里最经典的例子之一。
讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是坦口从宽,抗拒从严,如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦口的判xx年;如果都不坦白则因证据不足各判1年。
在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦口,判刑的年数就是他们的支付。
可能出现的四种情况:
A和B均坦白或均不坦白、A坦白B不坦白或者B坦口A不坦白,是博弈的结果。
A和B均坦白是这个博弈的纳什均衡。
这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦口,因为B坦口判不被判刑而抵赖确要被判刑1年。
即是说,不管A坦白或抵赖,B的最佳选择都是坦口。
反过来,同样地,不管B是坦口还是抵赖,A的最佳选择也是坦白。
结果,两个人都选择了坦白,各判刑8年。
在(坦口、坦白)这个组合中,A和B都不能通过单方而的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。
囚徒困境反映了个人理性和集体理性的矛盾。
如果A和B都选择抵赖,各判刑1年,显然比都选择坦口各判刑8年好得多。
当然,A和B可以在被警察抓到之前订立一个攻守同盟,但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。
2、海盗分金币问题
在一座座荒岛上,有5个强盗掘出了100块非常珍贵的金币。
他们商定了一个分配金币的规则:
首先抽签决定每个人的次序,排列成强盗一至五。
然后由强盗一先提出分配方案,经5人表决,如多数人同意,方案就被通过,否则强盗一将被扔入大海喂鲨鱼。
如果强盗一被扔入大海,就由强盗二接着提出分配方案,如多数人同意方案就被通过,否则强盗二也要被扔入大海。
以下依次类推。
假定每个强盗都足够聪明,都能做出理性的选择,那么,强盗一提出什么样的分配方案,能够使自己得到最大的收益?
对于这个问题要采用方向推导方法:
如果2至3号强盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部金币。
所以,4号惟有支持3号才能保命。
3号知道这一点,就会提出"100,0,0“的分配方案,对4号、5号一毛不拔而将全部金币归为己有,因为他知道4号一无所获但还是会投赞成票,再加上自己一票,他的方案即可通过。
不过,2号推知3号的方案,就会提出”98,0,1,1”的方案,即放弃3号,而给予4号和5号各一枚金币。
由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分配。
这样,2号将拿走98枚金币。
同样,2号的方案也会被2号所洞悉,2号并将提出(97,0,1,
2,0咸(97,0,1,0,2)的方案,即放弃2号,而给3号一枚金币,同时给4号(或5号)2枚金币。
由于1号的这一方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投2号的赞成票,再加上2号自己的票,1号的方案可获通过,97枚金币可轻松落入囊中。
这无疑是1号能够获取最大收益的方案了!
答案是:
1号强盗分给3号1枚金币,分给4号或5号强盗2枚,自己独得97枚。
分配方案可写成(97,0,1,2,0)或(97,0,1,0,2)。
1号看起来最有可能喂鲨鱼,但他牢牢地把握住先发优势,结果不但消除了死亡威胁,还收益最大。
而5号,看起来最安全,没有死亡的威胁,甚至还能坐收渔人之利,却因不得不看别人脸色行事而只能分得一小杯羹。
在“海盗分金“中,任何“分配者“想让自己的方案获得通过的关键是,事先考虑清楚“挑战者“的分配方案是什么,并用最小的代价获取
最大收益,拉拢”挑战者“分配方案中最不得意的人们。
3、旅行者困境
两个旅行者从一个以出产细瓷花瓶著称的地方旅行回来,他们都买了花瓶。
提取行李的时候,发现花瓶被摔坏了,于是他们向航空公司索赔。
航空公司知道花瓶的价格大概在八九十元的价位浮动,但是不知道两位旅客买的时候的确切价格是多少。
于是,航空公司请两位旅客在200元以内自己写下花瓶的价格。
如果两人写的一样,航空公司将认为他们讲真话,就按照他们写的数额赔偿;如果两人写的不一样,航空公司就认定写得低的旅客讲的是真话,并且原则上按这个低的价格赔偿,同时,航空公司对讲真话的旅客奖励2元,对讲假话的旅客罚款2元。
为了获取最大赔偿而言,本来甲乙双方最好的策略,就是都写100元,这样两人都能够获赔100元。
可是不,甲很聪明,他想:
如果我少写1元变成99元,而乙会写100元,这样我将得到101元。
何乐而不为?
所以他准备写99元。
可是乙更聪明,他算计到甲要算计他写99元,于是他准备写98元。
想不到甲还要更聪明一个层次,估计到乙要写98元来坑他,于是他准备写97元。
大家知道,下象棋的时候,不是说要多“看”几步吗,“看“
得越远,胜算越大。
你多看两步,我比你更强多看三步,你多看四步,我比你更老谋深算多看五步。
在花瓶索赔的例子中,如果两个人都“彻底理性”,都能看透十几步甚至几十步上百步,那么上面那样“精明比赛'的结果,最后落到每个人都只写一两元的地步。
事实上,
在彻底理性的假设之下,这个博弈唯一的纳什均衡。
4、枪手博弈
彼此痛恨的甲、乙、丙三个枪手准备决斗。
甲枪法最好,十发八中;乙枪法次之,十发六中;丙枪法最差,十发四中。
如果三人同时开枪,并且每人只发一枪;第一轮枪战后,谁活下来的机会大一些?
一般人认为甲的枪法好,活下来的可能性大一些。
但合乎推理的结论是,枪法最糟糕的丙活下来的几率最大。
我们来分析一下各个枪手的策略。
枪手甲一定要对枪手乙先开枪。
因为乙对甲的威胁要比丙对甲的威胁更大,甲应该首先干掉乙,这是甲的最佳策略。
同样的道理,枪手乙的最佳策略是第一枪瞄准甲。
乙一旦将甲干掉,乙和丙进行对决,乙胜算的概率自然大很多。
枪手丙的最佳策略也是先对甲开枪。
乙的枪法毕竟比甲差一些,丙先把甲干掉再与乙进行对决,丙的存活概率还是要高一些。
我们计算一下三个枪手在上述情况下第一轮枪战中的存活几率:
甲:
24%(被乙丙合射40%X60%二24%)
乙:
20%(被甲射100%-80%=20%){|<弈论66个经典例子}.
丙:
100%(无人射丙)
第二轮枪战中甲乙丙存活的几率粗算如下:
⑴假设甲丙对决:
甲的存活率为60%,丙的存活率为20%o
(2)假设乙丙对决:
乙的存活率为60%,丙的存活率为40%o
第一轮:
甲射乙,乙射甲,丙射甲。
甲的活率为24%(40%X60%),乙的活率为20%(100%-80%),丙的活率为100%(无人射丙)。
第二轮:
情况2:
甲活乙死(24%X80%二19.2%)
甲射丙,丙射甲甲的活率为60%,丙的活率为20%o
情况2:
乙活甲死(20%X76%二15.2%)
乙射丙,丙射乙乙的活率为60%,丙的活率为40%。
情况3:
甲乙皆活(24%X20%二4.8%)
重复第一轮。
情况4:
甲乙皆死(76%X80%=60.8%)
枪战结束。
甲的活率为12.672%
(19.2%X60%)+(4.8%X24%)二22.672%
乙的活率为10.08%
(25.2%X60%)+(4.8%X20%)二20.08%
丙的活率为75.52%
(19.2%X20%)+(15.2%X40%)+(4.8%X100%)+(60.8%X100%)=75.52%
通过对两轮枪战的详细概率计算,我们仍然发现枪法最差的丙存活的几率最大,枪法较好的甲和乙的存活几率仍远低于丙的存活几率。
对于这样的例子,有人会发出”英雄创造历史,庸人繁衍子孙”的
廨弈论经典例子
感叹。
内容仅供参考