第十章博弈论(微观经济学-南开大学刘骏民).pptx
《第十章博弈论(微观经济学-南开大学刘骏民).pptx》由会员分享,可在线阅读,更多相关《第十章博弈论(微观经济学-南开大学刘骏民).pptx(53页珍藏版)》请在冰豆网上搜索。
第十章博弈论,1,博弈论用来分析所观察到的决策主体相互影响时的现象,在给定的条件下寻求最优的解决办法。
本章主要介绍非合作博弈,非合作博弈可分成四种情况:
完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。
本章分析的重点在完全信息静态博弈和完全信息动态博弈,分别给出纳什均衡和子博弈精炼纳什均衡的详细讲解。
2,第一节博弈论概述,博弈论:
用来分析所观察到的决策主体相互影响时的现象,在给定的条件下寻求最优的解决办法。
一、博弈论的发展,20世纪40年代博弈论思想体系初步建立,经过50年代的理论发展,博弈论在60年代逐步走向成熟。
20世纪70年代中后期以后,随着博弈论在经济分析领域内的广泛和成功应用,博弈论也逐步进入主流经济学的体系。
3,博弈论的发展1944年,由冯诺依曼和摩根斯坦恩合著的博弈论和经济行为一书的出版标志着现代博弈论作为一种系统理论的创立。
20世纪50年代,纳什创立了公理化的讨价还价理论,证明纳什讨价还价解的存在性,逐渐形成了以纳什非合作博弈理论为核心的现代博弈论体系。
20世纪60年代以后,泽尔滕在纳什的研究基础上引入动态分析,海萨尼则把不完全信息引入到博弈论中。
20世纪70年代以后,经济学家开始强调个人理性。
4,博弈论与主流经济学博弈论进入主流经济学,反映了经济学发展的以下几个趋势:
经济学研究的对象越来越转向个体,放弃了一些没有微观基础的假定;经济学越来越转向人与人之间竞争与合作的研究,特别是经济学注意到理性人的个人理性行为可能导致的集体非理性;经济学越来越重视对信息的研究。
博弈可以划分为合作博弈和非合作博弈。
合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议。
如果能,就是合作博弈;反之,则是非合作博弈。
5,二、博弈分析举例,沙滩上的饮料销售商为了争取更多的游客,两家销售商的销售位置又会开始向中点移动,最终都将销售位置定在了中点处。
6,掷币游戏A、B两个小孩玩掷币游戏,两人各拿出一枚硬币抛掷在地面上,要么正面朝上,要么反面朝上。
都同为正面或反面朝上,A赢得B一枚硬币;一正面一反面朝上,A输给B一枚硬币。
这个例子中,两个小孩各自得到的结果(赢得一枚硬币或者输掉一枚硬币),不仅取决于自己掷币的后果,也取决于对手掷币的后果,双方决策的互相影响构成博弈。
在这个博弈中,一方所得正是其他方所失,这种博弈称为零和博弈。
7,囚徒困境囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别被关在不同的屋子里审讯。
表10-1给出了囚徒困境模型的表述。
每个囚徒都有两种选择:
坦白或抵赖。
表中每一格的两个数字代表对应两个囚徒选择组合下各自的刑期。
8,三、博弈的要素,博弈的要素包括参与人、行动、信息、策略、支付、结果和均衡,其中,参与人、策略和支付是描述一个博弈所需要的最基本的要素,参与人、行动和结果统称为博弈规则。
参与人:
指一个博弈中的决策主体在囚徒困境模型中,有两个参与人,即“囚徒A”和“囚徒B”。
行动:
是参与人在博弈的某个时点的决策变量。
在囚徒困境模型中,囚徒A、B都只有两种行动可供选择,即“坦白”和“抵赖”。
9,信息是参与人在博弈中的知识,特别是有关其他参与人(对手)的特征和行动的知识。
在囚徒困境模型中,两囚徒的信息是都知道自己和另一囚徒在选择坦白和抵赖的不同组合时面对的处罚。
策略:
是参与人在拥有既定信息情况下的行动规则,它规定参与人在什么时候选择什么行动。
一个参与人的所有可选择的策略的集合就是这个参与人的策略空间。
如果每个参与人选择一个策略,就构成一个策略组合。
支付:
在博弈论中指一个特定策略组合下参与人得到的确定效用水平,或者是指参与人得到的期望效用,10,水平。
支付是博弈参与人真正关心的东西。
在一个策略组合下,所有参与者的支付就构成了一个支付组合。
在囚徒困境模型中,如果两囚徒的策略组合为(抵赖,坦白),那么囚徒A的支付为-10,囚徒B的支付为0,两囚徒的支付组合为(-10,0);如果两囚徒的策略组合为(坦白,坦白),那么囚徒A和囚徒B的支付均为-8,两囚徒的支付组合为(-8,-8)。
结果:
是博弈分析者感兴趣的所有东西,如均衡策略组合、均衡支付组合等。
均衡:
是所有参与人的最优策略的组合。
11,四、博弈的分类,12,第二节完全信息静态博弈,每一个参与人对所有其他参与人(对手)的特征、策略空间及支付函数有准确的知识,而且博弈的参与人同时选择行动或虽非同时但后行动者并不知道前行动者采取了什么具体行动,这种情况下参与人的决策就是完全信息静态博弈。
纳什对非合作博弈的主要贡献是在一般的意义上定义了非合作博弈及其均衡解,并证明了均衡解的存在,这一均衡就被称为“纳什均衡”。
13,博弈可以采用两种不同的方式来表述,一种是策略式表述,一种是扩展式表述。
从理论上讲,这两种表述形式几乎是完全等价的,但策略式表述更适合于分析静态博弈,扩展式表述更适合于分析动态博弈。
一、博弈的策略式表述,策略式表述n个参与人;说明每个参与人都有哪些策略;每个参与人都选定一种策略时,每个参与人的支付水平(获得的效用)是多少。
根据上面给出的三要素,策略式表述的博弈就是:
14,在双头垄断的产量博弈中,两个寡头厂商A、B是参与人,两者的产量qA、qB的范围是其策略空间,获得利润A、B是其支付,策略式表述的博弈可写为:
15,策略式表述的博弈举例在掷币游戏中,每个参与人的支付直接用其赢得或输掉的硬币数量来表示:
赢得一枚硬币的支付为1,输掉一枚硬币的支付为-1。
掷币游戏的支付矩阵见表10-3所示。
16,再如下面的斗鸡博弈。
试想有两只公鸡遇到一起,每只公鸡有两个行动选择:
一是进攻,一是撤退。
如果一只公鸡撤退,一只公鸡进攻,则进攻的公鸡获得胜利,撤退的公鸡很丢面子;如果两只公鸡都撤退则打个平手;如果两只公鸡都进攻,那么两败俱伤。
设其支付矩阵见表10-4所示。
17,二、纳什均衡,占优策略均衡不论其他参与人选择什么策略,他的最优策略是唯一的,这样的最优策略被称为占优策略。
在“囚徒困境”的例子中,每个囚徒都有两种可选择的策略:
坦白或抵赖。
但是,不论另一囚徒选择什么策略,每个囚徒的最优策略是“坦白”。
所有参与人占优策略的组合称为占优策略均衡。
18,重复剔除的占优均衡考虑“智猪博弈”例子。
猪圈里围着两头猪,一头大猪,一头小猪。
猪圈的一头有一个猪槽,另一头安装了一个按钮,控制着猪食的供应。
按下一按钮会有8个单位的猪食进槽,但按下按钮的猪需要付出2个单位的成本。
若大猪先到,大猪吃到7个单位,小猪只能吃1个单位;若同时到,大猪吃5个单位,小猪吃3个单位;若小猪先到,大猪和小猪各吃4个单位。
表10-5的表列出对应不同策略组合的支付水平,如第一格表示两头猪同时按下按钮,就会同时走到猪食槽,大猪吃5个单位,小猪吃3个,扣除2个单位的成本,支付水平分别为3和1。
19,20,纳什均衡如果重复剔除劣策略后剩下的策略组合是唯一的,那么该博弈才是重复剔除占优可解的。
但很多博弈是无法使用重复剔除劣策略的方法找到均衡解的。
例如性别之战的例子。
一男一女谈恋爱,周末安排业余活动,要么看足球,比赛,要么看舞蹈演出。
男的爱好足球,女的更喜欢舞蹈,但他们宁愿在一起而不愿分开。
支付矩阵见表10-6所示。
21,一个参与人的纳什均衡策略是面对其他参与人的均衡策略时的最优选择。
在囚徒困境中,(坦白,坦白)是一个纳什均衡,而(抵赖,抵赖)不是一个纳什均衡,因为给定同伙选择抵赖,自己选择抵赖时得到-3,选择坦白时得到0,因而抵赖不是自己的最优策略;同样,(坦白,抵赖)和(抵赖,坦白)也不是纳什均衡。
在性别之战中,(足球,足球)是一个纳什均衡,因为一旦形成这个策略组合的结果,任何一方的偏离都会造成自己支付的减少,例如女的此时去看舞蹈将把自己的支付从2降到1;同样,(舞蹈,舞蹈)也是一个纳什均衡,其他策略组合都不是纳什均衡。
22,寻求纳什均衡首先考虑A的策略,对于B的每一个给定策略,找出A的最优策略,在其对应的支付下划一横线,再用类似的方法找出B的最优策略。
完成这个过程后,如果某个支付组合的两个数字下都有线,这个支付组合所对应的策略组合就是一个纳什均衡。
23,通过对纳什均衡与占优策略均衡以及重复剔除的占优均衡的分析,可知它们之间的关系如下:
每一个占优策略均衡、重复剔除的占优均衡一定是纳什均衡,但并非每一个纳什均衡都是占优策略均衡或重复剔除的占优均衡。
这是因为,一个参与人的占优策略是对于所有其他参与人的任何策略组合的最优选择,自然也一定是对于所有其他参与人的某个特定策略的最优选择;而一个参与人的纳什均衡策略只要求是对于其他参与人均衡策略(这是一个或几个特定策略)的最优选择。
所以说,占优策略均衡和重复剔除的占优均衡是特殊的纳什均衡,它们所要求的条件比纳什均衡的条件要严格。
24,三、纳什均衡与寡头垄断市场,库诺特模型与纳什均衡用QA、QB分别表示厂商A和厂商B的产量;CA(QA)和CB(QB)表示两者的成本函数;PP(QAQB)表示需求函数的逆函数,其中P是价格。
厂商A和厂商B的利润函数分别为:
25,对每个厂商的利润函数求一阶偏导数并令其等于零,整理可得:
反应函数意味着每个厂商的最优策略(产量)是另一个厂商的策略(产量)的函数,两个反应函数的交叉点(即两个方程的解)就是纳什均衡:
26,伯川德模型与纳什均衡伯川德模型中,由于产品是相同的,消费者将只会从价格最低的厂商那里购买。
因此,价格较低的厂商将供应整个市场。
如果两个厂商定价相同,则消费者对于从哪个厂商购买不会在意,假定此时两个厂商各占供给市场的一半。
在这种情况下的纳什均衡就是竞争均衡,即两个厂商都制定的价格将等于边际成本,都只赚到零利润。
为了验证这是一个纳什均衡,应指出此时两个厂商都没有改变价格的冲动。
这时,厂商没有改变价格的冲动,但已经是在给定对方选择的情况下所做的最好的选择。
27,第三节完全信息动态博弈,一、博弈的扩展式表述,扩展式表述与博弈树扩展式表述要给出每个参与人的动态描述,即参与人在什么时点、什么情况下选择什么样的行动。
当一个人行动在前,而一个人行动在后时,后者自然会根据前者的选择进行策略的调整,前者也能理性地预期到这一点,并考虑这一影响。
此时,就进入了动态博弈的分析。
28,具体来说,扩展式表述包括五个要素。
参与人集合;参与人的行动顺序:
哪个参与者在什么时候行动;参与人的行动空间:
在每次行动时参与人所有可供选择的行动;参与人的信息集合:
在每次行动时参与人所知道的有关对手行动选择的信息;参与人的支付函数:
在行动结束后每个参与人得到的支付,它是所有行动的函数。
29,如同用支付矩阵描述策略式表述一样,扩展式表述可以借用博弈树来描述。
如图10-2所示,有两个参与者A和B进行博弈,第一个参与者A用“”来表示,有两种策略:
1或2。
第二个参与者B用“”来表示,参与者A选择1时,参与者B有11或12两种选择;参与者A选择2时,参与者B有21或22两种选择。
(A11,B11)、(A12,B12)、(A21,B21)和(A22,B22)表示两个参与者选择不同策略后的最终支付。
这就是博弈树的形式,当然,每个参与者的策略并不局限于两种。
30,博弈树的基本结构包括结、枝和信息集。
结分为决策结和终点结两类。
决策结是参与人采取行动的时点,如图,,如图10-2中的四个支付组合。
10-2中的“”和“”三个决策结;终点结是博弈行动路径的终点,如图10-2中的四个支付组合枝是从一个决策结到下一个后续结的连线,如图10-2中的六个箭头“”,它表示参与人的行动选择。
31,扩展式表述的博弈举例看下面这个市场销售的博弈。
某销售者在市场上推销某种商品,其行动空间是高价,低价。
当销售者选择,“高价”时,购买者有多购和少购两种选择,但少购能得到更多支付(因为这样可以通过购买更多其他商品来得到支付);同样,当销售者选择“低价”时,购买者也有多购和少购两种选择。
32,二、子博弈精炼纳什均衡,如果采用参与者同时行动的静态博弈分析方法分析动态博弈,得到的纳什均衡中就会存在不合理的均衡策略。
泽尔腾通过对动态博弈的分析完善了纳什均衡的概念,定义了“子博弈精炼纳什均衡”。
纳什均衡与不可置信威胁仍以市场销售的博弈为例。
为了构造这个动态博弈的策略式表述,先来分析销售者和购买者的策略空间。
33,销售者先行动,有两种策略:
高价和低价。
购买者后行动,根据销售者的行动,就有四种策略:
高价时多购,低价时少购;高价时多购,低价时多购;高价时少购,低价时少购;高价时少购,低价时多购。
将这四种策略分别简记为:
高多低少;高多低多;高少低少;高少低多。
34,表10-8对市场销售的博弈分析使用的是静态分析方法,得到三个纳什均衡:
(高价,高少低少);(低价,高多低多);(低价,高少低多)。
但究竟哪一个均衡实际上会发生,静态分析难以确定。
更严重的是,在纳什均衡中,参与人在选择自己的策略时,把其他参与人的策略当作是给定的,同时也不考虑自己的选择如何影响对手。
所以说,纳什均衡允许了“不可置信威胁”的存在。
不可置信威胁是指,对于先行动的参与人来说,后行动的参与人的选择空间依赖于先行动者的选择,在先行动者已做出行动选择的前提下,有一些对先行动者不利的策略将不会被后行动者选择,即这些策略是不可置信的。
35,例如,对于策略组合(高价,高少低少)来说,意味着不管销售者采取高价策略还是低价策略,购买者将始终会少购,在这个策略威胁下,销售者就不会采取低价策略,否则得到的支付为0。
销售者并不会相信这个威胁。
在销售者真的选择低价时,如果购买者是理性的就会选择多购:
少购得到的支付是3,多购却是8。
可见,纳什均衡(高价,高少低少)就是不可置信的。
子博弈的概念子博弈:
指从每一个行动选择(即一个决策结)开始至博弈结束这一阶段的行动过程,是原博弈的一部分。
36,市场销售博弈的博弈树如图10-4的图所示;决策点x和它的后续点构成一个子博弈,如图10-4的图所示;决策点y和它的后续点也构成一个子博弈,如图10-4的图所示。
另外,原博弈自身也是自己的一个子博弈。
这样,市场销售博弈共有三个子博弈。
37,子博弈精炼纳什均衡泽尔腾定义的子博弈精炼纳什均衡是纳什均衡的一个重要改进,分开了动态博弈中的“合理的纳什均衡”和“不合理的纳什均衡”。
正如纳什均衡是完全信息静态博弈解的一般概念一样,子博弈精炼纳什均衡是完全信息动态博弈解的一般概念。
子博弈精炼纳什均衡定义如下:
如果一个扩展式表述的策略组合是其原博弈的纳什均衡,又给出其每一个子博弈上的纳什均衡,那么它就是一个子博弈精炼纳什均衡。
38,仍以市场销售博弈为例。
在子博弈a中,购买者的最优选择“少购”,在子博弈b中,购买者的最优选择“多购”。
纳什均衡(高价,高少低少)中购买者的均衡战略“高少低少”,给出了子博弈a上的纳什均衡(少购),却没有给出子博弈b上的纳什均衡,所以(高价,高少低少)不是子博弈精炼纳什均衡。
同样,(低价,高多低多)也不是子博弈精炼纳什均衡。
而对于纳什均衡(低价,高少低多)中购买者的均衡战略“高少低多”来说,既给出子博弈a上的纳什均衡也给出了子博弈b上的纳什均衡(即高价时将少购,低价时将多购),所以(低价,高少低多)才是子博弈精炼纳什均衡。
39,逆向归纳法求解子博弈精炼纳什均衡用逆向归纳法求解市场销售博弈的中子博弈精炼纳什均衡如下。
40,承诺与子博弈精炼纳什均衡承诺行动:
指当事人在不施行这种不可置信的威胁时就会付出更大的代价,尽管这一代价不一定发生,但承诺行动会给当事人带来很大的好处,因为它可以改变均衡结,果。
在上面的例子中,子博弈精炼纳什均衡的策略组合是(进入,合作),即企业B进入、企业A合作。
但是,如果企业A通过某种承诺行动使自己的“不合作”威胁变得可置信,企业B就不敢进入了。
41,三、重复博弈,重复博弈:
是指同样结构的博弈重复多次。
如果博弈只是进行了一次,参与人只会关心一次性支付;但如果博弈重复进行,参与人可能会为长期利益暂时牺牲眼前利益从而选择不同的策略。
重复博弈的基本思想在重复博弈理论背后的主要思想是:
如果每个囚徒都相信做出“抵赖”的选择在长期内得到的利益将超过他短期内的损失,那么博弈被重复进行时,他们共同想要的结果(抵赖,抵赖)将会出现。
42,连锁店悖论假设同样的市场有20个(可以理解企业A有20个连锁店),企业B每次只能进入一个市场(连锁店),这就成为了20次重复博弈。
在这个博弈中,企业A选择“不合作”的唯一原因是这一选择能够起到威慑作用,使企业B不敢进入。
然而,结果会是这样吗?
在有限次(这里是20次)重复博弈中,“不合作”是不可置信的。
设想前19个市场已被企业B进入,企业B下一步要进入第20个市场。
因为这是最后一个市场,对于企业A而言,这与第一次博弈没什么区别,选择“合作”是最优策略,企业B自然选择进入。
43,四、子博弈精炼纳什均衡与寡头垄断市场,斯坦克尔伯格提出了描述寡头垄断市场的斯坦克尔伯格模型,这是一个完全信息动态博弈的例子。
在这个模型中,有两个参与人:
一个主导厂商A和一个追随厂商B;行动顺序是:
主导厂商A首先确定产量QA,追随厂商B观察到厂商A的选择后再确定自己的产量QB。
各厂商的行动空间都是自己的产量,支付为各自的利润函数。
用QA、QB分别表示厂商A和厂商B的产量;CA(QA)和CB(QB)表示两者的成本函数;PP(QAQB)表示需求函数的逆函数,其中P是价格。
44,厂商A和厂商B的利润函数分别为:
首先来计算厂商B对厂商A可能的选择所作出的反应,即求厂商B的反应函数。
厂商B达到支付(即利润)最大时,有:
45,由此得到厂商B对厂商A的反应函数:
将上式代入到厂商A的利润函数中:
求一阶导数并令其等于零:
可得到厂商A的均衡产量,代入厂商B对厂商A的反应函数,可得到厂商B的均衡产量。
46,第四节不完全信息博弈,一、海萨尼转换,不完全信息博弈以前被认为是没有办法分析的,直到海萨尼引入一个虚拟的参与人,将不确定性条件下的选择转换为风险条件下的选择。
不完全信息的博弈又称贝叶斯博弈。
不完全信息博弈中,至少有一个参与人不知道其他参与人的支付函数。
47,不完全信息的市场进入博弈来看市场进入博弈例子。
企业A是在位者,企业B是潜在进入者。
对企业B来说,不知道企业A的成本情况,也不知道企业A是否采取合作策略。
假定企业A的成本可能有两种情况:
高成本和低成本。
对应两种不同成本的策略组合的支付矩阵见表10-9。
48,海萨尼转换因为企业B不知企业A的成本情况,所以处于进退两难的境地。
这种情况的博弈以前人们认为是无法分析的,直到由海萨尼引入一个虚拟的参与人“自然”才将其解决。
自然首先行动选择参与人的类型,被选择的参与人知道自己的真实类型,而其他参与人并不清楚这个被选择的参与人的真实类型,仅知道各种可能类型的概率分布,分布函数是一种“共同知识”。
虚拟参与人“自然”的引入,使不完全信息博弈就转换为完全但不完美信息博弈,这就是海萨尼转换。
海萨尼转换已经成为处理不完全信息博弈的标准方法。
49,海萨尼转换后的市场进入博弈如图10-7所示。
50,二、不完全信息静态博弈与贝叶斯纳什均衡,继续考虑市场进入的例子。
企业B不知道企业A的真实类型,但假定它知道高成本的可能性为p,低成本的可能性为1p。
那么企业B选择进入时的期望利润为40p(10)(1p)50p10;而选择不进入时期望利润是0。
通过简单计算得到:
当p0.2时,企业B进入得到的期望利润大于不进入时的期望利润,从而进入才是最优的。
假定p0.2,那么贝叶斯纳什均衡为:
企业B选择进入,高成本企业A选择合作,低成本企业A选择不合作。
51,三、不完全信息动态博弈与精炼贝叶斯纳什均衡,对应不完全信息动态博弈的均衡概念是精炼贝叶斯纳什均衡。
精炼贝叶斯纳什均衡的要点在于参与人要根据所观察到的其他参与人的行为来修正自己有关后者类型的判断,即自己的信念,并由此选择自己的行动。
这里,修正过程使用的是贝叶斯规则。
贝叶斯规则是概率统计学中应用所观察到的现象修正先验概率的一种标准方法,它的数学表达式为:
52,具体些来说,假设你对新来同学A不了解,你可能判断他是坏人或好人的概率各为0.5(先验概率)。
但你知道,好人是不干坏事的,只有坏人才干坏事。
假如有一天你发现A做了一件坏事,就会修改对他的看法,断定他是坏人,这里实际上用贝叶斯规则把认为A是坏人的概率由0.5变为1。
53,