(si’未必是优势战略)
重复剔除的占优战略均衡:
逐次删去绝对劣势战略得到唯一的占优战略。
例:
重复剔除的占优战略均衡
例重复剔除的占优战略均衡
例重复剔除的占优战略均衡
三、纳什均衡
定义:
指一战略组合有以下特性:
当参与人持此战略后,任一参与人均无诱因偏离这一均衡;s*=(s1*,…,sn*)=(si*,s-i*)是一纳什均衡,当且仅当对所有参与人而言,ui(si*,s-i*)ui(si’,s-i*)对所有si’Si均成立。
简单而言,当s1*是对s2*的最适反应,s2*也是s1*的最适反应时,(s1*,s2*)就是二人博弈的纳什均衡。
命题1:
纳什均衡在占优战略重复剔除解法中不会被剔除
命题2:
重复剔除的严格占优战略均衡一定是纳什均衡。
例纳什均衡求解
第三节纳什均衡应用举例
古诺(Cournot)寡头模型——沙滩卖冰
豪泰林(Hotelling)价格竞争模型——公共地的悲剧
一、古诺寡头模型
特点:
存在两家厂商;同时行动确定产量。
通过预测另一家厂商的产量来选择自己的利润最大化产量,寻求预测均衡。
厂商1表示为:
maxp(y1+y2e)y1-c(y1),得出y1=f1(y2e),同理得出y2=f2(y1e),称为反应函数,两条曲线的交点为古诺模型的解。
古诺寡头模型的纳什均衡
例题:
古诺模型的解
假设p=a-(y1+y2),C1=y1c,C2=y2c
则根据利润最大化的一阶条件分别得到反应函数
y1=f1(y2)=(a-y2-c)/2,
y2=f2(y1)=(a-y1-c)/2,
求出均衡产量为(1/3(a-c),1/3(a-c)),为纳什均衡,
均衡利润为(1/9(a-c)2,1/9(a-c)2)
古诺模型的解:
与垄断市场的比较
假设为一垄断企业,则有:
Max=y(a-y-c),
得到垄断企业的最优产量
y=1/2(a-c)y1+y2=2/3(a-c)
垄断利润为=1/4(a-c)22/9(a-c)2
寡头竞争的总产量大于垄断产量的原因在于每个企业在选择自己的最优产量时,只考虑对本企业利润的影响,而忽视对另一个企业的外部负效应。
寡头厂商与垄断厂商的比较
二、沙滩卖冰
假设游客沿沙滩{0,1}间均匀分布,现有两位卖冰者,他们会将摊位选在哪个位置?
假设游客就近购买。
三、豪泰林模型
寡头企业竞争战略是价格
伯川德(Bertrand)模型:
产品同质,均衡价格等于边际成本,类似于完全竞争市场均衡。
豪泰林(Hotelling)模型:
存在产品差异,均衡价格不等于边际成本,垄断性提高
豪泰林模型:
以空间上差异为例
假定长度为1的线性城市,消费者均匀分布在[0,1]区间内,分布密度为1;两个商店1、2分别位于x=0,x=1,即城市的两端;消费者购买商品的旅行成本与商店的距离成反比,单位距离的成本为t;住在x的消费者在两个商店之间是无差异的,需求D1=x,D2=1-x,x满足:
p1+tx=p2+t(1-x),解得x=(p2-p1+t)/2t。
根据两个商店的利润函数,1=(p1-c)x,2=(p2-c)(1-x)选择使利润最大化的价格,得到一阶条件,求得p1*=p2*=c+t,均衡利润1=2=t/2
旅行成本越高,产品差异越大,均衡价格从而均衡利润也越高。
原因:
随着旅行成本上升,不同商店出售的产品之间的替代性下降,每个商店对附近的消费者的垄断能力加强,
当旅行成本为零时,不同商店的产品之间具有完全的替代性,则为伯川德均衡结果。
四、公共地的悲剧
生物学家和生态学家哈丁(GarrettHarden)在《科学》(1968年,第162卷)发表《公地的悲剧》。
考虑一块对所有的人都开放的牧场,在着的制度下,可以预期,每一个放牧的人都会在公地上放牧尽可能多的牲口。
增加一头牲口既有正效用,也有负效用。
正效用是牲口的销售收入,增加一头为+1
负效用使每增加一头带来的过度放牧的损失,每一个放牧着承担-1/n
放牧者合理的决策是增加牲口,直至马瘦毛长,公地毁灭。
资源没有排他性产权:
草地放牧、公海捕鱼、小煤窑的过度开发;另一类是人们向其中排放废物的公地。
草地放牧:
n个农民,每个拥有羊的数量为gi,G=gi,v(G)代表每只羊的价值,与草地上放牧的总数G相关,饲养量增加到一定程度,随着数量继续增加,羊的价值会下降,即v’(G)<0
农民的利润函数i=giv(gj)-gic
最优化的一阶条件:
i/gi=v(G)+giv’(G)-c=0
增加一只羊有正效应(羊的价值)、负效应(新增羊使之前所有羊的价值下降)
个人边际成本小于社会边际成本,个人最优决定的饲养总量大于社会最优决定的饲养总量
五、斗鸡博弈
“斗鸡博弈”的扩展
1、夫妻间吵架
2、警察与游行队伍
3、公共产品的供给(两富户修路)
第四节混合战略纳什均衡
混合战略:
*=(1*,…,n*)=(i*,-i*)是一纳什混合战略均衡,当且仅当对所有参与人而言,i*是-i*的最适反应,ui(i*,-i*)ui(I’,-i*),对所有i’i成立)。
持混合战略的前提是在均衡时两种战略的报酬会相等,是预期支付最大化的推导结果。
掷硬币
参与人1:
maxEu=q(p(-1)+(1-p)1)+(1-q)(p1+(1-p)(-1))=-pq+q-pq+p-pq-1+q+p-pq
=-4pq+2q+2p-1一阶条件为零求得:
p=1/2
掷硬币的分析——给定参与人1(q,1-q),参与人2的支付是:
q+(-1)(1-q)(正面)=(-1)q+(1-q)(反面);给定参与人2(p,1-p),参与人1的支付为:
p(-1)+(1-p)(正面)=p+(-1)(1-p)(反面);求得(1/2,1/2)是纳什混合战略均衡
如果两种战略报酬不相等,那么就变为纯战略了
混合战略均衡的博弈原则
两博弈方不能让对方知道或猜到自己的选择,因而必须在决策时利用随机性;
两博弈方选择每种策略的概率一定要恰好使对方无机可乘,即让对方无法通过针对性地倾向某一策略而在博弈中占上风。
例:
在掷硬币的博弈中,参与人1选正面、反面的概率q,1-q,一定要使参与人2选正面的和反面的期望得益相等
单纯战略与混合战略的定义
G={N,S,U}是一个战略式有限博弈,参与人i的战略空间S中的任一元素si称为i的一个单纯战略(purestrategy);定义在Si上的一个概率分布函数pi(si)代表了一个混合战略(mixedstrategy)——这个战略的内容是:
参与人i以概率pi(sij)选择单纯战略sij,而pi(sij)=1。
单纯战略是混合战略的特例,因为任一单纯战略si都可以理解为i以概率1选择si,以0概率选取其他所有单纯战略。
引入混合战略,参与人的目标需要修改为“最大化自己的期望支付”
小偷和守卫的博弈
一小偷欲偷窃有一守卫看守的仓库,如果小偷偷窃时守卫在睡觉,则小偷就能得手,偷得价值为V的赃物;如果小偷偷窃时守卫没有睡觉,则小偷就会被抓住。
设小偷被抓后要坐牢,负效用为-P,守卫睡觉而未遭偷窃有S的正效用,因睡觉被窃要被解雇,其负效用为-D。
而如果小偷不偷,则他既无得也无失,守卫不睡意味着出一份力挣一分钱,他也没有得失。
齐威王田忌赛马
古代齐威王与大将田忌赛马,田忌的谋士孙膑运用计谋帮助田忌以弱胜强。
比赛规则:
田忌与齐威王各出三匹马,一对一比赛三场,每一场的输方要赔1000斤铜给赢方。
双方的马按实力都可以分为上、中、下,但齐威王的上、中、下均优于田忌的上、中、下。
实际上,田忌的上马、中马要优于齐威王的中马、下马。
比赛结果:
田忌连输三场;后孙膑建议,以上对中、以中对下、以下对上,结果以2:
1赢得比赛。
前述为单方面运用策略的故事,如果齐威王预料到田忌的做法,必然会改变各匹马出场的次序。
本博弈中博弈双方的利益是完全对立的,是严格竞争的零和博弈,不会有纯策略纳什均衡,必然是一个混合策略均衡。
假设齐威王采取六种战略的概率分别为pa,pb,pc,pd,pe,pf(加总为1),则田忌采取六种战略的期望得益相等,则得出齐威王与田忌均以1/6的相同概率随机选择各自的六个纯策略,构成本博弈唯一的混合策略纳什均衡。
在上述混合策略下,齐威王的期望得益为1/6(3+1+1+1+1-1)=1;田忌的期望得益为1/6(1-3-1-1-1-1)=-1,即多次进行这样的赛马,齐威王平均每次能赢田忌1000斤铜,这是因为齐威王三匹马的总体实力略胜田忌三匹马总体实力的缘故
混合策略反应函数
将博弈方的策略空间扩展到包括混合策略,将纳什均衡扩展到包括混合策略纳什均衡以后,求纳什均衡反应函数的分析方法也可以扩展到求混合策略纳什均衡。
反应函数即一博弈方对另一博弈方每种可能的决策内容的最佳反映决策构成的函数。
在纯策略的范畴内,反应函数是各博弈方选择的纯策略对其他博弈方纯策略的反应。
在混合策略的范畴内,博弈方的决策内容为选择概率分布,反应函数就是一方对另一方的概率分布的反应。
掷硬币
当2出正面的概率q1/2,1出正面的概率为1,因为他出正面得到的预期收益大于他出反面;当2出正面的概率q1/2,1出正面的概率为0,因为他出反面的期望收益大于他出正面。
第五节纳什均衡的存在性与多重性
不同均衡概念之间的关系
纳什均衡的存在性
每个有限战略式博弈(参与人与战略数目均为有限)都有纳什均衡存在,这均衡有可能是混合战略均衡
纳什均衡的多重性
纳什均衡不唯一,如性别战
案例性别战
性别战:
混合策略均衡
给定妻子分别以q,1-q的概率选择时装、足球,则丈夫选择时装、足球的期望收益相等,即1.q+0.(1-q)=0.q+3.(1-q),解得妻子选择时装、足球的概率分别为(3/4,1/4)
给定丈夫分别以p,1-p的概率选择时装、足球,则妻子选择时装、足球的期望收益相等,即2.p+0.(1-p)=0.p+1.(1-p),解得妻子选择时装、足球的概率分别为(1/3,2/3)
当妻子以(3/4,1/4)的概率分布随机选择时装表演和足球,丈夫以(1/3,2/3)的概率随机选择时装表演和足球时,双方都无法通过单独改变策略,即单独改变随机选择纯策略的概率分布而提高利益,因此双方的上述概率分布的组合构成一个混合策略纳什均衡。
该混合策略纳什均衡给妻子和丈夫各自带来的期望收益分别为:
q.p.2+q.(1-p).0+(1-q).p.0+(1-q).(1-p).1=2/3;
q.p.1+q.(1-p).0+(1-q).p.0+(1-q).(1-p).3=3/4
双方的期望收益均小于纯策略时的期望收益。
练习题目
焦点均衡
当一个博弈有多个纳什均衡时,博弈论并没有一个一般的理论来证明纳什均衡结果一定会出现。
在现实生活中,参与人可能使用某些被博弈模型抽象掉的信息来达到一个“焦点”均衡。
这些信息可能与社会文化习惯、参与人过去博弈的历史有关。
例,在性别战中,如果今天是丈夫的生日,(足球、足球)可能是一个焦点均衡;而如果是妻子的生日,(时装、时装)可能是一个焦点均衡。
还有分蛋糕等。
市场进入阻挠
第二章完全信息动态博弈
博弈的扩展式表述
子博弈精炼纳什均衡
子博弈精炼纳什均衡举例
重复博弈和无名氏定理
完全信息动态博弈
一般以扩展型式来表示:
G=(N,H,P,I,U),包括5要素:
(1)局中人N;
(2)历史H:
博弈树是一个多环节与枝干的集合,从单一的起始环节,直到终结环节,代表博弈历史;
(3)对每个环节的分配法则P:
将每个环节(除终结环节外)分配给不同的局中人,并赋予行动时可选的策略;
(4)局中人行动时的信息集合I;
(5)对应局中人可能选择策略,各局中人在终结环节所得到的报
两厂商进入不进入
在市场进入博弈中:
A有两个行动:
“进入”、“不进入”。
由于是先行动者,只有两个战略:
选择“进入”或“不进入”。
B有两个行动:
“进入”、“不进入”。
但是,有4个战略:
(1)若A选择“进入”,B选择“进入”,若A选择“不进入”,B选择“进入”,即(进入,进入)
(2)若A选择“进入”,B选择“进入”,若A选择“不进入”,B选择“不进入”,即(进入,不进入)
(3)若A选择“进入”,B选择“不进入”,若A选择“不进入”,B选择“不进入”,即(不进入,进入)
(4)若A选择“进入”,B选择“不进入”,若A选择“不进入”,B选择“不进入”,即(不进入,不进入)
在市场进入博弈中,包含3个子博弈(包括原博弈)。
该博弈中有三个纳什均衡:
①不进入,(进入,进入)
②进入,(不进入,进入)
③进入,(不进入,不进入)
前两个均衡的结果(进入,不进入),即A进入,B不进入;第二个均衡结果是(不进入,进入),即A不进入,B进入
前边得到的三个纳什均衡中,均衡①意味着当A不进入时,B选择进入;而当A选择进入时,B仍选择进入(B威胁无论如何都要进入市场)。
显然,当A选择进入时,B仍选择进入是不合理的,如果A进入市场,B选择“不进入”比选择“进入”收益要更大,理性的B不会选择进入,而A知道B是理性的,因此也不会把该战略视为B会选择的战略。
因此,B的战略(进入,进入)是不可置信威胁。
均衡③意味着当A进入时,B选择不进入;而当A选择不进入时,B仍选择进入(B威胁无论如何都不进入市场)。
显然,当A选择不进入时,B仍选择不进入是不合理的,B的战略是不可置信的。
只有均衡②是合理的:
如果A进入,B不进入;如果A不进入,B进入。
因为A是先行动者,理性的A会选择“进入”(他知道B是理性的,B不会选择“进入”),而理性的B选择“不进入”。
观察博弈树上的三个均衡中,B的不可置信战略中的反应,在第二阶段B开始行动的两个子博弈中不是最优;而合理的纳什均衡中,B的战略在所有子博弈中都是最优的,与A的第一阶段可能选择的行动构成该子博弈的纳什均衡。
博弈树的构成
1.结(nodes):
结包括决策结(decitionnodes)和终点结(terminalnodes)两类。
决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。
在博弈树中,“谁在什么时候行动”用在决策结旁边标注参与人的办法来表示。
参与人的支付标注在博弈树终点结处。
2.枝(branches):
在博弈树上,枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。
3.信息集(informationsets):
博弈树上的所有决策结分割成不同的信息集。
每一个信息集是决策结集合的一个子集。
该子集包括所有满足下列条件的决策结:
(1)每一个决策结都是同一参与人的决策结;
(2)该参与人知道博弈进入该集合的的某个决策结,但不知道自己究竟处于哪一个决策结。
完美信息&不完美信息
第二节子博弈精炼纳什均衡
子博弈
子博弈精炼纳什均衡
求解方法:
逆向归纳法
承诺行动与子博弈精炼纳什均衡
一、子博弈
子博弈定义:
在一个扩展型博弈中,如果一个博弈由它的一个决策结及其所有后续结构成,并满足
(1)起始结是一个单结的信息结;
(2)子博弈保留了原博弈的所有结构,则称它为原博弈的一个子博弈(子博弈)。
(1)起始结是一个单结的信息结
(2)子博弈保留了原博弈的所有结构:
子博弈的信息集和支付向量都直接继承自原博弈
二、子博弈精炼纳什均衡
子博弈精炼纳什均衡定义:
在博弈G中,如果s*=(s1,…,sn)是G的一个纳什均衡,并且对所有可能的子博弈而言仍是一个纳什均衡,则称s*=(s1,…,sn)为一个子博弈精炼纳什均衡
纳什均衡子博弈精炼纳什均衡
三个纳什均衡:
(上,{左,左})(下,{左,右})(下,{右,右})
排除(上,{左,左}),(下,{右,右}),只有(下{左,右})是子博弈精炼纳什均衡
三、求解方法:
逆推法
逆向归纳法求解子博弈精炼纳什均衡的过程,实质是重复剔除劣战略过程在扩展式博弈上的扩展:
从最后一个决策结开始依次剔除掉每个子博弈的劣战略,最后生存下来的战略构成精炼纳什均衡。
如同重复剔除的占优均衡要求“所有参与人是理性的”是共同知识一样,用逆向归纳法求解均衡也要求“所行参与人是理性的”是共同知识。
逆推法例1
逆推法例2
逆推法例3
第三节子博弈精炼纳什均衡举例
一、斯塔克尔伯格模型
产量领导模型:
行动顺序为,第一家厂商首先选择产量;第二家厂商再选择产量,得到反应函数;将反应函数代入第一家厂商的利润函数求出y1*;然后求y2。
追随者max2=p(y1+y2)y2-c(y2),得到反应函数y2=f2(y1)
领导者max1=p(y1+y2)y1-c(y1)=p(y1+f2(y1))y1-c(y1),可以求出均衡产量y1*,跟随者依照反应函数求出y2*,进一步解出p。
解斯塔克尔伯格模型
设p=1-(y1+y2),MC=0,则厂商2根据利润最大化得到反应函数y2=f2(y1)=(1-y1)/2,
代入厂商1的利润函数
1=p(y1+y2)y1-c1(y1),
一阶条件得到y1=1/2,
代入厂商2的反应函数得到y2=1/4,
(1/2,1/4)为均衡解,
(1/8,1/16)为其相应的支付。
第四节重复博弈和无名氏定理
有限次重复博弈:
连锁店悖论
无限次重复博弈和无名氏定理
一、有限次重复博弈
有限次重复博弈
令G为阶段性博弈,G(T)是G重复T次的重复博弈(T<)。
如果G有唯一的纳什均衡解,重复博弈G(T)的唯一子博弈精炼纳什均衡结果是阶段博弈G的纳什均衡重复T次,如囚犯困境。
有限次重复博弈:
连锁店悖论
连锁店悖论
假定同样的市场有20个(可以理解为在位者有20个连锁店),进入者每次进入一个市场,博弈就变成了20次重复博弈。
子博弈精炼纳什均衡为,在位者在每一个市场选择默许,进入者在每一个市场选择进入。
n次重复博弈
二、无限次重复博弈与无名氏定理
无限次重复博弈
假设囚徒困境是一个阶段性博弈,并且是无限次重复博弈,那么任一个囚徒选择抵赖的条件是:
0+(-6)+2(-6)+…-1+(-1)+2(-1)+…(为贴现因子)或者-6/(1-)-1/(1-),即1/6(即局中人具有足够的耐心),(抵赖、抵赖)是无限次囚徒博弈的一个子博弈精炼纳什均衡
冷酷战略
也称触发战略)以囚徒困境为例:
开始选择抵赖,选择抵赖直到有一方选择了坦白,然后永远选择坦白。
一旦哪个参与人选择了坦白,就触发了惩罚的扳机。
。
无名氏定理
在无限次重复博弈中,如果参与人具有足够的耐心(即足够大),那么任何满足个人理性的可行的支付向量都可以通过一个特定的子博弈精炼均衡得到
无名氏定理举例
以“利己、利他”为例,其博弈中唯一的纳什均衡为(利己,利己),两个局中人在此均衡下所的支付都是1;所以,只要无穷重复博弈中局中人可行的平均单期支付不小于1,这样的支付就是一个可能的均衡支付。
无穷重复博弈能够导致帕雷托改进。
寡头市场上古诺均衡的无限次重复博弈
合作:
生产垄断产量的一半(1/4,1/4),获取超额利润(1/8,1/8)
不合作:
生产纳什均衡产量(1/3,1/3),获取超额利润(1/9,1/9)
给定企业坚持冷酷战略,企业一开始生产1/4,中途只要有企业偏离合作产量,生产短期最优产量3/8,则对方选择1/3。
证明冷酷战略是子博弈精炼纳什均衡
如果下列条件满足,则任一企业没有积极性偏离合作均衡:
9/64+/9+2/9+…1/8+/8+2/8+…即如果9/17,默契合作就会是一个精炼均衡结果。
如果有n个寡头企业,默契合作要求(1+4n/(n+1)2)-1,当n时