同济大学马洪宽老师博弈论复习资料.docx-资源下载

同济大学马洪宽老师博弈论复习资料.docx

1、同济大学马洪宽老师博弈论复习资料博弈是一些个体，面对一定的环境，在一定的规章制度下，同时或先后，一次或多次在其允许的策略集中选择其行为并加以实施，最终获得一定结果的过程博弈论从衡量利弊得失的角度出发，分析形势得出相应的对策，在决策的过程中考虑到参与的其他人的行为会相互影响的决策者，需要博弈论，决策中不考虑他人的行为的决策者不需要博弈论。博弈论通常记为G或，局中人的集合通常为N，为局中人n，局中人的策略集记为S，则某一策略记为i，局中人i的策略组合为(i,-i)，其中-i表示局中人i以外所有人的策略组合。局中人的收益U是的函数，则博弈也记为G(N,S,U)，若考虑信息则是G(N,S,U,I)上策

2、均衡：每个人都有上策，博弈时必取上策，形成的均衡为上策均衡。囚徒困境：对每一行在第二个分量中划线，即甲策略不变时乙的策略。反之亦然乙招不招甲招-5，-50，-8不招-8，0-1，-1两人都有上策均衡，亦为纳什均衡智猪博弈：有一开关，大猪小猪都按，则大猪得7单位，小猪得3单位；大猪按，小猪不按，大猪得6单位，小猪得4单位；小猪按，大猪不按，大猪得9单位，小猪得1单位；但是按一下会消耗2单位（此处隐含条件，两者都不按则无收益与支出）。小按不按大按5，14，4不按9，-10，0此时小猪有上策不按，但是大猪无上策小猪选择不同，大猪选择也相应不同。此时（大猪，小猪）的纳什均衡为（按，不按）此情境可推广至

3、投资机构与散户的投资行为。机构研究市场动向，之后散户跟风。娱乐博弈：甲爱象棋，乙爱围棋，甲乙一起下象棋，甲得5，乙得2；甲乙一起下围棋，甲得2，乙得5；但是两人选择不同则游戏无法开始。乙象围甲象5，20，0围0，02，5两人均无上策，（甲，乙）的纳什均衡为（象，象）或（围，围）便士博弈：甲乙同时放一枚硬币，如同面则乙给甲1块钱，如异面则甲给乙1块钱乙正反甲正1，-1-1，1反-1，11，-1此题不存在纯策略静态博弈的纳什均衡，但有混策略均衡。混策略的原则是做出某种概率，使对方的收益无差异。设甲取正概率为p，可写出乙的期望收益，欲使乙无差异，则p=0.5；同样，对乙的选择亦如此。定理：任意有限博

4、弈必定存在一纳什均衡。古诺模型（产量决策模型）：甲乙两厂商生产一产品，价格函数为P=8-Q，单位成本C=2，问甲乙应如何定产量？解：设甲产q1，乙产q2，则Q=q1+q21=Pq1-Cq1=(8-q1-q2) q1-2 q1=-q12+(6-q2)q1同理可得：令两偏导数均为零，解得q1=q2=2则1=2=4卡特尔：甲乙约定“各产一半，利润均分”=(8-Q)Q-2Q，求导得Q=3时最大，即各产1.5，各得4.5但根据1=-q12+(6-q2)q1可算出在q2=1.5时甲利润最大的产量并不是1.5，而是2.25，此时甲可得利润5.0625，因此合作不牢固下策：无论对方如何行动，甲在和两个策略中都

5、有优于，则称为下策；与上策不同，上策是优于所有其他策略的策略，而下策是只要劣于任意一个其他策略的策略博弈树：描述动态博弈的工具，注意两个节点是否因信息未知而实际为一个借钱还钱博弈：甲向乙借钱，乙可以选择借或不借，如果不借则两者均无收益支出，选择借，则甲可以选择还或者不还，选择还则甲乙收益均为1，选择不还则乙可选择诉讼还是不诉讼，诉讼收益为甲1.5，乙0.5，不诉讼则甲4，乙-2。画博弈树，利用递推归纳法乙甲乙借不借还不诉诉0,01,10.5,1.5-2,4斯塔克伯格模型：P=8-Q，单位成本C=2，甲先确定其产量，之后已确定其产量，问两者产量各多少。先看第二阶段，乙的利润函数2=6q2-q1q

6、2-q22，对q2求偏导，可得q2=(6-q1)/2，之后将此式代入1，得1=3q1-q12/2，求导得q1=3，q2=1.5工资的确定：第一阶段，工会定工资，收益U(w,L)，w为工资，L为被雇佣人数。第二阶段，企业雇佣人，利润=R(L)-wL，R为L个人生产的产值。解：先分析第二阶段，企业雇佣人数为对L的偏导，求出L，继而进入第一阶段，将L代入U(w,L)，求U对w的偏导，即可求出w。这种方法现实中并非双方默契，而需要双方谈判达成。折现率：明年100元在今年值a元，则折现率=a/100。注意：老师上课将称为贴现率，这是错误的。讨价还价博弈：甲乙分钱，甲先提出一种分法，乙可以选择同意或拒绝，

7、如拒绝则乙提一种分法，甲同意或拒绝，如拒绝则甲提一种分法，乙必须同意。如果规则仅仅如此，则结果必然是甲全拿，乙无收获，即(1,0)。理由如下：如果博弈可以进入第三阶段，则甲必然将钱全部据为既有，则在第二阶段无论乙如何划分，甲都必须拒绝，则在第一阶段甲亦会做出甲得1，乙得0的划分，第一阶段乙无论同意或拒绝都改变不了最终结果。规则修改：每一阶段的折现率为 (0=2q3，则在第二阶段甲会选择同意而不会进入第三阶段（注意，如果甲此时选择进入下一阶段则甲收益不少，但乙收益会减少，而我们假设每个理性人只考虑自己利益最大化，而不理会其他人利益，故在保证自己利益的情况下不会去损害他人，当然零和博弈保护自己即是

8、损害他人，如每一阶段独立来看都是广义零和博弈）。同样，如果在第一阶段有1-q1=(1-q2)，则乙会直接同意而不进入第二阶段。取临界等式，可得q1=1-+2q3。即如果在第三阶段有一分法(2q3,2(1-q3)，则相应的在第一阶段必定有双方同意分法(1-+2q3,-2q3)。显然，在第三阶段甲会独吞剩余钱数，即q3=1，甲得到2，则第一阶段的分法将会是(1-+2,-2)，即如果折现率为1或0，则甲都会独吞，但折现率在0和1之间，甲不会独吞。甲乙永远不会相等，差距最小时为=0.5，说明该规则先下手为强。规则改变2：假设可进行无限多次讨价还价，即如有一方不同意，则永远按上述规则讨论下去，直到双方同

9、意为止，同样现值也会以每回合的比率折减。博弈树如图无法使用递推归纳，因不存在最后一个阶段。可将决策树砍掉前两个阶段并与原决策树进行比较，由于有无限多过程，则两决策树等同，即第三阶段与第一阶段没有任何差别，是全等的，因此在第三阶段可以达到的协议在第一阶段就也可以达成。这样就可以将无限阶段动态博弈改为三阶段动态博弈。如上题结论，如果在第三阶段甲可以得到1-+2q，则第一阶段甲必定可以得到q，由于第一和第三阶段完全等同，则q=1-+2q，解得q=1/(1+)，即第一阶段分法为(1/(1+),/(1+)。此时结论便不相同，如果为1，即不发生现值折减，则两人会平分；如果为0，则甲独吞因即使乙不同意乙也什

10、么都得不到，这可以解释现实情况，因现实中多为终点不确定的博弈可等同于无限次博弈。关税与国际市场模型：太复杂，略过银行挤兑模型：银行有一200万元项目，一年后本利和220万，甲乙各有100万，如甲乙都将100万存入，一年后可得110万，如中途有人提前取款，银行只得卖掉项目得160万，先到者得100万，后到者60万，如两人同时提前取，各得80万。分析：第一阶段，甲乙是否存款；第二阶段，甲乙提前还是到期取款。解：先分析第二阶段，见下表：乙提前到期甲提前80，80100，60到期60，100100，100则有两个纳什均衡（提前，提前）和（到期，到期），再分析第一阶段乙存不存甲存进入第二阶段100，10

11、0不存100，100100，100综合来看，在（存，存）策略中会有两种可能的收益情况：乙存不存甲存110,110或80,80100，100不存100，100100，100但此时双方都会预见到只要自己不主动提前支取，另一方不会提前支取的，同时自己没必要提前支取，因到期支取获得的收益要大，因此博弈的稳定结果为（存，存）以及（到期，到期）重复博弈：一次博弈，策略集中有P个元素，则重复T次，策略集中有PT个元素。连锁店悖论：甲在某地先开连锁店，之后乙也想在此地开连锁店，甲的策略集（默许，斗争），乙的策略集（进入，不进入）乙进入不进入甲默许50，40100，0斗争0，-10100，0纳什均衡应当为（默许

12、，进入）修改规则：将此博弈重复20次（可理解为有20个地区遇到相同情况），问结果如何？完美信息动态博弈，最后一阶段必取均衡。假设有n个阶段（n有限），在第n阶段时前n-1个阶段的收益已定，在第n阶段收益多少决定了总博弈收益多少。同理，n-1也必取均衡因此所有阶段都要取均衡。这样甲乙的收益为(2000,1600)。但这样分析可能与现实产生矛盾。甲可以在前5回合都选斗争，之后乙亏损严重退出竞争，之后15回合乙都不进入，此时甲收益15001000。说明不能简单认为每回合都取均衡，可以设计策略。定价博弈：甲乙对一个商品进行定价，支付矩阵如下表乙高中低甲高5，50，60，2中6，03，30，2低2，02

13、，01，1在一次博弈中均衡为（中，中）或（低，低），但在重复博弈中可设计策略。现将此博弈重复两次，策略可如此设计：第一阶段甲取高，如乙也取高，则第二阶段甲取中；如第一阶段乙取中，则第二阶段甲取低。此策略对乙也是相同。如果乙选择合作，则收益为5+3=8，如乙不合作，则收益至多为6+1=7，则乙会选择合作。对甲亦如此最后一阶段必然需要取均衡，因最后一阶段没有约束手段，不可能达成合作。一次性博弈中如局中人收益和最大者对应的策略组合未实现，则在重复博弈中产生合作的可能，即产生新的均衡（提高社会总收益）的可能。产生的方法：先试图合作，如对方合作则继续合作；如对方不合作，则从此一直不合作，称为触发策略。触

14、发策略产生了重复博弈的一均衡。市场选择甲乙各有A、B连个投资机会，如两人均A，各得3；一A一B，选A得1，选B得4；如两人均B，各得0。问重复2、3、4次会如何？一次博弈矩阵：乙AB甲A3，31，4B4，10，0重复2次：如两次（A，B），则甲2乙8；两次（B，A），则甲8乙2；一次（A，B）一次（B，A），则甲乙各5。则可采用轮换策略，以示公平。但此时（A，A）取不到，因没有惩罚方式，不会合作。重复3次：可设计策略。第一阶段甲先取A，如乙也取A，则第二阶段甲取A，第三阶段甲取B；如第一阶段乙取B，则甲在二、三阶段均取B。此时乙如果合作，收益为3+4+1=8；如不合作，收益为4+1+1=6。因

15、此乙会合作。用后两个阶段的轮换策略保证第一阶段的合作。重复4次：设计策略类似，即甲在第一阶段先取A，如乙也取A，则与重复3次的情况相同；如乙取B，则甲在后续所有阶段均取B。此时乙如果一直合作，收益为11；如乙第二阶段不合作，收益为9；一直不合作，收益为7。价格战无限次重复甲乙两厂商，各有高、低两种价格可选择，两人均高，各得4；一高一低，高者0，低者5；两人均低，各得1。无限次重复，贴现率。一次博弈的收益矩阵：乙高低甲高4，40，5低5，01，1则在一次博弈中有均衡（低，低），收益之和最大值（高，高）未实现。触发策略：先试图取高，如对方取高，则继续取高；如对方取低，则此后一直取低。如果合作，第一

16、次得4，现值4；第二次得4，现值4；第三次得4，现值42。无限次后现值为：如果不合作，第一次得5，以后都得1。无限次后现值为：令合作不合作，得1/4，因此当1/4时合作，否则不合作。古诺模型无限次博弈低水平合作：先产q*，如对方也q*，则会继续合作，如不产q*，则以后都产2。高水平合作：需加大惩罚力度，实现高水平合作各产1.5。第一阶段先产1.5，如对方不合作，则在第二阶段选择一产量惩罚对方，迫使对方合作。并且如果对方想和好则产与己方相同的产量，否则会招致更严厉惩罚。只适用于我强敌弱的情况。具体计算太复杂。信息不对称有人多有人少。信息不对称发生在交易前称为事前信息不对称（如商家欺诈消费者，商家

17、在交易前便知道商品有问题，但消费者不知道），反之称为事后信息不对称（如贪污腐败的官员在上任之前无法贪污，此时官与民都不知其是否会贪污，只有权力在手才是其贪污的基础）。研究事前不对称的理论称为逆向选择，研究事后不对称的理论称为道德风险。旧车模型甲有一辆二手车要卖掉，乙考虑是否买。乙不清楚车质量为何，只愿意以这类车的平均价格成交，此时相对较好车的卖家会因损失太大而退出市场，市场中只留下差车，即为逆向选择。类比：贷款利率提高，还贷能力强（之前能还贷，现在不能还贷）的人不会贷款，而还贷能力弱（之前还不起，现在更还不起）的人会继续贷款次贷危机；医疗保险收费增加，不爱生病的人由于用不掉医疗费而不投保，总生

18、病的人却依然要投保。好车价值V，差车价值W，价格P，有WPV，差车的伪装成本C包括翻新费用，客户得知受骗后的退货、退赔，质量保修等。好车的概率是q。第一阶段不是甲的主观选择，而是客观事实，可以用自然代替。递推归纳法：先第三阶段，乙考虑是否买：买的期望效用q(V-P)+(1-q)(W-P)，不买效用为零。当前式的值大于零时买。再第二阶段，甲决定是否卖，并且差车是否要伪装成好车：当P-C0时，差车一定不伪装，否则亏本双价二手车模型：有P低WP高PH-PLV-W(PH-PL)/qPH-PL，也即价值差要大于价格差，说明消费者买东西希望物有所值。（不进行市场监管会损害合法商家的利益）市场完全成功：好商

19、品的厂商将商品完全投放市场，差商品不投放市场，消费者购买所有商品。市场部分成功：好商品和差商品的厂商都将商品完全投放市场，消费者购买市场上所有商品市场趋于失败：好商品的厂商将商品完全投放市场，差商品部分投放市场，消费者以某个概率购买商品。（会导致逆向选择）市场完全失败：厂商不进入市场，消费者不买东西博弈中，如局中人甲有信息A，其他局中人不完全了解信息A（不是完全不了解），且信息A影响其他局中人的收益，则称信息A为局中人甲的私人信息。均衡中，不同类型私人信息的局中人行为不同，则此均衡为分离均衡；均衡中不同类型私人信息的局中人行为相同，则此均衡为混同均衡。有私人信息的局中人成为代理；没有私人信息的

20、局中人成为委托。委托不能控制代理的行为，也无法监督，并且代理的努力程度与工作结果并无直接的关系。委托只能根据委托代理合同影响代理的努力程度。设计一合同（机制）让代理努力。激励机制设计。委托代理模型（讨论道德风险）三个层次：1.代理的努力程度与工作结果有直接的关系2.代理的努力程度与工作结果无直接关系，但委托可以监督代理的行为3.代理的努力程度与工作结果无直接关系，且委托不能完全监督代理的行为有一个送水站雇主，自己可送30个客户，现有45个客户，考虑是否雇帮手。第1层次：代理努力，则委托得高收益RH1；代理偷懒，则委托得低收益RL1；代理努力得高工资WH1，代理偷懒得低工资WH2；代理的努力成本

21、e，委托有初始收益R0（即不雇人时的收益），代理有机会成本W0第一阶段：委托决定是否雇人；第二阶段：代理决定是否应聘；第三阶段：代理决定是否努力逆推归纳：第三阶段：当WH1-eWL1时，代理努力第二阶段：代理可用保守策略，即当WH1-e和WL1均大于W0时应聘，但委托不希望这样，则委托会设定：WH1W0WL1第一阶段：委托用保守策略，当RH1和RL1均大于R0时雇。但既然鼓励工人努力，则应RH1R0时即雇第2层次：因代理的努力程度，委托可监督。不论产出多少，努力即给高工资，偷懒即给低工资，风险（因努力也有可能低产出）由委托一人承担。对代理模型不变；对委托，当努力的期望收益大于不雇人时收益时雇，

22、即pRH2+(1-p)RL2R0时雇。RL2RH1以上可说明在不确定情况下，产出水平要提高才会雇，不确定情况下就业形势比确定情况严峻。第3层次：代理的努力程度与工作结果无直接关系，且代理的努力程度委托无法监督，委托只能看到高产出或低产出。此时风险分担。第三阶段：代理努力得期望工资p(WH3-e)+(1-p)(WL3-e)；代理偷懒得期望工资qWH3+(1-q)WL3。当前者大于后者时努力，即WH3-WL3e/(p-q)时努力。而在第1层次WH1-WL1e时努力。0qp1，因此p-qe，亦差距很大。同时WH3-WL3WH1-WL1。第3层次的工资差要比前两个层次都大。p(WH3-e)+(1+p)

23、(WL3-e)W0时应聘，比照第1层次，WL3WH1。同理pRH3+(1-p)RL3R0效率工资：高工资能提高员工的生产率，从而提高企业的利润在发展中国家，高工资能使员工多购买一些生活必需品，从而提高了员工的身体健康水平，使员工能更好地工作；在发达国家，高工资能减少员工的离职情况，使企业有一稳定的员工队伍，保证企业的生产能正常进行。工资逆向选择：当企业工资较低，员工们就会想另谋他只，此时技术好、能力强的员工更容易找到其他工作而离职，而能力较差的员工不易找到其他工作，只有留在原企业（逆向选择）。工资相对其他企业较高时，不但本企业员工不愿离职，而且其他企业员工也会想要进来就只（如择优录取，则本企业

24、员工平均水平上升）高工资会减少道德风险。通常企业无法完全监督员工的努力程度，只能偶尔监督，或考察一些指标，不合格者则辞退。当企业工资较高时，员工因担心不努力被检测到后遭辞退而失去高工资，故会提高努力程度。高工资会提高失业率效率工资如何确定给多少工资能使员工努力工作？员工如努力，则一直高产出；员工偷懒时，p可能性高产出，1-p概率低产出。贴现率。员工一直努力，每阶段工资W*-e，总现值为等价为两阶段博弈：第一阶段得W*-e，第二阶段得Ve。Ve=W*-e+Ve，得相同结果考试内容：概念：完全信息：一博弈中，一局中人对各种策略组合下格局中人的收益完全了解。不完全信息：对局中人收益不完全了解完美信息

25、：动态博弈中，轮到行为的局中人能完全观测已行为的局中人的行为。不完美信息：对已行为的有些局中人的有些行为不能完全观测静态博弈：一博弈，所有的局中人都只有一次行为机会，且其在信息意义下同时行为。动态博弈：有些局中人有不止一次的行为机会，或有些局中人在行为前能观测一些他人的行为。纳什均衡：一博弈中，如存在一策略组合，单个局中人独自离开这个策略组合，其收益不会增加。（选了其他策略，而不是离开博弈）逆向选择：信息不对称发生在签约前，称为事前信息不对称。研究事前信息不对称的理论或模型称为逆向选择。道德风险：信息不对称发生在签约后。分离均衡：如一均衡中，不同类型局中人的行为不同，则此均衡称为分离均衡混同均

26、衡：如一均衡中，不同类型局中人的行为相同。海萨尼转换：引进一虚拟局中人（自然），让自然确定有私人信息的局中人的类型作为博弈的第一阶段，然后再进行原博弈（原静态变动态，原n阶段动态变n+1阶段动态）。把对局中人类型的不了解转化为对局中人行为的不了解；把不完全信息转化为不完美信息。基本方法：分析博弈的类型：静态、动态、完全、完美？收益矩阵分析博弈（划线法）博弈树分析博弈旧车模型委托代理无限次重复博弈，求，使可以合作古诺模型：最简单的一种旧车模型甲有一辆二手车要卖掉，乙考虑是否买。乙不清楚车质量为何，只愿意以这类车的平均价格成交，此时相对较好车的卖家会因损失太大而退出市场，市场中只留下差车，即为逆向

27、选择。类比：贷款利率提高，还贷能力强（之前能还贷，现在不能还贷）的人不会贷款，而还贷能力弱（之前还不起，现在更还不起）的人会继续贷款次贷危机；医疗保险收费增加，不爱生病的人由于用不掉医疗费而不投保，总生病的人却依然要投保。好车价值V，差车价值W，价格P，有WPV，差车的伪装成本C包括翻新费用，客户得知受骗后的退货、退赔，质量保修等。好车的概率是q。第一阶段不是甲的主观选择，而是客观事实，可以用自然代替。递推归纳法：先第三阶段，乙考虑是否买：买的期望效用q(V-P)+(1-q)(W-P)，不买效用为零。当前式的值大于零时买。再第二阶段，甲决定是否卖，并且差车是否要伪装成好车：当P-C0时，差车一

28、定不伪装，否则亏本双价二手车模型：有P低WP高PH-PLV-W(PH-PL)/qPH-PL，也即价值差要大于价格差，说明消费者买东西希望物有所值。（不进行市场监管会损害合法商家的利益）委托代理模型（讨论道德风险）三个层次：1.代理的努力程度与工作结果有直接的关系2.代理的努力程度与工作结果无直接关系，但委托可以监督代理的行为3.代理的努力程度与工作结果无直接关系，且委托不能完全监督代理的行为有一个送水站雇主，自己可送30个客户，现有45个客户，考虑是否雇帮手。第1层次：代理努力，则委托得高收益RH1；代理偷懒，则委托得低收益RL1；代理努力得高工资WH1，代理偷懒得低工资WH2；代理的努力成本e，委托有初始收益R0（即不雇人时的收益），代理有机会成本W0第一阶段：委托决定是否雇人；第二阶段：代理决定是否应聘；第三阶段：代理决定是否努力逆推归纳：第三阶段：当WH1-eWL1时，代理努力第二阶段：代理可用保守策略，即当WH1-e和WL1均大于W0时应聘，但委托不希望这样，则委托会设定：WH1W0WL1第一阶段：委托用保守策略，当RH1和RL1均大于R0时雇。但既然鼓励工人努力，则应RH1R0时即雇第2层次：因代理的努力程度，委托可监督。不论产出多少

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？