第三讲完全信息动态博弈.docx-资源下载

第三讲完全信息动态博弈.docx

1、第三讲完全信息动态博弈第三章完全信息动态博弈第一节完全信息动态博弈的扩展式表述动态博弈的根本特征是，参与人的行动有前后顺序，且后行动的参与人在自己行动之前能观测到先行动的参与人的行动，专门是能按照先行动的参与人的行动调整或做出自己的战略选择。运用战略式表述动态博弈的缺点表此刻：1看不出行动的前后顺序；2对于描述2人以上的博弈较不方便。因此，扩展式表述extensive form representation被用于描述动态博弈。一、扩展式表述的要素1参与人集合：i=1,n。另外，用N代表虚拟参与人“自然”。2参与人的行动顺序the order of moves：谁在何时行动。3参与人的行动空

2、间action set：在每次行动时，参与人有些什么选择。4参与人的信息集information set：每次行动时，参与人明白些什么。5参与人的支付函数：在行动结束以后，每一个参与人取得些什么（支付是所有行动的函数）。6外生事件（即自然的选择）的概率散布。犹如两人有限博弈的战略表述能够用支付矩阵表示一样，n人有限博弈的扩展式表述能够用博弈树game tree表示。二、博弈树的大体建筑材料building blocks（4，4）（一）结nodes1结的分类（1）决策结decision nodes：参与人采取行动的时点。包括：起点结initial nodes 非起点结（2）终点结terminal

3、 nodes：博弈行动路径的终点。2结的顺序关系precedence relation用X表示所有结的集合，xX表示某个特定的结。xx表示“x在x之前”3前列集the set of predecessors和后续集the set of successors概念P(x)为在x之前的所有结的集合，简称为x的前列集；概念T(x)为x以后的所有结的集合，简称为x的后续集。若是P(x)=，x称为初始结，用O表示，若是T(x)= ，x称为终点结，用z表示。Z表示终点结集合。除终点结之外所有的结都是决策结，在不引发混乱的情形下，用X表示决策结的集合。除初始结O外，对于所有xX，若是存在一个p(x)P(x)，

4、使得对于所有的xx，x p(x) 意味着xp(x)，那么，p(x)称为x的直接前列结immediate predecessor。若是，x是x的直接前列结，则x称为x的直接后续结immediate successor。直接后续结集合用t(x)表示。4结的要求（假设）（1）传递性假设transitive：若是xx1，x1x2，则xx2。（2）反对称性假设asymmetric：若是xx，则xx不成立。即若是x在x之前，x不能在x之前。传递性和反对称性意味着顺序关系“”是半序的partial order，即有些结之间是不可比较的，如图3-1中B的四个决策结。（3）前列结全排序假设：若是x1x，x2x，

5、那么，或x1x2，或x2x1，就是说，x的所有前列结必需是全排序的totally ordered。前列结全排序假设意味着，任何一个非初始结的直接前列结是唯一的。保证了从初始结到任何一个结只有唯一的路径。（一个决策结能够有多个直接后续结（依赖于可选择的行动的数量）。传递性和反对称性排除图3-2a的情形；前列结全排序假设排除图3-2b的情形。5参与人行动的描述在博弈树中，“谁在何时行动”用在决策结旁标注参与人的办法表示。能够引入函数i：XN，1，n，即函数i(x)表示，在决策结x，参与人i行动。它给出了博弈中参与人行动顺序的完整描述（博弈扩展式表述的第二个要素）。6每一个终点结z完全决定了博弈树的

6、路径，因此，能够用函数ui(z)表示对应的博弈树路径致使的第i个参与人的支付函数（博弈扩展式表述的第五个要素）。（二）枝branches枝是从一个决策结到它的直接后续结的连线，每一个枝代表参与人的一个行动选择。对于一个给定的决策结xX，在一个有限的行动集合A(x)和一个一一对应的函数a：t(x)A(x)，该函数意味着，在该结点可选择的行动集合A(x)与该结点的直接后续结集合t(x)之间存在一一对应关系。枝不仅完整地描述了每一个决策结参与人的行动空间（扩展式表述的第三个要素），而且给出了从一个决策结到下一个决策结的路径。（三）信息集information sets1所有决策结分属不同的信息集，每

7、一个信息集是决策结集合的一个子集，该子集包括所有知足下列条件的决策结：（1）每一个决策结都是同一参与人的决策结；（2）该参与人明白博弈进入该信息集的某一个决策结，但不明白自己究竟处于哪个决策结。2引入信息集的目的在于描述下列情形：一个参与人要做出决策时，他可能并非明白“之前”发生的所有情形（即不完美信息）。3同一信息集的决策结用虚线连接起来（或用虚线圈起来）。用H代表信息集的集合，hH代表一个特定的信息集。特别地，用h(x)表示包括决策结x的信息集。4信息集的特征一个决策结属于一个，而且只能属于一个信息集。假定xh(x)，H应知足下列条件：（1）xp(x)且xp(x)。即同一个信息集内的一个决

8、策结不能是其他决策结的前列结或后续结。这一条件意味着，参与人在博弈任何时点上记得自己以前的行动。（2）i(x)= i(x )，即同一信息集的所有决策结都是同一参与人的决策结。这一条件意味着，参与人不会将自己的行动于其他人的行动的决策结混淆。（3）A(x)= A(x)，即一个参与人在属于同一信息集的每一个决策结的行动空间应该是相同的。不然，参与人可利用行动空间的不同区分不同的决策结。博弈模型的一个更大体假设：博弈的结构是所有参与人的一路知识，每一个参与人都能够看到博弈树。5完美信息博弈一个信息集可包括一个或多个决策结。只包括一个决策结的信息称为单结信息集single-tons。若是博弈树的所有信

9、息集都是单结的，该博弈称为完美信息博弈game of perfect information。完美信息博弈意味着，博弈中：（1）没有任何两个参与人同时行动；（2）所有后行动者能准确明白前行动者选择了什么行动；（3）所有参与人观测到自然的行动（即自然先行动，且所有参与人都能观测到）（完全信息只要求观测到自然的行动，即没有事前的不肯定性；完美信息除这一要求外，还要求观测到其他参与人以前的行动。）6自然自然的信息集老是假定为单结。“自然在参与人决策以后行动”=“自然在参与人决策之前行动，但参与人不能观测到自然的行动”。（因此，在画博弈树时，最好先画自然。）7博弈树的描画规则相同的博弈能够用不同的博弈

10、树描画，但应当遵守两个规则：（1）一个参与人在决策之前明白的情形（可能是其他参与人的行动或自然的行动）必需出此刻该参与人的决策结之前。例如，相同博弈能够用决策结顺序ANB或NAB表示，可是不能用ABN或BAN等表示。（2）信息集必需准确表达出来，即同一参与人，在表示相同博弈的不同博弈树中，信息集的数量必需相同，自然除外。另外，扩展式表述也可用于静态博弈，博弈树能够从任何一个参与人的决策结开始（由于所有参与人同时行动），每一个参与人都只有一个信息集（因为没有参与人在决策时明白其他参与人的选择）。8完美回忆一般假定博弈知足“完美回忆”的要求。完美回忆是指：没有参与人会忘记自己以前明白的情形，所有参

11、与人都明白自己以前的选择。完美回忆要求，若是：（1）x2h(x1)（即x2和x1属于同一信息集）；（2）xp(x1)，（即x是x1的前列集）；（3）i(x)=i(x1)，（即x和x1都是参与人i的决策结）。那么，存在一个x（可能是x本身），知足：（1）xh(x)，即“同一信息集”假设；（2）xp(x2)，x是x2的前列结；（3）在x点为抵达x1的行动与在x点为抵达x2的行动是一样的。即“同一行动假设”。如图3-3：U下面图3-4a和图3-4b（引自Kreps,David,1990,A Course in Microeconomics,Chapter12 and 14）均不成立。图3-4a不知足

12、“同一行动”假设。参与人不能区分（D，L)和（D，R）是正常的。但他不该该不能区分（U，R）和（D，R），即他把自己以前的选择忘记了。图3-4b不知足“同一信息集”假设。最初，参与人1是明白自然的选择的，但后来，他就忘了，区别不了（大，D，L）和（小，D，L）。三、扩展式表述的严格表述（一）历史1.全历史全历史（或终端历史）terminal history：博弈中所有从开始到结束的行动序列称为全历史。用H表示全历史的集合。2.子历史子历史subhistory：若将全历史表示成一个行动序列(a1,a2,aK)，（其中K为博弈从开始到结束依次发生的行动次数，K为自然数，当时，表示无穷动态博弈。行动

13、序列中的每一个a都为向量），那么(a1,a2,am)，其中，就称为全历史(a1,a2,aK)的子历史。用h表示子历史。3.真子历史真子历史proper subhistory：当时，(a1,a2,am)就称为全历史(a1,a2,aK)的真子历史。4.空历史空历史empty history：博弈开始前的历史是一个空历史，用表示空历史。例如：在图3-1动态囚徒窘境中，存在四个全历史：（坦白，坦白），（坦白，抵赖），（抵赖，坦白），（抵赖，抵赖）。其中，全历史（坦白，坦白）有三个子历史：空历史，（坦白），（坦白，坦白）。而前两个子历史，即是空历史，（坦白）真子历史。在图3-2取消管制博弈中，存在五个全

14、历史：（维持），（取消，进，进），（取消，进，退），（取消，退，进），（取消，退，退）。其中，全历史（取消，进，进）也存在三个子历史：空历史，（取消），（取消，进，进）。（二）参与人函数1.参与人函数的涵义参与人函数描述了“在全历史中，每一个时刻（点）行动的参与人”。2. 参与人函数的表示。其中，P为players。参与人函数的意思为，在子历史h以后，是参与人i行动。例如：在图3-1动态囚徒窘境中：P()=囚徒1，表示博弈从囚徒1行动开始（囚徒1行动前是空历史）；P(坦白)= P(抵赖)=囚徒2，表示在历史（坦白）和（抵赖）以后轮到囚徒2行动。（三）扩展式表述的严格表示1.扩展式表述的四个要素

15、（1）参与人集合（2）全历史集合（3）参与人函数（4）偏好2.扩展式表述的严格表示完全信息动态博弈的扩展式为。其中N为参与者集合；H为博弈的全历史集合，即H=(a1,a2,aK)； P为参与人函数；u为支付函数，表示博弈参与者的偏好。3.行动集合与博弈的大体式相较，扩展式没有直接给出博弈参与者的行动集合，原因在于扩展式已经隐含地概念了各参与者在行动时有些什么样的行动可供选择，按照全历史和参与者函数，能很容易地取得各参与者的行动集合。在历史h以后，参与者P(h)所有可能的行动集合概念为：AP(h)(h)=aP(h): (h, a)是一个子历史，aP(h)是行动向量a的第P(h)个元素。其含义为，

16、对于一些非全历史h，若是序列(h,a)是历史，那么aP(h)就是在h以后采取行动的第P(h)个参与人能够选择的行动之一。4.完美信息与完全但不完美信息扩展式表述的区别需要注意的是，在完美信息下，扩展式有三个地方与完全但不完美信息不同。（1）历史h由行动向量序列变成行动序列。例如，在取消管制中，历史（取消，进，进）是一个向量序列，因为企业1和企业2是同时行动的，若是改成企业2后行动，那么就变成（取消，进，进），也就是由一个向量序列便成了单值序列，意思也完全不一样了。（2）在完美信息下，参与者函数P(h)都是单点映射，对应着唯一一名参与者。（3）就是行动集合A能够省略下标，即AP(h)(h)=aP

17、(h): (h, a)是一个子历史，aP(h)是行动向量a的第P(h)个元素简化为A(h)=a: (h, a)是一个子历史。（四）扩展式表述的严格表示举例1. 动态囚徒窘境的扩展式动态囚徒窘境的扩展式为，其中（1）参与者集合：囚徒1和囚徒2，N=1,2。（2）全历史集合：坦白为C，抵赖为S，H=(C, C), (C, S), (S, C), (S, S)。（3）参与者函数：P() = 1，P(C) = P(S) = 2。（4）偏好：对于囚徒1而言，最好的历史是(C, S)，第二为(C, C)，然后为(S, S)，最倒霉的历史为(S, C)。对囚徒2而言，最好的历史是(S, C)，第二为(C,

18、C)，第三为(S, S)，最差为(C, S)。2. 取消管制的扩展式取消管制的扩展式为，其中（1）参与者集合：政府，企业1和企业2，N=1, 2, 3。（2）全历史集合：维持为C，取消为D，进入为E，退出为Q，那么全历史集合H =(C), (D, E, E), (D, E, Q), (D, Q, E), (D, Q, Q)。（3）参与者函数：P() = 1，P(D) = 2, 3。（4）偏好：对于政府而言，按照五个历史对应的社会福利进行排序，对于企业1和企业2而言，则为五个历史对应的利润排序。3.蜈蚣博弈该博弈有两位参与者。当参与者1行动时，他将决定是结束博弈仍是继续，若是结束博弈，那么参与者

19、1得2，参与者2得0；若是继续博弈，那么轮到参与者2决定是结束博弈仍是继续，若是结束博弈，那么参与者1得3，参与者2得1；若是继续博弈，那么轮到参与者1行动，若是他选择左(L)，那么参与者1得1，参与者2得2，若是他选择右(R)，那么两人都得0。该博弈的博弈树如图3-5.该博弈的扩展式其博弈的扩展式如下：（1）参与者集合：N=1,2。（2）全历史集合：继续为C，结束为D，H=(D), (C,D), (C,C,L), (C,C,R)。（3）参与者函数：P() = 1，P(C) = 2，P(C, C) = 1。（4）偏好：若是全历史为(D)，那么参与者1得2，而参与者2得0；若是全历史为(C, D

20、)，那么参与者1得3，参与者2得1；若是全历史为(C, C, L)，那么参与者1得1，参与者2得2；若是全历史为(C, C, R)，那么两人都得0。参与者1最偏好历史(C, D)，而参与者2最偏好历史(C, C, L)。注意：并非是所有的扩展式都能够用博弈树来表示。例如，当有n各参与人同时行动时，就难以用博弈树表示。另外，当参与人的行动不是离散的，而是持续的，或博弈是无穷的，都无法用博弈树表示。不过，若是一个博弈能够用博弈树表示，那么博弈树完全等价于该博弈的扩展式。四、扩展式表述中的战略（一）战略的概念战略是博弈中参与人的一组完整的相机行动计划。（二）博弈树中战略的涵义“相机行动计划”意味着包

21、括了这一参与人在他的每一个决策点上所做出的行为。所以，一个参与人的战略描述的是在他的每一个信息集中他做出的行动。概念：在完全信息扩展式博弈中，参与人i的战略是关于每一个历史h的函数，在那个历史h以后，轮到参与人i（即P(h) =i，其中，P是参与人函数）行动，那个函数对h指派H(h)（在h以后可利用的行动集）中的一个行动。例如：在图3-6“战略博弈”中，即便参与人1计划在结点a上选择行动S，他的战略也必需对他在c-d信息集，和e结点如何行动给出概念。（三）博弈树中战略的表述某参与人一个战略的表述是，将其在每一个信息集选择的行动依次排列。例如：在图3-1所示动态囚徒窘境博弈中，参与人2的一个策略

22、是“坦白，坦白”，即在决策点b和决策点c，他别离选择“坦白”。他共有四个战略，别离为：“坦白，坦白”，“坦白，抵赖”，“抵赖，坦白”，“抵赖，抵赖”。注意：为了避免表述的混乱，不同信息集，一样行动应应采用不一样的标识。例如，在上例中，“坦白，抵赖”，和“抵赖，坦白”容易产生混淆，因此，最好将决策点c的行动表述为“也坦白”和“也抵赖”。这时，参与人2的四个战略就别离为：“坦白，也坦白”，“坦白，也抵赖”，“抵赖，也坦白”，“抵赖，也抵赖”。（四）战略相关概念的表述1.战略空间或战略集合在图3-1所示动态囚徒窘境博弈中，S1=坦白，抵赖，S2=“坦白，也坦白”，“坦白，也抵赖”，“抵赖，也坦白”，

23、“抵赖，也抵赖”。或，简单表述为：S1=Y，N，S2=TT，TD，DT，DD。2.战略组合的集合，其中，S为战略组合的集合，Si为参与人i的战略空间。符号“”表示笛卡尔乘积，例如，若是，那么.（五）战略表述的其他例子1.图3-72.图3-8一个问题是，若是参与人1一开始选择了Q，博弈结束，他就不可能抵达结点c，这时他的战略为何还需要对结点c的行动选择做出计划呢？两个原因：一是，即便参与人1将Q作为最优选择，他也必需考虑，在其他选择下，其他参与人的反映，和对自己带来的支付。从而才能肯定Q是最优选择。二是，万一参与人犯了错误，他需要一个意外状况下的计划。3.图3-94.图3-10第二节逆向归纳法

24、和子博弈精炼纳什均衡一、纳什均衡的扩展式表述能够将博弈的扩展式表述与战略式表述联系起来。仍用si表述纯战略，ui表述支付函数。即，一样的纯战略能够解释为扩展式的，也能够解释为标准式的。例如，房地产开发博弈（完美信息博弈），自然已经选择“低需求”，且成为所有参与人的一路知识。开发商A先行动，开发商B在观测到A的选择后行动。扩展式表述如图3-5所示下面构造出那个博弈的战略式表述。A只有一个信息集，两个可选择的行动，因此，A的行动集合也是战略集合SA=开发，不开发；B有两个信息集，每一个信息集有两个可选择的行动，因此B有四个纯战略，别离是：（1）A开发，我开发；A不开发，我开发。（2）A开发，我开发

25、；A不开发，我不开发。（3）A开发，我不开发；A不开发，我开发。（4）A开发，我不开发；A不开发，我不开发。将B的信息集从左到右排列，上述四个战略能够简写为：开发，开发，开发，不开发，不开发，开发，不开发，不开发。那个博弈的战略式表述如图3-6：开发商B开发，开发开发，不开发不开发，开发不开发，不开发开发商A 开发不开发-3,-3-3,-31，01，00，10,00，10，0图3-6从战略式表述中，能够看出那个博弈有三个纯战略纳什均衡，别离为（开发，不开发，开发），（开发，不开发，不开发），和（不开发，开发，开发）。二、不可置信要挟（一）纳什均衡的缺点从以上能够看出，战略式表述能够用来

26、表述任何复杂的扩展式表述，从而纳什均衡的概念适用于所有博弈，而不单单是静态博弈。可是博弈分析的目的是合理预测博弈参与人的行为，这时纳什均衡概念就出现了缺点。一个缺点是上面提到的均衡的多重性。而最严峻的问题是，纳什均衡假定每一个参与人在选择自己的最优战略时，假定所有其他参与人的战略选择是给定的，就是说，参与人并非考虑自己的选择对其他参与人选择的影响。由于那个原因，在动态博弈里，纳什均衡就不能提供较为合理的解释。因为，在动态博弈中，参与人行动有前后，后行动的参与人的选择依赖于先行动者的选择，先行动作者在选择自己的战略时不可能不考虑自己的选择对后行动者选择的影响。（纳什均衡整体上是一个静态概念，纳什

27、均衡假定每一个参与人在选择自己的最优战略时，假定所有其他参与人的战略选择是给定的，就是说，参与人并非考虑自己的选择对其他参与人选择的影响。因此，在纳什均衡的概念里无法表现对于一个参与人的选择对于其他参与人选择的影响的分析。这一个缺点在动态博弈的分析里显得尤其突出。）纳什均衡的那个缺点促使博弈论专家从1960年代开始不断寻求改良perfecting和精炼refining纳什均衡的概念，以便取得更为合理的博弈解。本节讨论的泽尔滕Selten的“子博弈精炼纳什均衡”是纳什均衡第一个最重要改良，它的目的是把动态博弈中的“合理纳什均衡”与“不合理纳什均衡”分开。正如纳什均衡是完全信息静态博弈的大体概念一

28、样，子博弈精炼纳什均衡是完全信息动态博弈的大体概念。（二）不可置信要挟以上面的房地产开发博弈为例。在三个纳什均衡中，有无不合理的呢？先看第三个纳什均衡（不开发，开发，开发）。那个战略组合组成纳什均衡是因为，B要挟（即给定B的那个战略），不论A选择开发仍是不开发，B都选择开发；A相信B的那个要挟，不开发是A的最优选择（0）-3）。类似，在A选择不开发战略时，开发，开发是B的最优战略。可是，A为何要相信B的要挟呢？毕竟，若是A选择开发，B的信息集是x，B的最优选择是不开发（0）-3）。若是A明白B是理性的，A就会选择开发，使得B选择不开发，自己取得1；而不是，选择不开发，让B开发，自己取得0。因此

29、，B的开发，开发战略是不可置信的，而依赖于那个不可置些要挟的纳什均衡（不开发，开发，开发）是不可置信的not credible.再看第二个纳什均衡（开发，不开发，不开发）。虽然那个均衡的结果（A开发，B不开发）似乎是合理的。但均衡战略本身是不合理的。对于B而言，A若不开发，B处于信息集x，最优选择是开发而不是不开发。因此，不开发，不开发不是B的合理战略，或说不是一个可置信战略。最后看第一个纳什均衡（开发，不开发，开发）。这是一个合理的均衡。组成那个均衡的每一个参与人的均衡战略都是合理的。实际上，那个战略组合是那个博弈的唯一的子博弈精炼纳什均衡。三、子博弈精炼纳什均衡泽尔滕Seiten，1965

30、引入“子博弈精炼纳什均衡sub-game perfect Nash equilibrium”概念的目的是将那些包括不可置信要挟战略的纳什均衡从均衡中剔除，从而给出动态博弈结果的一个合理预测。简单地说，子博弈精炼纳什均衡要求均衡战略的行为规则在每一个信息集上都是最优的。（一）子博弈不精准地说，子博弈是原博弈的一个部份，它本身能够作为一个独立的博弈进行分析。1概念子博弈的概念如下：一个扩展式博弈的子博弈G由一个决策结x和所有该决策结的后续结T(x)（包括终点结）组成，它知足下列两个条件：（1）x是一个单结信息集，即h(x)=x；（2）对于所有的x1T(x)，若是xh(x1)，那么xT(x)2解释条件（1）的意思是：一个子博弈必需从一个单结信息集开始。这一点意味着，当只当参与人在原博弈中确切地明白博弈进入一个特定的决策结时，该决策结才能作为一个子博弈的初始结。图3-5中，决策结x和它的后续结组成一个子博弈；决策结x和它的后续结也组成一个子博弈。可是，在图3-7（囚徒窘境的扩展式表述）中，决策结x和x都不能作为一个子博弈的初始结。条件（2）说的是，子博弈的信息集和支付向量都直接继

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？