最后通牒博弈论.docx

上传人:b****2 文档编号:24242785 上传时间:2023-05-25 格式:DOCX 页数:27 大小:195.79KB
下载 相关 举报
最后通牒博弈论.docx_第1页
第1页 / 共27页
最后通牒博弈论.docx_第2页
第2页 / 共27页
最后通牒博弈论.docx_第3页
第3页 / 共27页
最后通牒博弈论.docx_第4页
第4页 / 共27页
最后通牒博弈论.docx_第5页
第5页 / 共27页
点击查看更多>>
下载资源
资源描述

最后通牒博弈论.docx

《最后通牒博弈论.docx》由会员分享,可在线阅读,更多相关《最后通牒博弈论.docx(27页珍藏版)》请在冰豆网上搜索。

最后通牒博弈论.docx

最后通牒博弈论

名誉在公平的演化中的作用

摘要

在最后通牒博弈中,两名玩家都有机会赢得一定金额的钱。

他们必须做的就是怎样把这笔钱合理的划分。

提议者建议如何划分这笔钱。

这个响应者可以选择接受或拒绝提议者提出的如何划分这笔钱的这个方案。

如果响应者拒绝提议者提出的分配方案,则响应者和提议者两人都无法从中获益,两个人什么都得不到。

根据博弈理论提供的理性的解决方案,是为了给提议者提供尽可能最小的份额并且使响应者接受该交易。

然而,如果是两个人在玩这个游戏的时候,最常见的结果是提议者和响应者平均分配获得的资金。

在这篇论文中,我们从演化博弈的观点出发对最后通牒博弈进行了研究。

研究表明,如果提议者可以预先得知这个响应者之前接受过什么样的交易的话,那么在这里公平是可以演化的。

因此,公平的演化,与合作的演化是相似的,是与声誉挂钩的。

关键词:

理性的;公平;声誉;

 

TheoryintheUltimatumGame

ABSTRACT

IntheUltimatumGame,twoplayersareofferedachancetowinacertainsumofmoney.Alltheymustdoisdivideit.Theproposersuggestshowtosplitthesum.Therespondercanacceptorrejectthedeal.Ifthedealisrejected,neitherplayergetsanything.Therationalsolution,suggestedbygametheory,isfortheproposertoofferthesmallestpossibleshareandfortherespondertoacceptit.Ifhumansplaythegame,however,themostfrequentoutcomeisafairshare.Inthispaper,wedevelopanevolutionaryapproachtotheUltimatumGame.Weshowthatfairnesswillevolveiftheproposercanobtainsomeinformationonwhatdealstheresponderhasacceptedinthepast.Hence,theevolutionoffairness,similarlytotheevolutionofcooperation,islinkedtoreputation.

KeyWords:

RationalFairnessReputation

 

第一章绪论

1.1最后通牒博弈

在描述非理性行为的标准模型中,最后通牒博弈的地位越来越重要,已经有赶上囚徒困境的趋势。

在过去的二十年里,它已经产生了几十个理论的和实验的研究。

游戏的规则出奇的简单。

两个玩家必须同意如何划分一笔钱。

提议者给出一个分钱的方案,如果响应者接受这个方案,则交易继续进行。

如果响应者拒绝这个交易方案的话,无论是哪一个玩家都不能得到这笔钱。

出现这两种情况中的任何一种情况,游戏就结束了[1]。

显然,理性的响应者即使是被分给最小份额的那笔钱也应该接受,因为如果不接受就什么也得不到了。

因此,在提出方案时,提议者应该说出这笔钱的总额。

然而,在大量的人类研究中,在不同的影响,不同的国家,大多数提议者将会提供总金额的40到50%给响应者,响应者通常会拒绝接受低于总金额30%的分配方案[2]。

非理性的人类却强调公平,表明了玩家的偏好不仅仅依赖于自身的获益,如果那些提议者只提供一小部分总金额给响应者,那么响应者则可以通过拒绝这个交易来惩罚提议者,使这两个人谁也不会分到这笔钱[3]。

但这些偏好是怎样产生的呢?

一种可能是,不能让玩家只有一次的交流。

人是一种习惯多次交流沟通的动物。

然而重复最后通牒博弈就像讨价还价一样使公平分配更有可能[4]。

第二种可能就是允许获得大的份额的玩家向对手让出一部分利益。

然而,这个可能的提出只是相对较小的团体:

一个简单的计算表明,响应者只能拒绝不到总金额1/n的分配方案,这里n是团体人数。

1.2相关实验研究

迄今为止,许多经济学家对最后通牒博弈进行了一系列的实验,并得出了许多有趣而又出乎人意料的结论。

从20世纪八十年代初由德国经济学家Güth等人(1982)所进行的第一次最后通牒博弈实验起,实验经济学家对最后通牒博弈进行了上千次的实验。

根据宾谟(Binmore,K.)的研究发现,“实验结果呈现多样化,但是参与人P提出的方案很可能在50:

50附近;而对参与人R而言,如果其分配的数额不少于三分之一,他将趋向于接受”。

因此,这样的实验结果就与传统博弈论者所预测的提议者会独享所要分配的金额,而响应者也不会拒绝的结论是严重背离的,这种背离不仅说明了理论与现实的差距,而且也印证了现实中的人的行为的“非理性”表现。

人们把由最后通牒博弈实验所产生的这种背离现象被称之为“最后通牒博弈悖论”。

事实上,“最后通牒博弈悖论”的产生恰恰说明了“理性经济人假设”的局限性,当代主流经济学所津津乐道人们行为的“完美理性”在科学的实验面前显得苍白无力。

与西蒙等人从心理学意义上所提出的“有限理性”不同,实验经济学家通过实验还原了社会生活中人的有限理性能力对于人的行为的影响,同时通过实验结果的分析还可以看出在人的有限推理能力对于最大自利目标实现的制约中所表现出来的“有限理性”的量化程度。

因此,从这个意义上说,“最后通牒博弈”及其实验结果对于“理性经济人假设”的挑战是深刻的,其结论具有科学意义。

在传统主流经济学看来,人类行为的完美理性有两个基本特征:

无限自利和无限理性。

但是,“最后通牒博弈”及其实验说明这两个特征都有待于进一步修正。

首先,“无限自利”意味着在人的经济行为中人们进行决策的主观动机就是追求自身利益(或效用)的最大化。

但是,Güth等人(1982)从他们的实验中发现情感因素(比如公平或利他主义等)也是左右人类的行为的主要力量。

而且各种不同的实验都指向一个结论:

在一对一的情况下,我们不会纯粹只从自己的角度考虑事情,而会将对方的情况也纳入考虑。

我们不只看重自己获得的报酬,也会比较对手所得到的,要求公平待遇。

为什么我们这么重视公平呢?

难道仅仅因为对手的所得是我们的四倍,我们就愿意放弃一大笔奖金的20%呢?

西格蒙德(Sigmund,Karl,1993)将人们坚持公平分享,归因于我们的祖先必须依附在强大团体的庇护下。

狩猎与采集者必须依赖族人的技术和力量,才能存活下来。

如果过度欺压竞争者,以至于面对其它团体挑战时,就会得不到他们的协助,反而会危及自己的利益。

但是,这个论点只能解释为什么提议者会出高价吸引对方,却不能解释为什么响应者会拒绝太低的价码。

诺瓦克(Nowak,MartinA.)、西格蒙德以及普林斯顿高等研究院的佩奇(Page,KarenM.)在2000年利用一个演化博弈模型,试图对响应者的行为提供了一种解答:

人类的情感机制是几千万年来,在小团体中逐渐形成的,而小团体中很难保有秘密。

因此我们在情感上很难适应严格匿名状态下的互动,总是预期朋友、同事和邻居都会注意我们作了什么决定。

所以,如果其它人知道我只要分到一小部分奖金就心满意足,那么他们很可能会出很低的价码;相反,如果众所周知我听到出价很低时一定会翻脸,那么他们就比较倾向于出高价。

结果,“对低价码起情绪反应”大概就获得了演化的青睐。

此外,因为在人类的演化过程中,只发生一次互动的情况其实极为罕见,因此情绪反应不会因为互动机会是一次或多次而有所区别。

或许这就是为什么许多人在最后通牒游戏中,对低价码的反应是如此感情用事了。

我们或许会觉得为了保持自尊,而必须拒绝太低的价码。

从演化的观点来看,保持自尊是为了赢得某种声誉,这样比较有利于未来的互动。

其次,所谓无限理性是指人们具有超强的计算能力和判断能力,在面临不确定性时,总能够利用所有的有用的信息在诸种可能的选择中作出最佳决策。

在最后通牒博弈中,从利益的角度来看,提议者可以尽可能的最大化自己的份额,而响应者不应该拒绝任何大于0的出价,因为有总是比没有要好。

但是,这种推论是建立在提议者能够准确预测到响应者也是完全理性的假设基础之上的,这种预测的准确与否直接影响了最后通牒博弈均衡的结果。

现在,我们假定响应者R具有某种程度的非理性。

比如,R是个比较贪婪的人,提议者P通过一些途径也会预测在博弈中R会做出“如果你不给我足够的份额,我将不同意。

”的潜在威胁行动来。

在这样情况下,P想,如果不给R足够数额的钱,R将不同意。

因此,在提出分配方案时,P会考虑R的非理性的程度。

一个极端的情况是,如果P是理性人,而R极端非理性,那么一个可能的分配方案比例将是0.01:

99.99。

即P得到1分钱,R得到99.99元。

这样,我们会看到人的理性程度与其所得是呈反比关系的。

尽管提议者知道这种情况,但要他在决策前能准确预测到响应者的“理性程度”是很困难的,因为每个决策者的文化背景,生活习惯以及决策偏好是多种多样的,要获取这些信息不仅很困难,而且代价昂贵,因此,现实中人的决策只能利用有限的信息和有限的计算能力来作出最优决策,这就是所谓的“有限理性”。

1.3公平性对决策的影响途径及本文所研究的内容

理性对决策的影响主要表现在西方经济学推崇的一个观点——效益最大化:

从这个角度看,理性就是成本效益评估及选择,如果清楚明白自身每个目标,准确了解自己所持有的成本和风险承受能力,基本上能够做出最符合求要的决策。

这一模型认为,人是坚持寻求最大价值的经济人。

在决策过程中这种完全理性的观点从某种意义上说是功利主义的,包含两部分内容:

其一,人是自利的,其二,人是理性的,能够根据外部和内部情况做出判断,使自身利益最大化[5]。

在这篇论文中,我们在研究最后通牒博弈的基础上引入信息的概念,即,我们假设在博弈中的个体决策有可能会被其他的个体所知道。

在策略传播上,我们采用传统的复制者模型,即在一个生命周期的博弈中,平均收益越高的个体越有机会繁殖后代(或者说,越有可能被其他个体学习)。

我们的模拟结果发现,信息披露假设的引入有利于提高系统的公平性,信息披露范围越大,系统越加公平。

第二章模型和动力学

2.1最后通牒博弈模型

在这篇论文中,我们从经典的演化博弈理论的视角出发,对最后通牒博弈进行系统的分析与研究[6]。

为了讨论这一模型,无论是分析还是通过计算机模拟的方法,我们都要设定这个将会被分割的总和为1,并且假设玩家有均等的可能性去充当二者(即提议者与响应者)之一的任意一个角色。

我们假定他们的策略用

表示,其中

为0到1之间的任意值。

具体来说,假设一个个体的策略为

,当他/她扮演提议者的角色时,他/她将从大小为1的总额中分配

的额度给与之博弈的响应者,亦即自己想要获得的金额为

;当他/她扮演响应者的角色时,与之博弈的提议者提出的分配给他/她的金额只有大于等于

值时,他/她才接受,否则拒绝这次博弈,即,我们可以将参数

看作该个体的抱负标准。

因此,这个假设应该是合理的:

扮演提议者的玩家所持有的份额,1—p,不能比抱负标准q小。

因此只有当战略参数符合p+q≤1时才能够被考虑。

一个用战略S

=(p

q

)的玩家对比于一个用战略S

=(p

q

)的玩家来说,他的收益将会通过以下条件被给出(综合我们所列出的因素1/2):

(1)1-p

+p

如果p

≥q

并且p

≥q

(2)1-p1,如果p

≥q

并且p

;(3)p

如果p

并且p

≥q

;(iv)0,如果p

并且p

条件就是1-p≥q,相当于假设个人并不认为提议者的作用不如响应者的作用。

因此,他们要求自己当作为提议者不应低于最低金额他们期望作为响应者。

这个条件是有关当引入信息到最后通牒游戏。

否则,高水平的信息会导致游戏的逆转。

如果申请人已经完美的知识的响应者的q值,那么它实际上是给响应者提供。

在这种情况下,进化动力学导致策略接近年代;也就是说,提议者必须提供几乎全部金额的总数。

避免这种现象的条件就是1-p≥q。

2.2最后通牒的信息

现在让我们介绍一种玩家在遇到之前就可以获得信息的可能性。

在何种情形下,每个人自身要必须小心自己的名声:

如果他们接受了低的份额,这种情况可能会众所周知,那么接下来的提议者可能会重新考虑高报价。

因此,承担一个高提供者和一个低响应者的平均份额在总和是a的情况下是被降低的。

即使这个总和非常小——或许因为获取关于合作者的信息十分困难,也许是因为信息被高报价者认为是不可靠的——影响是十分巨大的。

现在让我们增加一种提议者有时会获取什么样的提议将会在过去被响应者接受的可能性。

我们强调,相同的玩家不需要见面两次。

我们假设无论是较小的,他自己的p值或者是最小值,提议者都会提议他所知道的在以往遇到的响应者中被接受的提议。

此外,我们还包含了一个小的可能性,就是提议者将会提出一个被小的,随机的选择量减少的提案。

这种影响允许一个提议者检查一个愿意接受较低回报的响应者。

因此,p可以被看做是提议者的最高提议额,而q则代表一个响应者的最低接受水平。

每一笔被接受的交易会被所有玩家中的一小部分w所知道。

因此,接受较低份额的个人将来会承担必须接受降低回报的风险。

相反的,拒绝低份额的昂贵行为会获得一个值的接受公平交易的信誉。

2.3最后通牒博弈的繁殖和突变

在具有战略连续性的前提下研究完整的游戏之前,首先让我们考虑一个所谓的迷你游戏,这个游戏只有两种提议h和l(高和低),并且0

这里有四种不同的方略,(l,l)(h,l)(h,h)和(l,h),这里我们是按照从G1到G4的顺序所列举的。

G1是“合理的”战略,他提供最小的份额并且拒绝一切提议,对于行家来说:

它是这个迷你游戏的唯一一个堪比完美纳什平衡的子博弈游戏[7],G2是提供一个高的份额但是却愿意接受一个低的份额。

G3是“公平”的战略,它提供并要求一个较高的份额。

为了解释这件事,我们省略掉无论如何都会被淘汰的G4。

为了描述在战略G1,G2和G3中的频率X1,X2和X3的变化,我们使用复制方程。

它描述了在一个成功战略传播的地方的人口动态,这种传播史通过文化模拟或者是通过生物繁殖[8]。

在这一动态变化之下,合理的策略G1最终将会达到稳定。

在G1和G3这两种策略的出师频率之下,那些只由G1和G3两种策略的玩家组成的人口将会逐渐汇集成G1或G3策略的人口。

由G1和G2玩家组成的混合人口往往会趋向于G1,但是由G2和G3混合组成的玩家就会保持中立和稳定,并且会受到随机漂移的影响。

因此,开始时无论是由G1,G2和G3组成的哪一种混合人口,进化往往将会导致产生完全由G1玩家组成的人口。

因素主导着公平。

现在让我们开始研究所有策略的连续性的进化动力学,S(p,q)。

考虑一下有N个玩家的人口。

在每一代中都有几个随机对形成。

假设每个玩家成为提议者的次数为r次并且成为应答者的次数也为r次。

然后将所有个人的回报的总和。

对于下一代,每个人都会留下相对于他们总收益一定后代比例的数量。

后代将会采取他们父母的策略,加上或减去一些小的随机值。

因此,这个系统包括选择和变异。

比如之前的一样,我们可以将这些动态解释为生物现象或者是文化繁衍。

我们发现进化动力学将会导致产生一个国家,在这里所有的玩家都会采取接近合理的策略S(0,0)。

2.4最后通牒的动力学相关流程

现在让我们开始研究所有策略的连续性的进化动力学。

考虑一下有N个玩家的人口。

在每一代中都有几个随机对形成。

假设每个玩家成为提议者的次数为r次并且成为响应者的次数也为r次。

然后将所有个人的回报相加总和。

对于下一代,每个人都会留下相对于他们总收益一定后代比例的数量。

后代将会采取他们父母的策略,加上或减去一些小的随机值。

因此,这个系统包括选择和变异。

如之前一样,我们可以将这些动态解释为生物现象或者是文化繁衍。

我们发现进化动力学将会导致产生一个国家,在这里所有的玩家都会采取接近合理的策略。

现在让我们增加一种提议者有时会获取什么样的提议将会在过去被响应者接受的可能性。

我们强调,相同的玩家不需要见面两次。

我们假设无论是较小的,他自己的p值或者是最小值,提议者都会提议他所知道的在以往遇到的响应者中被接受的提议。

此外,我们还包含了一个小的可能性,就是提议者将会提出一个被小的,随机的选择量减少的提案。

这种影响允许一个提议者检查一个愿意接受较低回报的响应者。

因此,p可以被看做是提议者的最高提议额,而q则代表一个响应者的最低接受水平。

每一笔被接受的交易会被所有玩家中的一小部分W(

)所知道。

因此,接受较低份额的个人将来会承担必须接受降低回报的风险。

相反的,拒绝低份额的昂贵行为会获得一个值的接受公平交易的信誉。

假设我们随机抽选A、B两个单位(A、B是N=10000这个人群中的个体)。

A有1-d(d=

)的概率存活,则A、B进行博弈,A、B两者的总收益增加。

然后这次抽选结束,进行下一次随机抽选在进行这个测试,一直到第N次。

假设我们随机抽选A、B两个单位(A、B是N=10000这个人群中的个体)。

A有d(d=

)的概率死亡,如果死亡的话,则进行A学习B。

在这里分为两种情况:

第一种是A有1-W的概率得到S

(p,q)。

p和q值加上在区间(-0.005,+0.005)的任意一个数字。

第二种是B有W的概率得到S

(p,q)=S

(p,q)。

(在这里

(K=0.5)P

是A在生命周期中的平均收益,P

是B在生命周期中的平均收益,K是外界干扰值)p和q值加上在区间(-0.005,+0.005)的任意一个数字。

就是说A、B都会有一些小的变化。

然后这次抽选结束,进行下一次随机抽选在进行这个测试,一直到第N次。

具体流程图如下:

 

因此,进化动力学与经济学游戏的预测理论相符会导致在基础最后通牒游戏中产生合理的解决方案。

因此,人们不用担心玩家会合理的预测到低份额和低期望值的普遍观点。

无论进化机制是通过反复试验,模拟还是通过前人遗留的知识所获得,它都提出了相同的合理的结果:

低供给和低需求。

然而,如果我们包含个人可以获取一些关于哪种提案被以前遇到过的人所接受的信息的可能性,那么结果将会完全不同。

在这种情况下,进化动力学趋向于一种有利的策略,那就是要求并提供一种公平的方法分享奖品。

这种效果不需要玩家互动两次就足以保持较高的期望水平。

接受较低的份额将会损害个人在集体中的声誉并会提高在以后会面的过程中必须接受降低份额的机会。

拒绝较低份额是高成本的,但是成本是会通过获得坚持公正报价的人的赞誉而偏移的。

当声誉被包含在最后通牒游戏中时,适应就会在某种原因上支持公平。

在这种最基本的游戏中,关于共同玩家的信息产生了非理性策略的意外,但是却促进了经济交流。

这很好的符合了有关合作的意外的发现[9]或者是预算行为的意外的发现[10]。

以承诺和交流为基础的声誉在经济生活的自然史中扮演着至关重要的角色[11]。

第三章公平最后通牒的策略和计算机中的模拟

3.1公平最后通牒的策略

“最后通牒”博弈现象在日常生活中随处可见,如员工要求老板增加工资,否则就会另谋高就;老师告诉学生要按时完成作业,否则就会通知家长;顾客要求商家降价,否则就会另外选择商家;这些情景都有一些共同的特点:

由双方参与,一方提出方案,另外一方决定接受或拒绝,若方案被接受,则双方均获益或均不受损,若方案被拒绝,则一方或双方均不受益。

公平影响着提议者在迷你游戏中是否有机会发现响应者可能会接受较低的份额,有三种策略:

合理的策略G1(l,l)提供并接受较低的份额;公平的策略G3(h,h)提供并接受较高的份额;策略G2(h,l)提供较高的份额但是却愿意接受教的的份额。

如果没有关于响应者类型的信息,a=0,那么合理的策略G1将会支配着总体的动态;G1和G3是相对的,G2和G3是中立持平的,但是G1影响着G2。

如果有一些获得关于响应者类型信息的可能性,那么我们假设h-提议者将会通过总和a降低他们对响应者的平均份额。

因为0

G1和G3仍然是相对的,但是公平的策略有更大的吸引力;增加噪音和空间的影响将会有助于公平。

在特殊的条件下,a=h-l,这可以被理解为有关于响应者类型的完整信息,这个游戏被彻底改变了。

G1和G2是中立持平的,而G3控制着G2;G3是唯一严格的Nash解决方法。

下面这个图表就反映了进化游戏动力学在S3范围内的连续性。

图3.1

Fig.3.1

3.2最后通牒游戏中的公平在计算机中模拟

公平涉及到最后通牒游戏在计算机中的模拟,是否所有玩家中足够大的一部分人w被告知任何人都会接受份额。

每一个玩家都会在p+q≤1的条件下被定义为S(p,q)策略。

在任何一次内部互动中,会选出随机的一对玩家。

提议者将会提出他所知道的在之前的互动中曾经被接受过的份额的提案,无论它是否是较小的——是属于他自己的p值或者是最小的数目。

另外,还有一种小的可能性S(0.1),响应者将会提出他的p值减去在0到0.1之间的随机的一些值;这是去考察那些愿意接受降低份额的玩家。

全部的人口数量为n=100。

每个人会按照他们付出的一定比例再生产。

后代将会按照他们父辈的p和q值加上任意一个数字,这些数字的大小在区间(-0.005,+0.005)的。

所有角色中每一代每一个玩家有一个平均值r=50周。

模拟结果p值和q值为500,000蒙特卡洛步的平均值。

当个体接受的交易不会被其他个体所知道时,即w=0,系统最终的p,q平均值为纳什均衡S(0,0)。

当然,结果并非精确地等于零,这是因为在系统的演化过程中我们引入了策略的突变进而导致了系统的异质化,而在异质化结构中,最佳的应对战略不是S(0,0)。

)由于增长着的w值,正接近汇集成公平的解决方法,S(

),并且q稍微小于p。

我们通过自己设计的程序在计算机中模拟了这个过程。

用得出的数据整理出了下面图。

图3.2

Fig.3.2

我们把生命周期设定为定值,人口设定为定值,然后通过改变提供额的概率来观察w、t、n之间的关系。

上面这幅图我们把生命周期定为50,人口定为100。

减小提供额概率分别为(a)0.1(b)0.2(c)0.3(d)0.4。

图3.3

Fig.3.3

我们把生命周期设定为定值,减小提供额概率设定为定值,然后通过改变人口来观察w、t、n之间的关系。

上面这幅图我们把生命周期定为50,减小提供额概率0.1。

人口的改变分别为(a)50(b)100(c)150(d)200。

图3.4

Fig.3.4

我们把减小提供额概率设定为定值,口人数设为定值,然后通过改变生命周期来观察w、t、n之间的关系。

上面这幅图我们把减小提供额概率0.1,人口数定为100。

生命周期的改变分别为(a)25(b)50(c)75(d)100。

由于上面的图不能够很清晰的看出p和q的关系。

所以我们又做了一次模拟实验我们把人口数设定为100固定,减小提供额概率0.1也固定。

然后生命周期不断变化,从10~100。

测出数据,根据得出的数据画出相应的图表,试观察p和q之间的关系。

如图4。

图3.5

Fig.3.5

如图3.5所示,p和q值与生命周期正相关(p:

;q:

;线性回归统计,

)。

即,随着生命周期的增加,系统将更趋于公平。

图中参数:

人口数量100,信息披露程度10%,模拟次数根据蒙特卡罗步,模拟结果为10次模拟的平均值。

通过以上的数据分析,我们可以看出,“最后通牒博弈”及其实验结果是一次对新古典经济学绝对化了的基本假设——“理性经济人假设”

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 育儿理论经验

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1