应用物理学专业奖励机制在阈值公共商品博弈的作用Word文档下载推荐.docx
《应用物理学专业奖励机制在阈值公共商品博弈的作用Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《应用物理学专业奖励机制在阈值公共商品博弈的作用Word文档下载推荐.docx(6页珍藏版)》请在冰豆网上搜索。
参考文献7
致谢8
第一章绪论
在动物社会和人类社会中,合作行为的产生和传播仍然是一个亟待解决的重要课题。
因为合作是一种损己利人的行为,无论在生物学系统中,还是在人类社会系统中,合作者相较于坐享其成的背叛者,都处于一种不利的地位。
在生物学系统中,这种不利表现为繁衍后代的可能性降低,在社会系统中,则表现为合作行为被系统中其他个体学习的可能性降低。
然而,我们知道,在动物社会和人类社会中,合作行为无处不在,这表明在此现象的背后,必然存在能够让合作成为系统中的优于背叛的某种机制。
找隐藏在现象背后的机制对于社会学、生物学、经济学等交叉领域具有重要的指导作用。
公共物品,如清洁能源和环境保护,是这些地区的可持续的人类社会和失败的积木可以有深远的影响。
然而,公共产品的私人供给可以构成挑战,经常协调合作不成功(例如,[1])。
第一,自愿合作提供公共物品存在自利行为。
开发者可以依赖他人的努力。
在集体行动,协调个体之间通常需要达到合作均衡。
否则,不劳而获导致个人的非合作均衡,这便是一个社会陷阱。
协调问题已被广泛研究和博弈理论的普遍性是由各种各样的名称表示:
协调博弈,保证游戏,猎鹿博弈,志愿者的困境或启动问题[2–4]。
进化博弈模型解决庞大的群体往往建立在合作和背叛的公益游戏而导致的系统有两个平衡(没有合作和一定程度的合作)。
因此,它是建立一个机制,允许人口发展对合作均衡的挑战,独立的初始条件。
情况最严格的情况下,一致的意见是公共利益的需要,作为唯一可取的初始条件是一个国家几乎所有的合作。
理论和实证分析,阐明了现有通信或社会交换的情况下,可以促进合作均衡的选择。
很少有人知道,然而,如何平衡选择可以实现从一次匿名在大群体的相互作用,如一个达成共识的过程,是不可能成功的。
以往的研究表明,感知风险越高的集体失败,协调合作行动机会更高。
最近的研究表明,考虑制度的惩罚也进一步放宽建立合作的初始条件。
如果奖励来代替惩罚呢?
奖励是研究最多的一种结构方案,在相当大的群体合作,激发合作。
而在现实生活中存在的补贴鼓励合作行动系统阵列,这里我们把内源性筹款(见正式奖励)。
早期的工作表明,复制动态,从而更成功的策略的进一步蔓延,导致奖励基金在公众良好的游戏合作的动态维护。
该模型考虑了三种策略:
(一)合作者或(ii)在标准的公共品博弈者,或(iii)一种赏赐,都有助于公共利益和奖励基金。
只有那些有助于公共利益被邀请分享奖励基金收益。
奖励者甚至可以在人口的叛逃者传播,因为叛逃者被排除在奖励。
筹款本身,但是,是自愿的和昂贵的。
因此,这种激励方案可以很容易地通过“不劳而获”二合作者有助于公共利益而不是奖励颠覆。
在接下来的步骤中,对公益的贡献也是昂贵的,合作者将由“不劳而获”叛逃者流离失所的一阶。
这导致了一个摇滚–剪刀–论文类型的更换周期在三策略。
在这篇报告中,我们仅针对与我们课题直接相关的进展进行描述。
首先,为了解释合作的产生与传播,国内外的研究者们针对生物学系统和人类社会系统的特点,提出了许许多多不同的用于解释合作行为的机制,并对这些机制进行了大量的理论研究和实验研究[3]。
例如亲缘关系、直接互惠、间接互惠、惩罚、奖励、名誉、风险规避、群体结构化等。
其中较为受到人们关注的是惩罚和风险规避两种机制,而奖励机制的理论研究则较少受到人们的关注。
然而,惩罚对于整个社会系统的贡献为负值(因为惩罚者需要付出一定的代价来对被惩罚者进行报复,报复的结果也是伤害被惩罚者的利益,因此总体上说,对于社会系统,它起到的是降低社会效益的作用),因此从长远的角度上看,研究奖励机制对合作的促进似乎更加有益。
其次,传统的公共物品博弈(publicgoodsgame)只能定性地模拟现实生活中的困境,因此找到更加贴近现实的模型,是解决合作演化的一个有效途径。
因此,在本课题中,我们将采用阈值公共物品博弈模型[4]。
在这个模型中,只有合作者足够多,才能维护公共资源,进而才能从公共资源中获得更大的利益。
即,公共资源的回报率与参与博弈的合作者数量是相关的。
具体的说,我们研究的模型是在均匀场(mean-field)网络下的阈值公共物品博弈模型,研究的机制是奖励机制,采用的群体动力学(populationdynamics)为复制者动力学(replicatordynamics),研究的目标是确定在何种情况下,奖励能起到促进系统合作的效果,以及能促进到何种程度。
第二章阈值公共物品博弈模型
我们考虑无限大,混合人群从这
个人
的随机抽样形式游戏组。
之后的一个互动,小组解散。
我们假设三策略之前:
两赏赐和合作者愿意贡献个人成本
;
背叛者的贡献都没有,不受成本。
所有的公共利益只有贡献者的数量提供
超过或等于阈值
否则,就是对公共利益的一部分,打折的风险因子
,提供。
然而,由此产生的效益是每一个球员都一样,不管她/他贡献。
个人的利益是由
决定的,如果
否则,
(图1)。
图1公共商品的回报。
每个成员都收到了1如果在M组参保人数超过或等于阈值K的好处(1≤K≤N);
否则,1−P.(在线彩色版。
)
Figure1.Stepreturnsinthepublicgood.Eachmemberreceivesbenefitsgivenby1ifthenumberofcontributorsinthegroupmexceedsorequalsthresholdk(1≤k≤n);
otherwise,1−p.(Onlineversionincolour.)
接下来,我们考虑一个门槛公共物品自愿奖励基金。
以前,只有奖励者愿意贡献C′>
0基金;
比赛结束后,综合基金乘以利率r′>
1将同样在M贡献者共享(我奖励者和M−我的合作者)的公益。
奖励基金是一个好的俱乐部,除了那些叛逃者。
总之,一个赏金赚B(m)−C+C′R′我−C′,合作者B(m)−C+C′R′I/M和叛逃者B(m)。
(可用相应的复制方程的电子辅助材料。
此外,如果奖励基金是非常有益的′≥Rn(即边际收益非负,C′R′/N−C′≥0)奖励基金对二阶贪图便宜是可持续的。
因此,我们也可以假设R′<n。
第三章模型结果分析
首先,我们看不奖励机制改进的结果。
阶跃函数B(m)与中间值K(图1)可以为1<k<n导致双方没有合作,合作和背叛的混合为一个足够大的风险因子P的双稳态,和K=1,只有混合合作[10,18]。
没有100%如果k=n只发生合作关系的情况下,纯粹的协调,避免集体失败,需要所有参与者之间均匀的合作。
它拥有1<K≤N,P的风险大,小(大)一个没有吸引力的(某些)合作均衡[10]。
实现双稳态,关键风险因子P
*取其最小值在一致同意的情况下。
进化的结果奖励者剧烈变化(图2;
对于细节的电子辅助材料)。
调查分析表明,如果考虑到一定程度的奖励,动态复制第一领导奖励者入侵一个国家所有个人缺陷。
个人是更好的回报在混合组(叛逃者和奖励者)只要基金C′R′最有前途的收益大于总成本C+C′。
非奖励合作伙伴然后侵入的奖励者人口繁衍。
这对任何风险因子P和提供阈值K是常见的,导致了国家在个人合作。
图2阈值的公益游戏奖励资金.单纯的状态空间表示。
三个节点,D:
100%叛逃者,C:
100%合作伙伴和R:
100%奖励者,复杂的平衡。
(一)风险为零(P=0)。
独特的内部均衡问周围的闭合轨道,沿线三策略动态共存。
边界的轨道形成循环连接的三个节点。
(B,C)的部分协议(1<k<n)。
对于一个小的风险,有可能存在一个稳定的闭合轨道(粗体,黑色线)(B)。
当P超出某一临界值,在三策略的组合是不可持续的,只有合作伙伴可以稳定共存的叛逃者在点X2。
所有的内部人口的状态发展,这种状态(C)。
(D,E)一致(k=n)。
当P增加到P*,所有人最终与所有合作均衡C.参数:
n=5,C=C′=0.1,R′=2.5,和(B,C),k=3。
(色彩。
在线版)
Figure2.Thresholdpublicgoodgameswithrewardfunds.Thesimplexrepresentsthestatespace.Thethreenodes,D:
100%defectors,C:
100%cooperatorsandR:
100%奖励者,aretrivialequilibria.(a)Riskzero(p=0).TheuniqueinteriorequilibriumQissurroundedbyclosedorbits,alongwhichthethreestrategiesdynamicallycoexist.Boundaryorbitsformacycleconnectingthethreenodes.(b,c)Partialagreement(1<
k<
n).Forasmallriskp,therecanexistastableclosedorbit(bold,blackline)(b).Whenpgoesbeyondacriticalvaluep*,amixamongthethreestrategiesisnolongersustainable,andonlycooperatorscanstablycoexistwithdefectorsatpointX2.Allinteriorpopulationstatesevolvetothisstate(c).(d,e)Unanimousagreement(k=n).Whenpincreasesbeyondp*,allindividualsendupwiththeall-cooperationequilibriumC.Parameters:
n=5,c=c′=0.1,r′=2.5,andfor(b,c),k=3.(Onlineversionincolour.)
对阈值的公益比赛中的双稳态的情况下,人口的国家拉回到状态,叛逃者居多。
因此,人口最终用石头剪刀––进行循环,并主导战略是由从叛逃者轮换赏赐给合作者(图2A,B)。
在复杂的模型与信誉系统[14]有合作和奖励类似的振荡动力学。
在双稳态的存在,由此产生的叛逃者和合作者的混合状态是可持续的,即使奖励基金下跌。
一旦逃离100%叛逃者的国家,人口的发展对混合状态1<k<n(图2C),k=n100%者之间的状态(图2D,E)。
因此,它是通过奖励,协调解决问题的兴衰。
第四章总结
自愿的奖励可以提供强大的协调机构,克服的问题,在不考虑第二阶的惩罚。
这是一个intriguing情景是不容易用传统模型与自愿惩罚[16]。
此外,第二阶的问题是一freeloading已被抑制的需求战败[13,19,20]。
目前的模型是在以前的模型和对比度可以打到100%时,产生第二次合作的奖励者
freeloading自愿终止。
三是有重点的合作均衡的进化步骤。
第一,奖励者defectors进化的需要。
这一要求是高的平均的健身奖励者是一比的defectors说。
这是一部继《当回报的案例对公共产品成本补偿和奖励基金(C+
c′c′r′>
)。
我们注意到,该学位的风险因素并没有影响这一结果的P是一个积极的反馈,因为增加的数量之间的奖励者和跳跃的回报。
第二,是因为奖励者
cooperators替换与温和的回报,assuming(r′<n),切换到一cooperators导致增加健身(c′−c′r′/n>0)。
最后,在该州的需求是稳定的,尽管事实上,高的单突变体defectorSAH组中cooperators净效益。
p是足够大的,然而,切换到defection线索到健身的平均损失在defectors瀑布下面是cooperators学院的合作均衡,因此是稳定的。
翻译结果转化为适当的协调运动defectors
cooperators已获得通过考虑可选的参与机构(21、22)]或[处罚[12]。
可选的参与提供了简单而有效的分辨率可以是社会13,16陷阱[更换]。
在人的社会里,然而,有许多的问题.即插即用,如国籍、宗教、能源和环境。
目前的模型,这样一focuses在线,因此不可避免的局面,的确是forcibly播放器到游戏。
虽然影响的惩罚制度,建立稳定的水平,大集团的合作,在协调中面临的问题,可以到[
7
]。
因此,这将是困难的是使这一单一的惩罚者的影响在这activatessanctioning系统覆盖整个集团。
是什么使公共商品那些没有任何贡献的制度的惩罚吗?
这一问题的触发器无限回归的问题:
谁是(高阶)的惩罚吗?
通过对比,可以提高响应奖励基金会志愿者,然后扩展的单defectors在人口研究。
我们发现,这样的合作与回报基金是一个强大的工具,比更多的惩罚制度。
这是一个有效的机制奖励自发的分辨率的协调问题,使以最小的风险。
参考文献
[1]S.J.Maynard,E.Szathmary,TheMajorTransitionsinEvolution,Oxford:
Freeman(1995)
[2]J.A.Fletcher,M.Doebeli,Proc.R.Soc.LondonB276,13(2009)
[3]M.A.Nowak,Science314,1560(2006)
[4]T.Sasaki,S.Uchida,Biol.Lett.10,1(2014)