公共合作中的社会困境与社会正义.docx

资源描述

公共合作中的社会困境与社会正义.docx

《公共合作中的社会困境与社会正义.docx》由会员分享，可在线阅读，更多相关《公共合作中的社会困境与社会正义.docx（20页珍藏版）》请在冰豆网上搜索。

公共合作中的社会困境与社会正义.docx

公共合作中的社会困境与社会正义

——基于计算机仿真的经济学跨学科研究

叶航

2012-12-2011:

01:

21　　　来源：

《经济研究》（京）2012年8期

　　【内容提要】在公共品博弈中，搭便车会导致合作瓦解，这是一个著名的社会困境。

大量研究表明，对搭便车进行惩罚，是维护公共合作的有效机制。

但惩罚是有成本的，它又会诱发二阶搭便车，进而导致惩罚机制瓦解，这种情形被称为二阶社会困境。

如何化解这一困境，是该研究领域最具挑战性的问题之一。

通过一个多行为主体（Multi-Agent）演化博弈随机过程的计算机仿真即可证明，在不改变其他假设的情况下，只要公共品的回报足够大，惩罚行为就能保持稳定的演化趋势。

研究显示，随着公共品回报的不断增加，二阶搭便车对惩罚者的演化优势会不断缩小；当这种优势足够小时，它就可能被演化过程的随机性所抵消。

本文的跨学科研究表明，以公平和公正为宗旨的社会正义是化解社会困境的必要前提；在人类的公共合作中，正义原则优先于效率原则；而人类天性中的正义感，则是这一社会规范内部化的产物。

　　【关键词】公共品博弈/社会困境/利他惩罚/二阶社会困境/社会正义

　　一、引言

　　在公共品博弈中，合作者对公共品的贡献经放大后在全体参与者中平均分配；如果所有参与者都选择合作，则每个人都将实现收益最大化，这是一个帕累托最优状态。

但由于公共品的非竞争与非排他性质，背叛者可以通过搭便车获取合作收益，从而获得比合作者更高的净收益。

从理性人假设出发，搭便车是一个占优策略。

从演化均衡看，不管合作者在人群中的初始比例多大，他们最终都将被搭便车的背叛者所取代，从而无法形成高效率的社会合作。

公共品博弈所呈现的这种个体理性与整体效率之间的矛盾，与囚徒困境、公地悲剧一起，被称为三大“社会困境”（Dawes,1980;MessickandBrewer,1983;Ostrom,1990）。

　　但是，大量的行为实验，比如在囚徒困境（Flood,1952,1954）、公地悲剧（Ostrometal.,1992）、最后通牒（Güthetal.,1982）、信任博弈（Bergetal.,1995）、独裁者博弈（Forsytheetal.,1994）、公共品博弈（Bohm,1972）和礼物交换博弈（Fehretal.,1993）中，研究者都发现，人们并非像经典理论所预测的那样，必然会通过背叛来增进自身利益。

这些实验对“经济人”或“理性人”的自利假设构成了系统性背离（Gintis,2003）。

其中，影响最大的是美国桑塔费研究院上世纪90年代开展的田野实验：

该实验历时10年，以全球15个不同文化和经济背景的小型社会为样本；结果表明，文化与经济差异虽然会影响人的行为，但自利假设却没有得到任何样本的支持（Henrichetal.,2001）。

行为实验提出一个关键问题：

在严格的非合作博弈条件下，究竟什么机制导致了合作行为的出现？

而这正是公共品博弈及社会困境研究中最重要的导向性问题。

　　与自利假设兼容的解释是互惠理论，包括直接互惠和间接互惠。

直接互惠认为，人们之所以寻求合作，是因为他们期望对方也能这样对待自己（Trivers,1971）。

但这个理论的前提是博弈双方长期的重复互动，它无法解释大量存在的一次性博弈中的合作行为（Gintis,2000,2003）。

间接互惠认为，乐于合作的好名声可以增加他人与自己合作的几率（Alexander,1987）。

但这个理论的前提是博弈身份的公开，它无法解释大量存在的匿名博弈中的合作行为（FehrandGchter,2000）。

　　1992年，人类学家们发现惩罚背叛是早期人类社会维护公共合作的重要机制（BoydandRicherson）。

1995年，动物学家证实，惩罚是社会性动物维护合作的重要手段（Clutton-BrockandParker）。

2002年，实验经济学家证实利他惩罚可以显著提高群体的合作水平（FehrandGchter）。

至此，惩罚或利他惩罚成为化解社会困境的重要理论范式，引起了研究者的普遍关注（FehrandSchmidt,1999,2003;Boydetal.,2003;BowlesandGintis,2004;Henrich,2004,2006）。

2004年8月，《科学》杂志刊登了一篇由神经科学家与经济学家共同完成的研究报告，报告他们通过正电子断层扫描（PET）发现了利他惩罚的神经基础（DeQuervainetal.,2004）。

①

　　2006年4月，英国心理学家科尔曼（AndrewColman）发表于《自然》杂志的评论指出，惩罚不是免费午餐，惩罚本身是有成本的；除了需要消耗时间和精力，惩罚者还要承受被报复的风险；这样就可能产生“二阶搭便车”行为。

从演化逻辑看，惩罚者将被演化优势更大的二阶搭便车者所取代。

而一旦人群全部由不施行惩罚的合作者组成时，背叛者又会侵入该群体，并逐步取代合作者。

这就是所谓的“二阶社会困境”。

科尔曼认为，“看来，我们现在需要用对惩罚的解释来取代对合作的解释”（Colman,2006）。

　　2006年至今，大量研究围绕化解二阶社会困境展开（Gürerketal.,2006;Henrichetal.,2006;Gintis,2008;JanssenandBushman,2008;DeSilvaetal.,2009;Pennisi,2009）。

其中，影响最大的是一个由演化动力学家和数学家提出的“自由选择”模型。

他们在公共品博弈中引入一种被称为“非参与”（non-participant）的策略性行为，并假设非参与者可以自由选择是否加入一场合作事业。

在《科学》和《自然》杂志发表的系列研究报告中，他们通过多行为主体演化博弈随机过程的计算机仿真证明，如果允许博弈者自由选择，就能够化解二阶社会困境（Hauertetal.,2007;Sigmundetal.,2010）。

　　但研究合作问题的著名人类学家博伊德（RobertBoyd）却在《科学》杂志和《英国皇家学会会刊》撰文指出，自由选择需要依赖极强的假设：

模型中的公共产品必须是排他性的，否则放弃从该物品上受益便不再是一种可能的选择，而“非排他性”则被认为是公共品更一般的属性。

因此，这个模型“只能解释很少一部分符合这些假设的情形”，而“现在的挑战，便是解释惩罚如何能够在其他情形下产生”（BoydandMathew,2007;MathewandBoyd,2009）。

　　为了在一般条件下化解二阶社会困境，博伊德和杰斐提出了“协调惩罚”（Boydetal.,2010）和“联合惩罚”（JaffeandZaballa,2010）模型。

计算机仿真结果表明，惩罚者如果能就惩罚达成共识或彼此分摊成本，就能化解二阶社会困境。

但是，“协调惩罚”或者“联合惩罚”本身就是一种合作行为；用来解释合作的形成，无异于用合作解释合作；它不但使研究陷入循环论证，而且改变了公共品博弈的非合作博弈性质（Yeetal.,2011）。

　　是否能在不改变公共品博弈基本属性的条件下化解二阶社会困境？

通过一个多行为主体演化博弈随机过程的计算机仿真，我们发现：

如果公共品的回报足够大，惩罚行为就能保持稳定的演化趋势，从而有效化解二阶社会困境。

通过进一步研究，我们揭示了其中的机理：

随着公共品回报的不断增加，二阶搭便车对惩罚者的演化优势会不断缩小；当这种优势足够小时，它就可能被演化过程的随机性所抵消。

这一研究结果表明：

以公平和公正为宗旨的社会正义是化解社会困境的必要前提，在人类的公共合作中，正义原则必须优先于效率原则；而人类天性中的正义感，则是这一社会规范内部化的产物。

　　二、假设与模型

　　本节根据演化博弈的方法，通过数学建模对引言中讨论的公共品博弈案例进行梳理，并在此基础上提出我们化解二阶社会困境的模型。

　　按照理性人假设，该博弈的纳什均衡为所有博弈者都不对公共品作贡献。

从演化角度看，不论合作者在初始人群中的比例多大，他们最终都将被演化优势更大的背叛者取代，其演化均衡为n＝y。

如此，该博弈的总回报P和个人回报均为零，从而使群体陷入社会困境：

　　P＝＝0（3）

　　假设存在惩罚者z，他们不但对公共品做贡献，而且会惩罚背叛者。

若惩罚强度δ大于等于合作成本c，合作者的回报将大于等于背叛者，从而使群体免于陷入社会困境：

　　按照理性人假设，上述情形将诱发二阶搭便车，其纳什均衡为所有博弈者都不作惩罚，即n＝x。

当群体全都由不惩罚的合作者组成时，背叛者就可以轻易地侵入进来，其最终演化均衡为n＝y。

于是合作秩序再次面临崩溃，这种状况被称为二阶社会困境。

　　为化解二阶社会困境，研究者引入非参与者，并假定他们可以获得一个不依赖公共合作的独立收益σ。

若搭便车的人很多，独立收益将大于博弈收益，人们可以选择退出博弈；若合作的人很多，独立收益又小于博弈收益，人们又会重新参与博弈。

模型的这一内在机制，避免了公共合作被锁定在社会困境状态：

　　但是，自由选择意味着公共品具有排他性质。

虽然，拥堵效应可能导致公共品消费的排他性，但非排他性通常被认为是公共产品更为一般的属性。

事实上，该模型的假设更接近布坎南所谓的“俱乐部产品”，而非标准的公共产品（Buchanan,1965）。

　　为在一般条件下化解二阶社会困境，我们将在不增加其他假设的情况下考察惩罚机制的演化均衡：

假设在一项非排他性的n人公共品博弈中，有x个合作者、y个背叛者和z个惩罚者（i＝1，2，…，n）。

　　当代博弈理论正在经历经典博弈论基础范式的三大转变，即理性假设向BPC假设②的转变，策略博弈向行为博弈的转变，纳什均衡向演化均衡的转变（Gintis,2009;Camerer,2003;Gould,2002）。

考察公共品博弈的演化均衡需要将博弈过程置于一个复制动态过程中，其基本方法是把博弈者的博弈回报（payoff）与博弈者的演化适应度（fitness）相关联，并把适应度的高低作为博弈者改变其策略性行为的主要依据（SmithandPrice,1973；史密斯，1982；诺瓦克，2006）。

在生物学或生态学中，适应度被定义为“生命有机体预期的后代数量”（Smith,1989;Gintis,2009）。

事实上，这一定义可以在多重意义上描述生物体的复制动态，例如基因复制、个体繁衍，以及策略学习和策略更新过程。

　　随机性是演化过程的重要特性，它包括来自行为主体内部的随机变异以及来自外部环境的随机扰动（Fudenbergetal.,2004）。

演化随机性是过程的随机性，而不是结果的随机性（Gell-Mann,1994）。

在复杂系统中，演化过程的随机性往往会导致某种“秩序涌现”的确定性结果。

社会科学研究的对象，比如经济系统和人类的社会行为就是一个由多重因素和变量决定的、具有随机演化和秩序涌现的复杂系统。

对于这类复杂系统，往往不可能给出解析性的描述。

从上世纪末和本世纪初开始，国际学术前沿开始引入计算机仿真技术研究经济学领域的相关问题，并取得许多重要发现（Axelrod,1997;BowlesandGintis,2004;Hauertetal.,2007;Hidalgoetal.,2007;Sigmundetal.,2010;JaffeandZaballa,2010）。

这一研究方法的创新，标志着经济学在经历了定性的思辨分析和定量的数理分析后，又进入一个新的发展阶段。

同时，它也体现了社会科学与自然科学在研究方法与研究手段上日益交叉融合的趋势。

　　目前，一种基于频率依赖型莫兰过程（frequency-dependentMoranProcess）的多行为主体（Multi-Agent）计算机仿真技术，是用于演化博弈随机过程研究的标准方法。

　　三、方法与技术

　　帕特里克•莫兰（PatrickMoran）是已故澳大利亚著名统计学家，以他的名字命名的“莫兰过程”是一种分析有限规模种群随机演化的科学方法，被广泛应用于自然选择、遗传复制、遗传变异和遗传漂变等生物演化过程的研究。

本世纪初，演化动力学家把它引入演化博弈，用来分析策略学习与策略更新过程，为计算机仿真在社会科学领域的应用奠定了基础（Tayloretal.,2004;Fudenbergetal.,2004;Imhofetal.,2005;Nowak,2006）。

　　作为描述有限规模种群随机演化的方法，莫兰过程最重要的思想在于，它假设演化的每一代都有且仅有一个个体“死亡”并被一个“新生者”所取代，而这个“新生者”的类型则取决于个体的演化适应度。

根据这一思想，在一个规模恒为M的群体中，个体在时间和空间维度的演化被刻画为：

若某种类型的个体在时间t的数量为，那么在时间t＋1，有且仅有三种可能的状态：

（1）保持原有规模，即仍为；

（2）在原有规模上增加一个个体，即＋1；或（3）在原有规模上减少一个个体，即－1。

按照这一简单的规则反复推衍，就可以在不改变群体总规模的条件下，描述一个种群的演化趋势（Moran,1962;Nowak,2006）。

　　有限规模种群多行为主体随机演化过程分析的对象，在突变率μ→0的条件下可以得到很大简化。

此时，群体演化总是由一种或至多两种类型的个体参与。

当μ＝0时，群体中任意类型的单一态都具有吸收作用。

如果突变率足够小，两种单一态之间的转换，只有当一个突变者出现并固定下来时才会发生，从而使一个多样化、异质性的超几何分布退化为一个未被替换的二元样本（Tayloretal.,2004;Hauertetal.,2007）。

　　考虑从一个充分混合的多样化和异质性的有限规模人群样本M中随机挑选N人参加一项排他性的公共品博弈，如果突变率μ→0，随机抽样就等价于对一个由个i类型和M－个j类型个体组成的二元样本进行N次不重复抽样，抽取K个i类型和N－K个j类型个体的概率为：

　　对应于以上矩阵最大特征根的特征向量则决定了该人群的恒定分布，即它给出了在突变率μ→0时，该系统中任一类型的个体在演化中的稳态概率分布。

③

　　在突变率μ＞0时，稳态概率的实际值将受随机因素干扰而波动。

但如果某种行为具有稳定的演化优势，它的概率分布最终将抵御系统的随机扰动，从而揭示其演化的趋势和方向。

我们可以通过一套基于频率依赖型莫兰过程的多行为主体计算机仿真技术来再现博弈的随机演化过程。

其基本步骤如下：

　　第一，产生随机博弈样本。

运用蒙特卡罗法（MonteCarlomethod），从一个充分混合的多样化和异质性的有限规模人口样本M中随机挑选N人参加一项排他性的公共品博弈（MetropolisandUlam,1949;Caflisch,1998）。

　　第二，计算博弈回报。

令N中的个体根据预设的规则进行博弈，即根据本文第二节模型（7）—（9），在设定参数后分别计算不同类型的博弈者在每轮博弈中获取的回报值。

　　第三，计算演化适应度。

演化博弈假定博弈者倾向于模仿那些回报较高的个体，这一假定也意味着，回报较高的个体具有较高的演化适应度，从而将获得更大的遗传优势。

在演化动力学中，常用算法为F＝1－ω＋ωP，式中F为适应度（fitness），P为博弈回报（payoff），ω被称为“自然选择强度”（0＜ω≤1）；该公式将适应度视作一个对所有博弈者都单位化为“1”的“生存底线”与博弈回报的线性组合（Hauertetal.,2007;Nowak,2006）。

这一算法的缺陷是在强选择区域有可能出现适应度的负值，因此只能用于弱选择下的仿真。

为避免这一缺陷，我们在仿真中首次采用了特劳森（ArneTraulsen）等人设计的指数型算法F＝e[ωP]（Traulsenetal.,2008），从而可以模拟自然选择强度ω在定义域内的任一演化过程。

④

　　第四，遗传复制或策略更新。

莫兰过程假定，演化的每一代都有一个个体在总人口M中“死亡”并被一个“新生者”所取代。

死亡者或新生者的类型，则取决于每个个体适应度的高低和每一类型个体在总人口中的频率。

常用的算法为“生－死”（birth-death）法和“死－生”（death-birth）法。

所谓“生－死”法，即根据某类个体的适应度确定一个“新生者”，然后用它来随机取代M中的某个个体；所谓“死－生”法，则是先根据某类个体的适应度确定一个“死亡者”，然后从M中随机抽取一个“新生者”取代它留下的空缺（Tayloretal.,2004;Hauertetal.,2007）。

我们在仿真中则根据莫兰过程的基本思想（Moran,1962;Fudenbergetal.,2004），创造了一种“遗传池”（geneticpool）算法：

M中的成员根据博弈样本的适应度成比例地调整各自的数量，调整后的成员放入一个“遗传池”，然后从中抽取一名成员对M中的个体进行随机替换（Yeetal.,2011）。

⑤

　　第五，遗传变异或突变。

遗传变异是达尔文创立的重要概念（Darwin,1859），它也是影响多行为主体演化博弈随机过程的重要因素。

演化动力学假定每一类型的个体都会以一个非常小的概率μ随机地变成其他类型，μ被称为突变率（mutationrate）。

这一假定也等价于博弈者会以一个非常小的概率在不考虑回报的情况下更换自己的策略，仅把它作为对其他策略进行的探索性尝试（Hauertetal.,2007）。

　　上述步骤通过五个执行程序，构成一个完整的基于频率依赖型莫兰过程的多行为主体演化博弈随机过程的计算机仿真：

　　四、计算机仿真结果

　　1.社会困境的产生过程

　　如果公共合作只有合作和背叛两种策略性行为，一个公共品博弈事实上就蜕化为一个多人囚徒困境博弈。

根据“经济人”或“理性人”假设，博弈者最大化其自身利益的结果，使该博弈的纳什均衡为所有人都选择背叛。

从演化均衡角度看，不论合作者在初始人群中的比例多大，他们最终都将被适应度更高的搭便车者所取代。

个体理性的这种短视行为，将导致公共合作无法实现帕累托最优，从而使系统陷入社会困境。

通过计算机仿真，我们可以模拟和再现公共品博弈中社会困境的产生过程。

　　图2所显示的计算机仿真结果表明，在一个只包括合作者和背叛者的公共品博弈中，即便我们假定初始人群100％都是合作者，由遗传变异产生的背叛者仍然可以非常容易地侵入这一系统。

并且，一旦背叛者侵入该系统，他们就将迅速取得统治地位。

虽然合作者还是可以通过遗传变异不断产生出来，但他们却不可能侵入由背叛者统治的世界。

在10万代仿真中，背叛者在整个人群中所占的平均比例为71.66％，而合作者所占的平均比例仅为28.34％。

　　2.二阶社会困境的产生过程

　　如果在公共品博弈中引入惩罚机制，即假定有一些合作者会去惩罚那些搭便车的背叛者；在惩罚强度δ大于等于合作成本c的条件下，搭便车变得无利可图，受到惩罚的背叛者将逐步在人群中趋于消亡。

但由于惩罚本身是需要成本的，与不做惩罚的单纯的合作者相比，惩罚者在演化过程中处于劣势地位。

从演化均衡角度看，不论惩罚者在初始人群中所占的比例多大，他们最终都将被适应度更高的合作者所取代。

一旦人群全都由不做惩罚的单纯的合作者组成时，背叛者将非常容易地侵入这一系统；通过惩罚者建立起来的合作秩序，再次面临崩溃的局面。

这就是所谓的“二阶社会困境”。

在一个较长的演化时段中，我们将观察到这一过程反复出现，即三种不同类型的博弈者轮流处于统治地位，呈现出一种“石头－剪子－布”式的周期性循环。

通过计算机仿真，我们可以模拟和再现公共品博弈中二阶社会困境产生的全部过程。

　　图3所显示的计算机仿真结果形象地表明，即便我们假定初始人群100％都由惩罚者所组成，经过遗传变异产生的合作者却可以很容易地侵入这一系统。

但是，一旦当合作者占据统治地位后，背叛者的侵入就成为不可避免。

虽然，由突变而产生的惩罚者还会对背叛者形成威胁，但惩罚者自身仍然会不断受到合作者的侵袭，而合作者又会遭到背叛者的侵袭，整个系统呈现出“石头－剪子－布”式的震荡循环。

相对于合作者和惩罚者，背叛者占据主导地位的时间更长，从而使系统无法形成稳定的合作秩序。

在10万代仿真中，三种行为者占整个人群的平均比例分别为：

合作者为37.07％，背叛者为40.47％，惩罚者为22.46％。

　　3.二阶社会困境的化解

　　在不改变公共品博弈基本假设的情况下，通过计算机仿真我们发现，如果公共品具有较高的回报，即公共品的回报乘数r达到一定强度（例如r＝6），惩罚行为就可以获得稳定的演化趋势。

而稳定的惩罚机制则能够对背叛者的搭便车行为形成持久威胁，从而有效地维护了公共合作的秩序。

这一结果表明，在一个符合一般假设条件的附带惩罚机制的非排他性公共品博弈中，二阶社会困境被成功化解了。

　　图4所显示的计算机仿真结果表明，即便我们假定初始人群100％都由背叛者所组成，经过遗传变异产生的惩罚者仍然可以侵入这一系统并在人群中占据统治地位。

而且，一旦惩罚者占据了统治地位，其他行为者就很难侵入，使系统呈现出一种稳定的合作秩序。

在10万代仿真中，三种行为者占整个人群的平均比例分别为：

合作者为8.69％，背叛者为9.89％，惩罚者为81.41％。

　　对各项参数的稳健性检验（robusttests）显示，上述结论在相当宽泛的条件下仍然成立。

对公共品回报乘数r的检验显示，回报乘数与惩罚者的演化优势呈明显的正相关关系：

在r＝4时，惩罚者的演化优势就可以得到明显改善；在r＞5时，惩罚者就能够在演化过程中取得稳定的演化趋势；且随着r的进一步增大，惩罚者的演化优势也不断加强。

⑥

　　五、问题与讨论

　　1.高回报公共品化解二阶社会困境的机理

　　我们知道，对惩罚者演化优势构成的威胁主要来自合作者的二阶搭便车行为。

通过仿真数据分析我们发现，随着公共品回报乘数不断增大，合作者相对惩罚者的演化优势呈逐步缩小的趋势。

这是因为，公共品的回报越大，每个博弈者的平均收益就越高；而在惩罚成本给定的情况下，每个博弈者的平均收益越高，惩罚者与合作者之间的相对收益差距，从而也就是他们在演化优势上的相对差异就越小。

当这种差异缩小到一定程度，它就可能被演化过程所具有的随机性所抵消。

　　在生物学中，演化过程的随机性主要来自基因自身的遗传变异（geneticvariation）和由环境因素诱导的遗传漂变（geneticdrift）。

这就意味着，生物性状的演化趋势并非百分之百取决于适应度的大小。

在一个较小概率上，它可能受到来自生物体内部的因素或外部环境的随机扰动。

当然，如果某种生物性状的演化优势很大，它就可以抵抗这种随机干扰。

但如果演化优势足够小，这种演化上的优势就可能被系统的随机干扰所抵消。

　　当然，随机扰动是作用于所有个体的。

但在我们的仿真中，它似乎只是单方面削弱了合作者的演化优势。

通过进一步数据分析我们发现，如果合作者一旦在演化中占据了统治地位，他们将无法维持这一状态，因为他们没有任何手段阻止背叛者的侵入。

与此相反，如果惩罚者一旦在演化中占据了优势，这种优势会进一步加强，呈现一种“正反馈”效应。

这是因为，当惩罚者的人数增加时，背叛者的数量会不断减少；而背叛者数量的减少，又会降低惩罚总成本，从而使惩罚者具有更明显的演化优势。

因此，正如我们在仿真中观察到的：

在高回报的公共品博弈中，一旦惩罚者占据了统治地位，其他行为者就很难侵入并颠覆它。

　　2.高回报公共品的理论依据

　　在公共

展开阅读全文