倾向值匹配与因果推断方法论述评.docx

上传人:b****4 文档编号:11789045 上传时间:2023-04-01 格式:DOCX 页数:12 大小:275.31KB
下载 相关 举报
倾向值匹配与因果推断方法论述评.docx_第1页
第1页 / 共12页
倾向值匹配与因果推断方法论述评.docx_第2页
第2页 / 共12页
倾向值匹配与因果推断方法论述评.docx_第3页
第3页 / 共12页
倾向值匹配与因果推断方法论述评.docx_第4页
第4页 / 共12页
倾向值匹配与因果推断方法论述评.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

倾向值匹配与因果推断方法论述评.docx

《倾向值匹配与因果推断方法论述评.docx》由会员分享,可在线阅读,更多相关《倾向值匹配与因果推断方法论述评.docx(12页珍藏版)》请在冰豆网上搜索。

倾向值匹配与因果推断方法论述评.docx

倾向值匹配与因果推断方法论述评

倾向值匹配与因果推论:

方法论述评

倾向值匹配:

历史、发展及其对调查研究的意义

倾向值(propensityscore)这一概念最早出现在1983年罗森鲍姆和鲁宾合写的一篇名为《倾向值对于观察研究中因果效应的中心作用》的论文中(Rosenbaum&Rubin,1983)。

倾向值指被研究的个体在控制可观测到的混淆变量(confoundingvariables)的情况下受到某种自变量影响的条件概率。

在一般的实证研究中,由于存在很多其他变量混淆自变量和因变量之间的关系,研究者很难直接探索二者之间的“净效果”(neteffects)。

例如,大学教育的收入回报可能受到年龄、性别以及地区差异这些混淆变量的影响。

因此,上大学的人的平均收入与没有上大学的人的平均收入的差异有可能也反映了混淆变量的作用。

这些混淆变量的影响通常被称为选择性误差(selectionbias),而通过倾向值匹配的方式来控制和消除选择性误差则是罗森鲍姆和鲁宾论文的题中之义。

罗森鲍姆和鲁宾用数理方法证明:

通过将这些混淆变量纳入Logistic回归模型来产生一个预测个体受到自变量影响的概率(倾向值),研究者可以通过控制倾向值来遏制选择性误差对研究结论的影响从而保证因果结论的可靠性。

在各种控制倾向值的方法中,匹配(matching)比较简便易行。

其基本逻辑是将受到自变量影响的个体与没有受到影响的个体进行配对。

而倾向值匹配就是保证匹配起来的个体的倾向值相等或者近似。

再次回到大学教育的例子,倾向值匹配就是将没有受过大学教育的人和受过大学教育的人配对并保证他们的倾向值(即上大学的概率)相同或近似,这样我们就得到了上过大学和没上过大学两组个体。

因为已有的混淆变量已经在基于倾向值的配对过程中被控制起来了,两组个体收入上的差异就只能归因于大学教育的有无,而不是其他混淆变量,由此遏制了选择性误差。

罗森鲍姆和鲁宾的思想与计量经济学家赫克曼的想法不谋而合。

从样本选择的角度出发,赫克曼认为社会科学家在研究某个自变量效果的时候会不自觉地选择一些样本而忽视另外一些。

例如,针对某个研究项目,不同的个体有不同的参与意愿,或者研究者对于研究个体的选择有特定的倾向。

这些选择效应(selectioneffect)使得研究者真正接触的样本是有一定“偏向的”。

而基于一个带有选择性的样本,我们得出的结论也会由于选择效应的“污染”而出现偏差(Heckman,1979;Heckman&Smith,1995)。

面对这种情况,赫克曼认为在进行研究时需要做两步工作。

第一步是建立模型来拟合个体参与到某种研究项目中的可能性,第二步则是在控制这种参与可能性的前提下来考察我们所关心的自变量对因变量的效果。

因此,赫克曼的方法也被称为“两步估计法”(twostepestimator)(Heckman,1978,1979)。

我们今天所探讨的倾向值匹配可以说是罗森鲍姆和鲁宾的统计学传统与赫克曼的计量经济学传统的结合。

罗森鲍姆和鲁宾通过逻辑回归方法将混淆变量“总结”成一个倾向值,而这也恰恰是赫克曼两步估计法中的第一步所要做的,即通过模型估算个体参与某项研究的概率,二者殊途同归。

然而,这两个传统的一个不同点在于他们处理倾向值的方式有一定差异。

在得到倾向值之后,罗森鲍姆和鲁宾提出了多种控制倾向值的方法:

除了匹配之外,也可以将倾向值分层(stratification)或细分(sub-classification),然后在每个层次或类别内探索因果关系;或者也可以将倾向值作为新的变量进行回归分析。

①而在赫克曼的计量经济学传统中,倾向值主要是作为一个新的变量被纳入到已有的计量经济模型中,例如选择模型(selectionmodel),工具变量(instrumentalvariable),或双重差分方法(differencein-differencesmethod)。

需要指出的是,这种差异只是在处理倾向值的具体方式上的不同,本质上这两个传统的基本逻辑是一致的,即在考察自变量效果之前通过模型估计并控制个体受到自变量影响的概率。

在社会学领域,早在1997年,宾夕法尼亚大学社会学系的史密斯就已经使用倾向值匹配方法研究医院改革对患者死亡率的影响(Smith,1997)。

然而,史密斯这篇文章的主要目的是展示倾向值匹配方法,因此是作为方法论的论文发表在《社会学方法论》(SociologicalMethodology)期刊上的。

两年以后,哈佛大学的温希普和摩根在《美国社会学年鉴》(AnnualReviewofSociology)上系统梳理了如何通过统计方法进行因果推论,其中也谈到了倾向值匹配(Winship&Morgan,1999)。

总体上来说,在2000年之前,社会学领域内对倾向值匹配的主要关注点还是在于熟悉倾向值匹配的基本逻辑,而将其作为一种普遍适用的统计方法去研究实际问题还要到21世纪才渐渐兴起。

2003年,当时还在哈佛大学学习的哈丁在《美国社会学杂志》(AmericanJournalofSociology)上发表了一篇论文研究社区贫困程度对社区少年辍学及早孕的影响,其中倾向值匹配开始像多元回归那样作为一种统计技术来验证和发展已有理论(Harding,2003)。

也正是在这一阶段,倾向值匹配的软件模块开始被开发出来并嵌入到一般的统计软件中。

例如,贝克尔和栎野在2002年发布了可以嵌入Stata的用于倾向值匹配的模块“pscore”(Becker&Ichino,2002)。

鲁汶及夏内西也在一年后发布了他们所编写的用于倾向值匹配的模块“psmatch2”(Leuven&Sianesi,2003)。

这些统计模块的开发使倾向值匹配开始在社会学领域广泛应用。

根据哈佛大学社会学系安卫华的梳理,截至2009年,在《美国社会学评论》(AmericanSociologicalReview)和《美国社会学杂志》上发表的论文中,利用倾向值匹配技术的超过了200篇,内容涉及教育社会学、互联网使用、失业问题、健康问题等诸多方面(An,2010)。

可以说,在当前的社会学研究中,倾向值匹配已逐渐发展成为一个普适的统计研究方法,并得到越来越多的重视。

倾向值匹配在社会学领域的兴起并非偶然,这是和社会学对大规模调查资料的使用分不开的。

与统计学领域的实验设计不同,调查资料无法对研究个体进行人为控制。

从这个意义上说,基于调查资料的研究也被称为“观察性研究”(observationalstudies)(Rosenbaum,2002)。

在实验性研究中,选择性误差可以通过随机化(randomization)的方法来克服,但在观察性研究中,类似的随机化是不可能的。

因此,社会学家们基于调查资料去探究任何两个变量关系的时候都不可避免地会受到其他混淆变量的影响。

例如,布兰德和谢宇在2010年的一篇论文中列举了在研究大学教育和收入关系时所存在的选择性误差(Brand&Xie,2010)。

一方面,很多人之所以能够上好大学就在于其个人能力较其他人高,而这些人在未来的工作中也很可能表现得更好从而收入更高。

如果我们的研究样本大部分都是高智商群体,那么就会“显得”大学教育带来高收入,但实际上,大学教育对收入的影响是被个人能力这个变量给“膨胀起来”(inflated)的。

另一方面,很多人上大学概率低是由于他们家庭贫困难以负担教育费用。

对这些人,只要他们完成了大学教育,即使毕业后的收入只是达到平均水平,也已经比之前有很大飞跃。

在这种情况下如果我们的样本偏重于家境贫寒的人,我们就会发现大学教育再一次“显得”对收入提升有很大促进作用,而此时的混淆变量就是家庭经济背景。

对于这种选择性误差,我们可以通过赫克曼误差修正模型(selectioncorrectionmodel)来进行控制,但这个模型实施起来较为复杂。

相比而言,倾向值匹配为我们提供了一种更为直观简便的处理选择性误差的方法。

在下一节,我将通过一个实例来展示如何进行倾向值匹配。

倾向值匹配的实施过程:

一个实例

在这一部分,笔者将利用倾向值匹配的方法分析中国综合社会调查2005年城市问卷(CGSS2005)的相关变量,并由此来估计中国城市居民大学教育的收入回报。

其中因变量是收入水平(2004年全年总收入,包括工资、各种奖金、补贴、分红、股息、保险、退休金、经营性纯收入、银行利息、馈赠等所有收入),这里将其取自然对数。

我们关心的自变量是被访者教育水平(1=大学本科教育及以上;0=大学本科教育以下)。

我们需要控制的混淆变量包括:

性别(1=女性;0=男性)、年龄、政治身份(1=党员;0=非党员)、父亲教育水平(1=高中教育及以上;0=高中教育以下)、户口类型(1=城市户口;0=非城市户口)、被访者的单位性质及父亲的单位性质(1=党政机关;2=国有企业;3=国有事业;4=集体企事业;5=其他)。

此处选取这些变量是因为已有研究表明这些变量会混淆教育水平和收入之间的关系

一般我们会把这些混淆变量作为控制变量纳入到回归模型中,但这样做有一些潜在风险。

首先,如果将这些混淆变量作为自变量放进回归模型,我们就潜在假定了这些混淆变量对收入的效果与大学教育对收入的效果之间存在一种线性关系。

然而这种线性假定缺乏理论和实践依据(Morgan,2001)。

也就是说,我们不能简单认为性别对收入的影响与教育对收入的影响是累加的(additive)。

其次,大学教育的回归系数代表的是一种“平均”效果。

这个系数所回答的问题是:

在人口中任意选取一个人,如果他接受的是大学教育,他的收入会是什么水平。

然而,在探索因果关系时我们所关心的问题则是:

(1)一个任意选取的大学生如果一开始没上大学的话会是什么收入水平;

(2)一个任意选取的非大学生如果上大学的话会是什么收入水平。

(1)和

(2)是两个不同的问题,而回归模型则没有区分它们,只是取了它们的平均水平,这样做无疑会带来误差。

最后,由于混淆变量与我们关心的自变量之间存在相关性,简单地将混淆变量纳入多元回归模型有可能产生共线性问题。

倾向值匹配有效地控制了这些混淆变量,同时还通过一种半非参数性(seminon-parametric)方法避免了上面提到的三个风险。

①具体而言,运用倾向值匹配方法有以下几步。

步骤一:

预测倾向值。

这一步是利用已知的混淆变量使用Logistic或Probit模型来预测个体进入大学读书的概率。

基于上面变量,得到 的结果见表1。

通过表1我们可以发现,这些混淆变量加在一起对是否进入大学 学习有比较强的解释力,这一点可以从虚拟R2(PseudoR2)的数值( 超 过17%) 看出来。

对社会学研究而言,这个虚拟R2值并不低,由此可 以看出该模型中的混淆变量能够比较显著地预测个体能否进入大学读书。

步骤二:

基于倾向值进行匹配。

有了上面的Probit模型,我们就能 够预测每个研究个体的倾向值。

需要指出的是,虽然每个个体都有倾 向值得分,但有些人的倾向值太高或太低,因此无法找到相匹配的个体。

这些倾向值取值非常“极端”的人因为没有与之匹配的个体存在往往无法为我们提供有用的信息,所以在随后的分析中也就没有被考虑进去,这就使得最后我们在分析高等教育的收入回报时所采用的样本量可能要比一开始的样本量小。

在这个最后使用的“匹配样本”中,我们能够确保受过高等教育的个体和没有受过高等教育的个体匹配起来。

“匹配样本”中倾向值的取值范围被称为“共同区间”(commonsupport)。

本研究中共同区间内的样本量为3164(其中上过大学的为229人)。

在这个共同区间内,我们有不同的匹配方法将受过大学教育的229人和没受过大学教育的2935人配对。

对某个上过大学的个体A,比较常用的方法包括邻近匹配(找与A的倾向值得分最接近的未上大学的个体B匹配),半径匹配(以个体A的倾向值为中心,以某个数值为半径,在这个范围内的所有没上过大学的个体与A匹配)以及核心匹配。

步骤三:

基于匹配样本进行因果系数估计。

在这个匹配好的样本中,我们只需比较那些上过大学和没上大学的个体的平均收入差值就可以估计出大学教育本身对收入的影响。

由于配对样本的倾向值近似,配对个体在混淆变量上的取值极为近似,这样也就控制了混淆变量的影响。

换句话说,我们得到的组间(上大学和没上大学)差异就只能归因于大学教育的有无。

我们最后的结果如表2所示。

通过表2可以发现,不同匹配方法下我们得到的因果关系系数不完全相等,这是因为受过大学教育的个体在不同的匹配方式下可能和不同的未受大学教育的个体进行了匹配。

然而这些不同的匹配方法得出的结论基本一致(系数在0.73到0.77之间)。

这些系数就是大学教育的收入回报。

其可以解释为与没有受过大学教育的人相比,大学教育带来log(年收入)的变化。

需要说明的是,在社会学定量研究中,在完成了匹配以后,通常会比较每个混淆变量在大学组与非大学组之间是否还存在显著差异。

理想情况是大学组与非大学组的混淆变量均值没有显著差异,这时我们可以说这样的配对样本是“平衡”(balanced)的。

限于篇幅,这里未将均值比较结果展示出来,但我们上面的分析已通过了平衡性检验。

此外,倾向值匹配通常配合敏感性分析(sensitivityanalysis)来检验我们在预测倾向值时是否忽略了某些关键的混淆变量。

在敏感性分析阶段,我们假设存在一个或多个我们没有能够控制的混淆变量,如果这些假设的未控制变量对收入的影响的大范围变动都无法改变我们的结论,我们的结论就站得住脚。

上面的研究就通过了相关的检验。

倾向值匹配与因果推论

倾向值匹配后的结果不仅仅指出了变量之间有联系,还进一步确立了二者之间的因果性。

这种方法论上的优势可以从科技哲学和统计学两个方面予以阐释。

1科技哲学角度的阐释 

倾向值匹配对因果性结论的支持首先依据的是科技哲学领域内对因果关系的理论探讨。

当我们谈及因果性的时候,我们往往会回归到密尔对求同法(methodofagreement)及求异法(methodofdifferences)的讨论(彭玉生,2011;Mill,2002/1984;Sobel,1995,1996)。

求同法是指在一个群体中所有人都在两个变量上取值相同(例如所有人都上了大学,同时所有人都是高智商)而在其他变量上取值不同(他们不全是女性,不全是农村居民,等等),那么这两个变量之间(大学教育和智力水平)就具有因果关系。

求异法是指两个个体在因变量上的取值不同,而在某个自变量之外的其他自变量上的取值相同,则那个取值不同的自变量和因变量之间存在因果关系。

正如彭玉生所论述的那样,密尔的这两种探索因果关系的方法对后来的统计实验设计有着巨大影响(彭玉生,2011)。

无论是求同法还是求异法,二者都要求对关键自变量之外的其他自变量进行考察。

只有其他自变量满足特定的条件时(求同法要求其他自变量的取值都不一样,而求异法要求其他自变量的取值都一样)我们才能够确定某种因果关系。

这实际上是引入了“控制”的思想,即只有“控制”了其他变量,我们才能够真正确定我们关心的两个变量之间存在因果关系。

从“控制”的角度出发,倾向值匹配十分巧妙地完成了对多个混淆 变量的控制。

我们可以从一个混淆变量的情况谈起:

 假定只有个人智 力水平混淆了大学教育和收入之间的关系。

一个比较直观的控制个人 智力的办法是将个人智力这一变量细分(sub-classification) 成不同层次 以保证每一个层次中的人的个人智力水平近似。

然后我们在各个层次 内部观察大学教育和收入的关系,最后将这些关系综合起来(Rubin,1997) 。

如果存在两个混淆变量( 例如家庭经济背景好坏和个人智力 高低) ,我们可以将这两个变量交互分成2x2个小组,组内个体在这两 个变量上的取值都是一样的( 家庭背景好且智力高、家庭背景好且智 力低、家庭背景不好且智力高,以及家庭背景不好且智力低) ,在每组 内部观察大学教育和收入的关系然后综合起来。

至此,通过细分的方 法,我们完成了“控制”混淆变量的工作。

但随着混淆变量越来越多, 这种细分法就变得十分不方便了。

例如,如果我们要控制5个混淆变 量,每个变量有5个取值水平,我们就需要划分55=3125个小组。

很 快我们的数据样本量就不够保证每一组都有个体。

倾向值匹配的办法 巧妙地解决了这个多混淆变量下的“多维” (multipledimensional) 问 题:

它不再关注每个需要控制的混淆变量的具体取值,而是转而关注将 这些变量纳入Logistic回归方程后预测出来的倾向值取值。

只要保证 倾向值匹配,这些所有需要控制的混淆变量就都考虑到了(Rosenbaum&Rubin,1983) 。

这样做实际上是将对多个混淆变量的控制转为对倾 向值的控制从而达到“降维” (dimensionreduction) 的目的。

换句话说, 无论有多少需要控制的混淆变量,我们都能够通过倾向值匹配的方法 将它们控制,从而帮助我们得出因果性结论。

因此,从“控制”的角度 出发,倾向值匹配法很好地解决了多混淆变量时的控制问题,从而支持 了因果推论。

2统计学角度的阐释 

倾向值匹配的因果推论功能也能通过统计学视角进行阐释。

这里我们需要引入反事实框架(counterfactualframework) 这一统计学理论。

 反事实(counterfacts) 是指相反情境下的某种状态。

例如,一群病人在 一个实验中被分到实验组接受新药物治疗。

这些人症状的减轻或加重 是我们能够观察到的“事实”。

而“反事实”则是指“假设”这同一群病 人当时不是被分到实验组而是对照组,即没有接受新药物治疗,那么他 们的症状会是什么样子。

自变量( 新药) 对于症状的因果性效果在统 计学意义上就是指这“同一群人”在实验组时的症状和在对照组时的 症状之间的差异。

换句话说,统计学上的因果关系是可观察到的“事 实”与其“反事实”之间的差异。

从反事实的框架出发,因果性的关系 可以表示为:

 

在这个公式里, Τ 是指因果关系; π 是指所有调查对象中在实验组 中的比例,而1- π 也就表示了所有调查对象中在对照组的比例( 例如1/3是大学生,那么 π =1/3,而没上大学的人的比例就是1- π =2/3);w是一个二分变量,其中1代表个体在实验组而0 代表个体在对照 组;Y1和Y0 分别指代实验组和对照组的成员在因变量上的取值。

E则是取平均值的意思。

在上述公式中,E(Y1|w=1) 或E(Y0|w=0) 是可观测到的事实,而E(Y1|w=0) 和E(Y0|w=1) 则是反事实。

 ① 因 果关系T就表示为实验组中的个体其“事实”与“反事实”之间的差 异———即E(Y1|w=1) -E(Y0|w=1) ———与对照组中的个体其“事实”与“反事实”之间的差异———即E(Y1|w=0) -E(Y0|w=0) ———的 加权平均值( 权重分别为 π 和1- π) 。

但问题在于,我们永远也不可能观测到反事实是什么,因为在某项 特定的研究中,某一群人只可能在实验组或对照组,而不能同时在两组 中出现。

这被称为“因果推论的基本问题” (Holland,1986) 。

为了做出因果推论,我们需要用可观测到的E(Y1|w=1) 和E(Y0|w=0) 来简 化上面的因果推论公式。

具体而言,我们希望能够满足以下条件,这在 统计学上称为“非混淆假设” (unconfoundednessassumption):

不难看出,如果满足非混淆假设,反事实框架下的因果推论公式就 简化为:

 

如果简化因果推论公式右边的两项均能观测到,我们就能做出因 果性结论,因此,从反事实框架出发,能否做出因果推论主要取决于非 混淆假设是否满足。

 ① 随机化是统计学中常用的办法,由于实验个体 是通过随机方式分配到实验组和对照组中的,w本身就和最后的实验 结果Y1或Y0 没有关系了。

 ② 换句话说,无论w=0 还是w=1,E(Y1) 或E(Y0) 的值都是固定的,进而E(Y1|w=0)=E(Y1|w=1) 且E(Y0|w=0)=E(Y0|w=1) 。

但是,对基于调查资料的社会学研究来讲,我 们做不到随机化。

为了满足非混淆假设,我们能做的是尽可能控制混 淆变量,并保证这些变量一旦被控制起来,w就能够近似地和Y1或Y0 保持独立,换句话说,我们希望做到:

 

上式表明,只要能够找到并控制混淆变量X,我们就能够近似地做 到w独立于Y。

在倾向值匹配中,所有的这些X通过Logistic回归总 结成为一个特定的倾向值P,而非混淆假设就是通过控制倾向值P来 满足的。

即:

至此,通过控制倾向值,我们可以“近似地”满足统计学反事实框架下的非混淆假设从而做出因果推论。

之所以说“近似”,是因为控制倾向值的效果毕竟不是真正的随机化。

很多时候我们很难知道是否已经控制了需要控制的“所有”混淆变量。

正因为如此,在完成倾向值匹配以后我们通常需要进行敏感性分析。

在这个意义上说,倾向值匹配只是努力地满足反事实框架下的因果推论条件,但即使如此,我们也已经从统计学意义上理解了倾向值匹配为什么能够帮助我们得出因果性结论。

倾向值匹配与其他社会科学方法的比较

以上分析从科技哲学及统计学的角度阐释了为什么通过倾向值匹配可以得到因果性结论。

然而,因果性分析的方法并不局限于倾向值匹配,在教育学及计量经济学领域中有很多其他的方法可以帮助我们建构因果关系。

在以下讨论中,我将把倾向值匹配与回归中断设计和工具变量进行比较以展示倾向值匹配的优势。

1倾向值匹配和回归中断设计

在教育学中应用比较广泛的因果推论方法是“回归中断设计”(regressiondiscontinuitydesign)。

该方法最先由两位美国学者在1960(Thistlethwaite&Campbell,1960)提出。

在他们的研究中,两位学者关心的是学习上的荣誉奖励(原因)是否能够提升学生未来的学术成就(结果)。

这里的荣誉奖励是根据考试成绩而定的:

当考试成绩x超过一定分数c,则给予奖励(D=1),否则(x<c时)则没有奖励(D=0)。

通过这种操作,我们就在我们所关心的自变量那里建立了一种“中断”(c之上和之下)。

随后如果学生的学术成就也发生了类似的中断(例如考试成绩在c以下学生的学术成就低于考试成绩在c以上的学生的学术成就),则可以认为奖励和学术成就之间有因果关系。

图1用图示的方式表达了这种关系。

在图1中,x在c处的中断对应于因变量Y的中断,这种中断τ代表了x对于Y的效果。

从反事实框架来看,回归中断设计满足了非混淆假设。

在上面的荣誉奖励例子中,一个人得到荣誉奖励可以理解为一个人进入了实验组,而这“

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 水产渔业

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1