PSM理论与R软件应用.docx

资源描述

PSM理论与R软件应用.docx

《PSM理论与R软件应用.docx》由会员分享，可在线阅读，更多相关《PSM理论与R软件应用.docx（51页珍藏版）》请在冰豆网上搜索。

PSM理论与R软件应用.docx

PSM理论与R软件应用

上篇：

倾向匹配法基本理论2

一、因果推论的基本难题2

（一）基本难题2

（二）平均处理效用3

二、处理变量选择3

（一）处理变量的类型3

（二）处理变量的可操作性3

（三）财务与会计研究应用中处理变量的选取3

三、因果推论的相关假定4

（一）单元同质性假定4

（二）可忽略的处理分配假定4

（三）控制混淆共变量5

（四）稳定单元处理值假定5

（五）共变量分布平衡与重合假定6

四、使用倾向值匹配法估计因果效用7

（一）倾向值的基本要义7

（二）倾向值匹配法的步骤8

（三）倾向值8

下篇：

倾向值匹配法R软件应用12

一、MatchIt12

二、Matching23

上篇：

倾向匹配法基本理论

一、因果推论的基本难题

（一）基本难题

一个二元处理变量，有两个因果态，会产生两个实际结果，两个反事实结果。

无论结果是实际观察到的，或是无法观察到的，对应到两个因果态，两种结果以随机变量Y表示为

和

，1通常代表接触到处理，0代表未接触到处理。

用Z来表示这个二元变量或处理变量，则两个因果态的数学表达式为：

ifZ=11.1

ifZ=01.2

某个单元实际被观测到的结果，通常以小写字母表示，

和

。

而这个二元处理对于该受测单元的个体处理效用则为：

1.3

处理效用都是比较实验组和对照组间的线性差。

表1因果推论的基本难题

实验组Z=1

实际结果Y

反事实结果

对照组Z=0

反事实结果

实际结果Y

1.1和1.2可以表示：

1.4

对照组可以观测到的，是实验组无法观测到的反事实结果；实验组可以观测到的，是对照组无法观测到的反事实结果。

对任何一个受测单元来说，不可能获得它的个体处理效用，因为，它或是在实验组被观测到

，或是在对照组被观测到

，由于无法同时得到

和

，当然也不可能获得个体处理效用

。

这就是因果推论的基本难题。

从1.4可以得到，当接触处理时Z=1，

=0，

的信息便缺失了；当没有接触处理时Z=0，

=0，

的信息便缺失了。

（二）平均处理效用

由于无法获得每一个受测单元的个体处理效用，即处理效用是无法在个体层面上估计，只能从集体层面上估计平均处理效用（ATE）：

1.5

二、处理变量选择

（一）处理变量的类型

受测单元接受一个二元的处理实验，产生两种状态：

接触到处理的状态和未接触到处理的状态，前者属于实验组，后者属于对照组，比较受测单元在两种状态下的差别，所得到的就是处理效用。

如果处理不是二元的，而是多元的（例如受教育程度：

小学、中学、大学），可以用多元逻辑处理；如果是连续性的处理变量，则是广义的倾向值匹配。

连续性的处理变量应用更加广泛。

（二）处理变量的可操作性

因果推论中，并非任何一个变量都可以置于回归方程的右侧，成为处理变量；处理变量必须能够在受测单元上实现不同程度的实验。

如探索身高与收入的因果关系是没有意义的，因为一个人身高是固定的。

但如果这个人通过穿增高鞋，那么穿增高鞋可以看成一个处理变量，它改变了身高。

性别也不适合作为处理变量。

单亲母亲也不适合作为处理变量。

另外，人为把一个变量按照均值（或中位数）分类，大于均值（或中位数）为1，否则为0，从而构建一个虚拟二元变量。

在分配受测单元于处理组和对照组时，强调“随机”分配，即接受处理的受测单元不是因为其他因素而选择处理的。

因此，人为构造一个虚拟二元变量作为处理变量也是不可取的，但可以把这个变量作为连续性的处理变量。

（三）财务与会计研究应用中处理变量的选取

附表1中对国内使用PSM方法中处理变量选取进行了一个归纳。

国内在财务与会计研究中，从2010年开始出现PSM方法的应用，一直到2017年，该方法的应用并不多。

其中，处理变量涉及股权激励、发行债券、公司违规、交叉上市、银行授信、政府补贴、税收激励、审计意见、事务所选择、媒体报道、研发投入等二元变量，还涉及一些连续性处理变量，如债务集中度、研发强度等。

三、因果推论的相关假定

（一）单元同质性假定

单元同质性假定就是说，各个受测单元基本上是一样的，是同质的。

不能或避免比较类似苹果和橘子的对象，尽可能比较同一种苹果，最好是使用同一个基因复制出来的苹果。

在实验中，复制相同的个体，如在同一个环境等因素下，培养类似的小白鼠，然后分相同的两组，一组接触处理一组不接触处理。

培养200只基因完全相同的小白鼠，100只接受紫外线照射，另外100只不接受。

6个月后，观察两批小白鼠皮肤病变的数量，假设我们观测到实验组中有20只老鼠皮肤癌变，病变率为20%，而对照组只有5只病变，病变率为5%，所以实验处理的效用就是20%-5%=15%。

平均来说，过度照射紫外线的小白鼠，相比没有照射紫外线的小白鼠，皮肤癌变的概率增加了15%。

单元同质性假定，我们可以这样认为，接触组的个体和非接触组的个体尽量相同。

所以在匹配中，一些研究是在同年、同行业、同地区或者同规模等几种匹配规则，以一种匹配规则进行匹配；也有的以几种规则一起限制进行匹配。

（二）可忽略的处理分配假定

在实验室里，处理分配可以做到随机化，即接触和非接触处理变量的个体不是人为分配的。

但是在社会科学等方面不可能做到处理分配的随机化。

在分配受测单元于处理组与对照组时，强调是“随机”分配。

随机分配处理是为确保接触处理的受测单元不是因为其他因素而选择接触处理。

比如参加数学补习的学生，如果一些成绩好的学生对自己的成绩要求更高，那么参加补习班的这些成绩好的学生，也就是实验组的学生，他们的数学平均成绩高于对照组就不足为奇了。

成绩高可能不是来自于补习班的教学效果显著，而是本来这些学生成绩就好。

所以，若果能够“随机”分配学生参与补习班，则可以排除这些可能造成实验组学生和对照组学生基本差异的因素。

实验结果必须与处理分配是独立的，即，

1.6

分配处理Z必须“联合”独立于

：

在一个设计合理的随机分配处理的实验中，分配机制并不能让我们预测实验效果的大小。

分配处理Z“联合”独立于

时，处理分配是随机化的，因此处理分配是可忽略的，所以1.6称为严格可忽略的处理分配假定。

处理变量Z“联合”独立于

，但不表示Z与Y是独立的。

由于社会科学的研究多属于观测性研究，与实验研究的最大差别在于，研究者无法控制处理是如何分配到各个受测单元的，研究者所进行的观测性研究，往往是发生在处理分配后，结果已经发生，研究者才观测到受测单元的行为以及反应，只有通过合理的假定以及建模来了解处理的分配机制，借此从中分离处理与因果态的关系，从而达到独立的条件。

鉴于观测性研究无法随机分配处理，研究者使用问卷调查模拟实验室随机分配处理的机制，确保处理效用大小与处理分配无关。

严格可忽略的处理分配假定可以减弱到弱可忽略的处理分配假定，即

、

，分配处理Z分别与

独立，

，

1.7

满足1.7，则有

1.8

1.8表明处理分配等概率的。

（三）控制混淆共变量

我们可以模仿实验的研究，但是无法复制相同的受测者与受测环境。

比如，参加补习班的硬件条件比较好，硬件条件既影响处理“参加补习班”，又影响补习成绩。

因此，在因果推论的研究中，如果无法控制影响处理分配和实验结果的混淆共变量，则分配处理Z必须“联合”独立于

就不成立，所以我们在研究中要尽量控制可能影响处理分配和实验结果的共变量X，让联合独立性成立，即：

1.9

假设在控制可观察到X的条件下，分配处理的机制是严格可忽略的。

这个假定放宽了等概率分配处理的条件，处理分配不再要求是等概率的，只要满足在控制共变量的条件下，处理分配是等概率的即可。

式1.9改变为

1.10

因此，我们需要知道

和

，在接触处理时，共变量对受测单元的影响；在非接触处理时，共变量对受测单元的影响。

估计这两部分可以使用倾向得分匹配方法。

（四）稳定单元处理值假定

稳定单元处理值假定：

一是指处理对于所有受测单元的效果是一致的，是稳定的。

比如，如果参加补习班可以使得成绩提高10%，那么在其他变量不变的情况，我们可以推测，对于其他学生参加补习班也应该提高成绩，如果成绩反而下降了，这表示参加补习班这个处理，其效用可为正，也可以为负，则处理值是不稳定的。

二是指受测单元彼此不受对方干扰；未接触到处理的受测单元，不会因为另一个受测单元接触到处理而受影响；所以同群效应和溢出效应都是违反稳定单元处理值的假设。

比如，参加补习班的学生进入没有课后补习的班上，参加补习班的学生由于补习使得他们的能力提高，能够积极准确地回答老师的问题，但可能造成老师误判自己的教学效果，本来尚未解释清楚的概念，可能不再解释了。

因此，未参加补习班的学生因此受到了影响，于是他们成绩的低落不是因为没有参加补习，而是老师没有尽到授业解惑的责任。

对于这点问题，可能的解决方式是以班级为单元，随机决定哪个班级的学生参与补习，而不是决定哪些学生参加补习。

比如：

选择“股权激励”处理，一个公司选择这些处理可能是受到其他公司选择的影响，所以企业绩效的增加，我们也无法得出“股权激励”提高了企业绩效的结论。

原因之一是“股权激励”并非一项随机选择，而是参考其他企业的行为，结合本企业条件所作出的决定；选择又受到其他企业的干扰，是在参考其他企业经验后，才推出本企业的股权激励模式，所以处理实施的方式可能是经过改良的。

（五）共变量分布平衡与重合假定

在控制适当共变量后，可以忽略处理变量分配与潜在结果的关系，但还有相应的假定：

共变量在实验组和对照组的分布必须是平衡的、重合的。

1、平衡

以股权激励为例，假设我们控制的共变量包括财务变量和公司治理变量:

企业规模、资产负债率、营业收入增长率、资本支出率、市场力量、总资产周转率、资产收益率、两职合一、企业实际控制人以及第一大股东持股比例，典型的实验组和对照组共变量分布不平衡的情况可能是这样的：

实施股权激励的大规模企业比小规模多，实施股权激励的资产负债率较高、国有企业较多，如此以来，两个组别无法对比，我们可以怀疑，除了实施股权激励造成的组间差异外，这些共变量可能也是造成这些差异的因素之一。

所以，检验假设1.9成立与否，检查共变量在组间的分布是否平衡是重要的方法之一。

在实践中，是通过比较这些共变量在组间的均值和标准差的差异来判断是否平衡。

2、重合

实验组和对照组分布必须重合，重合的区域氛围称为共同支持域。

图1模拟了参加补习班前后数学成绩的差异。

黑实点是实验组，灰实点是对照组。

黑实线和灰实线分别为实验组和对照组的回归线。

实验组有数学成绩特别高的学生，对照组有数学成绩特别低的学生，在图1的左图，从左图的左侧两条垂直线和右侧两条垂直线可以看出，对照组的低分学生不能与实验组匹配，而实验组的高分学生不能与对照组匹配，也就是说这两个区域不能重合。

而图1的右图，虽然回归线拟合的更好，但还是存在两个区域不重合。

不重合会造成估计处理效用的偏差。

解决不重合的方法之一就是删除这些不重合的区域，也就是只保留重合部分。

图1重合性分析

平衡和重合是两个完全不同的概念，平衡了共变量在组间的差异，并不代表各个共变量的分布就是重合的；重合也不代表平衡。

比如高管特征变量中，实验组和对照组中高管的受教育程度可能都分布在本科以下、本科、本科以上等三个层次，实验组和对照组在受教育程度上完全重合，但分布不平衡，即实验组受教育程度在三个层次的人数都比较少，而对照组则比较多。

实验组中高管的年龄可能只分布在45-55岁之间，而对照组中高管年龄可能分布在30-60岁之间，所以在年龄上缺乏重合，但实验组和对照组年龄分布的均值是平衡的。

四、使用倾向值匹配法估计因果效用

（一）倾向值的基本要义

从“控制”的角度出发，倾向值匹配十分巧妙地完成了对多个共变量的控制。

我们可以从一个共变量的情况谈起:

假定只有个人智力水平混淆了大学教育和收入之间的关系。

一个比较直观的控制个人智力的办法是将个人智力这一变量细分（sub-classification）成不同层次以保证每一个层次中的人的个人智力水平近似。

然后我们在各个层次内部观察大学教育和收入的关系，最后将这些关系综合起来（Rubin，1997）。

如果存在两个共变量（例如家庭经济背景好坏和个人智力高低），我们可以将这两个变量交互分成2x2个小组，组个体在这两个变量上的取值都是一样的（家庭背景好且智力高、家庭背景好且智力低、家庭背景不好且智力高，以及家庭背景不好且智力低），在每组内部观察大学教育和收入的关系然后综合起来。

至此，通过细分的方法，我们完成了“控制”共变量的工作。

但随着共变量越来越多，这种细分法就变得十分不方便了。

例如，如果我们要控制5个共变量，每个变量有5个取值水平，我们就需要划分5^5=3125个小组。

很快我们的数据样本量就不够保证每一组都有个体。

倾向值匹配的办法巧妙地解决了这个多共变量下的“多维”（multipledimensional）问题:

它不再关注每个需要控制的共变量的具体取值，而是转而关注将这些变量纳入Logistic回归方程后预测出来的倾向值取值，倾向值就是某一个样本接受到处理的概率。

只要保证倾向值匹配，这些所有需要控制的共变量就都考虑到了（Rosenbaum＆Rubin，1983）。

这样做实际上是将对多个共变量的控制转为对倾向值的控制从而达到“降维”（dimensionreduction）的目的。

换句话说，无论有多少需要控制的共变量，我们都能够通过倾向值匹配的方法将它们控制，从而帮助我们得出因果性结论。

因此，从“控制”的角度出发，倾向值匹配法很好地解决了多共变量时的控制问题，从而支持了因果推论。

（二）倾向值匹配法的步骤

分3个主要步骤：

估计倾向值、匹配、估计处理效应。

任何一项检验不能通过，则必须从头开始。

（三）倾向值

倾向值

是某一个样本接受到处理的概率，假定这个处理是个二元变量，则倾向值就是一个接受或不接受处理的指标变量。

1.11

当

包括不止一个共变量时，倾向值

可以降维，把多维的共变量简化成一维的概率值。

1、倾向值的性质

对于非随机的实验，或社会、经济科学研究中，我们必须借助平衡方法来平衡两组间的差距，比较平衡国的组间所得的处理效用。

倾向值能平衡实验组和对照组之间的差异。

一个实验组和一个对照组的样本，一旦拥有相同的倾向值，这个两个样本在可观察到的共变量

上的分布是一样的，两者在共变量

上的差异是平衡的。

同时，两个样本有相同的倾向值，不代表两个样本有相同的共变量

。

在控制倾向值的情况下，共变量是独立于处理分配的，

1.12

因此，对于相同倾向值的单元来说，实验组和对照组间结果变量的均值的差，是该倾向值上平均处理效用的无偏估计。

2、估计倾向值

处理变量不外乎是二元型、连续型、定序型等几类，求解1.11函数，都可以通过统计软件来实现。

参数回归来求解倾向值过程中，由于

和

关系的模型无法得知，所以往往被要求加入对参数设定的稳定性检验，说明使用不同的参数设定，对研究结果的影响不大。

非参数回归求解倾向值，摆脱了对参数假定的依赖。

如果Z是二元型变量，可以使用PROBIT或Logistic回归模型来计算。

如果Z是连续型变量，可以使用多元线性回归来计算。

如果Z是定序型变量，可以使用有序Logistic回归来计算。

如果Z是类别型变量，可以使用多项Logistic回归来计算。

3、匹配法

（1）精确匹配法

实验组和对照组，寻找相同的倾向值进行匹配。

问题：

很难找到相同的倾向值，最终可能导致样本量的丢弃。

（2）最近邻匹配法

实验组和对照组，寻找相似的倾向值进行匹配。

不可替代匹配：

造成匹配度不高的问题。

可替代匹配：

可能扩大处理效用的偏差。

修正：

卡尺匹配法，即限制了实验组和对照组倾向值的最大可容忍差距，超过这个差距，应选择放弃。

因此，陈述因果推论，应如实报告。

半径匹配法属于卡尺匹配法的一种，任何对照组样本与某一实验组样本的倾向值的绝对值差值小于设定的半径大小，那么这些对照组样本都会被选择来匹配实验组样本。

一般软件里设置为0.01

（3）区间匹配法

区间匹配法又称子分类匹配、分层匹配法。

首先使用分位数法将估计得到的倾向值分层或分类，建议最佳5分位点或6分位点。

在5个区间内进行5个独立的匹配，得到5个处理效用，最后在加权平均得到最终的处理效应。

（4）核匹配法

核匹配法是使用权重调整所有匹配到实验组样本的对照组样本，更合理地调整每个对照组样本与任一实验组样本之间的距离（倾向值）。

（5）马氏距离匹配法

首先使用共变量计算实验组样本与对照组样本的马氏距离；其次，从中挑出马氏距离最小的对照组样本进行匹配，直到实验组样本都有匹配的对照组样本。

问题：

共变量数量的增大，会加大马氏距离，增加寻找匹配的难度。

马氏距离是匹配共变量，倾向值匹配是匹配倾向值。

（6）贪婪匹配与最佳匹配法

为实验组寻找最相近的对照组样本进行匹配。

问题：

只关心单一样本最近距离的匹配样本，不关注所有匹配的总距离是否为最佳选择。

最佳匹配：

最小化所有匹配间距离的总和。

4、匹配后的检验

使用倾向值匹配法的主要功能是消除选择性偏差，为了得到更加可靠的处理效用，从而避免选择性偏差，需要对共变量分布进行平衡与重合检验，以及是否存在选择性偏差的敏感性分析。

（1）共变量分布不平衡分析

检验方法一：

共变量在实验组和对照组均值的差值是否显著：

T检验。

原假设：

两个均值相等，备择假设：

两个均值不相等。

检验结果是统计显著的，则拒绝原假设，接受备择假设，则两均值是有差异的，共变量的分布是不平衡的。

问题：

T检验只检验了均值的差异，无法检验分布的其他特征。

检验方法二：

Kolmogorov-Smirnov检验方法

使用不同的分布特征检验两个分布的差异。

原假设：

两个分布的累积密度函数相等；备择假设：

不相等。

检验结果是统计显著的，则拒绝原假设，接受备择假设，则两分布是有差异的，共变量的分布是不平衡的。

经验：

两种方法一起使用，更好地确认共变量的分布是平衡的。

（2）共变量分布不重合分析

方法：

用共变量分布的柱状图判断共变量分布的重合性，或者贝叶斯非参数回归模型。

经验：

丢弃不重合的部分

这两个必须进行检验。

（3）选择性偏差与敏感性分析

选择性偏差：

比如，处理变量是促进就业的政策，影响就业的共变量为性别、教育程度、学历专业，证书等。

拥有数个证书的就业者，可能会比其他人更为积极地参与提升就业机会的活动，进而选择加入受测（自我选择偏差）。

这属于显性的共变量造成的显性偏差，可以通过控制共变量解决。

如果存在隐藏的共变量，则就是隐藏性偏差。

分析结果在存在选择性偏差的合理范围内是否依然稳健有效，这就是所谓的敏感性分析。

敏感性分析即假定单元j和k拥有相同的共变量，它们接触处理发生比的比率（oddsratio）会介于

和

之间，其中

。

敏感性分析判断标准：

当

数值越大，则该研究的敏感性越低；当

数值越小，则该研究的敏感性越高。

一般来说，只要

，则该研究就可以声称已免除隐藏性偏差的影响。

敏感性分析，需要进行无效假设检验。

重点检验在逐步增加

后，处理效用

还是有效的。

原假设：

=0不存在处理效应；备择假设：

>0存在处理效用。

统计软件中Wilcoxon符号秩检验法、Hodges-Lehmann点估计和信用区间检验法，都可以进行敏感性分析。

任一项敏感性分析验证研究的因果推论不受潜在选择性偏差的影响，就是一项完整且可信赖的研究。

例子：

儿童血液含铅水平与他们父母职业的关系

由于只选择两个共变量：

儿童年龄和居住环境，可能存在隐藏性偏差。

敏感性分析结果如表2所示，

表2儿童血铅水平的敏感性分析结果

Sig+

Sig-

<0.0001

9.5

20.5

0.0018

<0.0001

10.25

19.5

4.5

27.5

0.0136

<0.0001

32.5

0.0388

<0.0001

6.5

-1

4.25

0.0468

<0.0001

-1.5

38.5

4.35

0.0502

<0.0001

25.5

-2

38.5

0.0740

<0.0001

26.5

-3

Sig+和Sig-分别是Wilcoxon符号秩检验显著性水平的上界和下界。

、

分别是Hodges-Lehmann点估计的上界和下界。

、

分别是Hodges-Lehmann95%信用区间的上界和下界。

=1表明匹配的单元接触处理发生比是相同的，表示该研究无隐藏性偏差。

Wilcoxon符号秩检验的上界和下界的显著性水平都小于0.0001（只要小于0.05即可），表示拒绝

=0不存在处理效应原假设，因此处理效用是有效的。

直到

>4.35时，Wilcoxon符号秩检验显著性水平的上界才大于0.05，才能接受原假设，处理效用是无效的，隐藏性偏差的影响，致使匹配的两个单元接触处理发生比的差异超过4.35倍时，才能改变原先对于处理效用的结论。

因此，该研究对于隐藏性偏差影响的敏感性是非常低的，研究结论是可靠的。

对于

、

分别是Hodges-Lehmann点估计的上界和下界。

、

分别是Hodges-Lehmann95%信用区间的上界和下界。

一直到检验

>4时，点估计的上界和下界分别是6.5和25,95%的信用区间的上界和下界[-1,37]包含0，表示这个点估计是统计不显著的，接受了原假设，因此，该研究对于隐藏性偏差影响的敏感性是非常低的，研究结论是可靠的。

（4）匹配后估计平均处理效用

平均处理效用ATE由实验组平均处理效用ATT和对照组平均处理效用ATC组成。

1.13

和

分别是实验组和对照组样本量。

1.13的平均处理效用也可以通过简单的回归方程获得，依照结果变量的类型，使用不同的回归方程来估计处理效用，如果结果变量Y是连续型变量，

1.14

如果匹配后的共变量是平衡和重合的，则式1.14与1.13的处理效应

在理论上是完全一致的。

（5）平均处理效用的标准误差

一般使用Bootstrap重复抽样的方式获得标准误差，一般建议5000次的重复抽样。

下篇：

倾向值匹配法R软件应用

下面几种常用的R程序包，包括MatchIt、Matching、optmatch和rbounds

一、MatchIt

可以实现的匹配方法有最近邻匹配、马氏距离匹配、卡尺匹配、精确匹配、子分类匹配、最佳匹配和完全匹配法，同时可以实现若干匹配后的检验，匹配后的处理效用需要Zelig软件包。

MatchIt软件包已经升级到3.0.1版本，包含以下7个程序，其中matchit是主程序。

get_matches

help.matchit

is.matchit

lalonde

match.data

matchit：

主程序

user.prompt.

1、matchit

matchit（formula,data,method="nearest",distance="logit",distance.options=list（）,discard="none",reestimate=FALSE,...）

2、程序讲解

（1）数据的读写（建议整理好后放在TXT里）

改变工作路径，把TXT文件放在工作路径里。

rt<-read.table（"exam.tx

展开阅读全文