回归模型中多重共线性的情形及其处理.docx
《回归模型中多重共线性的情形及其处理.docx》由会员分享,可在线阅读,更多相关《回归模型中多重共线性的情形及其处理.docx(14页珍藏版)》请在冰豆网上搜索。
回归模型中多重共线性的情形及其处理
引言
多元回归分析是多变量分析方法中最重要、最基础的分析方法。
在应用时,其前提是假设各自变量间相互独立,即自变量间不存在直线相关关系,或称多元共线性。
如果这一前提不成立,即存在着共线性关系,可使估计系数方差加大,系数估计不稳定,给结果分析带来严重困难。
因此对多元共线性的识别与处理在多元线性回归分析中显得十分重要。
1•多重共线性的数学背景
假设有两个变量Xi和冷,二者高度线性相关,可以近似地表示为:
X1=3禺+2(1.1)
现若变量丫与Xi、X2有回归模型
Y=1+4Xi+3勺
我们可以采用因式分解法把上面模型中的4石分解成两部分的和,这样可以列出若干种分解方法,我们取其中两种,得到下列两种等价的形式:
丫=1+4Xi+3X2=1+Xi+3人+3X2(1.2)
丫=1+4X1+3X2=1+8X1-4X1+3X>(1.3)
将(1.1)式X1=3X>+2分别代入方程(1.2)中的3X1和方程(1.3)中的4人,可以得到以下两个方程:
丫=1+X1+3X1=1+X1+3(3X2+2)+3X>=7+X1+12X2(1.4)
丫=1+8人-4人+3为=1+8人-(3X2+2)+3为=7+8人-9%(1.5)
在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?
成负比例关系,即负相关。
如此看来,同一个方程丫=1+4片+3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。
实际上,根据X1=3为+2式中的X1与为的共线性,X1约相当于3X2,在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人,需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。
从上述分析看来,由于Xi与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。
2•对多重线性关系的初步估计与识别
如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。
1增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。
2实际经验中认为重要的自变量的回归系数检验不显著。
3回归系数的正负号与理论研究或经验相反。
4在相关矩阵中,自变量的相关系数较大。
5自变量回归系数可信区间范围较广等。
3•对多重共线性本质的认识
多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。
多重共线性普遍被认为是数据问题或者说是一种样本现象。
我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。
3.1多重共线性是由变量之间的性质引起的
这一认识沿袭了传统经济计量学对多重共线性的认识,而现经济计量学否定了这一认识。
我们认为这种否定还需斟酌。
首先,在完全共线情况下,例如研究消费C与总收入T、工资收入S和非劳动收入N之间的关系,设定模型为:
C=diN2S(3.1)
式中解释变量T=N十S恒成立。
这种共线性的发生与数据取样多少、数据观察有无误差均无关系,因为多重共线性完全是由变量间的性质引起的。
其次,在高度相关的情况下,比如研究税收额y与总产值Xi与增加值X2、税率X3之间的关系,设定模型为:
目二■■-iXi■12X2「3X3•;(3.2)
式中,两个重要的宏观经济总量指标,总产值Xi与增加值X2必定高度相关,因为总产值Xi=cvm,增加值X^Cim,而c=q•c?
(q为
固定资产折旧,C2为原材料转移价值),这时不管数据以什么形式取得,数据取样是大是小,都会出现解释变量Xi与X2高度相关。
因此,变量之间的性质是导致多重共线性的重要原因。
3.2多重共线性是数据问题引起的
这是指即使总体诸解释变量没有线性关系,但在具体样本中仍可能有线性关系。
以下分两种情况加以说明:
情况一,例如当研究只含有两个解释变量Xi与X2共线时,可将Xi对X2
2
回归,如样本可决系数R^x2很大,则认为Xi和X2可能存在严重的多重共线性。
如果样本可决系数RU=i,则认为Xi与X2可能存在完全多重共线性。
之所以说“可能”,因为R2和样本容量n有关,当样本容量很小时,R2容易接近于i。
如同众所周知的当n=2时,两点总能连成一条直线,即R2=i使原本并不存在线性关系的变量Xi与X2,由于样本数据问题产生了共线性。
因此,戈德伯格(Goldberger)构造了微数缺测性〔"的概念与多重共线性概念相对应。
按照戈德伯格所说的,准确的微数缺测性(与完全多重共线性相对应)是指样本大小n等于零的情形,这时任何种类的估计都是不可能的。
近似微数缺测性则如同近似完全多重共线性,指样本数n刚刚超过待
估计参数个数k+l的情形。
情况二,若建模所用的解释变量是时序变量,并且是高价单整时序变量,这种时序解释变量之间几乎肯定会出现谬回归,必然导致多重共线性。
多重共线性与样本数据有关的另一个佐证是进入20世纪80年代后期,人们开始关注单个或几个样本点对多重共线性的影响。
研究表明,存在两类这样的数据点或点群:
其一,导致或加剧多重共线性,其二,掩盖存在着的多重共线性。
这样的数据点被称为多重共线性的影响点。
这是在解释变量不变,样本容量n不变的情况下,讨论个别样本点对多重共线性的影响。
显然,剔除这些多重共线性的影响点,或者可减弱多重共线性的程度,或者可显现多重共线性的存在。
目前诊断多重共线性影响点的方法有两种:
Walker诊断技术和主成分
诊断技术s。
Walker诊断技术的基本思想是:
设x为设计矩阵,对设计矩阵x进行奇异值分解,分解的目的是把一个复杂矩阵正规化,即把一个矩阵特征值中为零和不为零的分解开,这就是奇异值分解法。
设XX的特征根为九」2入叫,定义名k=丄为第k个条件指标值,Xi表示设计矩阵X的第i行,k(i)表示设计矩阵不包含Xi计算的第k个条件指标值,若|呂k-%(i)|,对于k二2,3…,p都成立r为预先给定的值,r■0,则称Xi为多重共线性的影响点。
由于Walker诊断法要进行设计矩阵奇异分解,计算不够方便,因此本文提出了主成分诊断法。
3.3多重共线性是由不适当参数化引起的
Heedry建模法认为,多重共线性是由不适当的参数化引起的。
因此,经过再参数化,将模型进行变换可以消除多重共线性。
再参数化是通过数据变换实现的,即差分变换和微分变换。
以自回归分布滞后模型ADLM为
例:
y^0人必_「2人」;t(3.3)
由于(3.3)式中Xt与X-1为高度相关,°和1的估计可能不会准确。
因此,将(3.3)式有端减加oX-1得:
y^''/":
xrxt-<2人一1」(3.4)
式中二01。
差分变量Xt与水平变量X_1接近不相关。
(3.4)式两端减去yt-i得:
讥‘0订;Xt「1心」t(3.5)
其中,2一1。
对(3.5)式再进行微分变换,即对不同变量相同时间作减法运算得:
7八•0*:
人_「(-」(3.6)
式中=:
二°•<2-1。
(3.6)式变形为误差修正模型:
y='o-:
xr(%_1—dxt_j(3.7)
式中d=^.)^=-(01)/(2-1)。
经过上述差分变换和微分变
换,即再参数化,消除了多重共线性。
不仅如此,(3.7)式中的参数还能得到很好的经济学解释。
由此可见,不适当的参数化可以引起多重共线性。
4•对多重共线性的测定
在讨论这一问题之前,我们需明确这样下面两个问题:
(1)多重共线性是一个程度问题而不是存在与否的问题;
(2)由于多重共线性是在假定解释变量是非随机的条件下出现的问题,因而它是样本的特征,而不是总体的特征。
这样,我们不仅可以“检测多重共线性”,而且还可以测试任何给定样本的多重共线性程度。
但我们并没有多重共线性单一测度方法,因为对于非实验数据,我们无法确定其共线性的性质与程度。
我们所具有的是一些经验法则,即在具体应用中能够给我们提供一些有关多重共线性存在与否的线索。
比如:
(1)R2较高但t值显著的不多。
前已述及,这是多重共线性的经典特征。
如果R2较高,如超过了0.8,在大多数情况下F检验将会拒绝零假设。
但各自的t检验表明,没有或几乎只有部分斜率系数是统计显著不为零的。
(2)解释变量两两高度相关。
例如,如果多元回归方程包括6个解释
变量,计算这些变量两两之间的相关系数,如果有些相关系数很高,比如超过0.8,则可能存在较为严重的共线性。
问题是这一标准并不总是可靠的,因为解释变量两两相关系数可能较低,但却有可能存在共线性,因为t值中
很少是统计显著的。
(3)检验解释变量相互之间的样本相关系数。
假设我们有三个解释变
间的两两相关系数。
假设ri2=0.90,表明Xi与X2之间高度共线性,现在我们来看相关系数「12,3,这样一个系数我们定义为偏相关系数,它是在变量
X3为常数的情况下,Xi与X2之间的相关系数。
假定「12,3=0.43,就表明在变量X3保持不变的条件下,X1与X2之间的相关系数仅仅是0.43,但若不考虑X3的影响,两者之间的相关系数却是0.90。
这说明,根据偏相关系数,我们无法断定X1与X2之间具有很高的共线性。
上述讨论表明,在存在多个解释变量的情况下,不能仅仅依赖两两相关系数来判断多重共线性。
偏相关系数代替简单的两两相关系数并未提供一个检验多重共线性存在与否的确切依据,仅仅是检验多重共线性性质的另一个手段。
(4)从属或者辅助回归。
既然多重共线性是指一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,那么检验模型中哪个解释变量与其他解释变量高度共线性的方法就是作为每个解释变量对其他剩余解释变量的回归并计算相应的R2值。
其中的每一个回归都被称为从属或者辅助回归,从属于Y对所有变量的回归。
例如,考虑Y对X"X2、X3、X4、X5和X6这6个解释变量的回归。
如果回归结果表明存在多重共线性,比如说,R2值很高,但解释变量的系
数很少是统计显著的,其原因,就在于一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,找出这一组合具体方法是:
①作Xi对其
他剩余解释变量的回归,求出拟合优度Ri2;②作X2对其他剩余解释变量的回归,求出拟合优度系数R22;,,,重复上述步骤,直到作出所有的6个
辅助回归。
如何判断哪些解释变量是共线性的呢?
估计的Ri2值介于0和1之间。
如果某个解释变量不是其他变量的线性组合,则该回归方程的Ri2值不会显
著不为零。
根据方程的F值,我们知道应该如何去检验假设:
某个方程的拟合优度显著为零
假定我们想要检验假设:
Ri2=0,也就是Xi与其他5个解释变量不存在共线性。
根据F与R2定义,我们有:
(4.1)
匚R2/(k1)
尸—2
(1-R2)/(n-k)
其中n是观察值的个数,k是包括截距在内的解释变量的个数。
具体说明如下:
在这个例子中,假设有一个容量为50的随机样本,对每个解释变量作剩余变量的回归分析。
各辅助回归的R2值如下:
表4-1检验R2值的显著性
方程
R2值
F值
F值是否显著?
Xi对剩余变量的回归
0.90
79.20
是
X2对剩余变量的回归
0.18
1.93
否
X3对剩余变量的回归
0.36
4.95
是
X4对剩余变量的回归
0.86
54.06
是
X5对剩余变量的回归
0.09
0.87
否
X6对剩余变量的回归
0.24
2.87
是
如表所示,变量Xi、X3、X4、X5、X6看来与其他变量有共线性,尽管共线性的程度差别很大。
由此得出的结论是:
“看似”较低的R2,比如0.36,却可能是统计显著不为零。
可见,此例中存在较高的多重共线性。
辅助回归技术的一个缺陷是它的计算较为繁琐。
如果一个回归方程包含若干个解释变量,则我们不得不计算好几个辅助回归方程,因此,这种方法实用性不强。
但需要指出的是,现在已经有很多统计软件可以用来计算辅助回归方程。
(5)方差膨胀因素。
即使模型并未包括太多的解释变量,从各个辅助
(4.2)
(4.3)
(4.4)
的回归方程中得的R2值也未必可以用于诊断共线性。
以下面的二元回归方程为例
Y=bo+biXi+b2X2
可以证明参数估计量的方差可写为:
_2_2
var(bj)二一22-厂VIF
'Xji(1Ri)、xr
1
VIF=(1-Ri2)
R12是Xi和X2之间辅助回归方程的拟合优度。
VIF形象地称为方差膨胀因素,因为随着辅助方程拟合优度Ri2的增加,斜率系数的方差也增加。
特别地,如果辅助回归方程的拟合优度为1(即完全多重共线性),斜率系
数的方差和标准差没有任何意义。
当然,如果Ri2为零,那么就不存在共线
性,VIF的值为i。
我们也就不必担心由于方差(标准差)较大而带来的问题。
现在一个重要问题是,假设在辅助回归方程中,Ri2值很高(但小于i),表明存在较高程度的共线性。
但是从(i0)式可以清楚地看到,斜率系数的方差不仅仅取决于VIF,而且还取决于的误差项ui的方差匚2和解释变量Xj的方差ax2。
因此,以下的情形是很有可能性的:
Ri2值很高,比如说是0.96,但是二2较低或者'用较高,或者是两种情况同时出现,以至于斜率系数的方差较低,t值较高。
换句话说,较高的R2可能被一个较低的二2较低或者较
2
高的Xji值所抵消。
当然,高和低是相对而言的。
所有这些都表明,辅助回归方程中的R2可能只是多重共线性的一个表面指示器。
如前所述,它并不一定扩大估计量的标准差。
更正规的表述为,“辅助回归方程中较高的R2既不是较高斜率系数标准差的必要条件也不是充分条件。
多重共线性本身并不一定导致较高的斜率系数标准差。
从上面讨论的各种多重共线性的检验方法中,我们能得出结论:
检验多重共线性有多种不同的方法,却没有一种绝对方法。
毕竟,多重共线性是一个程度问题,它是一个与样本相关的现象。
有时,可以容易地检验出多重共线性,但更多的时候要运用各种手段来诊断这一问题的严重程度。
总之,没有一个简单的方法能用来解决这个问题。
5•诊断指标与方法
5.1容忍值(Tolerance,以下简记为TOL)
在多重回归分析中,设有p个自变量XXX2,…XP,容忍值定义为:
2
TOL=1-R(5.1)
其中为自变量与其他P-1个自变量间的复相关系数,反映了它们之间的线性相关程度。
R愈接近于1,线性相关性越强。
由式(5.1)可见TOL与R只有同样的意义,仅仅是在数值大小上与R恰相反。
因此,其取值也在0~1之间,TOL的值越接近于1,说明变量间的线性相关性越弱。
由多重共线性的定义可知,TOL很小的变量进入方程后,将导致回归方程的不稳定,偏回归系数的方差,标准误差均增加,影响参数估计的效果。
许多统计分析软件的多元回归程序在逐步引入变量的同时进行TOL检验。
此时,式
(5.1)中的Ri为正在进入方程的自变量与已进入方程的若干个自变量间
的复相关系数。
因此TOL值反映了它们之间的线性相关程度。
通常用户可
以预先指定一个TOC的值,否则将用原程序中指定的标准进行检验。
然而,对于任意一个给定的TOL值,有时既使是通过了容忍性检验的变量进入方程后仍可导致结果的不稳定,因此容忍性检验在某些情况下并不一定能达到预期的目的。
例如P个自变量中除X1外,其余P-1个变量间均无线性相关,设TOL=T=1-R2,t=T,X1与X2的相关系数为R,与X3的相关系数为tR,与Xp的相关系数为tp_2R,那么,X1与其余P-1个自变量的复相关系数的平方Q为:
Q=R2TR2Ti^R2
=R2*(1-f)/(1-T)(5.2)
=1-T
设T=0.01,i=5,那么Q=1-10"。
如果自变量以到X5到Xi的顺序进入方程,那么Xi的TOL为10岀,将在T。
二T的水平上通不过容忍性检验而不能进入方程。
容忍性检验起到了预期的作用。
但是如果自变量以从Xi到X5的
顺序进入方程,那么Xi就可能被引入方程。
因此容忍性检验不是保证所有所得模型具有稳定性的唯一可靠的方法。
5.2方差扩大因子(VarianceInflationFactor以下简记为VIF)
VIF是度量多重共线性程度的又一指标,它表明当自变量间存在共线关系时,用最小二乘法所估计的回归系数的方差线关系时所估计的回归系数的方差比自变量间无共线关系时所估计的回归系数的方差的增大倍数。
2-1
故Marquardt称其为方差扩大因子。
可以证明VIF=(i-Ri),即VIF=i/
TOL。
因此,在多重共线性诊断中,VIF与TOL有相同的作用。
VIF的值
愈大,说明变量间的复共线程度愈强。
如果自变量间彼此完全正交,则R=0,TOL=VIF=i。
因此VIF值的大小反映了自变量间复共线关系的强弱。
有学者建议,当VIF值大于5时,就认为自变量间有严重的共线关系存在。
5.3条件数和特征分析法
当自变量的观测值构成的设计矩阵x的列向量间存在某种共线关系时,则x'x少有一个特征根近似等于零,通常称x阵呈病态,此时参数估计结果将极不稳定。
x'x有多少个特征根接近于零,设计阵x就有多少个共线关系存在,并且这些共线关系的系数向量就是接近于零的那些特征根对应的特征向量。
特征分析法就是根据这个道理,利用x'x阵的特征值和特征向量判断多元共线关系。
由于x'x的特征值近似等于零是个很模糊的说法,故引入条件数这个概
念。
x'x的条件数定义为:
即最大特征值与其他各特征值之比的算术平方根。
如果-p接近于零,
则条件数k将很大。
在应用中,如果k>30,则认为存在某种共线关系。
6•用主分量方法消除共线性
消除多重共线性的方法有几种,如逐步回归法、岭回归法、主分量法等,相比而言,主分量法是值得推荐的方法,它既保留了所有变量的信息,计算又简单。
假设有多个变量Xi、X2、、Xm,主分量就是这些变量的线性组合
P、B、…、Ps,^m,R=aiiXi+42X2+…+aimXm,i=1,2,…,s,即将原来的变量进行线性变换,满足条件:
(1)ai1ai2「aim=1,即系数向量ai=(aii,ai2,,aim)'为单位向量,
即特征向量。
(2)aiiaji'ai2aj2**aimajm二0,即系数向量两两垂直,使主分量
之间互不相关。
(3)Varg)—Varg)-…Var(ps),即各主向量的方差递减。
主分量是从原始变量变换而得到的综合变量,是将共线性的信息最大程度地压缩到一个变量上,其计算比较复杂,但使用统计软件就非常方便,只要学会如何选择主分量即可。
主分量的方法也可以从几何上解释,实际上是经坐标旋转,将共线性程度最高的方向作为第一主分量的坐标方向,依次得到其它主分量方向,所有变量在第一主分量方向上的投影就是第一主分量得分,依次类推。
主分量的选择是根据原始变量相关矩阵的特征值大小及累计比率决定的,一般选择特征值大于1且累计比率大于80%特征
值所对应的主分量个数,我们可以通过特征值及其累计比率确定。
结束语
因为大多数经济变量在时间上有共同的变化趋势,所以在建立经济问题的回归模型时经常会遇到多重共线性的诊断和处理。
本文从共线性产生的背景谈起,介绍了多重共线性的几种诊断方法,以及如何消除共线性对回归方程的影响。
关于消除共线性的方法,有很多种方法,可以说至今如何消除多重共线性仍是研究的热点,仍有许多这方面的问题需要研究,而且已经使用的一些方法还没有哪一个占绝对优势的,从运用的效果还很难说明哪个最优。
在运用时,各人根据自己的知识水平和计算机软件的运用水平来选择合适的方法。
可以说,对于许多问题,各种方法运用的效果都大致相同。
致谢辞
在论文的写作过程中,得到了许多老师和单位领导的帮助,学院的老师们严谨治学的教学使我受益非浅,我非常感激我的导师刘树利老师,刘老师治学严谨、知识渊博、诲人不倦,在学术和为人上都为我作出了榜样他是我获得深思熟虑的意见和概念清晰的见解的来源,他不惜花费自己时间对本论文提出许多意见和建议,既激发了我的灵感,又给了我持久不断的鼓励。
最后我还非常感谢那些以一定方式影响本论文的论述思想的作者和同寝室的同学,为我查阅资料提供许多方便。
参考文献
[1]张尧庭,方开泰.多元统计分析引论[M].北京:
科学出版社,1982
[2]陈希儒,王松桂.近代回归分析[M].安徽教育出版社,1987,210-211
[3]孟庆和.多元回归分析中多重共线性的处理[J].中国卫生统计,1997,14
(1),49-50
[4]袁寿庄,赵彦云等.国民经济核算原理[M].北京:
中国人民大学出版社,1999
⑸李严洁•多元回归中的多重共线性及其存在的后果[J].中国卫生统计,1992,9
(1);24
[6]黄少军.服务业与经济增长[M].北京:
经济科学出版社,2000
[7]高惠璇,耿直,李贵斌等.SAS/STAT软件使用手册[M].北京:
中国统计出版社,1998
[8]张丕德.COX模型多因子共线性处理方法的进一步研究[J].中国卫生统
计,2000,8(4),207-230
[9]张保法.经济计量学[M].北京:
经济科学出版社,2000
[10]赵文奇•经济计量学建模方法论研究[M].成都:
西南财经大学出版社,1998
[11][为古扎拉蒂著,林少宫译•经济计量学[M].北京:
中国人民大学出版社,2000
[12][美]威廉H.格林著,王明舰等译.经济计量分析[M].北京:
中国社会科学出版社,1998
[13]陈昌柏.营利机构管理[M].北京:
团结出版社,2000
[14]蒋知俭主编.医学统计学[J].北京,人民卫生出版社,1997,263-264