实际中常遇到的是这种情形。
随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。
因此我们关心的不是有无多重共线性,而是多重共线性的程度。
2.多重共线性的经济解释
(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
(2)解释变量与其滞后变量同作解释变量。
3.多重共线性的后果
(1)当rxixj=1,X为降秩矩阵,则(X'X)-1不存在,
=(X'X)-1X'Y不可计算。
(2)若rxixj1,即使rxixj1,
仍具有无偏性。
E(
)=E[(X'X)-1X'Y]=E[(X'X)-1X'(X+u)]=+(X'X)-1X'E(u)
=.
(3)当rxixj1时,X'X接近降秩矩阵,即X'X0,Var(
)=2(X'X)-1变得很大。
所以
丧失有效性。
以二解释变量线性模型为例,当rxixj=0.8时,Var(
)为rxixj=0时的2.78倍。
当rxixj=0.95时,Var(
)为rxixj=0时的10.26倍。
4.多重共线性的检验
(1)初步观察。
当模型的拟合优度(R2)很高,F值很高,而每个回归参数估计值的方差Var(j)又非常大(即t值很低)时,说明解释变量间可能存在多重共线性。
(2)Klein判别法。
计算多重可决系数R2及解释变量间的简单相关系数rxixj。
若有某个
rxixj>R2,则xi,xj间的多重共线性是有害的。
(3)此外还有其他一些检验方法,如主成分分析法等,很复杂。
5.多重共线性的克服方法
5.1直接合并解释变量
当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。
如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。
甚至还可以与农业总产值合并,变为工农业总产值。
解释变量变成了一个,自然消除了多重共线性。
5.2利用已知信息合并解释变量
通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。
比如有二元回归模型
yt=0+1xt1+2xt2+ut(7.20)
x1与x2间存在多重共线性。
如果依据经济理论或对实际问题的深入调查研究,能给出回归系数1与2的某种关系,例如
2=1(7.21)
其中为常数。
把上式代入模型(7.20),得
yt=0+1xt1+1xt2+ut=0+1(xt1+xt2)+ut(7.22)
令
xt=xt1+xt2
得
yt=0+1xt+ut(7.23)
模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。
用普通最小二乘法估计模型(7.23),得到
,然后再利用(7.21)式求出
。
下面以道格拉斯(Douglass)生产函数为例,做进一步说明。
Yt=KLtCteut(7.24)
其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。
两侧取自然对数后,
LnYt=LnKt+LnLt+LnCt+ut(7.25)
因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使无法求出,的精确估计值。
假如已知所研究的对象属于规模报酬不变型,即得到一个条件
+=1
利用这一关系把模型(7.25)变为
LnYt=LnKt+LnLt+(1-)LnCt+ut
整理后,
Ln(
)=LnKt+Ln(
)+ut(7.26)
变成了Ln(Yt/Ct)对Ln(Lt/Ct)的一元线性回归模型,自然消除了多重共线性。
估计出后,再利用关系式+=1,估计。
5.3增加样本容量或重新抽取样本
这种方法主要适用于那些由测量误差而引起的多重共线性。
当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。
另外,增加样本容量也可以减弱多重共线性的程度。
5.4合并截面数据与时间序列数据
这种方法属于约束最小二乘法(RLS)。
其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。
下面通过一个例子具体介绍合并数据法。
设有某种商品的销售量模型如下,
LnYt=0+1LnPt+2LnIt+ut(7.29)
其中Yt表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。
在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型(7.29)的回归系数时,会遇到多重共线性问题。
首先利用截面数据估计收入弹性系数2。
因为在截面数据中,平均价格是一个常量,所以不存在对1的估计问题。
把用截面数据得到的收入弹性系数估计值
代入原模型(7.29)。
得
LnYt=0+1LnPt+
LnIt+ut
移项整理
LnYt-
LnIt=0+1LnPt+ut
变换后的因变量(LnYt-
LnIt)用Zt表示,则
Zt=0+1LnPt+ut(7.30)
这时已排除收入变量的影响。
模型已变换为一元线性回归模型。
利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出
。
这样便求到相对于模型(7.29)的估计式,
=
+
LnPt+
LnIt
其中
是用截面数据估计的,
是由时间序列数据估计的。
由于把估计过程分作两步,从而避免了多重共线性问题。
显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的
相同。
当这种假设不成立时,这种估计方法会带来估计误差。
5.5逐步回归法
(1)用被解释变量对每一个所考虑的解释变量做简单回归。
并给解释变量的重要性按可决系数大小排序。
(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。
这个过程会出现3种情形。
①若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。
②若新变量的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。
③若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。
舍弃该变量。
案例1:
关于中国电信业务总量的计量经济模型(file:
coline2)
经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。
用1991-1999年数据建立中国电信业务总量计量经济模型如下,
Lny=24.94+2.16x1–3.03x2+33.7x3+1.29x4-2.03x5
(0.7)(1.6)(-0.8)(1.0)(1.5)(-1.2)
R2=0.99,F=106.3,DW=3.4,T=9,(1991-1999),t0.05(3)=3.18,
R2=0.99,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。
表1变量y,x1,x2,x3,x4,x5的数据
年
电信业务总量
y
邮政业务总量
x1
中国人口数
x2
市镇人口比重
x3
人均GDP
x4
人均消费水平
x5
1991
1.5163
0.5275
11.5823
0.2637
1.879
0.896
1992
2.2657
0.6367
11.7171
0.2763
2.287
1.070
1993
3.8245
0.8026
11.8517
0.2814
2.939
1.331
1994
5.9230
0.9589
11.9850
0.2862
3.923
1.746
1995
8.7551
1.1334
12.1121
0.2904
4.854
2.236
1996
12.0875
1.3329
12.2389
0.2937
5.576
2.641
1997
12.6895
1.4434
12.3626
0.2992
6.053
2.834
1998
22.6494
1.6628
12.4810
0.3040
6.307
2.972
1999
31.3238
1.9844
12.5909
0.3089
6.534
3.143
资料来源:
《中国统计年鉴》2000
下面用Klein判别法进行分析。
首先给出解释变量间的简单相关系数矩阵。
因为其中有一个简单相关系数大于R2=0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。
Ln(y)
X1
X2
X3
X4
X5
Ln(y)
1.0000
x1
0.9833
1.0000
x2
0.9938
0.9895
1.0000
x3
0.9875
0.9700
0.9882
1.0000
x4
0.9820
0.9628
0.9872
0.9678
1.0000
x5
0.9815
0.9703
0.9888
0.9654
0.9986
1.0000
用逐步回归法筛选解释变量。
(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的重要程度,为解释变量排序。
Lny=-0.34+206x1
(-2.1)(14.