计量教案6多重共线性.docx

上传人:b****8 文档编号:10452896 上传时间:2023-02-11 格式:DOCX 页数:20 大小:127.99KB
下载 相关 举报
计量教案6多重共线性.docx_第1页
第1页 / 共20页
计量教案6多重共线性.docx_第2页
第2页 / 共20页
计量教案6多重共线性.docx_第3页
第3页 / 共20页
计量教案6多重共线性.docx_第4页
第4页 / 共20页
计量教案6多重共线性.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

计量教案6多重共线性.docx

《计量教案6多重共线性.docx》由会员分享,可在线阅读,更多相关《计量教案6多重共线性.docx(20页珍藏版)》请在冰豆网上搜索。

计量教案6多重共线性.docx

计量教案6多重共线性

第六章多重共线性

在多元线性回归分析的经典假设中,假定模型所包含的解释变量之间不存在线性关系,即无多重共线性。

但是由于经济变量本身的固有性质,许多的变量之间总是会存在着一定的相关性。

例如,以企业截面数据为样本估计的生产函数,作为其解释变量的有诸如资本、劳动、能源……等等投入要素,这些投入要素都与企业的生产规模有关,显然,它们之间存在着明显的相关性。

再如,以家庭收入I和商品价格P为解释变量分析家庭生活状况的模型。

由于收入较高的家庭购买商品,一般会选择质地较好、价格较高的;而收入较低的家庭购买商品则会选择较便宜的。

这样两解释变量I与P之间存在着明显的相关性。

本章的目的与要求

当解释变量之间存在着线性关系,违背了解释变量之间不存在共线性的经典假定时,如何处理可能出现的一系列状况,就是本章所要讨论的问题。

通过本章学习,要求重点掌握的内容是:

明确多重共线性的概念及其表现形式;充分理解当线性回归模型存在多重共线性情形下,使用普通最小二乘估计模型参数将会引起的各种不良后果;熟练掌握检测多重共线性的各种方法以及在此情形下相应的处理与估计改进方法,从而能够运用这些知识处理经济计量分析实践中的相应问题。

本章内容(计划学时)

一、多重共线性的性质

1、多重共线性的概念

2、解释变量线性关系的表现形式

3、多重共线性的产生原因

4、多重共线性的性质

二、多重共线性的后果与检测

1、多重共线性的后果

2、多重共线性的检测方法

三、多重共线性的补救措施

学习重点

一、多重共线性的性质

二、多重共线性的后果与检测方法

三、多重共线性的补救措施

学习难点

一、多重共线性的性质

二、多重共线性的后果与检测方法

三、多重共线性的补救措施

第一节多重共线性的性质

一、多重共线性的概念

多重共线性就是指线性回归模型中若干解释变量或全部解释变量的样本观测值之间具有某种线性关系,也就是说,对于有k个解释变量的线性回归模型

Y=β0+β1X1+β2X2+…+βkXk+u(式6-1.1)

即模型中的各解释变量Xi的样本观测值之间存在一定的线性关系,我们就称模型存在多重共线性。

(一)完全多重共线性

如果各解释变量的样本观测值之间存在一个或多个如下的关系式:

c1X1j+c2X2j+…+ckXkj=0(j=1、2、…、n)(式6-1.2)

其中c1、c2、…、ck是不全为0的常数,则称这些解释变量的样本观测值之间存在多重共线性。

对于(式6-1.2),如果ci不为0,则可写成

(式6-1.3)

以上表明,某个或某些解释变量的样本观测值可写成其它解释变量的样本观测值的一个精确的线性组合。

或表示为

X1i=α2X2i+α3X3i+…+αkXki(i=1、2…n)(式6-1.4)

(二)高度多重共线性

如果各解释变量的样本观测值之间存在一个或多个如下的关系式:

X1i=α2X2i+α3X3i+…+αkXki+vi(i=1、2…n)(式6-1.5)

其中α1、α2、…、αk是不全为0的常数,vi是随机误差项,则称这些解释变量的样本观测值之间存在高度的多重共线性。

例6-1表6-1

X1

20

25

28

35

X2

120

150

168

210

X3

122

149

170

213

表中X2与X1的关系为X2=6X1,因此X1与X2之间存在完全多重共线性,且它们的相关系数为1。

而X3与X1之间没有完全多重共线性,但有高度的共线性关系,它们的关系为X3=6X1+v,且它们的相关系数为0.9980。

二、解释变量线性关系的表现情形

1、

=0,解释变量间毫无线性关系。

事实上这时已不需要做多元线性回归,每个参数βi都可以通过Y对Xi的一元线性回归来完成。

2、

=1,解释变量间完全共线性关系。

此时模型参数将无法确定,直观地看,当两个变量呈同一方式变化时,要区别每个解释变量对被解释变量的影响程度是非常困难的。

3、0<

<1,解释变量间存在着一定程度的线性关系。

实际上常遇到的就是这种情形,而且随着共线性程度的加强,会对参数估计值的准确性、稳定性带来许多影响,因此不完全的多重共线性事实上有严重问题。

需要强调的是,解释变量间不存在线性关系,并不意味着不存在非线性关系,当解释变量间存在非线性关系时,并不违反无多重共线性假定。

三、多重共线性可能产生的原因

多重共线性的实质是样本现象。

一般认为产生多重共线性主要有以下几个原因:

1、经济变量之间具有共同的变化趋势。

在时间序列资料中,由于许多的经济变量随时间往往存在共同的变化趋势,使得它们之间存在相关性。

例如,对于收入、消费、就业率等时间序列数据,在经济上升时期均呈现增长的趋势,而当经济收缩时,又都呈现下降趋势。

当这些变量都同时作为解释变量进入模型时,就会带来多重共线性问题。

对于截面数据的变量也往往存在共同的变化趋势。

例如,在做电力消费对收入与住房面积的回归时,总体中有这样的一种约束,即收入较高家庭的住房面积一般地说比收入较低家庭的住房面积大。

因此收入与住房面积同时作为解释变量,必然会带来多重共线性。

2、模型设定

模型设定的问题,可能在模型中引入了多项式或滞后变量:

由于模型设定的原因,导致模型中的解释变量间存在普遍的相关关系,这种例子很多。

例如,在截面样本例子中,人们通常把居民消费解释为居民收入与居民财产的函数,在观测到的被调查户数据中,居民的财产与其收入有着很强的正相关性,收入多的居民户往往拥有的财产多,而收入少的居民户往往拥有的财产少;再如,在时序数据例子中,如果回归模型引入了可支配收入的滞后变量后,由于当期可支配收入与前期可支配收入高度相关,高度多重共线性就不可避免。

面对这样的设计,模型中解释变量之间必然会呈现共线性。

3、样本数据自身的原因

计量经济活动中相关变量观测值的搜集只能在一个有限的时间、空间范围内进行,而无法像物理学那样进行重复试验,直至找到事物间的必然规律为止。

也就是说,抽样仅仅限于总体中解释变量取值的一个有限范围,如果解释变量之间事实上并不存在高度的线性相关关系,但是,抽取的样本数据则有可能表现为高度的线性相关。

例如,在一个收入、储蓄、气候等因素影响消费的回归模型中,收入与气候、储蓄与气候的关系本不是很密切,但是,如果所抽取的样本数据却偏偏是高度相关的,这时就出现多重共线性。

4、过度拟合的模型

这种情况一般是出现在模型中的解释变量个数大于观测值个数。

例如,在某医疗研究中,可能只有少数病人,却要在他们身上搜集大量的解释变量信息。

由于上述原因,实际应用中,解释变量之间总会存在一定程度的线性相关,因此,问题并不是是否存在多重共线性,而是多重共线性的程度到底有多严重。

四、多重共线性的性质

(一)参数估计为不定式

对于一个无截距项的二元线性回归模型:

Y=β0+β1X1+β2X2+u(式6-1.6)

若该模型存在多重共线性,即两解释变量存在相关关系,则存在不完全为0的常数ci,即

c1X1i+c2X2i=0

X2i=

X1i(式6-1.7)

令:

=a

X2i=aX1i(式6-1.8)

根据普通最小二乘法计算的二元线性回归模型参数估计值公式:

=

(式6-1.9)

=

(式6-1.10)

若解释变量X1与X2的样本观测值存在线性关系,即X2j=aX1j,不难看出上式参数估计值公式的分母将等于零,从而无法计算出估计量β1与β2的值。

实际上,在这种情况下,将(式6-1.8)代入(式5-1.6)可得:

Yt=(β1+aβ2)X1t+ui

这表明,我们只能估计出(β1+aβ2),而无法单独得到β1和β2的估计值。

(二)参数估计值的方差无限大

在经典假设之下,Var(ui)=σ2,因此由

的表达式(式6-1.9)以及(式6-1.10)可求出二者的方差分别为:

Var(

)=

(式6-1.11)

Var(

)=

(式6-1.12)

式6-1.11与式6-1.12的证明

Var(

)=

Var(

)=

式中

是X1与X2、X2与X1的相关系数,两者相等。

由(式6-1.11)与(式6-1.12)可知,如果X1与X2之间存在线性相关,且相关程度又高,r12或r21都接近1,其分母趋于0,这时

的方差将很大,将使回归模型的普通最小二乘估计完全失效。

例6-2:

分析我国居民家庭电力消耗量与居民可支配收入及居住面积的关系,以预测居民家庭对电力的需求量。

表6-2

年份

年人均家庭电力消耗量

年人均可支配收入指数

人均居住面积

千瓦小时(Y)

1978年=100(X1)

平方米(X2)

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

46.9

54.6

61.2

72.7

83.5

93.1

101.8

106.6

118.1

132.4

144.6

156.3

173.7

289.11

307.83

321.21

339.43

356.58

382.66

397.35

414.08

434.23

447.35

470.85

506.15

536.07

17.34

17.77

19.16

18.92

19.64

20.27

21.00

21.77

22.53

23.17

23.85

25.05

25.78

首先作人均收入对用电量的回归,结果如下:

Y=-104.3492+0.5193X1

Se4.19620.0103

t(-24.87)(50.37)

R2=0.9957,D.W=1.78,F=2537.452

可见,人均收入对用电量有很好的解释作用。

若以5%(t0.025,12=2.179)的显著水平进行检验,显然收入的影响是显著的。

再作居住面积对用电量的回归,结果如下:

Y=-208.9471+14.7034X2

Se10.97500.5126

t(-19.04)(28.68)

R2=0.9868,D.W=2.26,F=822.655

同样,住房面积对用电量也有很好的解释作用,且住房面积的影响也是显著的。

最后看两解释变量对用电量的回归,结果如下:

Y=-110.0326+0.4919X1+0.7842X2

Se22.67480.10793.0696

t(-4.8526)(4.5573)(0.2555)

R2=0.9957,D.W=1.80,F=1160.948

我们发现,在这个二元回归方程中,住房面积的系数已不再是显著的,而是不显著的(0.2555<2.179);而收入的系数虽然还是显著的,但显著水平已明显下降,其系数也从0.5193下降至0.4919。

再且,尽管住房面积的系数在二元回归方程中不显著,但从F检验值看,两解释变量联合对电力消费量还是有着显著的影响的。

第二节多重共线性的后果与检测

一、多重共线性的后果

(注意:

对存在多重共线性的回归模型进行OLS估计,其估计量仍然是线性无偏有效的)

1、OLS估计量的大方差与协方差以致难于作出精确的估计

大的方差和协方差可以从其公式看出:

(式6-2.1)

(式6-2.2)

(式6-2.3)

从(式6-2.1)、(式6-2.2)和(式6-2.3)显见,随着r12趋于1,即共线性的增强,两估计量的方差与协方差也增加,在达到极限r12=1时,方差与协方差为无穷大。

方差与协方差增大的速度可由方差膨胀因子(简记为VIF),定义为:

于是上述方差可表达为

(式6-2.4)

(式6-2.5)

r12的增大对方差和协方差的影响表6-3

r12值

VIF

Var(

Cov(

1

2

3

4

0.00

0.50

0.70

0.80

0.90

0.95

0.97

0.99

0.995

0.999

1.00

1.33

1.96

2.78

5.76

10.26

16.92

50.25

100.00

500.00

A

1.33×A

1.96×A

2.78×A

5.76×A

10.26×A

16.92×A

50.25×A

100.00×A

500.00×A

0.67×B

1.37×B

2.22×B

4.73×B

9.74×B

16.41×B

49.75×B

99.50×B

499.50×B

其中:

2、容易接受本是错误的原假设。

(1)由于多重共线性的存在,置信区间将要宽得多,以致接受原假设更为容易。

由于大的方差,总体参数的置信区间也将是大的。

表6-4

r12值

0.00

0.50

0.95

0.99

0.999

95%置信区间(

其中:

由此可见,由于大的标准差,有关总体参数的置信区间将随之变大,以致接受原假设的概率也增大。

因此,如果原假设是个错误假设,那么,由于多重共线性的存在,就会增加接受错误假设(即第Ⅱ类错误)的概率。

(2)由于有大的方差,回归系数的t值倾向于统计上不显著。

从回归系数的t值公式

可以看出,如果存在多重共线性,公式分母的标准差迅速增大,t值迅速缩小,与显著水平而查表得出的临界t值相比,我们将会越来越多地接受有关真实总体值为零的原假设。

3、虽然一个或多个回归系数的t值在统计上不显著,但总的拟合优度R2仍可能非常之高。

在高度共线性情形下,有可能出现一个或多个的回归系数在t检验的统计意义上是不显著的,但是,总的拟合优度R2仍有可能高达接近于1,从而根据F检验,就会拒绝

=…=

=0的假设。

这就是多重共线性所产生的一种奇怪的现象,不显著的t值却带有一个高的R2总值。

4、普通最小二乘估计量及其标准差对数据的小小变化非常敏感,也就是说,它们趋于不稳定。

例:

分析我国居民家庭电力消耗量与居民可支配收入及居住面积的关系,以预测居民家庭对电力的需求量。

(仅稍微改动1993年人均居住面积数据)表6-5

年份

年人均家庭电力消耗量

年人均可支配收入指数

人均居住面积

千瓦小时(Y)

1978年=100(X1)

平方米(X2)

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

46.9

54.6

61.2

72.7

83.5

93.1

101.8

106.6

118.1

132.4

144.6

156.3

173.7

289.11

307.83

321.21

339.43

356.58

382.66

397.35

414.08

434.23

447.35

470.85

506.15

536.07

17.34

17.77

19.16改为1816

18.92

19.64

20.27

21.00

21.77

22.53

23.17

23.85

25.05

25.78

原数据的回归结果:

Y=-110.0326+0.4919X1+0.7842X2①

Se22.67480.10793.0696

t(-4.8526)(4.5573)(0.2555)

R2=0.9957,D.W=1.80,F=1160.948

数据小小变化后的回归结果:

Y=-140.3470+0.3262X1+5.3514X2②

Se30.32460.16154.4663

t(-4.6282)(2.0192)(1.1982)

R2=0.9962,D.W=1.79,F=1319.687

(5%显著水平自由度为10的t临界值为2.228)

比较方程①与方程②,很明显,仅仅极小地改变了一个数据,却导致了方程的较大变化。

结果是标准差增大,t检验值变小,以致收入与住房面积对家庭电力消耗量的影响均为不显著,然而F值所表明的影响却是极其显著的;而且住房面积的系数也发生了极大的变化。

为什么会有这一变化呢?

方程①中X1与X2的相关系数为0.9950,而在方程②中X1与X2的相关系数为0.9980,也就是说,方程②中X1与X2的共线性程度提高了,虽然原始数据只作了一点点的变化,但敏感性很强,回归结果却是值得注意的。

这正是共线性所引起的后果。

二、多重共线性的检测方法

(一)直观判定法。

1、当增加或删除一个解释变量,或者改变一个观测值时,回归系数的估计值发生较大的变化,回归方程可能存在多重共线性。

2、当R2较高,而一些重要解释变量的回归系数标准差较大,使得显著的t值不多,在回归方程中没有通过显著性检验时,可初步判断可能存在多重共线性。

在例6-2的二元回归方程中,R2值为0.9957,且F值也大得足以拒绝β1与β2为零的原假设,可是住房面积的系数却是统计上显著为零的(0.2555<2.228);所以可认为X1与X2存在着较高的多重共线性。

3、有些解释变量的回归系数所带正负号与定性分析结果相违背时,很可能存在多重共线性。

(二)简单相关系数检测法

如果两个解释变量的相关系数r比较高,比如在0.8以上,那么就可认为这两个解释变量之间存在较强的线性关系。

在例6-2中,对两解释变量进行回归,其结果如下:

X1=-201.0881+28.2970X2

Se18.33080.8562

t(-10.9700)(33.0486)

R2=0.9900,r=0.9950,F=1092.212

在此,两解释变量的相关系数r为0.9950,说明相关程度极高,所以可认为X1与X2存在着较高的多重共线性。

(三)辅助回归法

一一作某个解释变量对其他所有解释变量的回归,并求出拟合优度R2值和F检验值,视检验值是否显著,作出判断。

假设有一个容量为50的随机样本,作每一个解释变量对其余解释变量的回归分析,并计算出了各辅助回归的拟合优度R2值和F检验值如下:

方程

R2值

F值

F值是否显著

X1对其他解释变量的回归

0.90

79.20

X2对其他解释变量的回归

0.18

1.93

X3对其他解释变量的回归

0.36

4.95

X4对其他解释变量的回归

0.86

54.06

X5对其他解释变量的回归

0.09

0.87

X6对其他解释变量的回归

0.24

2.87

如表所示,变量X1、X3、X4、X6与其他变量存在共线性,尽管共线性的程度差别很大。

表中数据还说明,看似较低的R2,比如0.36,却可能是统计显著不为零的。

可见,此回归模型存在较高的多重共线性。

辅助回归的一个缺陷就是它的计算较为繁琐,如果一个回归方程包含的解释变量较多,则计算的回归方程也需很多,因此,这种方法实用性不强。

不过,如果借助于统计软件,这个问题是容易解决的。

(四)方差膨胀因子检测法

所谓的方差膨胀因子就是将存在多重共线性时回归系数估计量的方差与无多重共线性时回归系数估计量的方差对比而得出的比值系数。

无多重共线性时回归系数估计量的方差:

(i=1、2、…、k)

存在多重共线性时回归系数估计量的方差:

Var(

)=

(i=1、2、…、k)

式中的1/(1-Ri2)就是方差的膨胀因子,表示为

VIF(

)=

即VIF(

)=

÷(

)=

所以,如果某个解释变量与其余解释变量都不相关,则其方差膨胀因子为1;如果某个解释变量与其余解释变量存在一定程度的相关性,其方差膨胀因子大于1。

经验认为,方差膨胀因子若大于5,多重共线性的程度就很严重。

(五)逐步回归检测法

1、由每个解释变量对Y进行回归开始,视解释变量对Y作用的显著程度,从大到小地依次逐个引入回归方程。

2、在逐个引入解释变量的过程中,将不显著的解释变量剔除掉。

3、引入一个解释变量或从回归方程中剔除一个解释变量,为逐步回归的一步。

4、对于每一步都要进行检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。

5、这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。

(六)判定系数增量贡献法

判定系数增量贡献法是从解释变量与被解释变量之间的相关程度来检测多重共线性的。

其测度公式为

m=R2–

式中R2为被解释变量Y对所有解释变量X1、X2、…、Xk的判定系数;R-i2为被解释变量Y对除Xi以外的其余所有解释变量的判定系数。

在此测度公式中(R2-R-i2)就是解释变量Xi对判定系数R2的增量贡献。

如果Xi与其余解释变量完全线性相关,则此增量贡献为0,如果全部解释变量均不相关,则增量贡献的总和等于R2,测度值m=0。

第三节多重共线性的补救措施

消除或缓解多重共线性,目前也只有一些经验方法,而且,是否有效还要看共线性的严重程度。

一、增加样本容量,追加样本信息

适用于:

样本引起的多重共线性——测量误差、偶然因素,解释变量总体不存在多重共线性

二、使用非样本先验信息

例如:

假设在lnY=lnA+αlnL+βlnK+u模型中,L与K高度相关,且α+β=1,即规模报酬不变,则将β=1-α代入式中得

三、进行变量形式转换

例如:

假设在lnYt=β0+β1lnX1t+β2lnX2t+β3lnX3t+ut模型中,Yt为某产品销量,X1t与X2t分别为出厂价和市场价,X3t为市场总供应量。

X1t与X2t高度相关,则可以将模型式变换为:

又如:

假设在Yt=β0+β1Xt+β2Xt-1+ut模型中,Yt为个人消费,Xt与Xt-1分别为现期收入和前期收入,两者高度相关,若Yt-1用Xt-1代替,可减弱相关程度,得模型:

Yt=β0+β1Xt+β2Yt-1+ut

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 交通运输

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1