多重共线性处理.docx

资源描述

多重共线性处理.docx

《多重共线性处理.docx》由会员分享，可在线阅读，更多相关《多重共线性处理.docx（15页珍藏版）》请在冰豆网上搜索。

多重共线性处理.docx

多重共线性处理

一、摘要1

二、引言1

三、认识多重共线性1

（一）多重共线性的定义1

（二）多重共线性产生的危害2

（三）多重共线性产生的原因2

（四）多重共线性产生的诊断的方法3

（五）多重共线性的处理的方法3

四、实际的应用7

（一）普通最小二乘法7

（二）岭回归8

（三）主成分回归10

（四）简单的比较11

（五）结论和建议11

五、结论12

六、参考书目13

七、附录14

浅谈多重共线性

摘要各解释变量之间存在多重共线性是现实中很普遍的现象。

本文对线性估计多重共线性问题进行了简单的介绍,对一些常用的解决多重共线性的方法进行了概括,并运用主成分和岭回归的方法对实际的问题进行了分析.

关键字岭回归主成分多重共线性

AbstactTheinterpretationofvariablesbetweenmulticollinearityisinrealityverycommonphenomenon.Inthispaper,linearestimatedmulticollinearityissueasimple,commonlyusedtosolveanumberofmulti-linearwayofasummaryanduseofthemaincomponentsandridgeontheactualreturntothewaytheissuewasanalyzed.

KeywordsRidgeRegressionThemaincomponentregressioncollinearity

一.引言

回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中

有着非常广泛的应用，但是经典的最小二乘估计，必需满足一些假设条件，多重共线性就是其中的一种。

实际上，解释变量间完全不相关的情形是非常少见的，大多数变量都在某种程度上存在着一定的共线性，而存在着共线性会给模型带来许多不确定性的结果。

二．认识多重共线性

（一）．多重共线性的定义

设回归模型

ε如果矩阵X的列向量存在一组不全为零的数

I=1,2,…n,则称其存在完全共线性,如果

I=1,2,…n,则称其存在近似的多重共线性

（二）．多重共线性的危害

1.如果矩阵存在完全共线性矩阵的秩rank（X）

|=0正规方程组的解（

）

=Xy的解不为一且

不存在,回归参数的最小二乘估计表达式不成立,最小二乘的系数将得不到估计

2.经济问题中出现最多的是近似共线性的情况,此时矩阵的秩rank（x）=p+1虽然成立，但是|

|≈0,

对角线上的元素很大,估计参数

的方差阵

的对角线元素很大,而对角线上的元素正式各个参数的方差,这样各个参数的估计的精度就会很低。

这时虽然能够得到参数的最小二乘无偏估计，但是回归系数的估计值对样本数据的微小变化将变的非常敏感，回归系数的估计值的稳定性将变得很差。

3当存在严重的多重共线性时，会给回归系数的统计检验造成一定的困难，可能造成F检验获得通过，T检验却不能够通过。

4．在自变量高度相关的情况下，估计系数的含义有可能与常识相反.

5.在进行预测时，因为回归模型的建立是基于样本数据的，多重共线性也是指抽样的数据。

如果把建立的回归模型用于预测，而多重共线性问题在预测区间仍然存在，则共线性问题对预测结果不会产生特别严重的影响，但是如果样本数据中的多重共线性发生了变化则预测的结果就不能完全的确定了

（三）．多重共线性产生的原因

1.模型参数的选用不当，在我们建立模型时如果变量之间存在着高度的相关性，我们又没有进行处理建立的模型就有可能存在着共线性。

2.由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。

例如当经济繁荣时，反映经济情况的指标有可能按着某种比例关系增长

3滞后变量。

滞后变量的引入也会产生多重共线行，例如本期的消费水平除了受本期的收入影响之外，还有可能受前期的收入影响，建立模型时，本期的收入水平就有可能和前期的收入水平存在着共线性。

（四）．多重共线性的诊断

1.直观的判断方法

（1）在自变量的相关系数矩阵中，有某些自变量的相关系数值比较大。

（2）回归系数的符号与专业知识或一般经验相反

（3）对重要的自变量的回归系数进行t检验，其结果不显著，但是F检验确得到了显著的通过

（4）如果增加一个变量或删除一个变量，回归系数的估计值发生了很大的变化

（5）重要变量的回归系数置信区间明显过大

2.方差扩大因子法（VIF），定义

其中

是以

为因变量时对其他自变量的复测定系数。

一般认为如果最大的

超过10，常常表示存在多重共线性。

事实上

>10这说明

<0.1即

>0.9。

3.特征根判定法

根据矩阵行列式的性质，矩阵行列式的值等于其特征根的连乘积。

因此，当行列式|

|≈0时，至少有一个特征根为零，反过来，可以证明矩阵至少有一个特征根近似为零时，X的列向量必存在多重共线性，同样也可证明

有多少个特征根近似为零矩阵X就有多少个多重共线性。

根据条件数,其中

为最大的特征根

为其他的特征根，通常认为010存在着多重共线性。

（五）多重共线性的处理方法一般有如下的几种

1增加样本容量，当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本，而不存在于总体时，通过增加样本容量可以减少或是避免线性重合，但是在现实的生活中，由于受到各种条件的限制增加样本容量有时又是不现实的

2剔除一些不重要的解释变量，主要有向前法和后退法，逐步回归法。

前进法的主要思想是变量由少到多的，每次增加一个，直至没有可引入的变量为止。

具体做法是首先对一个因变量y和m个自变量分别建立回归方程，并分别计算这m个回归方程的F值，选其最大者，记为Fj,，给定显著性水平F，如果Fj>F,则变量引入该方程，再分别对（Xj,X1）,（Xj,X2）…（Xj,Xm）做回归方程，并对他们进行F检验，选择最大的Fi值，如果Fi.>F,则该变量引入方程，重复上述步骤，直到没有变量引入为止。

后退法，是先用m个因变量建立回归方程，然后在这m个变量中选择一个最不显著的变量将它从方程中剔除，对m个回归系数进行F检验，记所求得的最小的一个记为Fj,给定一个显著性的水平，如果Fj

逐步回归法，前进法存在着这样的缺点当一个变量被引入方程时，这个变量就被保留在这个方程中了，当引入的变量导致其不显著时，它也不会被删除掉，后退法同样存在着这样的缺点，当一个变量被剔除时就永远的被排斥在方程以外了，而逐步回归法克除了两者的缺点。

逐步回归的思想是有进有出。

将变量一个一个的引入，每引入一个变量对后面的变量进行逐个检验，当变量由于后面变量的引入而不变的不显著时将其剔除，进行每一步都要进行显著性的检验，以保证每一个变量都是显著的。

理论上上面的三种方法都是针对不相关的的数据而言的，在多重共线性很严重的情况下，结论的可靠性受到影响，在一些经济模型中，要求一些很重要变量必须包含在里面，这时如果贸然的删除就不符合现实的经济意义。

3．不相关的系数法。

当变量之间存在着多重共线性最直接的表现就是各个解释变量之间的决定系数很大。

考虑到两个变量之间的决定系数众所周知,在多元线性回归模型中,当各个解释变量（如Xi与Xj,i≠j）之间存在着多重共线性时,其最直接的表现就是各个解释变量之间的决定系数（ri2,j）很大。

ri2,j很大,则意味着重要变量Xi（在本文中,为研究方便,我们始终假定Xi相对于Xj而言,是一重要变量,i≠j）的变化能够说明Xj的变化。

如两者之间的r2,j=90%,则我们以说,Xi的变化说明了Xj变化的90%，而剩余的（1-ri2,j）部分,则是由Xj自身的变化说明的。

由此决定,在反映被解释变量（Y）与解释变量Xi、Xj之间的关系时,对于解释变量Xj来说,并不需要用全部的信息来解释被解释变量的问题,而只需要用剩余的（1-ri2,j）部分的信息来解释就足够了,因为有ri2,j部分的信息是与Xi相重复的,已由Xi解释了。

由此出发,如果我们能够在保留重要变量（Xi）全部信息的同时,以重要变量（Xi）为基础,对其他的解释变量进行一定的线形变换,使之转换为一个新变量,如将Xj转换为Xjj,并且使得Xi与新变量Xjj之间的决定系数（ri2,jj）降低到最小程度———如（1-ri2,j）,则就可以消除多重共线性。

而这也正是不相关法基本思想的具体体现。

该方法的一个显著的缺陷是我们无法知道哪一个变量是重要的。

4主成分法。

当自变量间有较强的线性相关性时，利用P个变量的主成分，所具有的性质，如果他们是互不相关的，可由前m个主成

来建立回归模型。

由原始变量的观测数据计算前m个主成分的的得分值，将其作为主成分的观测值，建立Y与主成分的回归模型即得回归方程。

这时P元降为m元,这样既简化了回归方程的结构，且消除了变量间相关性带来的影响

5．PLS（偏最小二乘法）.H.Wold在1975年提出的偏最小二乘法近年来引起广泛的关注，在解决多重共线性方面，它与主成分回归法，岭回归法一样都能很好的达到目的，但偏最小二乘又与前者又有较大的区别，偏最小二乘法集中了最小二乘法，主成分分析法，和典型相关分析的的优点克服了两种方法的缺点。

偏最小二乘法吸取了主成分回归提取主成分的思想，但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关，因而主成分与因变量在算法上关系不密切，从而导致最后主成分在实际应用中无法更好的进一步拟合因变量，偏最小二乘法则是从因变量出发，选择与因变量相关性较强而又能方便运算算的自变量的线性组合。

6．运用岭回归法.岭回归分析是1962年由Heer首先提出的，1970年后他与肯纳德合作，进一步发展了该方法，在多元线性回归模型的矩阵形式y=x

+ε,参数

的普通最小二乘估计为

y,岭回归当自变量存在多重共线性|

|≈0时，给矩阵加上一个正常系数矩阵KI,那么

y,当k=0时就是普通最小二乘估计，一般对于常数k的选择并没有公认的最优标准，一般有如下的几种方法：

（1）岭迹法.我们知道当岭参数在（0，+∞），

是k的函数，在平面直角坐标系上，把函数选择

画出来，画出的曲线称为岭迹，在实际应用中，可以根据岭迹曲线的变化情况来确定适当的k值。

k值的一般原则是

✧各回归系数的岭估计基本稳定

✧用最小二乘估计时不合理的回归系数，其岭估计的符号变得合理

✧回归系数没有不合乎经济意义的绝对值

✧残差平方和增大不太多

（2）方差扩大因子法

方差扩大因子度量了多重共线性的严重程度，我们一般说方差扩大因子大于10时，模型就存在严重的共线性，计算岭估计

的协方差矩阵，得

D（

）=Cov（

y）=

Cov（y,y）X

矩阵

其对角线上的元素为岭估计的方差扩大因子。

不难看出方差扩大因子随着k的增加而减少。

应用方差扩大因子选择k的一般原则是选择k使得所有方差扩大因子≤10

（3）采用Heer和Baldins提出的公式

其中t为因子个数,

为模型的标准差，

为典型参数，

其中P为相关阵的特征向量相关矩阵，由于

和

未知，用最小二乘估计得到的值代替。

三、实际的应用

我们对于江苏省的1985-2004年的统计数据做一个回归预测模型，选取GDP为因变量，投资额，货物周转量，财政支出，能源消耗总量四个变量为自变量

设模型为

（一）、普通的最小二乘法

首先对于数据进行标准化，标准化的目的是消除量纲对于变量的影响，进行最小二乘估计得到如下的结果：

调整的可决系数

为0.970，F=154.142,在置信水平为95%，自由度4，方程通过了显著性的检验，从这里我们可以看出从整体上来说方程得到了很好的拟合,但是各个系数的检验却并没有通过，而且财政支出的系数为负，这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。

根据方差扩大因子VIF1=155.59VIF2=104.244VIF3=79.062VIF4=99.459

均大于10说明存在多重共线性

此外我们还可以根据共线性的诊断,来判断多重共线性的存在.

特征值我们可以看到有两个接近于零，条件数我们可以看到最大条件数为35.092，说明存在着共线性，以上的分析说明因变量间存在着多重共线性。

（二）、应用岭回归解决多重共线性

对于k值的选择采用岭迹分析和上文提到的岭迹图和Heer-Baldins提出的相结合的方法，由岭迹图我们可以看到

从岭迹图上看，最小二乘的稳定性很差，当k稍微增大时，系数有较大的变化。

对各个变量分别来看，当K=0,x1对于变量有显著性正的影响，X2对与变量有正的影响，X3，X4对于变量有负的影响，从岭回归的角度来看，变量X1随着k的增大其系数值迅速减小最终趋于稳定，X2随着k的增加变化不大，X3，X4当k=0时对于变量有负的影响，当k逐渐增大时，由负的影响变为正的影响。

从图上我们可以看到在k的值大约为0.9之后，各个参数的值趋于稳定，用利用

带入上面的公式即可得到k的值约为0.9，把其带入即可得到各个参数的估计值。

所以得到的回归方程为y=0.3176*投资额+0.3308*货物周转量+0.1407*财政支出+0.1990*能源消费总量。

进一步的我们可以得到调整的可决系数为0.9813，说明方程整体的拟合程度较好。

岭回归估计已不再是无偏估计，而是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救的多重共线性的方法。

采用它可以通过允许较小的误差而换取高于无偏估计量的精度因此它接近真实值的可能性较大。

灵活运用它可以对各分析变量之间的作用和关系带来独特而有效的帮助

（三）．应用主成分回归解决线性回归

（1）首先对数据进行标准化

（2）求标准化后的方程的协方差矩阵，也就是标准化后的相关系数矩阵

（3）对该矩阵进行检验，看能否进行主成分分析，主成分分析适用于那些变量之间相关性较强，但是又不能完全具有相关性的变量。

（4）求出协方差矩阵的特征值与特征向量。

首先对于数据进行检验能否进行主成分分析，得到的巴特莱特球度检验

参数

值

卡方值

188.0831

自由度

显著性

0.0000

由巴特莱特球度检验检验我们知道，该模型可以进行主成分的分析。

根据数据求出协方差矩阵的特征向量，特征值分别如下：

特征向量

序号

特征向量1

特征向量2

特征向量3

特征向量4

0.5065

0.2190

-0.5669

-0.6117

0.4968

-0.5956

-0.3518

0.5241

0.4922

0.7035

0.2043

0.4701

0.5044

-0.3199

0.7163

-0.3608

特征根和累计贡献率

因子

特征根

方差贡献率%

累计贡献率%

3.8587

96.4670

0.1292

3.2299

99.6969

0.0090

0.2248

99.9217

0.0031

0.0783

100.0000

由累计贡献率我们知道，我前两个主成分就能够提取变量的大约99.699%的信息因此我们只提取两个主成分来代表原始变量的信息，且第一主成分T1=0.5065X1+0.4946X2+0.4922X3+0.5044X4,

T2=0.219X1-0.5956X2+0.7035X3-0.3199X4用因变量Y对T1,T2进行回归到如下果：

GDP=0.2261*投资额+0.3238*货物周转量+0.1580财政支出0004+0.2929*能源消费总量

回归方程的的修正的可决系数为0.9809

由上面的分析我们看到岭回归和主成分的所得到的结果比较接近，各个系数解释也更加的合理，符合经济学的一般的意义。

（四）简单的比较

OLS

岭回归

主成分

调整的可决系数

0.976

0.9813

0.9809

通过比较我们知道在所得的可决系数中岭回归和主成分所得到的结果，都要比最小二乘法所得到的要大，且各个系数的解释更加合理，由于岭回归的模型所建立的方程的可决系数更大一点，我们采用岭回归的结果对于构建模型，可以对于各个参数进行解释。

五．结论

主成分法和岭回归所估计的参数，都已经不是无偏的估计，主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性，其降维的优势是明显的，主成分回归方法对于一般的多重共线性问题还是适用的，尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法，采用它可以通过允许小的误差而换取高于无偏估计量的精度,因此它接近真实值的可能性较大。

灵活运用岭回归法,可以对分析各变量之间的作用和关系带来独特而有效的帮助。

作为统计方法，每种方法都有其适用范围，我们应该比较其效果而选用而不是断然否定一种方法。

参考书目：

[1]何晓群.应用回归分析[M].中国人民统计大学出版社,2007,（13）.

[3]高惠旋多元统计分析[M].北京大学出版社.2004

[3]秦红兵.多元回归分析中多重共线性的探讨与实证[J].科技信息（学术研究）,2007,（31）.

[4]王玉梅.多重共线性的消除:

不相关法[J].统计教育,2006,（07）.

[6]高辉.多重共线性的诊断方法[J].统计与信息论坛,2003,（01）.

[7]吴相波,叶阿忠.局部线性估计中的多重共线性问题[J].统计与决策,2007,（08）.

[9]钱晓莉.基于特征值的多重共线性处理方法[J].统计与决策,2004,（10）.

[10]赵松山,白雪梅.关于多重共线性检验方法的研究[J].中国煤炭经济学院学报,2001,（04）.

[11]鲁茂,贺昌政.对多重共线性问题的探讨[J].统计与决策,2007,（08）

[12]钱晓莉.基于特征值的多重共线性处理方法[J].统计与决策,2004,（10）

[13]白雪梅,赵松山.更深入地认识多重共线性[J].东北财经大学学报,2005,（02）

[14]郑吉富.关于矩阵（X~TX）的性质及应用[J].重庆工业高等专科学校学报,1994,（Z1）

[15]刘国旗.多重共线性的产生原因及其诊断处理[J].合肥工业大学学报（自然科学版）,2001,（04）

[16]赵松山,白雪梅.关于多重共线性检验方法的研究[J].中国煤炭经济学院学报,2001,（04）

[17]王惠文,朱韵华.PLS回归在消除多重共线性中的作用[J].数理统计与管理,1996,（06）

[18]张宏.经济模型中多重共线性引发变量的判定[J].统计教育,1998,（06）

[19]王斌会.有偏回归分析方法及其在经济管理中的应用[J].统计与决策,2004,（06）

下面是江苏省1985-2004年的数据

年份

工业生产总值（亿）y

投资额（亿）x1

货物周转量x2

财政支出x3

能源消费总量x4

1985

651.82

191.73

57558

4123.1

1986

744.9

241.2

61622

98.73

4382.2

1987

922.3

317.1

71574

107.17

4922.3

1988

1208.9

371.9

74205

117.96

5508.1

1989

1321.85

320.23

77651

126.39

5586.5

1990

1416.5

356.3

73022

136.2

5509

1991

1601.38

439.98

78841

143.29

5780.8

1992

2136.02

711.7

96394

152.31

6296.5

1993

2998.16

1144.2

119387

221.3

6625.8

1994

4057.39

1331.13

124612

293.41

7357.7

1995

5155.25

1680.17

137688

350.08

8047.2

1996

6004.1

1949.53

141256

427.99

8111.2

1997

6680.34

2203.9

137063

512.93

7991.1

1998

7199.95

2535.5

135323

579.9

8118

1999

7697.82

2742.65

140055

680.23

8163.5

2000

8553.69

2995.43

150557

865

8612.4

2001

9456.84

3302.96

152496

1064.99

8881.4

2002

10606.85

3849.24

154912

1483.68

9608.6

2003

12442.87

5535.8

181744

1968.92

11060.7

2004

15003.6

6827.59

239864

2216.41

13651.7

七附录

数据来源于《江苏省统计年签》和《新中国数据五十五年》。

展开阅读全文