逐步回归法,前进法存在着这样的缺点当一个变量被引入方程时,这个变量就被保留在这个方程中了,当引入的变量导致其不显著时,它也不会被删除掉,后退法同样存在着这样的缺点,当一个变量被剔除时就永远的被排斥在方程以外了,而逐步回归法克除了两者的缺点。
逐步回归的思想是有进有出。
将变量一个一个的引入,每引入一个变量对后面的变量进行逐个检验,当变量由于后面变量的引入而不变的不显著时将其剔除,进行每一步都要进行显著性的检验,以保证每一个变量都是显著的。
理论上上面的三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。
3.不相关的系数法。
当变量之间存在着多重共线性最直接的表现就是各个解释变量之间的决定系数很大。
考虑到两个变量之间的决定系数众所周知,在多元线性回归模型中,当各个解释变量(如Xi与Xj,i≠j)之间存在着多重共线性时,其最直接的表现就是各个解释变量之间的决定系数(ri2,j)很大。
ri2,j很大,则意味着重要变量Xi(在本文中,为研究方便,我们始终假定Xi相对于Xj而言,是一重要变量,i≠j)的变化能够说明Xj的变化。
如两者之间的r2,j=90%,则我们以说,Xi的变化说明了Xj变化的90%,而剩余的(1-ri2,j)部分,则是由Xj自身的变化说明的。
由此决定,在反映被解释变量(Y)与解释变量Xi、Xj之间的关系时,对于解释变量Xj来说,并不需要用全部的信息来解释被解释变量的问题,而只需要用剩余的(1-ri2,j)部分的信息来解释就足够了,因为有ri2,j部分的信息是与Xi相重复的,已由Xi解释了。
由此出发,如果我们能够在保留重要变量(Xi)全部信息的同时,以重要变量(Xi)为基础,对其他的解释变量进行一定的线形变换,使之转换为一个新变量,如将Xj转换为Xjj,并且使得Xi与新变量Xjj之间的决定系数(ri2,jj)降低到最小程度———如(1-ri2,j),则就可以消除多重共线性。
而这也正是不相关法基本思想的具体体现。
该方法的一个显著的缺陷是我们无法知道哪一个变量是重要的。
4主成分法。
当自变量间有较强的线性相关性时,利用P个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m个主成
来建立回归模型。
由原始变量的观测数据计算前m个主成分的的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。
这时P元降为m元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响
5.PLS(偏最小二乘法).H.Wold在1975年提出的偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法,主成分分析法,和典型相关分析的的优点克服了两种方法的缺点。
偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算算的自变量的线性组合。
6.运用岭回归法.岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式y=x
+ε,参数
的普通最小二乘估计为
=
y,岭回归当自变量存在多重共线性|
|≈0时,给矩阵加上一个正常系数矩阵KI,那么
=
y,当k=0时就是普通最小二乘估计,一般对于常数k的选择并没有公认的最优标准,一般有如下的几种方法:
(1)岭迹法.我们知道当岭参数在(0,+∞),
是k的函数,在平面直角坐标系上,把函数选择
画出来,画出的曲线称为岭迹,在实际应用中,可以根据岭迹曲线的变化情况来确定适当的k值。
k值的一般原则是
✧各回归系数的岭估计基本稳定
✧用最小二乘估计时不合理的回归系数,其岭估计的符号变得合理
✧回归系数没有不合乎经济意义的绝对值
✧残差平方和增大不太多
(2)方差扩大因子法
方差扩大因子度量了多重共线性的严重程度,我们一般说方差扩大因子大于10时,模型就存在严重的共线性,计算岭估计
的协方差矩阵,得
D(
)=Cov(
)=Cov(
y,
y)=
Cov(y,y)X
=
X
矩阵
X
其对角线上的元素为岭估计的方差扩大因子。
不难看出方差扩大因子随着k的增加而减少。
应用方差扩大因子选择k的一般原则是选择k使得所有方差扩大因子≤10
(3)采用Heer和Baldins提出的公式
其中t为因子个数,
为模型的标准差,
为典型参数,
=
P
其中P为相关阵的特征向量相关矩阵,由于
和
未知,用最小二乘估计得到的值代替。
三、实际的应用
我们对于江苏省的1985-2004年的统计数据做一个回归预测模型,选取GDP为因变量,投资额,货物周转量,财政支出,能源消耗总量四个变量为自变量
设模型为
(一)、普通的最小二乘法
首先对于数据进行标准化,标准化的目的是消除量纲对于变量的影响,进行最小二乘估计得到如下的结果:
调整的可决系数
为0.970,F=154.142,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合,但是各个系数的检验却并没有通过,而且财政支出的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。
根据方差扩大因子VIF1=155.59VIF2=104.244VIF3=79.062VIF4=99.459
均大于10说明存在多重共线性
此外我们还可以根据共线性的诊断,来判断多重共线性的存在.
特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为35.092,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。
(二)、应用岭回归解决多重共线性
对于k值的选择采用岭迹分析和上文提到的岭迹图和Heer-Baldins提出的相结合的方法,由岭迹图我们可以看到
从岭迹图上看,最小二乘的稳定性很差,当k稍微增大时,系数有较大的变化。
对各个变量分别来看,当K=0,x1对于变量有显著性正的影响,X2对与变量有正的影响,X3,X4对于变量有负的影响,从岭回归的角度来看,变量X1随着k的增大其系数值迅速减小最终趋于稳定,X2随着k的增加变化不大,X3,X4当k=0时对于变量有负的影响,当k逐渐增大时,由负的影响变为正的影响。
从图上我们可以看到在k的值大约为0.9之后,各个参数的值趋于稳定,用利用
P=
带入上面的公式即可得到k的值约为0.9,把其带入即可得到各个参数的估计值。
所以得到的回归方程为y=0.3176*投资额+0.3308*货物周转量+0.1407*财政支出+0.1990*能源消费总量。
进一步的我们可以得到调整的可决系数为0.9813,说明方程整体的拟合程度较好。
岭回归估计已不再是无偏估计,而是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救的多重共线性的方法。
采用它可以通过允许较小的误差而换取高于无偏估计量的精度因此它接近真实值的可能性较大。
灵活运用它可以对各分析变量之间的作用和关系带来独特而有效的帮助
(三).应用主成分回归解决线性回归
(1)首先对数据进行标准化
(2)求标准化后的方程的协方差矩阵,也就是标准化后的相关系数矩阵
(3)对该矩阵进行检验,看能否进行主成分分析,主成分分析适用于那些变量之间相关性较强,但是又不能完全具有相关性的变量。
(4)求出协方差矩阵的特征值与特征向量。
首先对于数据进行检验能否进行主成分分析,得到的巴特莱特球度检验
参数
值
卡方值
188.0831
自由度
6
显著性
0.0000
由巴特莱特球度检验检验我们知道,该模型可以进行主成分的分析。
根据数据求出协方差矩阵的特征向量,特征值分别如下:
特征向量
序号
特征向量1
特征向量2
特征向量3
特征向量4
1
0.5065
0.2190
-0.5669
-0.6117
2
0.4968
-0.5956
-0.3518
0.5241
3
0.4922
0.7035
0.2043
0.4701
4
0.5044
-0.3199
0.7163
-0.3608
特征根和累计贡献率
因子
特征根
方差贡献率%
累计贡献率%
1
3.8587
96.4670
96.4670
2
0.1292
3.2299
99.6969
3
0.0090
0.2248
99.9217
4
0.0031
0.0783
100.0000
由累计贡献率我们知道,我前两个主成分就能够提取变量的大约99.699%的信息因此我们只提取两个主成分来代表原始变量的信息,且第一主成分T1=0.5065X1+0.4946X2+0.4922X3+0.5044X4,
T2=0.219X1-0.5956X2+0.7035X3-0.3199X4用因变量Y对T1,T2进行回归到如下果:
GDP=0.2261*投资额+0.3238*货物周转量+0.1580财政支出0004+0.2929*能源消费总量
回归方程的的修正的可决系数为0.9809
由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合经济学的一般的意义。
(四)简单的比较
OLS
岭回归
主成分
调整的可决系数
0.976
0.9813
0.9809
通过比较我们知道在所得的可决系数中岭回归和主成分所得到的结果,都要比最小二乘法所得到的要大,且各个系数的解释更加合理,由于岭回归的模型所建立的方程的可决系数更大一点,我们采用岭回归的结果对于构建模型,可以对于各个参数进行解释。
五.结论
主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度,因此它接近真实值的可能性较大。
灵活运用岭回归法,可以对分析各变量之间的作用和关系带来独特而有效的帮助。
作为统计方法,每种方法都有其适用范围,我们应该比较其效果而选用而不是断然否定一种方法。
参考书目:
[1]何晓群.应用回归分析[M].中国人民统计大学出版社,2007,(13).
[3]高惠旋多元统计分析[M].北京大学出版社.2004
[3]秦红兵.多元回归分析中多重共线性的探讨与实证[J].科技信息(学术研究),2007,(31).
[4]王玉梅.多重共线性的消除:
不相关法[J].统计教育,2006,(07).
[6]高辉.多重共线性的诊断方法[J].统计与信息论坛,2003,(01).
[7]吴相波,叶阿忠.局部线性估计中的多重共线性问题[J].统计与决策,2007,(08).
[9]钱晓莉.基于特征值的多重共线性处理方法[J].统计与决策,2004,(10).
[10]赵松山,白雪梅.关于多重共线性检验方法的研究[J].中国煤炭经济学院学报,2001,(04).
[11]鲁茂,贺昌政.对多重共线性问题的探讨[J].统计与决策,2007,(08)
[12]钱晓莉.基于特征值的多重共线性处理方法[J].统计与决策,2004,(10)
[13]白雪梅,赵松山.更深入地认识多重共线性[J].东北财经大学学报,2005,(02)
[14]郑吉富.关于矩阵(X~TX)的性质及应用[J].重庆工业高等专科学校学报,1994,(Z1)
[15]刘国旗.多重共线性的产生原因及其诊断处理[J].合肥工业大学学报(自然科学版),2001,(04)
[16]赵松山,白雪梅.关于多重共线性检验方法的研究[J].中国煤炭经济学院学报,2001,(04)
[17]王惠文,朱韵华.PLS回归在消除多重共线性中的作用[J].数理统计与管理,1996,(06)
[18]张宏.经济模型中多重共线性引发变量的判定[J].统计教育,1998,(06)
[19]王斌会.有偏回归分析方法及其在经济管理中的应用[J].统计与决策,2004,(06)
下面是江苏省1985-2004年的数据
年份
工业生产总值(亿)y
投资额(亿)x1
货物周转量x2
财政支出x3
能源消费总量x4
1985
651.82
191.73
57558
89
4123.1
1986
744.9
241.2
61622
98.73
4382.2
1987
922.3
317.1
71574
107.17
4922.3
1988
1208.9
371.9
74205
117.96
5508.1
1989
1321.85
320.23
77651
126.39
5586.5
1990
1416.5
356.3
73022
136.2
5509
1991
1601.38
439.98
78841
143.29
5780.8
1992
2136.02
711.7
96394
152.31
6296.5
1993
2998.16
1144.2
119387
221.3
6625.8
1994
4057.39
1331.13
124612
293.41
7357.7
1995
5155.25
1680.17
137688
350.08
8047.2
1996
6004.1
1949.53
141256
427.99
8111.2
1997
6680.34
2203.9
137063
512.93
7991.1
1998
7199.95
2535.5
135323
579.9
8118
1999
7697.82
2742.65
140055
680.23
8163.5
2000
8553.69
2995.43
150557
865
8612.4
2001
9456.84
3302.96
152496
1064.99
8881.4
2002
10606.85
3849.24
154912
1483.68
9608.6
2003
12442.87
5535.8
181744
1968.92
11060.7
2004
15003.6
6827.59
239864
2216.41
13651.7
七附录
数据来源于《江苏省统计年签》和《新中国数据五十五年》。