岭回归解决多重共线性.doc
《岭回归解决多重共线性.doc》由会员分享,可在线阅读,更多相关《岭回归解决多重共线性.doc(9页珍藏版)》请在冰豆网上搜索。
重庆大学硕士课程论文应用回归分析
一、引言
回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。
实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。
二、认识多重共线性
(一)多重共线性的定义
设回归模型如果矩阵的列向量存在一组不全为零的数使得,=1,2,…,则称其存在完全共线性,如果,=1,2,…,则称其存在近似的多重共线性。
(二)多重共线性的后果
1.理论后果
对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可能完全消除,而是要用一定的方法来减少变量之间的相关程度。
多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量很小的时候,多重共线性才是非常严重的。
多重共线性的理论后果有以下几点:
(1)保持OLS估计量的BLUE性质;
(2)戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的情况。
所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。
(3)近似的多重共线性中,OLS估计仍然是无偏估计。
无偏性是一种多维样本或重复抽样的性质;如果X变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。
(4)多重共线性是由于样本引起的。
即使总体中每一个X之间都没有线性关系,但在具体取样时仍存在样本间的共线性。
2.现实后果
(1)虽然存在多重共线性的情况下,得到的OLS估计是BLUE的,但有较大的方差和协方差,估计精度不高;
(2)置信区间比原本宽,使得接受假设的概率更大;
(3)统计量不显著;
(4)拟合优度的平方会很大;
(5)OLS估计量及其标准误对数据微小的变化也会很敏感。
(三)多重共线性产生的原因
1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的相关性,我们又没有进行处理建立的模型就有可能存在着共线性。
2.由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。
例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长
3.滞后变量。
滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。
(四)多重共线性的识别
1.直观的判断方法
(1)在自变量的相关系数矩阵中,有某些自变量的相关系数值比较大。
(2)回归系数的符号与专业知识或一般经验相反
(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的通过
(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化
(5)重要变量的回归系数置信区间明显过大
2.方差扩大因子法()
定义=其中是以为因变量时对其他自变量的复测定系数。
一般认为如果最大的超过10,常常表示存在多重共线性。
事实上=>10这说明<0.1即>0.9。
3.特征根判定法
根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。
因此,当行列式||≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明有多少个特征根近似为零矩阵,就有多少个多重共线性。
根据条件数,其中为最大的特征根,为其他的特征根,通常认为0<<10,没有多重共线性,>10存在着多重共线性。
(五)多重共线性的处理方法
1.增加样本容量
当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。
2.剔除法
对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。
理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。
3.主成分法
当自变量间有较强的线性相关性时,利用个变量的主成分,所具有的性质,如果他们是互不相关的,可由前个主成来建立回归模型。
由原始变量的观测数据计算前个主成分的得分值,将其作为主成分的观测值,建立与主成分的回归模型即得回归方程。
这时元降为元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响
4.(偏最小二乘法)
H.Wold在1975年提出的偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。
偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。
5.岭回归法.
岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式,参数的普通最小二乘估计为=,岭回归当自变量存在多重共线性||≈0时,给矩阵加上一个正常系数矩阵,那么=,当时就是普通最小二乘估计。
三、实际的应用
我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。
设模型为(3.1)
(一)普通的最小二乘法
对模型进行最小二乘估计得到如下的结果:
表3.1:
模型总结
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
ChangeStatistics
RSquareChange
FChange
df1
df2
Sig.FChange
1
.998a
.996
.995
161.9431718
.996
1198.108
4
19
.000
表3.2:
方差分析表
Model
SumofSquares
df
MeanSquare
F
Sig.
Regression
1.257E8
4
3.142E7
1.198E3
.000a
Residual
498286.227
19
26225.591
Total
1.262E8
23
表3.3:
系数矩阵表
Model
B
Std.Error
Beta
t
Sig
Tolerance
VIF
1
-193.968
311.594
-.623
.541
.622
.393
.487
1.582
.130
.002
455.510
.025
.016
.188
1.570
.133
.015
68.694
1.202
.743
.349
1.617
.122
.004
224.271
-.030
.117
-.023
-.261
.797
.027
37.372
调整的可决系数为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合,但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。
根据方差扩大因子=455.510,=68.694,=224.271,=37.372.均大于10说明存在多重共线性。
此外我们还可以根据共线性的诊断,来判断多重共线性的存在。
为此,利用SPSS软件进行相关处理可以得到下表:
表3.4:
多重共线性诊断表
Model
Dimension
Eigenvalue
ConditionIndex
VarianceProportions
(Constant)
1
1
4.412
1.000
.00
.00
.00
.00
.00
2
.568
2.788
.01
.00
.00
.00
.00
3
.017
16.264
.13
.00
.00
.05
.22
4
.003
39.288
.25
.00
.80
.07
.39
5
.001
71.989
.61
1.00
.20
.88
.39
从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。
(二)运用岭回归解决多重共线性
用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:
表3.5:
岭参数K值表
KRSQX1X2X3X4
.00000.99605.486610.187544.349141-.022974
.05000.99450.298761.231025.351029.109212
.10000.99286.279395.234139.315824.148780
.15000.99135.268288.234093.295846.168122
.20000.98984.260456.232912.282446.178951
.25000.98824.254302.231210.272489.185418
.30000.98652.249140.229240.264570.189368
.35000.98466.244625.227127.257967.191744
.40000.98265.240562.224938.252270.193079
.45000.98050.236833.222713.247230.193695
.50000.97822.233363.220477.242684.193798
.55000.97581.230101.218244.238524.193528
.60000.97327.227009.216026