ImageVerifierCode 换一换
格式:DOCX , 页数:15 ,大小:141.36KB ,
资源ID:19495162      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19495162.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(多重共线性处理Word文档下载推荐.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

多重共线性处理Word文档下载推荐.docx

1、)=Xy的解不为一且不存在,回归参数的最小二乘估计表达式不成立,最小二乘的系数将得不到估计2.经济问题中出现最多的是近似共线性的情况,此时矩阵的秩rank(x)=p+1虽然成立,但是|0,对角线上的元素很大,估计参数的方差阵的对角线元素很大,而对角线上的元素正式各个参数的方差,这样各个参数的估计的精度就会很低。这时虽然能够得到参数的最小二乘无偏估计,但是回归系数的估计值对样本数据的微小变化将变的非常敏感,回归系数的估计值的稳定性将变得很差。3当存在严重的多重共线性时,会给回归系数的统计检验造成一定的困难,可能造成F检验获得通过,T检验却不能够通过。4在自变量高度相关的情况下,估计系数的含义有可

2、能与常识相反.5.在进行预测时,因为回归模型的建立是基于样本数据的,多重共线性也是指抽样的数据。如果把建立的回归模型用于预测,而多重共线性问题在预测区间仍然存在,则共线性问题对预测结果不会产生特别严重的影响,但是如果样本数据中的多重共线性发生 了变化则预测的结果就不能完全的确定了(三)多重共线性产生的原因 1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存在着共线性。2.由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长3滞后变量。滞后变量的引入也会产生

3、多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。(四)多重共线性的诊断1.直观的判断方法(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。(2)回归系数的符号与专业知识或一般经验相反(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著 的通过(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化(5)重要变量的回归系数置信区间明显过大2.方差扩大因子法(VIF),定义=其中是以为因变量时对其他自变量的复测定系数。一般认为如果最大的超过10,

4、常常表示存在多重共线性。事实上10这说明0.1即0.9。3.特征根判定法根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明有多少个特征根近似为零矩阵X就有多少个多重共线性。根据条件数, 其中为最大的特征根为其他的特征根,通常认为0k10存在着多重共线性。(五)多重共线性的处理方法一般有如下的几种1 增加样本容量,当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受

5、到各种条件的限制增加样本容量有时又是不现实的2剔除一些不重要的解释变量,主要有向前法和后退法,逐步回归法。前进法的主要思想是变量由少到多的,每次增加一个,直至没有可引入的变量为止。具体做法是首先对一个因变量y和m个自变量分别建立回归方程,并分别计算这m个回归方程的F值,选其最大者,记为Fj,,给定显著性水平F,如果FjF,则变量引入该方程,再分别对(Xj,X1),(Xj,X2)(Xj,Xm)做回归方程,并对他们进行F检验,选择最大的Fi值,如果Fi.F,则该变量引入方程,重复上述步骤,直到没有变量引入为止。后退法,是先用m个因变量建立回归方程,然后在这m个变量中选择一个最不显著的变量将它从方程

6、中剔除,对m个回归系数进行F检验,记所求得的最小的一个记为Fj,给定一个显著性的水平,如果FjF则将Xj从方程中删除,重复上述步骤直到所有不显著的变量被剔除为止。逐步回归法,前进法存在着这样的缺点当一个变量被引入方程时,这个变量就被保留在这个方程中了,当引入的变量导致其不显著时,它也不会被删除掉,后退法同样存在着这样的缺点,当一个变量被剔除时就永远的被排斥在方程以外了,而逐步回归法克除了两者的缺点。逐步回归的思想是有进有出。将变量一个一个的引入,每引入一个变量对后面的变量进行逐个检验,当变量由于后面变量的引入而不变的不显著时将其剔除,进行每一步都要进行显著性的检验,以保证每一个变量都是显著的。

7、理论上上面的三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论 的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。3不相关的系数法。当变量之间存在着多重共线性最直接的表现就是各个解释变量之间的决定系数很大。考虑到两个变量之间的决定系数众所周知, 在多元线性回归模型中, 当各个解释变量( 如Xi 与Xj, ij) 之间存在着多重共线性时, 其最直接的表现就是各个解释变量之间的决定系数(ri2,j)很大。ri2,j 很大, 则意味着重要变量Xi( 在本文中, 为研究方便, 我们始终假定Xi 相对于Xj 而言, 是一重

8、要变量, ij) 的变化能够说明Xj 的变化。如两者之间的r2,j=90%, 则我们以说, Xi 的变化说明了Xj 变化的90%,而剩余的( 1- ri2,j) 部分,则是由Xj 自身的变化说明的。由此决定, 在反映被解释变量(Y)与解释变量Xi、Xj 之间的关系时, 对于解释变量Xj 来说, 并不需要用全部的信息来解释被解释变量的问题, 而只需要用剩余的( 1- ri2,j) 部分的信息来解释就足够了,因为有ri2,j 部分的信息是与Xi 相重复的, 已由Xi 解释了。由此出发, 如果我们能够在保留重要变量(Xi) 全部信息的同时, 以重要变量(Xi) 为基础, 对其他的解释变量进行一定的线

9、形变换, 使之转换为一个新变量, 如将Xj 转换为Xjj , 并且使得Xi 与新变量Xjj 之间的决定系数( ri2,jj) 降低到最小程度如( 1- ri2,j) , 则就可以消除多重共线性。而这也正是不相关法基本思想的具体体现。该方法的一个显著的缺陷是我们无法知道哪一个变量是重要的。4主成分法。当自变量间有较强的线性相关性时,利用P个变量的主成分,所具有的性质,如果他们是互不相关的,可由前 m个主成来建立回归模型。由原始变量的观测数据计算前m个主成分的的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。这时P元降为 m元,这样既简化了回归方程的结构,且消除了变量间相关性

10、带来的影响5PLS(偏最小二乘法).H.Wold在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了 最小二乘法,主成分分析法,和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的 是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算算的 自变量的 线性组合。6运

11、用岭回归法.岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式y=x+,参数的普通最小二乘估计为y, 岭回归当自变量存在多重共线性|0时,给矩阵加上一个 正常系数矩阵KI,那么 y,当k=0时就是普通最小二乘估计,一般对于常数k的选择并没有公认的最优标准,一般有如下的几种方法:(1)岭迹法.我们知道当岭参数在(0,+),是k的函数,在平面直角坐标系上,把函数选择画出来,画出的曲线称为岭迹,在实际应用中,可以根据岭迹曲线的变化情况来确定适当的k值。k值的一般原则是 各回归系数的岭估计基本稳定 用最小二乘估计时不合理的回归系数,

12、其岭估计的符号变得合理 回归系数没有不合乎经济意义的绝对值 残差平方和增大不太多(2)方差扩大因子法方差扩大因子度量了多重共线性的严重程度,我们一般说方差扩大因子大于10时,模型就存在严重 的共线性,计算岭估计的协方差矩阵,得D()=Cov(,y, y)= Cov(y,y)XX矩阵其对角线上的元素为岭估计的方差扩大因子。不难看出方差扩大因子随着k的增加而减少。应用方差扩大因子选择k的一般原则是选择k使得所有方差扩大因子10(3)采用Heer和Baldins提出的公式 其中t为因子个数,为模型的标准差,为典型参数, =P其中P为相关阵的特征向量相关矩阵,由于和未知,用最小二乘估计得到的值代替。三

13、、实际的应用 我们对于江苏省的1985-2004年的统计数据做一个回归预测模型,选取GDP为因变量,投资额,货物周转量,财政支出,能源消耗总量四个变量为自变量设模型为(一)、普通的最小二乘法首先对于数据进行标准化,标准化的目的是消除量纲对于变量的影响,进行最小二乘估计得到如下的结果: 调整的可决系数为0.970,F=154.142,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过,而且财政支出的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。 根据方差扩大因子VIF1=155.

14、59 VIF2=104.244 VIF3=79.062 VIF4=99.459均大于10 说明存在多重共线性此外我们还可以根据共线性的诊断,来判断多重共线性的存在.特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为35.092,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。(二)、应用岭回归解决多重共线性对于k值的选择采用岭迹分析和上文提到的岭迹图和Heer-Baldins提出的 相结合的 方法,由岭迹图我们可以看到从岭迹图上看,最小二乘的稳定性很差,当k稍微增大时,系数有较大的变化。对各个变量分别来看,当K=0,x1对于变量有显著性正的影响,X2对与变量有正的影响,

15、X3,X4对于变量有负的影响,从岭回归 的角度来看,变量X1随着 k的增大其系数值迅速减小最终趋于稳定,X2随着k的增加变化不大,X3,X4当k=0时对于变量有负的影响,当k逐渐增大时,由负的影响变为正的影响。从图上我们可以看到在k的值大约为0.9之后,各个参数的值趋于稳定,用 利用P= 带入上面的公式即可得到k的值约为0.9,把其带入即可得到各个参数的估计值。所以得到的回归方程为y=0.3176*投资额+0.3308*货物周转量+0.1407*财政支出+0.1990*能源消费总量。进一步的我们可以得到调整的可决系数为0.9813,说明方程整体的拟合程度较好。岭回归估计已不再是无偏估计,而是通

16、过最小二乘法的 改进允许回归系数的有偏估计量存在而补救的多重共线性的方法。采用它可以通过允许较小的误差而换取高于 无偏估计量的精度因此它接近真实值的可能性较大。灵活运用它可以对各分析变量之间的作用和关系带来独特而有效的帮助(三)应用主成分回归解决线性回归(1)首先对数据进行标准化(2)求标准化后的方程的协方差矩阵,也就是标准化后的相关系数矩阵(3)对该矩阵进行检验,看能否进行主成分分析,主成分分析适用于那些变量之间相关性较强,但是又不能完全具有相关性的变量。(4)求出协方差矩阵的特征值与特征向量。首先对于数据进行检验能否进行主成分分析,得到的巴特莱特球度检验参 数值卡方值188.0831自由度

17、6显著性0.0000由巴特莱特球度检验检验我们知道,该模型可以进行主成分的分析。根据数据求出协方差矩阵的特征向量,特征值分别如下:特征向量序号特征向量1特征向量2特征向量3特征向量410.50650.2190-0.5669-0.611720.4968-0.5956-0.35180.524130.49220.70350.20430.470140.5044-0.31990.7163-0.3608特征根和累计贡献率因子特征根方差贡献率%累计贡献率%3.858796.46700.12923.229999.69690.00900.224899.92170.00310.0783100.0000由累计贡献率

18、我们知道,我前两个主成分就能够提取变量的大约99.699%的信息因此我们只提取两个主成分来代表原始变量的信息,且第一主成分T1=0.5065X1+0.4946X2+0.4922X3+0.5044X4,T2=0.219X1-0.5956X2+0.7035X3-0.3199X4用因变量Y对T1,T2进行回归到如下果:GDP=0.2261*投资额+0.3238*货物周转量+0.1580财政支出0004+0.2929*能源消费总量回归方程的的修正的可决系数为 0.9809由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合经济学的一般的意义。(四) 简单的比较OLS

19、岭回归主成分0.9760.98130.9809通过比较我们知道在所得的可决系数中岭回归和主成分所得到的结果,都要比最小二乘法所得到的要大,且各个系数的解释更加合理,由于岭回归的模型所建立的方程的可决系数更大一点,我们采用岭回归的结果对于构建模型,可以对于各个参数进行解释。五结 论 主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,

20、采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围, 我们应该比较其效果而选用而不是断然否定一种方法。参考书目: 1 何晓群. 应用回归分析M.中国人民统计大学出版社, 2007,(13). 3 高惠旋 多元统计分析M.北京大学出版社. 20043 秦红兵. 多元回归分析中多重共线性的探讨与实证J. 科技信息(学术研究), 2007,(31). 4 王玉梅. 多重共线性的消除:不相关法J. 统计教育, 2006,(07). 6 高辉. 多重共线性的诊

21、断方法J. 统计与信息论坛, 2003,(01). 7 吴相波,叶阿忠. 局部线性估计中的多重共线性问题J. 统计与决策, 2007,(08). 9 钱晓莉. 基于特征值的多重共线性处理方法J. 统计与决策, 2004,(10). 10 赵松山,白雪梅. 关于多重共线性检验方法的研究J. 中国煤炭经济学院学报, 2001,(04).11 鲁茂, 贺昌政. 对多重共线性问题的探讨J. 统计与决策, 2007,(08)12 钱晓莉. 基于特征值的多重共线性处理方法J. 统计与决策, 2004,(10)13 白雪梅, 赵松山. 更深入地认识多重共线性J. 东北财经大学学报, 2005,(02)14

22、郑吉富. 关于矩阵(XTX)的性质及应用J. 重庆工业高等专科学校学报, 1994,(Z1)15 刘国旗. 多重共线性的产生原因及其诊断处理J. 合肥工业大学学报(自然科学版), 2001,(04)16 赵松山, 白雪梅. 关于多重共线性检验方法的研究J. 中国煤炭经济学院学报, 2001,(04)17 王惠文, 朱韵华. PLS回归在消除多重共线性中的作用J. 数理统计与管理, 1996,(06)18 张宏. 经济模型中多重共线性引发变量的判定J. 统计教育, 1998,(06)19 王斌会. 有偏回归分析方法及其在经济管理中的应用J. 统计与决策, 2004,(06)下面是江苏省1985-

23、2004年的数据年份工业生产总值(亿)y投资额(亿)x1货物周转量x2财政支出x3能源消费总量x41985651.82191.7357558894123.11986744.9241.26162298.734382.21987922.3317.171574107.174922.319881208.9371.974205117.965508.119891321.85320.2377651126.395586.519901416.5356.373022136.2550919911601.38439.9878841143.295780.819922136.02711.796394152.316296.

24、519932998.161144.2119387221.36625.819944057.391331.13124612293.417357.719955155.251680.17137688350.088047.219966004.11949.53141256427.998111.219976680.342203.9137063512.937991.119987199.952535.5135323579.9811819997697.822742.65140055680.238163.520008553.692995.431505578658612.420019456.843302.961524961064.998881.4200210606.853849.241549121483.689608.6200312442.875535.81817441968.9211060.7200415003.66827.592398642216.4113651.7七附录数据来源于江苏省统计年签和新中国数据五十五年。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1