第七章(1)多重共线性(计量经济学-浙江大学韩菁).pptx

资源描述

第七章(1)多重共线性(计量经济学-浙江大学韩菁).pptx

《第七章(1)多重共线性(计量经济学-浙江大学韩菁).pptx》由会员分享，可在线阅读，更多相关《第七章(1)多重共线性(计量经济学-浙江大学韩菁).pptx（33页珍藏版）》请在冰豆网上搜索。

第七章(1)多重共线性(计量经济学-浙江大学韩菁).pptx

一、多重共线性的概念二、实际经济问题中的多重共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的方法六、案例,第七章多重共线性,（Multicollinearity）,一、多重共线性的概念,对于模型Yi=0+1X1i+2X2i+kXki+ii=1,2,n其基本假设之一是解释变量是互相独立的。

如果某两个或多个解释变量之间出现了相关性，则称为多重共线性（Multicollinearity）。

如果存在c1X1i+c2X2i+ckXki=0i=1,2,n其中:

ci不全为0，即某一解释变量可以用其他解释变量的线性组合表示，则称为解释变量间存在完全共线性（perfectmulticollinearity）。

如果存在c1X1i+c2X2i+ckXki+vi=0i=1,2,n其中ci不全为0，vi为随机误差项，引入vi表明上述线性关系只是一种近似关系，则称为不完全共线性或近似共线性（approximatemulticollinearity）,注意：

完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即不完全共线性。

例：

对某商品的需求及两组收入的数据如下：

数量Y,价格X1,收入X2,收益X3,49454439383734333029,12345678910,298296294292290288286284282280,297.5294.9293.5292.8290.2289.7285.8284.6281.1278.8,LSYCX1X2,Nearsingularmatrix（奇异矩阵）,拒绝估计的原因:

X2=300-2X1,LSYCX1X3,X3不显著、符号错误的原因：

X1与X3之间呈近似线性关系，两者高度相关,当解释变量只有两个时，相关系数可用作共线性程度的测定。

X1与X2之间呈完全线性关系,虽可得到0、1，但无法得到0、1、2。

在矩阵表示的线性回归模型Y=X+中，完全共线性指：

秩（X）k+1，即,中，至少有一列向量可由其他列向量（不包括第一列）线性表出。

如：

X2=X1，则X2对Y的作用可由X1代替。

二、实际经济问题中的多重共线性,一般地，产生多重共线性的主要原因有以下三个方面：

（1）经济变量相关的共同趋势在一定条件下，某些经济变量会出现同增或同降的趋势。

时间序列样本：

经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。

如果将这些有着共变趋势的变量同时引入模型，就会产生多重共线性。

横截面数据：

生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。

（2）滞后变量的引入,在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。

例如消费变动的影响因素不仅有本期可支配收入，还应考虑以往各期的可支配收入；固定资产存量变动的影响因素不仅有本期投资，还应考虑以往若干期的投资。

同一变量的前后期之值很可能有较强的线性相关性，模型中引入了滞后变量，多重共线性就难以避免。

（3）样本资料的限制,由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。

一般经验：

时间序列数据样本：

简单线性模型，往往存在多重共线性。

截面数据样本：

问题不那么严重，但多重共线性仍然是存在的。

二、多重共线性的后果,1、完全共线性下参数估计量不存在,如果存在完全共线性，则（XX）-1不存在，无法得到参数的估计量。

的OLS估计量为：

例：

对离差形式的二元回归模型,如果两个解释变量完全相关，如x2=x1，则,这时，只能确定综合参数1+2的估计值：

2、近似共线性下OLS估计量非有效,近似共线性下，可以得到OLS参数估计量，但参数估计量方差的表达式为,由于|XX|0，引起（XX）-1主对角线元素较大，使参数估计值的方差增大，OLS参数估计量非有效。

仍以二元线性模型y=1x1+2x2+为例:

恰为X1与X2的线性相关系数的平方r2,由于r21，故1/（1-r2）1,当完全不共线时,r2=0,当近似共线时,0r21,当完全共线时，r2=1，,多重共线性使参数估计值的方差增大，1/（1-r2）为方差膨胀因子（VarianceInflationFactor,VIF）,多重共线性使参数估计值的方差增大，1/（1-r2）为方差膨胀因子（VarianceInflationFactor,VIF）,3、参数估计量经济含义不合理,如果模型中两个解释变量具有线性相关性，例如X1和X2，一个变量可由另一个变量表征。

这时，X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响。

1、2已经失去了应有的经济含义，于是经常表现出似乎反常的现象：

例如1本来应该是正的，结果恰是负的。

4、变量的显著性检验失去意义,存在多重共线性时,参数估计值的方差与标准差变大,容易使通过样本计算的t值小于临界值，误导作出参数为0的推断,可能将重要的解释变量排除在模型之外,5、模型的预测功能失效,变大的方差容易使区间预测的“区间”变大，使预测失去意义。

注意：

除非是完全共线性，多重共线性并不意味着任何基本假设的违背；因此，即使出现较高程度的多重共线性，OLS估计量仍具有线性性等良好的统计性质。

问题在于，即使OLS法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。

多重共线性检验的任务是：

（1）检验多重共线性是否存在；

（2）估计多重共线性的范围，即判断哪些变量之间存在共线性。

多重共线性表现为解释变量之间具有相关关系，所以用于多重共线性的检验方法主要是统计方法：

如判定系数检验法、逐步回归检验法等。

三、多重共线性的检验,1、检验多重共线性是否存在,

（1）对两个解释变量的模型，采用简单相关系数法求出X1与X2的简单相关系数r，若|r|接近1，则说明两变量存在较强的多重共线性。

（2）对多个解释变量的模型，采用综合统计检验法,若在OLS法下：

R2与F值较大，但t检验值较小，说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨，故t检验不显著。

2、判明存在多重共线性的范围,如果存在多重共线性，需进一步确定究竟由哪些变量引起。

（1）判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。

K个辅助方程：

Xji=1X1i+2X2i+j-1Xj-1i+j+1Xj+1i+KXKi在得到的K个判定系数中，若Rj2最大，且接近于1，可以判定相应的Xj与其他解释变量之间存在共线性。

Xj可以用其他解释变量的线性组合代替。

在原模型中排除某一个解释变量Xj，估计模型；如果拟合优度与包含Xj时十分接近，则说明Xj与其它解释变量之间存在共线性。

另一等价的检验是:

缺点：

（1）计算繁琐；

（2）如果多重共线性仅存在于其中某几个解释变量之间，辅助回归方程不能区分出。

（2）逐步回归法,以Y为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计。

根据拟合优度的变化决定新引入的变量是否独立。

如果拟合优度变化显著，则说明新引入的变量是一个独立解释变量；如果拟合优度变化很不显著，则说明新引入的变量与其它变量之间存在共线性关系。

将被解释变量Y对每一个解释变量Xj（j=1,2,k）分别进行回归，对每一个回归方程根据经济理论和统计检验进行综合判断分析，从中选出一个最优的基本回归方程。

在此基础上，再逐一引入其它解释变量，重新作回归，逐步扩大模型的规模，直至从综合情况看出现最好的模型估计形式。

在引进新解释变量进入回归方程时，

（1）如果新解释变量在符合经济意义的前提下，能使拟合优度有所提高，并且每个参数统计检验显著，则采纳该变量。

（说明该解释变量是一个独立解释变量）

（2）如果新解释变量不能改善拟合优度，同时对其它参数无明显影响，则可舍弃该变量。

（说明它可以用其它变量的线性组合代替）（3）如果新解释变量能使拟合优度有所改变，提高，但对其它参数的符号和数值有明显的影响，统计检验也不显著，可以判定新解释变量引起了共线性。

此时需按照前述的检验方法，考察变量间线性相关的形式和程度，并进行经济意义的判断，在共线性程度最高的两个变量中，舍去对被解释变量影响较小、经济意义相对次要的一个，保留影响较大、经济意义相对重要的一个。

（2）逐步回归法,找出引起多重共线性的解释变量，将它排除出去，是最为有效的克服多重共线性的方法。

上述用于检验多重共线性的方法，同时就是克服多重共线性问题的方法。

以逐步回归法得到最广泛的应用。

如果模型被检验证明存在多重共线性，则需要发展新的方法估计模型，最常用的方法有三类。

四、克服多重共线性的方法,1、第一类方法：

排除引起共线性的变量,2、第二类方法：

改变解释变量的形式,时间序列数据、线性模型：

将原模型变换为差分模型:

Yi=1X1i+2X2i+kXki+i可以有效地消除原模型中的多重共线性。

一般讲，增量之间的线性关系远比总量之间的线性关系弱得多。

（1）采用增量型变量（差分法）,Y表示国内生产总值，C1表示前一年的消费额，Y、C表示二者的增量,1981198219831984198519861987198819891990199119921993199419951996,Y,C1,年份,490154896076716487921013311784147041646618320212802586434501471115940568498,29763309363840214694577365427451936010556113621314615952201822721634529,Y/C1,C1,Y,0.60720.60280.59960.56130.53390.56970.55520.50670.56840.57620.53390.50830.46240.42840.45810.5041,588587108816281441165129201762185429604584863712610122949093,33332938367310797699091909119680617842806423070347313,Y/C1,0.56630.56050.35200.41340.74880.46580.31131.0830.64510.27230.38920.32490.33540.57210.8042,由表中的比值可直观地看到，增量的线性关系弱于总量之间的线性关系。

进一步分析：

Y与C1之间的判定系数为0.9845,Y与C1之间的判定系数为0.7456,一般认为，两个变量之间的判定系数大于0.8时，两者之间存在线性关系。

（2）采用相对数变量,2、第二类方法：

改变解释变量的形式,例：

粮食生产模型粮食产量=f（农用化肥施用量，有效播种面积，农用机械总动力，农业劳动力）可改为：

粮食产量=f（农用化肥施用量/有效播种面积，有效播种面积，农用机械总动力/有效播种面积，农业劳动力）,3、第三类方法：

减小参数估计量的方差,多重共线性的主要后果是参数估计量具有较大的方差，所以，采取适当方法减小参数估计量的方差，虽然没有消除模型中的多重共线性，但确能消除多重共线性造成的后果。

例如：

增加样本容量，可使参数估计量的方差减小。

此外，获取新的样本，或许有助于消除多重共线性。

因为多重共线性是一个样本现象，在包括同样变量的另一个样本中，共线性程度或许会降低。

关键是能否获得另一个样本。

六、案例中国粮食生产函数,根据理论和经验分析，影响粮食生产（Y）的主要因素有：

农业化肥施用量（X1）；粮食播种面积（X2）成灾面积（X3）;农业机械总动力（X4）;农业劳动力（X5）,已知中国粮食生产的相关数据，建立中国粮食生产函数：

Y=0+1X1+2X2+3X3+4X4+4X5+,1、用OLS法估计模型：

R2接近于1；给定=5%，得F临界值F0.05（5,12）=3.11F=638.415.19，故上述粮食生产的总体线性关系显著成立。

但X4、X5的参数未通过t检验，且符号不正确，故解释变量间可能存在多重共线性。

（-0.91）（8.39）（3.32）（-2.81）（-1.45）（-0.14）,粮食生产Y；农业化肥施用量X1；粮食播种面积X2；成灾面积X3；农业机械总动力X4；农业劳动力X5,2、检验简单相关系数,发现：

X1与X4间存在高度相关性。

列出X1，X2，X3，X4，X5的相关系数矩阵：

粮食生产Y；农业化肥施用量X1；粮食播种面积X2；成灾面积X3；农业机械总动力X4；农业劳动力X5,3、选最基本的回归方程：

分别作Y与X1，X2，X3、X4，X5间的回归：

t=（25.58）（11.49）R2=0.8919F=132.1DW=1.56,t=（-0.49）（1.14）R2=0.075F=1.30DW=0.12,t=（17.45）（6.68）R2=0.7527F=48.7DW=1.11,t=（-1.04）（2.66）R2=0.3064F=7.07DW=0.36,粮食生产Y；农业化肥施用量X1；粮食播种面积X2；成灾面积X3；农业机械总动力X4；农业劳动力X5,应选第1个式子为初始的回归模型。

4、逐步回归：

将其他解释变量分别导入上述初始回归方程，寻找最佳回归方程。

5、结论：

回归方程以Y=f（X1，X2，X3）为最优：

粮食生产Y；农业化肥施用量X1；粮食播种面积X2；成灾面积X3；农业机械总动力X4；农业劳动力X5,

展开阅读全文