计量经济学第七章多重共线性.docx
《计量经济学第七章多重共线性.docx》由会员分享,可在线阅读,更多相关《计量经济学第七章多重共线性.docx(20页珍藏版)》请在冰豆网上搜索。
计量经济学第七章多重共线性
第七章多重共线性
“多重共线性”一词由R.Frisch1934年提出,它原指模型的说明变量间存在线性关系。
多重共线性及产生的缘故
7.1.1.非多重共线性假定
如果rk(X'X)=rk(X)<k或
称说明变量是完全共线性相关。
在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情形都是极少的,大多数情形是说明变量存在不完全的多重共线性,或近似的多重共线性,可一表示为:
7.1.2.多重共线性的经济说明
(1)经济变量在时刻上有一起转变的趋势。
如在经济上升时期,收入、消费、就业率等都增加,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
(2)说明变量与其滞后变量同作说明变量。
滞后变量与缘故变量在经济意义上没有本质区别,只是时刻上的不同,缘故变量与说明变量有相关关系,滞后变量也会有相关关系。
(见以下图)
(3)说明变量之间往往存在紧密的关联度。
对同一经济现象的说明变量,往往存在紧密的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。
.多重共线性的后果
(1)当
,X为降秩矩阵,那么(X'X)-1不存在,
=(X'X)-1X'Y不可计算。
(2)假设
,
=(X'X)-1X'Y,能够计算,
仍具有线性、无偏性和最小方差性。
如:
E(
)=E[(X'X)-1X'Y]=E[(X'X)-1X'(Xβ+u)]=β+(X'X)-1X'E(u)=β.
但
中的对角元素值将专门大。
即各共线变量的参数的OLS估量值的方差专门大,即估量值的精度很低。
能够证明,参数的方差为:
其中,
是第i个说明变量对其他说明变量辅助回归模型的决定系数,
称为方差膨胀因子,记为VIFi,
当xi与其他说明变量存在严峻多重共线性时,即
→1,VIF将趋近于无穷。
反之,相反。
(3)可能致使在假设查验中舍去重要的说明变量,查验的靠得住性降低。
当|X'X|→0,Var(
)=σ2(X'X)-1变得专门大。
统计很小,有可能发生弃真误差。
(4)回归模型缺乏稳固性
从同一整体中抽不一样本估量模型,取得的参数估量值如相差不大,说明模型稳固。
当存在多重线性时,估量值极不稳固,样本的轻微转变,就有可能靠成参数估量值专门大转变,因此成立的回归模型的靠得住性降低。
.多重共线性的查验
7.3.1初步观看。
(1)当模型的拟合优度(R2)很高,F值很高,而每一个回归参数估量值的方差Var(βj)又超级大(即t值很低)时,说明说明变量间可能存在多重共线性。
(2)Klein判别法。
计算多重可决系数R2及说明变量间的简单相关系数rxixj。
假设有某个
|rxixj|>R2,那么xi,xj间的多重共线性是有害的。
(3)回归参数估量值的符号若是不符合经济理论,模型有可能存在多重共线性。
(4)增加或减少说明变量个数时,回归参数估量值转变专门大,说明模型有可能存在多重共线性。
7.3.2辅助回归模型查验
将每一个说明变量对其它说明变量进行回归:
查验拟合优度与F统计量是不是显著。
7.3.3方差膨胀因子查验
一样地
大于5或大于10(现在,
大于或)能够以为存在较严峻的多重共线性。
7.3.4特点值查验
样本数据阵为:
,当存在多重共线性时,rk(X'X)=rk(X)<k或
,当
,假设
为矩阵的特点值,那么有:
,这说明至少有一个特点值近似地等于0.
构造查验指标:
条件指标(病态指标)CN和病态指标CI,概念CN=最大特点值/最小特点值:
CI=
。
一样查验法那么是:
CI大于10以为存在多重共线性,大于30以为存在严峻多重共线线。
另外还有其他一些查验方式,如主成份分析法等,很复杂。
例:
P233略:
.多重共线性的克服方式
7.4.1直接归并说明变量
当模型中存在多重共线性时,在不失去实际意义的前提下,能够把有关的说明变量直接归并,从而降低或排除多重共线性。
若是研究的目的是预测全国货运量,那么能够把重工业总产值和轻工业总产值归并为工业总产值,从而使模型中的说明变量个数减少到两个以排除多重共线性。
乃至还能够与农业总产值归并,变成工农业总产值。
说明变量变成了一个,自然排除多重共线性。
7.4.2利用已知信息归并说明变量
通过经济理论及对实际问题的深刻明白得,对发生多重共线性的说明变量引入附加条件从而减弱或排除多重共线性。
比如有二元回归模型
yt=β0+β1xt1+β2xt2+ut
x1与x2间存在多重共线性。
若是依据经济理论或对实际问题的深切调查研究,能给出回归系数β1与β2的某种关系,例如
β2=λβ1
其中λ为常数。
把上式代入模型(),得
yt=β0+β1xt1+λβ1xt2+ut=β0+β1(xt1+λxt2)+ut
令
xt=xt1+λxt2
得
yt=β0+β1xt+ut
模型()是一元线性回归模型,因此再也不有多重共线性问题。
用一般最小二乘法估量模型(),取得
,然后再利用()式求出
。
下面以道格拉斯(Douglass)生产函数为例,做进一步说明。
Yt=KLtαCtβeut
其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。
双侧取自然对数后,
LnYt=LnKt+αLnLt+βLnCt+ut
因为劳动力(Lt)与资本(Ct)常常是高度相关的,因此LnLt与LnCt也高度相关,致使无法求出α,β的精准估量值。
假设已知所研究的对象属于规模报酬不变型,即取得一个条件
α+β=1
利用这一关系把模型()变成
LnYt=LnKt+αLnLt+(1-α)LnCt+ut
整理后,
Ln(
)=LnKt+αLn(
)+ut
变成了Ln(Yt/Ct)对Ln(Lt/Ct)的一元线性回归模型,自然排除多重共线性。
估量出α后,再利用关系式α+β=1,估量β。
7.4.3增加样本容量或从头抽取样本
这种方式要紧适用于那些由测量误差而引发的多重共线性。
当从头抽取样本时,克服了测量误差,自然也排除多重共线性。
另外,增加样本容量也能够减弱多重共线性的程度。
7.4.4归并截面数据与时刻序列数据
这种方式属于约束最小二乘法(RLS)。
其大体思想是,先由截面数据求出一个或多个回归系数的估量值,再把它们代入原模型中,通过用因变量与上述估量值所对应的说明变量相减从而取得新的因变量,然后成立新因变量对那些保留说明变量的回归模型,并利历时刻序列样本估量回归系数。
下面通过一个例子具体介绍归并数据法。
设有某种商品的销售量Yt模型如下,
LnYt=β0+β1LnPt+β2LnIt+ut
其中Yt表示销售量,Pt表示平均价钱,It表示消费者收入,下标t表示时刻。
在时刻序列数据中,价钱Pt与收入It一样高度相关,因此当用一般最小二乘法估量模型()的回归系数时,会碰到多重共线性问题。
第一利用截面数据估量收入弹性系数β2。
因为在截面数据中,平均价钱是一个常量,因此不存在对β1的估量问题。
把用截面数据取得的收入弹性系数估量值
代入原模型()。
得
LnYt=β0+β1LnPt+
LnIt+ut
移项整理
LnYt-
LnIt=β0+β1LnPt+ut
变换后的因变量(LnYt-
LnIt)用Zt表示,那么
Zt=β0+β1LnPt+ut
这时已排除收入变量的阻碍。
模型已变换为一元线性回归模型。
利历时刻序列数据对模型()作一般最小二乘(OLS)估量,求出
。
如此便求到相关于模型()的估量式,
=
+
LnPt+
LnIt
其中
是用截面数据估量的,
是由时刻序列数据估量的。
由于把估量进程分作两步,从而幸免了多重共线性问题。
显然这种估量方式默许了一种假设,即相关于时刻序列数据各个时期截面数据所对应的收入弹性系数估量值都与第一步求到的
相同。
当这种假设不成立时,这种估量方式会带来估量误差。
..5慢慢回归法
(1)用被说明变量对每一个所考虑的说明变量做简单回归。
并给说明变量的重要性按可决系数大小排序。
(2)以对被说明变量奉献最大的说明变量所对应的回归方程为基础,按说明变量重要性大小为顺序逐个引入其余的说明变量。
那个进程会显现3种情形。
①假设新变量的引入改良了R2,且回归参数的t查验在统计上也是显著的,那么该变量在模型中予以保留。
②假设新变量的引入未能改良R2,且对其他回归参数估量值的t查验也未带来什么阻碍,那么以为该变量是多余的,应该舍弃。
③假设新变量的引入未能改良R2,且显著地阻碍了其他回归参数估量值的符号与数值,同时本身的回归参数也通只是t查验,这说明显现了严峻的多重共线性。
舍弃该变量。
7.4.6主成份回归:
略
例:
P240略
案例1:
关于中国电信业务总量的计量经济模型(file:
coline2)
经初步分析,以为阻碍中国电信业务总量转变的要紧因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。
用1991-1999年数据成立中国电信业务总量计量经济模型如下,
Lny=+x1–x2+x3+x4-x5
R2=,F=,DW=,T=9,(1991-1999),(3)=,
R2=,而每一个回归参数的t查验在统计上都不显著,这说明模型中存在严峻的多重共线性。
下面用Klein判别法进行分析。
第一给出说明变量间的简单相关系数矩阵。
因为其中有一个简单相关系数大于R2=,因此依照Klein判别法,模型中存在严峻的多重共线性。
Ln(y)
X1
X2
X3
X4
X5
Ln(y)
x1
x2
x3
x4
x5
用慢慢回归法挑选说明变量。
(1)用每一个说明变量别离对被说明变量做简单回归,以可决系数为标准确信说明变量的重要程度,为说明变量排序。
Lny=-+x1
(-R2=,F=204,T=9
Lny=-+x2
(-R2=,F=555,T=9
Lny=-+x3
(-R2=,F=,T=9
Lny=-+x4
(-R2=,F=,T=9
Lny=-+x5
(-R2=,F=,T=9
之因此取半对数模型,是因为y与x1,x3,x4,x5别离呈指数关系。
说明变量的重要程度依次为x2,x3,x1,x4,x5。
(2)以Lny=--291x2为基础,依次引入x3,x1,x4,x5。
第一把x3引入模型,
Lny=-+x2+x3
(-R2=,F=,T=9
因为x3的引入使各回归系数的t值下降,同时x3的系数也未通过t查验,因此应剔除x3。
接着把x1引入模型,
Lny=-+x2–x1
(-R2=,F=,T=9
同理剔除x1引入x4
Lny=-+x2+x4
(-R2=,F=,T=9
同理剔除x4引入x5
Lny=-+x2-x5
(-R2=,F=,T=9
同理剔除x5,最后确信的模型是
Lny=-+x2
(-R2=,F=555,T=9
或用说明变量之间相关系数值最小的x1和x4同做说明变量与Lny回归,得
Lny=-+x1+x4
(-R2=,F=184,T=9
用EViews求相关系数矩阵
(1)点击Quick键并依次选择GroupStatistics,Correlations,将显现一个要求填写序列名的对话框(SeriesList),填好序列名后按OK。
(2)在Workfile窗口顶用鼠标选中序列名,点击Show键,OK键,从而打开数据组(Group)窗口。
在数据组窗口点击View键选择Correlations。
)
表1变量y,x1,x2,x3,x4,x5的数据
年
电信业务总量
y
邮政业务总量
x1
中国人口数
x2
市镇人口比重
x3
人均GDP
x4
人均消费水平
x5
1991
1992
1993
1994
1995
1996
1997
1998
1999
资料来源:
《中国统计年鉴》2000
案例2:
(file:
B1E4)1998年农村居民食物支出(处置多重共线性)
1998年31省市自治区农村居民人均年食物支出(food,元)、人均年总支出(EX,元)和人均年可支配收入(IN,元)
见散点图2,food与IN是正相关的(),但估量结果回归系数确是负的。
显然与事实不符、与经济理论不符。
缘故是EX和IN之间的多重共线性(高度相关)所致。
从下表能够看出都r(EX,IN)=大于可决系数。
按克莱茵判别准那么模型存在严峻的多重共线性。
图1图2
另外,若是用food只对IN回归,回归系数是正的。
与上述二元回归结果中的IN的回归系数相较,符号都是反的。
这也说明上述二元回归结果中存在多重共线性。
Foodt=+Int
R2=,F=110,T=31
处置方式是用food只对EX回归。
成效专门好。
obs
FOOD
EX
IN
1
2
3
4
5
6
7
8
9
10
11
12
13
14
2048
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
资料来源:
《中国统计年鉴》1989。
案例3:
(file:
nonli14)中国私人轿车拥有量决定因素分析(多重共线性特点)
1985-2002年中国私人轿车拥有量以年增加率23%,年均增加55万辆的速度飞速增加。
考虑到目前农村家庭购买私人轿车的现象还很少,在成立中国私人轿车拥有量模型时,要紧考虑如下因素:
(1)城镇居民家庭人都可支配收入;
(2)城镇总人口;(3)轿车产量;(4)公路交通完善程度;(5)轿车价钱。
“城镇居民家庭人都可支配收入”、“城镇总人口数”和“轿车产量”能够直接从统计年鉴上取得。
“公路交通完善程度”用全国公路里程气宇,也能够从统计年鉴上取得。
由于国产轿车价钱与入口轿车价钱差距较大,而且轿车种类很多,做分种类的轿车销售价钱与销售量统计超级困难,因此因素“轿车价钱”暂且略去不用。
概念变量名如下:
Y:
中国私人轿车拥有量(万辆)
X1:
城镇居民家庭人都可支配收入(元),
X2:
全国城镇人口(亿人)
X3:
全国汽车产量(万辆)
X4;全国公路长度(万千米)
看相关系数阵,Y与X1,X2,X3,X4的相关系数都在以上,但输出结果中,说明变量X1,X2,X3的回归系数却通只是显著性查验。
这预示着说明变量之间必然存在多重共线性。
看散点图,把Y与X2,X3处置成线性关系,把Y与X1,X2处置成幂函数(抛物线)关系,得结果如下,
每一个变量都具有很高的显著性。
拟合优度也提高了,没有异方差也没有自相关。
年
Y
X1
X2
X3
X4
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
4283
1996
1997
1998
163
1999
5854
2000
6280
207
2001
2002
数据来源:
《中国统计年鉴》,中国统计出版社,1986-2003。