分享第四讲多重共线性.docx

上传人:b****0 文档编号:12546807 上传时间:2023-04-20 格式:DOCX 页数:24 大小:228.86KB
下载 相关 举报
分享第四讲多重共线性.docx_第1页
第1页 / 共24页
分享第四讲多重共线性.docx_第2页
第2页 / 共24页
分享第四讲多重共线性.docx_第3页
第3页 / 共24页
分享第四讲多重共线性.docx_第4页
第4页 / 共24页
分享第四讲多重共线性.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

分享第四讲多重共线性.docx

《分享第四讲多重共线性.docx》由会员分享,可在线阅读,更多相关《分享第四讲多重共线性.docx(24页珍藏版)》请在冰豆网上搜索。

分享第四讲多重共线性.docx

分享第四讲多重共线性

第五讲多重共线性

本讲分为两个部分:

第一部分是对相关性问题的研究,作为多重共线性问题的基础,第二部分则是对多重共线性问题展开讨论。

第一部分:

相关理论

1.相关理论

相关分析是研究变量间相互关系的最基本方法。

从相关分析中引出的相关系数是回归分析的一个基本统计量。

掌握它有助于对经济问题和经济计量模型的分析与理解。

1.1相关的定义与分类

定义:

相关(correlation)指两个或两个以上变量间相互关系的程度或强度。

分类:

①按强度分

完全相关:

变量间存在函数关系。

例,圆的周长,L=2πr。

高度相关(强相关):

变量间近似存在函数关系。

例,我国家庭收入与支出的关系。

弱相关:

变量间有关系但不明显。

例,近年来我国耕种面积与产量。

零相关:

变量间不存在任何关系。

例,某班学生的学习成绩与年龄。

完全相关高度相关、线性相关、正相关弱相关

②按变量个数分

按形式分:

线性相关,非线性相关

简单相关:

指两个变量间相关

按符号分:

正相关,负相关,零相关

复相关(多重相关和偏相关):

指三个或三个以上变量间的相关。

非线性相关负相关零相关

因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。

1.2简单线性相关的度量

用简单线性相关系数,简称相关系数(correlationcoefficient)度量两个变量间的线性相关强度,用表示。

的随机变量表达式是

=

的统计表达式是

=

=

其中T,总体容量;xt,yt,变量的观测值;x,y,变量观测值的均值。

下面解释为什么能对变量间的线性相关强度进行定量度量。

因为表达式的分子是协方差,Cov(xt,yt);分母是xi和yt的标准差之积。

而xt和yt的标准差不会为零,所以Cov(xt,yt)是否为零,就决定了是否为零,即标志着变量xt,yt间是否存在线性相关关系。

但Cov(xt,yt)有两个缺点:

①它是一个有量纲的量,取值容易受测量单位的影响;②取值范围宽,相关性越强,Cov(xt,yt)取值越大。

为克服上述缺点,用xt,yt的标准差除Cov(xt,yt),于是就得到相关系数的统计表达式。

它是一个无量纲量。

相关系数是对总体而言。

当研究某个问题时,所得数据常是一个样本。

对样本来说,相关系数常用r表示,即r是总体相关系数的估计值。

r=

=

=

其中T,样本容量;xt,yt,变量的观测值;

,变量观测值的均值。

11.3相关系数的取值范围

(1)当两个变量严格服从线性关系时,∣∣=1。

证:

设直线斜率为k,即y=a+kx。

则有

=

=

=1

(2)当两个变量不存在线性关系时,=0。

(3)上述是两种极端情形,所以相关系数的取值范围是[-1,1]。

当Cov(xt,yt)>0时,则>0(正相关);当Cov(xt,yt)<0时,则<0(负相关);若Cov(xt,yt)=0,则=0(零相关)。

为什么图1为正相关?

为什么图2为负相关?

用(xt–

)(yt–

)解释。

图1正相关图2负相关

例1:

散点图与相关系数

r=0.64r=0.99

1.4线性相关系数的局限性

(1)只适用于考察变量间的线性相关关系。

也就是说当=0时,只说明二变量间不存在线性相关关系,但不能保证不存在其它非线性相关关系。

所以变量不相关与变量相互独立在概念上是不同的。

(2)相关系数的计算是一个数学过程。

它只说明二变量间的相关强度,但不能揭示这种相关性的原因,不能揭示变量间关系的实质,即变量间是否真正存在内在联系,因果关系。

所以在计算r的同时,还要强调对实际问题的分析与理解。

(3)一般说二变量相关时,可能属于如下一种关系。

1单向因果关系。

如施肥量与农作物产量;对金属的加热时间与温度值。

2双向因果关系。

如工业生产与农业生产;商品供给量与商品价格。

  ③另有隐含因素影响二变量变化。

如市场上计算机销量与电视机销量呈正相关。

显然人均收入的增加是一个隐含因素。

  ④虚假相关。

如年国民生产总值与刑事案件数呈正相关。

显然二变量间不存在因果关系。

应属虚假相关。

中国和美国某个经济指标高度相关,显然这没有可比性,毫无意义。

(file:

correlation1)

1.5简单相关系数的检验

(1)直接检验(查相关系数临界值表)

H0:

=0;H1:

0

用xt和yt的样本计算相关系数r,以自由度f=T-2查临界值表。

检验规则是,

若r>r(T-2)(临界值),则xt和yt相关;

若r

(2)t检验

H0:

=0;H1:

0

t=

=

t(T-2)

其中2表示涉及两个变量。

若t>t(T-2),则xt和yt相关;

若t

附录:

相关系数临界值表

f

0.10

0.05

0.02

0.01

0.001

1

0.98769

0.99692

0.999507

0.999877

0.9999988

2

0.90000

0.95000

0.98000

0.99000

0.99900

3

0.8054

0.8783

0.93433

0.95873

0.99116

4

0.7293

0.8114

0.8822

0.91720

0.97406

5

0.6694

0.7545

0.8329

0.8745

0.95074

6

0.6215

0.7067

0.7887

0.8343

0.92493

7

0.5822

0.6664

0.7498

0.7977

0.8982

8

0.5494

0.6319

0.7155

0.7646

0.8721

9

0.5214

0.6021

0.6851

0.7348

0.8471

10

0.4933

0.5760

0.6581

0.7079

0.8233

11

0.4762

0.5529

0.6339

0.6835

0.8010

12

0.4575

0.5324

0.6120

0.6614

0.7800

13

0.4409

0.5139

0.5923

0.6411

0.7603

14

0.4259

0.4973

0.5742

0.6226

0.7420

15

0.4124

0.4821

0.5577

0.6055

0.7246

16

0.4000

0.4683

0.5425

0.5897

0.7084

17

0.3887

0.4555

0.5285

0.5751

0.6932

18

0.3783

0.4438

0.5155

0.5614

0.6787

19

0.3687

0.4329

0.5034

0.5487

0.6652

20

0.3598

0.4227

0.4921

0.5368

0.6524

25

0.3233

0.3809

0.4451

0.4869

0.5974

30

0.2960

0.3494

0.4093

0.4487

0.5541

35

0.2746

0.3246

0.3810

0.4182

0.5189

40

0.2573

0.3044

0.3578

0.3932

0.4896

45

0.2428

0.2875

0.3384

0.3721

0.4648

50

0.2306

0.2732

0.3218

0.3541

0.4433

60

0.2108

0.2500

0.2948

0.3248

0.4078

70

0.1954

0.2319

0.2737

0.3017

0.3799

80

0.1829

0.2172

0.2565

0.2830

0.3568

90

0.1726

0.2050

0.2422

0.2673

0.3375

100

0.1638

0.1946

0.2301

0.2540

0.3211

注:

P{r>r(f)}=,其中表示显著性水平,f表示自由度,r(f)为临界值。

1.6偏相关系数

以上介绍了简单线性相关系数,但是当两个变量xt,yt同时受其它变量z1t,z2t,…,影响时,有必要研究当控制其它变量z1t,z2t,…,不变时,该两个变量xt,yt之间的相关关系。

称这种相关关系为偏相关关系。

以3个变量xt,yt,zt,为例(多于3个变量的情形与此相似。

),假定控制zt不变,测度xt,yt偏相关关系的偏相关系数定义如下。

=控制zt不变条件下的xt,yt的简单相关系数。

因为zt也是随机变量,一般不容易得到控制zt为一个常数条件下的xt和yt的值。

实际计算方法是,从xt,yt中分别剔除zt的影响,然后计算相关系数。

步骤如下:

(1)求xt对zt的回归估计式,

xt=

+

zt+

计算残差,

=xt-

-

zt

中不再含有zt对xt的影响。

(2)求yt对zt的回归估计式,

yt=

+

zt+

计算残差,

=yt-

-

zt

中不再含有zt对yt的影响。

的简单相关系数就是xt与yt在剔除zt的影响后的偏相关系数,即

=

例2中央支出与地方支出的偏相关系数

obs

财政收入(INCOME)

中央支出(X1)

地方支出(X2)

1981

1089.5

602.2

512.8

1982

1124

575.1

578.2

1983

1249

642.5

649.9

1984

1501.9

738.7

807.7

1985

1866.4

836.5

1008.2

1986

2260.3

962.3

1368.6

1987

2368.9

1031.9

1416.6

1988

2628

1060.4

1646.2

1989

2947

1105.2

1935

1990

3312.6

1372.8

2079.4

1991

3610.9

1517.7

2295.8

1992

4153.1

1817.9

2571.8

1993

5088.2

1957.2

3330.2

r=0.9898r=0.9984

x1=170.90+0.3614income+RES1x2=-221.49+0.6952income+RES2

(3.9)(23.1)(-6.6)(58.6)

r=0.99r=-0.85

相关系数的EViews操作。

打开数据窗口。

选View/Correlation

得相关系数矩阵如下。

第二部分:

多重共线性

“多重共线性”一词由R.Frisch1934年提出,它原指模型的解释变量间存在线性关系。

1.非多重共线性假定

  rk(X'X)=rk(X)=k

解释变量不是完全线性相关的或接近完全线性相关的。

rxixj1,rxixj不近似等于1。

就模型中解释变量的关系而言,有三种可能。

(1)rxixj=0,解释变量间毫无线性关系,变量间相互正交。

这时已不需要多重回归,每个参数j都可以通过y对xj的一元回归来估计。

(2)rxixj=1,解释变量间完全共线性。

此时模型参数将无法确定。

直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。

(3)0

实际中常遇到的是这种情形。

随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。

因此我们关心的不是有无多重共线性,而是多重共线性的程度。

2.多重共线性的经济解释

(1)经济变量在时间上有共同变化的趋势。

如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。

当这些变量同时进入模型后就会带来多重共线性问题。

(2)解释变量与其滞后变量同作解释变量。

3.多重共线性的后果

(1)当rxixj=1,X为降秩矩阵,则(X'X)-1不存在,

=(X'X)-1X'Y不可计算。

(2)若rxixj1,即使rxixj1,

仍具有无偏性。

E(

)=E[(X'X)-1X'Y]=E[(X'X)-1X'(X+u)]=+(X'X)-1X'E(u)

=.

(3)当rxixj1时,X'X接近降秩矩阵,即X'X0,Var(

)=2(X'X)-1变得很大。

所以

丧失有效性。

以二解释变量线性模型为例,当rxixj=0.8时,Var(

)为rxixj=0时的2.78倍。

当rxixj=0.95时,Var(

)为rxixj=0时的10.26倍。

4.多重共线性的检验

(1)初步观察。

当模型的拟合优度(R2)很高,F值很高,而每个回归参数估计值的方差Var(j)又非常大(即t值很低)时,说明解释变量间可能存在多重共线性。

(2)Klein判别法。

计算多重可决系数R2及解释变量间的简单相关系数rxixj。

若有某个

rxixj>R2,则xi,xj间的多重共线性是有害的。

(3)此外还有其他一些检验方法,如主成分分析法等,很复杂。

5.多重共线性的克服方法

5.1直接合并解释变量

当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。

如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。

甚至还可以与农业总产值合并,变为工农业总产值。

解释变量变成了一个,自然消除了多重共线性。

5.2利用已知信息合并解释变量

通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。

比如有二元回归模型

yt=0+1xt1+2xt2+ut(7.20)

x1与x2间存在多重共线性。

如果依据经济理论或对实际问题的深入调查研究,能给出回归系数1与2的某种关系,例如

2=1(7.21)

其中为常数。

把上式代入模型(7.20),得

yt=0+1xt1+1xt2+ut=0+1(xt1+xt2)+ut(7.22)

xt=xt1+xt2

yt=0+1xt+ut(7.23)

模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。

用普通最小二乘法估计模型(7.23),得到

,然后再利用(7.21)式求出

下面以道格拉斯(Douglass)生产函数为例,做进一步说明。

Yt=KLtCteut(7.24)

其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。

两侧取自然对数后,

LnYt=LnKt+LnLt+LnCt+ut(7.25)

因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使无法求出,的精确估计值。

假如已知所研究的对象属于规模报酬不变型,即得到一个条件

+=1

利用这一关系把模型(7.25)变为

LnYt=LnKt+LnLt+(1-)LnCt+ut

整理后,

Ln(

)=LnKt+Ln(

)+ut(7.26)

变成了Ln(Yt/Ct)对Ln(Lt/Ct)的一元线性回归模型,自然消除了多重共线性。

估计出后,再利用关系式+=1,估计。

5.3增加样本容量或重新抽取样本

这种方法主要适用于那些由测量误差而引起的多重共线性。

当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。

另外,增加样本容量也可以减弱多重共线性的程度。

5.4合并截面数据与时间序列数据

这种方法属于约束最小二乘法(RLS)。

其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。

下面通过一个例子具体介绍合并数据法。

设有某种商品的销售量模型如下,

LnYt=0+1LnPt+2LnIt+ut(7.29)

其中Yt表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。

在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型(7.29)的回归系数时,会遇到多重共线性问题。

首先利用截面数据估计收入弹性系数2。

因为在截面数据中,平均价格是一个常量,所以不存在对1的估计问题。

把用截面数据得到的收入弹性系数估计值

代入原模型(7.29)。

LnYt=0+1LnPt+

LnIt+ut

移项整理

LnYt-

LnIt=0+1LnPt+ut

变换后的因变量(LnYt-

LnIt)用Zt表示,则

Zt=0+1LnPt+ut(7.30)

这时已排除收入变量的影响。

模型已变换为一元线性回归模型。

利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出

这样便求到相对于模型(7.29)的估计式,

=

+

LnPt+

LnIt

其中

是用截面数据估计的,

是由时间序列数据估计的。

由于把估计过程分作两步,从而避免了多重共线性问题。

显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的

相同。

当这种假设不成立时,这种估计方法会带来估计误差。

5.5逐步回归法

(1)用被解释变量对每一个所考虑的解释变量做简单回归。

并给解释变量的重要性按可决系数大小排序。

(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。

这个过程会出现3种情形。

①若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。

②若新变量的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。

③若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。

舍弃该变量。

案例1:

关于中国电信业务总量的计量经济模型(file:

coline2)

经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。

用1991-1999年数据建立中国电信业务总量计量经济模型如下,

Lny=24.94+2.16x1–3.03x2+33.7x3+1.29x4-2.03x5

(0.7)(1.6)(-0.8)(1.0)(1.5)(-1.2)

R2=0.99,F=106.3,DW=3.4,T=9,(1991-1999),t0.05(3)=3.18,

R2=0.99,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。

表1变量y,x1,x2,x3,x4,x5的数据

电信业务总量

y

邮政业务总量

x1

中国人口数

x2

市镇人口比重

x3

人均GDP

x4

人均消费水平

x5

1991

1.5163

0.5275

11.5823

0.2637

1.879

0.896

1992

2.2657

0.6367

11.7171

0.2763

2.287

1.070

1993

3.8245

0.8026

11.8517

0.2814

2.939

1.331

1994

5.9230

0.9589

11.9850

0.2862

3.923

1.746

1995

8.7551

1.1334

12.1121

0.2904

4.854

2.236

1996

12.0875

1.3329

12.2389

0.2937

5.576

2.641

1997

12.6895

1.4434

12.3626

0.2992

6.053

2.834

1998

22.6494

1.6628

12.4810

0.3040

6.307

2.972

1999

31.3238

1.9844

12.5909

0.3089

6.534

3.143

资料来源:

《中国统计年鉴》2000

下面用Klein判别法进行分析。

首先给出解释变量间的简单相关系数矩阵。

因为其中有一个简单相关系数大于R2=0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。

Ln(y)

X1

X2

X3

X4

X5

Ln(y)

1.0000

x1

0.9833

1.0000

x2

0.9938

0.9895

1.0000

x3

0.9875

0.9700

0.9882

1.0000

x4

0.9820

0.9628

0.9872

0.9678

1.0000

x5

0.9815

0.9703

0.9888

0.9654

0.9986

1.0000

用逐步回归法筛选解释变量。

(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的重要程度,为解释变量排序。

Lny=-0.34+206x1

(-2.1)(14.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 自然景观

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1