第9讲自相关检验.docx

资源描述

第9讲自相关检验.docx

《第9讲自相关检验.docx》由会员分享，可在线阅读，更多相关《第9讲自相关检验.docx（20页珍藏版）》请在冰豆网上搜索。

第9讲自相关检验.docx

第9讲自相关检验

9.1非自相关假定

由第2章知回归模型的假定条件之一是，

Cov（ui,uj）=E（uiuj）=0,（i,j∈T,i≠j）,（9.1）

即误差项ut的取值在时间上是相互无关的。

称误差项ut非自相关。

如果

Cov（ui,uj）≠0,（i≠j）

则称误差项ut存在自相关。

自相关又称序列相关。

原指一随机变量在时间上与其滞后项之间的相关。

这里主要是指回归模型中随机误差项ut与其滞后项的相关关系。

自相关也是相关关系的一种。

9.2一阶自相关

通常假定误差项的自相关是线性的。

因计量经济模型中自相关的最常见形式是一阶自回归形式，所以下面重点讨论误差项的线性一阶自回归形式，即

ut=α1ut-1+vt（9.2）

其中α1是自回归系数，vt是随机误差项。

vt满足通常假设。

依据普通最小二乘法公式，模型（9.2）中α1的估计公式是，

（

）（9.3）

其中T是样本容量。

若把ut,ut-1看作两个变量，则它们的相关系数是

（r=

）（9.4）

对于大样本显然有

≈

（9.5）

把上关系式代入（9.4）式得

≈

（9.6）

因而对于总体参数有ρ=α1，即一阶自回归形式的自回归系数等于该二个变量的相关系数。

因此原回归模型中误差项ut的一阶自回归形式（见模型（9.2））可表示为，

ut=ρut-1+vt.（9.7）

ρ的取值范围是[-1，1]。

当ρ>0时，称ut存在正自相关；当ρ<0时，称ut存在负自相关。

当ρ=0时，称ut不存在自相关。

图9.1a,c,e,分别给出具有正自相关，负自相关和非自相关的三个序列。

为便于理解时间序列的正负自相关特征，图9.1b,d,f,分别给出图9.1a,c,e,中变量对其一阶滞后变量的散点图。

正负自相关以及非自相关性展现的更为明了。

a.非自相关的序列图b.非自相关的散点图

c.正自相关的序列图d.正自相关的散点图

e.负自相关的序列图f.负自相关的散点图

图9.1时间序列及其自相关散点图

可以证明当回归模型的误差项ut存在一阶自回归形式时，Cov（ui,uj）≠0。

同理也可证明当ut存在高阶自回归形式时，仍有Cov（ui,uj）≠0。

注意：

（1）经济问题中的自相关主要表现为正自相关。

（2）自相关多发生于时间序列数据中。

9.3自相关的来源与后果

误差项存在自相关，主要有如下几个原因。

（1）模型的数学形式不妥。

若所用的数学模型与变量间的真实关系不一致，误差项常表现出自相关。

比如平均成本与产量呈抛物线关系，当用线性回归模型拟合时，误差项必存在自相关。

图9.2

（2）惯性。

大多数经济时间序列都存在自相关。

其本期值往往受滞后值影响。

突出特征就是惯性与低灵敏度。

如国民生产总值，固定资产投资，国民消费，物价指数等随时间缓慢地变化，从而建立模型时导致误差项自相关。

（3）回归模型中略去了带有自相关的重要解释变量。

若丢掉了应该列入模型的带有自相关的重要解释变量，那么它的影响必然归并到误差项ut中，从而使误差项呈现自相关。

当然略去多个带有自相关的解释变量，也许因互相抵消并不使误差项呈现自相关。

当误差项ut存在自相关时，模型参数的最小二乘估计量仍具有无偏性，但不具有有效性。

（3）有可能低估误差项ut的方差。

低估回归参数估计量的方差，等于夸大了回归参数的抽样精度（t=

），过高的估计统计量t的值，从而把不重要的解释变量保留在模型里，使显著性检验失去意义。

9.4自相关检验

下面介绍三种判别与检验方法。

（1）图示法

图示法就是依据残差

对时间t的序列图作出判断。

由于残差

是对误差项ut的估计，所以尽管误差项ut观测不到，但可以通过

的变化判断ut是否存在自相关。

图示法的具体步骤是，

（1）用给定的样本估计回归模型，计算残差

（t=1,2,…T），绘制残差图；

（2）分析残差图。

若残差图与图9.1a类似，则说明ut不存在自相关；若与图9.1c类似，则说明ut存在正自相关；若与图9.1e类似，则说明ut存在负自相关。

经济变量由于存在惯性，不可能表现出如图9.1e那样的震荡式变化。

其变化形式常与图9.1中a相类似，所以经济变量的变化常表现为正自相关。

（2）DW（Durbin-Watson）检验法

DW检验是J.Durbin,G.S.Watson于1950，1951年提出的。

它是利用残差

构成的统计量推断误差项ut是否存在自相关。

使用DW检验，应首先满足如下三个条件。

（1）误差项ut的自相关为一阶自回归形式。

（2）因变量的滞后值yt-1不能在回归模型中作解释变量。

（3）样本容量应充分大（T>15）

DW检验步骤如下。

给出假设

H0:

ρ=0（ut不存在自相关）

H1:

ρ≠0（ut存在一阶自相关）

用残差值

计算统计量DW。

DW=

（9.8）

其中分子是残差的一阶差分平方和，分母是残差平方和。

把上式展开，

DW=

（9.9）

因为有

≈

（9.10）

代入（9.9）式，

DW≈

=2（1-

）=2（1-

）.（9.11）

因为ρ的取值范围是[-1,1]，所以DW统计量的取值范围是[0,4]。

ρ与DW值的对应关系见表9.1。

表9.1ρ与DW值的对应关系及意义

ut的表现

ρ=0

DW=2

ut非自相关

ρ=1

DW=0

ut完全正自相关

ρ=-1

DW=4

ut完全负自相关

0<ρ<1

ut有某种程度的正自相关

-1<ρ<0

ut有某种程度的负自相关

实际中DW=0,2,4的情形是很少见的。

当DW取值在（0,2），（2,4）之间时，怎样判别误差项ut是否存在自相关呢？

推导统计量DW的精确抽样分布是困难的，因为DW是依据残差

计算的，而

的值又与xt的形式有关。

DW检验与其它统计检验不同，它没有唯一的临界值用来制定判别规则。

然而Durbin-Watson根据样本容量和被估参数个数，在给定的显著性水平下，给出了检验用的上、下两个临界值dU和dL。

判别规则如下：

拒絕H0不確定區接受H0區不確定區拒絕H0

0dLdU4-dU4-dL4

图9.3

（1）若DW取值在（0,dL）之间，拒绝原假设H0,认为ut存在一阶正自相关。

（2）若DW取值在（4-dL,4）之间，拒绝原假设H0,认为ut存在一阶负自相关。

（3）若DW取值在（dU,4-dU）之间，接受原假设H0,认为ut非自相关。

（4）若DW取值在（dL,dU）或（４-dU,4-dL）之间，这种检验没有结论，即不能判别

ut是否存在一阶自相关。

判别规则可用图9.3表示。

当DW值落在“不确定”区域时，有两种处理方法。

①加大样本容量或重新选取样本，重作DW检验。

有时DW值会离开不确定区。

②选用其它检验方法。

DW检验表4给出DW检验临界值。

DW检验临界值与三个参数有关。

①检验水平α，②样本容量T,③原回归模型中解释变量个数k（不包括常数项）。

注意：

①因为DW统计量是以解释变量非随机为条件得出的，所以当有滞后的内生变量作解释变量时，DW检验无效。

②不适用于联立方程模型中各方程的序列自相关检验。

③DW统计量不适用于对高阶自相关的检验。

（3）LM检验（亦称BG检验）法

DW统计量只适用于一阶自相关检验，而对于高阶自相关检验并不适用。

利用BG统计量可建立一个适用性更强的自相关检验方法，既可检验一阶自相关，也可检验高阶自相关。

BG检验由Breusch-Godfrey提出。

BG检验是通过一个辅助回归式完成的，具体步骤如下。

对于多元回归模型

yt=β0+β1x1t+β2x2t+…+βk–1xk-1t+ut（9.12）

考虑误差项为n阶自回归形式

ut=ρ1ut-1+…+ρnut-n+vt（9.13）

其中vt为随机项，符合各种假定条件。

零假设为

H0:

ρ1=ρ2=…=ρn=0

这表明ut不存在n阶自相关。

用估计（9.12）式得到的残差建立辅助回归式，

+…+

+β0+β1x1t+β2x2t+…+βk–1xk-1t+vt（9.14）

上式中的

是（9.12）式中ut的估计值。

估计上式，并计算可决系数R2。

构造LM统计量，

LM=TR2（9.15）

其中T表示（9.12）式的样本容量。

R2为（9.14）式的可决系数。

在零假设成立条件下，LM统计量渐近服从χ2（n）分布。

其中n为（9.13）式中自回归阶数。

如果零假设成立，LM统计量的值将很小，小于临界值。

判别规则是，若LM=TR2≤χ2（n），接受H0；

若LM=TR2>χ2（n），拒绝H0；

（4）直接拟合检验法

回归检验法的优点是，

（1）适合于任何形式的自相关检验，

（2）若结论是存在自相关，则同时能提供出自相关的具体形式与参数的估计值。

缺点是计算量大。

回归检验法的步骤如下：

①用给定样本估计模型并计算残差

。

②对残差序列

（t=1,2,…,T）用普通最小二乘法进行不同形式的回归拟合。

如

=ρ

–1+vt

=ρ1

–1+ρ2

–2+vt

=ρ

-12+vt

=ρ

+vt

…

（3）对上述各种拟合形式进行显著性检验，从而确定误差项ut存在哪一种形式的自相关。

9.5克服自相关

如果模型的误差项存在自相关，首先应分析产生自相关的原因。

如果自相关是由于错误地设定模型的数学形式所致，那么就应当修改模型的数学形式。

怎样查明自相关是由于模型数学形式不妥造成的？

一种方法是用残差

对解释变量的较高次幂进行回归，然后对新的残差作DW检验，如果此时自相关消失，则说明模型的数学形式不妥。

如果自相关是由于模型中省略了重要解释变量造成的，那么解决办法就是找出略去的解释变量，把它做为重要解释变量列入模型。

怎样查明自相关是由于略去重要解释变量引起的？

一种方法是用残差

对那些可能影响因变量但又未列入模型的解释变量回归，并作显著性检验，从而确定该解释变量的重要性。

如果是重要解释变量，应该列入模型。

只有当以上两种引起自相关的原因都消除后，才能认为误差项ut“真正”存在自相关。

在这种情况下，解决办法是变换原回归模型，使变换后的随机误差项消除自相关，进而利用普通最小二乘法估计回归参数。

这种变换方法称作广义最小二乘法。

下面介绍这种方法。

设原回归模型是

yt=β0+β1x1t+β2x2t+…+βkxkt+ut（t=1,2,…,T）（9.16）

其中ut具有一阶自回归形式

ut=ρut-1+vt

其中vt满足通常的假定条件，把上式代入（9.16）式，

yt=β0+β1x1t+β2x2t+…+β0xkt+ρut-1+vt

求模型（9.16）的（t-1）期关系式，并在两侧同乘ρ，

ρyt-1=ρβ0+ρβ1x1t-1+ρβ2x2t-1+…+ρβkxkt-1+ρut-1

用（9.16）式与上式相减得

yt-ρyt-1=β0（1-ρ）+β1（x1t-ρx1t-1）+…+βk（xkt-ρxkt-1）+vt（9.17）

令

yt*=yt-ρyt-1,

xjt*=xjt-ρxjt-1,j=1,2,…k

β0*=β0（1-ρ）,

则模型（9.17）表示如下，

yt*=β0*+β1x1t*+β2x2t*+…+βkxkt*+vt（t=2,3,…T）（9.18）

上述变换称作广义差分变换。

上式中的误差项vt是非自相关的，满足假定条件，所以可对上式应用最小二乘法估计回归参数。

所得估计量具有最佳线性无偏性。

上式中的β1…βk就是原模型（9.16）中的β1…βk，而β0*与模型（9.16）中的β0有如下关系，

β0*=β0（1-ρ）,β0=β0*/（1-ρ）（9.19）

注意：

（1）对（9.16）式进行OLS估计得到的β0,β1,…,βk的估计量称作普通最小二乘估计量；对（9.18）式进行OLS估计得到的β0,β1,,…,βk的估计量称作广义最小二乘估计量。

（3）当误差项ut的自相关具有高阶自回归形式时，仍可用与上述相类似的方法进行广义差分变换。

比如ut具有二阶自回归形式，

ut=ρ1ut-1+ρ2ut–2+vt,

则变换过程应首先求出原模型（t-1）期与（t-2）期的两个关系式，然后利用与上述相类似的变换方法建立符合假定条件的广义差分模型。

若ut具有k阶自回归形式，则首先求k个不同滞后期的关系式，然后通过广义差分变换使模型的误差项符合假定条件。

需要注意的是对二阶自回归形式，作广义差分变换后，要损失两个观测值；对k阶自回归形式，作广义差分变换后，将损失k个观测值。

（4）当用广义差分变量回归的结果中仍存在自相关时，可以对广义差分变量继续进行广义差分直至回归模型中不存在自相关为止。

9.6自相关系数的估计

上一节介绍了解决自相关的方法。

这种方法的应用还有赖于知道ρ值。

下面介绍三种估计ρ的方法。

（1）用DW统计量估计ρ。

由（1.17）式，DW=2（1-

），得

=1-（DW/2）

首先利用残差

求出DW统计量的值，然后利用上式求出自相关系数ρ的估计值。

注意：

①用此法时样本容量不宜过小。

②此法不适用于动态模型（即被解释变量滞后项做解释变量的模型）。

（2）用残差进行自回归的方法估计ρ（特别对高阶自回归形式）。

　　9.7案例分析。

【案例1】（）天津市城镇居民人均消费与人均可支配收入的关系

改革开放（1978~2000）以来，天津市城镇居民人均消费性支出（CONSUM），人均可支配收入（INCOME）以及消费价格指数（PRICE）数据见下表。

现在研究人均消费与人均可支配收入的关系。

先定义不变价格（1978=1）的人均消费性支出（Yt）和人均可支配收入（Xt）。

令

Yt=CONSUM/PRICE

Xt=INCOME/PRICE

得散点图如图9.5。

显然Yt和Xt服从线性关系。

图9.5Yt和Xt散点图图9.6残差图

（1）估计线性回归模型并计算残差

用普通最小二乘法求估计的回归方程，得结果如下。

=111.44+0.7118Xt

（6.5）（42.1）R2=0.9883,s.e.=32.8,DW=0.60,T=23

（2）检验误差项ut是否存在自相关

已知DW=0.60，若给定α=0.05，查附表，dL=1.26，dU=1.44。

因为DW=0.60<1.26,依据判别规则，认为误差项ut存在严重的正自相关。

BG（LM）自相关检验辅助回归结果是

=0.6790

-1+3.1710–0.0047Xt+vt

（3.9）（0.2）（-0.4）R2=0.43,DW=2.00

LM=TR2=23⨯0.43=9.89

因为χ20.05

（1）=3.84，LM=9.89>3.84，所以BG（LM）检验结果也说明

（1）式存在自相关。

（3）用广义最小二乘法估计回归参数

首先估计自相关系数

。

依据式，

=1-

=0.70

对原变量做广义差分变换。

GDYt=Yt-0.70Yt-1

GDXt=Xt-0.70Xt–1

以GDYt,GDYt，t=2,3,…22,为样本再次回归，得

GDYt=45.2489+0.6782GDXt（9.20）

（3.7）（20.0）R2=0.95,s.e.=23.2,DW=2.31,（1979-2000）

查附表4，dL=1.26，dU=1.43，因为DW=2.31<（4-1.43）=2.57，依据判别规则，已消除自相关。

残差图见图9.7。

图9.7残差图

由（9.20）式，

*=45.2489。

依据（9.19）式，

*／（1-

）=45.2489/（1-0.70）=150.8297

则原模型的广义最小二乘估计结果是

=150.8297+0.6782Xt（9.21）

用普通最小二乘估计结果是

=111.44+0.7118Xt（9.22）

（6.5）（42.1）R2=0.9883,s.e.=32.8,DW=0.60,T=23

注意：

（1）回归方程（9.20）与（9.22）相比，R2值有所下降。

不应该因此不相信（9.20）式的结果。

原因是（9.20）式中的变量是广义差分变量，而不是原变量，所以致使R2值下降。

两个回归式所用变量不同，不可直接比较确定系数R2的值。

（2）（9.20）式中的回归系数与（9.22）式中的回归系数有差别。

计量经济理论认为用广义差分变换模型得到的回归系数估计量的特性优于误差项存在自相关的模型。

所以模型（9.20）中的回归系数的统计特性更好，0.6782比0.7118更可信。

从实际情形分析，特别是最近几年，消费的收入边际系数0.6782更可信，0.7118偏高。

（3）用EViews生成新变量。

假设已经建立关于CONSUM，INCOME和PRICE的工作文件。

假设变量Yt和Xt分别用Y和X表示，从工作文件主菜单中点击Quick键，选择GenerateSeries…功能。

这时会打开一个生成序列（GenerateSeriesbyEquation）对话框。

在对话框中输入如下命令（每次只能输入一个命令），

Y=CONSUM/PRICE

X=INCOME/PRICE

按OK键。

变量Y和X将自动保存在工作文件中。

EViews的OLS估计方法见第2章。

（4）用EViews进行BG（LM）自相关检验。

在回归窗口中点击View键，选择ResidualTests/SerialCorrelationLMTest…功能，会弹出一个设定滞后期（LagSpecification）对话框。

输入1，点击OK键，就会得到LM=TR2=9.89的一阶自相关BG（LM）检验结果。

【案例2】（）天津保费收入和人口的回归关系（二阶广义差分）

1967-1998年天津市的保费收入（万元）和人口（万人）散点图如下。

Lnyt=-11.18+0.0254xt

（-20.9）（37.2）R2=0.9788,s.e.=0.34,DW=0.36（1967-1998）

模型残差图（9.27）式残差图

对残差进行二阶回归

=1.186

-0.467

+vt

（6.9）（-2.5）R2=0.71,s.e.=0.19,DW=1.97（1969-1998）

推导二阶自相关ut=φ1ut–1+φ2ut–2+vt的广义差分变换式。

设模型为

yt=β0+β1xt+ut（9.23）

写出上式的滞后一期、二期表达式并分别乘φ1、φ2：

φ1yt-1=φ1β0+φ1β1xt-1+φ1ut-1（9.24）

φ2yt-2=φ2β0+φ2β1xt-2+φ2ut-2（9.25）

用以上三式做如下运算，

yt-φ1yt-1-φ2yt-2=β0-φ1β0-φ2β0+β1xt-φ1β1xt-1-φ2β1xt-2+ut-φ1ut-1-φ2ut-2

（yt-φ1yt-1-φ2yt-2）=β0（1-φ1-φ2）+β1（xt-φ1xt-1-φ2xt-2）+vt（9.26）

作二阶广义差分。

GDLnyt=Lnyt-1.186Lnyt-1+0.467Lnyt-2

GDxt=xt-1.861xt-1+0.467xt-2

广义最小二乘回归

GDLnyt=-3.246+0.0259GDxt（9.27）

（-10.0）（17.9）R2=0.92,s.e.=0.19,DW=1.99（1969-1998）

由（9.23）式，因为

β0（1-1.186+0.467）=-3.246

β0=-11.55

所以，原模型的广义最小二乘估计是

Lnyt=-11.55+0.0259xt

【案例3】（）中国宏观消费分析

下面通过建立宏观消费计量经济模型进一步分析我国消费与国民收入的定量关系。

（以下所用数据（1952-2002）均以不变价格（1952=1）计算。

）

1952-2002年国内生产总值与消费额散点图见图2.1。

说明消费与国内生产总值之间存在高度的线性关系。

用CPt表示消费额（不变价格），GDPt表示国内生产总值（不变价格），用1952-2002年数据得消费函数的OLS估计结果如下：

=164.0124+0.5919GDPt（9.28）

（5.2）（159.9）

R2=0.998,DW=0.67,s.e.=167.45

以上模型的DW值很小，严格地说模型存在自相关。

为消除自相关（ρ=0.67），对变量进行广义差分。

定义

GCPt=CPt-0.665CPt-1

GGDPt=GDPt-0.665GDPt-1

得估计的回归模型为，

=45.4845+0.5998GGDPt

（1.8）（80.4）

R2=0.9926,DW=1.63,s.e.=131.4

上模型中不存在自相关。

消费函数的GLS估计结果是

=135.7746+0.5998GDPt（

展开阅读全文