chap4 异方差.docx

资源描述

chap4 异方差.docx

《chap4 异方差.docx》由会员分享，可在线阅读，更多相关《chap4 异方差.docx（26页珍藏版）》请在冰豆网上搜索。

chap4 异方差.docx

chap4异方差

4．异方差

用OLS法得到的估计模型通过统计检验后，还要检验模型是否满足假定条件。

只有模型的假定条件都满足时，用OLS法得到的回归系数估计量才具有最佳线性无偏特性。

当一个或多个假定条件不成立时，OLS估计量将丧失上述特性。

第5-7章讨论当假定条件不成立时，对参数估计带来的影响以及相应的补救措施。

以下讨论都是在某一个假定条件被违反，而其他假定条件都成立的情况下进行。

分为5个步骤。

（1）回顾假定条件。

（2）假定条件不成立时对模型参数估计带来的影响。

（3）定性分析假定条件是否成立。

（4）检验（定量分析）假定条件是否成立。

（5）假定条件不成立时的补救措施。

本章介绍异方差的检验和修正方法。

4.1异方差的概念

在随机误差项u满足同方差和没有序列自相关的假定下，u的方差协方差矩阵Var（u）是一个对角矩阵，

Var（u）=2I=2

4.1

即Var（u）主对角线上的元素都是常数且相等，每一误差项的方差都是有限的相同值（同方差假定）；且非主对角线上的元素为零（非自相关假定）。

当这两个假定不成立时，Var（u）不再是一个纯量对角矩阵，表示如下。

Var（u）=2=2

¹2I4.2

当误差向量u的方差协方差矩阵主对角线上的元素不相等时，这意味着对应不同的随机变量，方差不同。

此时，称该随机误差系列存在异方差，即误差向量u中的元素ut取自不同的分布总体。

非主对角线上的元素表示误差项之间的协方差值。

比如中的ij,（i¹j）表示与第i组和第j组观测值相对应的ui与uj的协方差。

若非主对角线上的部分或全部元素都不为零，误差项就是自相关的。

本章讨论异方差。

第6章讨论自相关。

第7章讨论多重共线性及其他一些违反假定条件的情形。

以两个变量为例，同方差假定如图4.1和4.2所示。

对于每一个xt值，相应ut的分布方差都是相同的。

图4.1同方差情形图4.2同方差情形

4.2异方差表现、来源及后果

4.2.1异方差的表现与来源

异方差通常有三种表现形式，

（1）递增型，

（2）递减型，（3）条件自回归型。

递增型异方差见图5.3和5.4。

随着解释变量的增加，随机误差项的方差越来越大。

图5.5为递减型异方差，即随着解释变量的增加，随机误差项的方差越来越小。

图5.6为条件自回归型异方差。

经济时间序列中的异方差常表现为递增型异方差。

金融时间序列中的异方差常表现为自回归条件异方差。

时间序列数据和截面数据中都有可能存在异方差。

无论是时间序列数据还是截面数据。

递增型异方差的来源主要是因为随着解释变量值的增大，被解释变量取值的差异性增大。

图4.3递增型异方差图4.4递增型异方差

图4.5递减型异方差图4.6条件自回归型异方差

4.2.2异方差的后果

下面以简单线性回归模型为例讨论异方差对参数估计的影响。

对模型

yt=0+1xt+ut4.3

当Var（ut）=t2为异方差时（t2是一个随时间或序数变化的量），回归参数估计量仍具有无偏性和一致性。

以

为例

=1+ktut其中，kt=

4.4

E（

|xt）=E[1+

|xt]

=1+

但是回归参数估计量不再具有有效性。

以

为例，由一元线性回归模型的内容可知

Var（

|xt）=E（

-1|xt）2=E[

]

4.5

（在上式的推导中）。

上式不等号左侧项分子中的t2不是一个常量，不能从累加式中提出，所以不等号左侧项不等于不等号右侧项。

而不等号右侧项是同方差条件下1的最小二乘估计量

的方差。

因此，异方差条件下的

失去有效性。

这时，OLS估计量不再具有BLUE性质。

回归参数估计量的t统计量不再服从t分布，而且即使是在大样本的情况下也是如此。

回归参数估计量的方差估计量是真实方差的有偏估计量。

F统计量也不再是F分布。

下面用矩阵形式讨论异方差。

因为OLS估计量无偏性的证明只依赖于模型的一阶矩，所以当Var（u）如（5.2）式所示时，OLS估计量

仍具有无偏性和一致性。

E（

）=E[（X'X）-1X'Y]=E[（X'X）-1X'（X+u）]

=+（X'X）-1X'E（u）=4.6

但不具有有效性和渐近有效性。

而且

的分布将受到影响。

　　　Var（

|X）=E[（

-）（

-）'|X]

=E[（X'X）-1X'uu'X（X'X）-1|X]

=（X'X）-1X'E（uu'|X）X（X'X）-1

=s2（X'X）-1X'X（X'X）-14.7

不等于s（X'X）-1，所以异方差条件下的

是非有效估计量。

4.3异方差稳健推断

4.3.1异方差稳健标准差

White（1980）提出，对于一元线性回归模型

yt=0+1x1t+ut

当存在异方差时（不论异方差是什么形式），可以通过如下公式得到参数估计量

的有效方差估计量

。

4.8

对于多元线性回归模型

yt=0+1x1t+2x2t+…+kxkt+ut,

可以通过如下公式计算参数估计量

的有效方差估计量

4.9

其中，

表示用第i个解释变量xi对所有其他解释变量进行回归得到的残差，SSTi为其残差平方和。

（4.9）式的平方根被称作

的异方差稳健标准差（heteroskedasticity-robuststandarderror），也经常被称作Huber/White/sandwich标准差。

有时，先用自由度对（4.9）式进行修正，之后再求其平方根作为

的异方差稳健标准差。

即，

。

4.10

这时，我们便可以利用异方差稳健标准差构建异方差稳健t统计量

思考题：

既然在很多情况下异方差稳健标准差比OLS估计量的普通标准差更有效，那么为什么不直接用异方差稳健估计量呢？

还需要检验模型中是否存在异方差吗？

Key：

1.如果模型中不存在异方差，那么OLS估计量的普通标准差具有确切的t分布，与样本水平没有关系。

而通过异方差稳健标准差构建的异方差稳健t统计量只是渐进服从t分布，即只是在大样本下才成立。

2.如果存在异方差，那么OLS估计量不再具有BLUE性质，但是如果知道异方差的具体形式，那么可以得到比OLS估计量更好的估计量。

例：

OLS估计：

结果为：

异方差稳健标准差为：

4.3.2异方差稳健LM检验

如果模型中存在异方差，则参数线性约束的F检验也不再有效。

这时可以利用异方差稳健LM检验。

步骤如下。

Step1：

回归受约束模型，提取残差项

；

Step2：

用X2中每个变量对X2回归，提取残差项，记为

；

Step3：

用

与

相乘，得到

；

Step4：

利用OLS方法回归方程

，残差平方和记为SSE0；

Step5：

构建LM统计量

。

例：

对约束的异方差稳健LM检验：

.stata

结果为：

4.4异方差的检验方法

异方差的基本假定形式

H0:

E（ui2|x1,x2,…,xk）=E（ui2|x1,x2,…,xk）=σ2

即，ui的条件方差是相同的，或者说当ui与x1,x2,…,xk不相关时，ui的方差是相同的。

如果ui存在异方差，那么说明ui与x1,x2,…,xk存在相关性。

因此，检验异方差的基本思路是考察ui与x1,x2,…,xk是否存在相关性，以及什么形式的相关性。

对实际问题的分析，有时可以初步判别是否存在异方差。

主要有三种方式。

（1）当经济变量取值的差别随时间或解释变量的增大而变大时，容易出现异方差。

如在个人支出与收入的关系中，投入与产出的关系中，常会存在异方差。

（2）利用散点图也可以初步判断是否存在异方差。

如果两个变量的散点图与图4.4相类似时，说明存在异方差。

（3）也可以利用模型的残差图做初步判断。

如果模型的残差图如图4.7相类似时，说明存在递增型异方差。

注意：

对于截面样本，当用残差图观测是否存在异方差时，必须先按解释变量给样本值排序。

否则即使是有异方差，利用残差图也看不出来。

4.4.1Goldfeld-Quandt检验

Goldfeld-Quandt检验由Goldfeld和Quandt1965年提出。

这种检验的思想是以引起异方差的解释变量的大小为顺序，去掉中间若干个值，从而把整个样本分为两个子样本。

用两个子样本分别进行回归，并计算残差平方和。

用两个残差平方和构造检验异方差的统计量。

具体步骤如下。

设回归模型为：

yt=0+1x1t+2x2t+…+kxkt+ut

Goldfeld-Quandt检验的零假设和备择假设是

H0:

ut具有同方差

H1:

ut具有递增型异方差

①把原样本分成两个子样本。

具体方法是把成对（组）的观测值按解释变量的从小到大顺序排列，略去m个处于中心位置的观测值（通常T>30时，取m»T/4，余下的T-m个观测值自然分成容量相等的两个子样本，容量各为（T-m）/2。

如下所示。

{x1,x2,…,…xi-1,xi,xi+1,…,…xT-1,xT}

n1=（T-m）/2m=T/4n2=（T-m）/2

②用两个子样本分别估计回归直线，并计算残差平方和。

相对于n2和n1的残差平方和分别用SSE2（对应于xt值比较大的子样本）和SSE1（对应于xt值比较小的子样本）表示。

③构造F统计量，

4.11

其中n2=n1为子样本容量，k为原模型中被估参数个数。

在H0成立条件下，

F~F（n2–k-1,n1-k-1）

④根据实际情况分析，若不存在异方差，两个子样本对应的残差平方和应该近似相等，即F值接近1。

若存在递增型异方差，则SSE2要远远大于SSE1，即F值很大。

判别规则如下，

若F£F（n2–k-1,n1-k-1）,接受H0（ut具有同方差）

若F>F（n2–k-1,n1-k-1），拒绝H0（具有递增型异方差）

对于Goldfeld-Quandt检验应该注意如下四点：

①对于截面样本，计算F统计量之前，必须先把数据按解释变量的值从小到大排序。

②此法只适用于递增型异方差。

③Goldfeld-Quandt检验依赖于随机误差项服从正态分布。

④当模型含有多个解释变量时，应以每一个解释变量为基准检验异方差。

例：

农作物种植面积与农作物产出

.sortx,stable

.regressyxin1/11

.scalars1=e（rss）

.regressyxin19/29

.scalars2=e（rss）

.scalarF=s2/s1

.scalarFprob=Ftail（11,11,F）

.scalarlist

4.4.2Glejser检验

Glejser检验由H.Glejser1969年提出。

检验原回归式的残差的绝对值|

|是否与解释变量xt的若干形式存在函数关系。

若有，则说明存在该种形式的异方差；若无，则说明不存在异方差。

通常给出的几种形式是

|=a0+a1xt

|=a0+a1xt2

|=a0+a1

….

如果哪一种形式的

通过显著性检验，则说明存在该种形式的异方差。

Glejser检验的特点是：

①　既可检验递增型异方差，也可检验递减型异方差。

②一旦发现异方差，同时也就发现了异方差的具体表现形式。

③计算量相对较大。

4当原模型含有多个解释变量值时，可以把|

|拟合成多变量回归形式。

例：

.regressyx

.predictres,residual

.genabsres=abs（res）

.regressabsresx

得到结果如下。

4.4.3BreuschandPagan/Cook-Weisberg检验

根据异方差检验的基本思路，可以考虑这样一种简单的检验方法。

假设相关关系式为

u2=δ0+δ1x1+δ2x2+δkxk+vt

如果原假设H0:

E（ui2|x1,x2,…,xk）=E（ui|x1,x2,…,xk）=σ2成立，那么上式中每个解释变量的回归系数都不应该具有显著性，即δ0=0,δ1=0,…,δk=0。

实际检验步骤如下。

Step1：

首先估计方程：

yt=0+1x1t+2x2t+…+kxkt+ut。

提取其残差，表示为

。

Step2：

估计方程：

=δ0+δ1x1+δ2x2+δkxk+vt。

对整个方程的显著性进行检验。

一般地，利用F统计量、Wald统计量或LM检验来完成。

注：

在第二步中，经常采用另外一种形式，用被解释变量的拟合值作为解释变量。

即

然后计算方程显著性的F统计量。

例：

.estathettest,normal

.estathettest,iid

.estathettest,fstat

4.4.4White检验

White检验由H.White1980年提出。

Goldfeld-Quandt检验必须先把数据按解释变量的值从小到大排序。

Glejser检验通常要试拟合多个回归式。

White检验不需要对观测值排序，也不依赖于随机误差项服从正态分布，它是通过一个辅助回归式构造2统计量进行异方差检验。

White检验的具体步骤如下。

以二元回归模型为例，

yt=0+1x1t+2x2t+ut4.12

1．首先对上式进行OLS回归，求残差

。

2．作如下辅助回归式

=0+1x1t+2x2t+3x1t2+4x2t2+5x1tx2t+vt4.13

或者

=0+1x1t+2x2t+3x1t2+4x2t2+vt4.14

即用

对原回归式中的各解释变量、解释变量的平方项、交叉积项进行OLS回归。

注意，上式中要保留常数项。

求辅助回归式（4.13）或（4.14）的可决系数R2。

3．White检验的零假设和备择假设是

H0:

模型中ut不存在异方差，

H1:

模型中ut存在异方差

4．在不存在异方差假设条件下统计量

TR22（k）4.15

其中T表示样本容量，R2是辅助回归式（4.13）或（4.14）的OLS估计式的可决系数，自由度k表示辅助回归式中解释变量的个数（注意，不包括常数项）。

如果采用（4.13），那么自由度k=5；如果采用（4.14），那么自由度k=4。

5．判别规则

如果检验辅助回归式采用（4.13），若TR2£2（5）,接受H0（ut具有同方差）；若TR2>2（5）,拒绝H0（ut具有异方差）。

如果检验辅助回归式采用（4.14），若TR2£2（4）,接受H0（ut具有同方差）；若TR2>2（4）,拒绝H0（ut具有异方差）。

例：

.estatimtet,white

4.4.5自回归条件异方差检验

异方差的另一种检验方法称作自回归条件异方差（ARCH）检验。

这种检验方法不是把原回归模型的随机误差项t2看作是xt的函数，而是把t2看作随机误差平方项ut-12及其滞后项,ut-22,…的函数。

ARCH是误差项二阶矩的自回归过程。

恩格尔（Engle1982）针对ARCH过程提出LM检验法。

辅助回归式定义为

=0+1

+…+n

4.16

LM统计量定义为

LM=TR22（n）4.17

其中R2是辅助回归式（5.12）的可决系数。

在H0：

1=…=n=0成立条件下，LM渐近服从2（n）分布。

其中n表示

的滞后项个数。

ARCH检验的最常用形式是一阶自回归模型（n=1），

=0+1

在这种情形下，ARCH渐近服从2

（1）分布。

4.5广义最小二乘法

4.5.1广义最小二乘法

下面以矩阵形式描述克服异方差。

设模型为

Y=X+u4.18

其中E（u）=0，Var（u）=E（uu'）=2。

已知，与2未知。

因为¹I，违反了假定条件，所以应该对模型进行适当修正。

因为是一个T阶正定矩阵，所以必存在一个非退化T´T阶矩阵M使下式成立。

MM'=ITT4.19

从上式得

M'M=-14.20

用M左乘回归模型（4.18）两侧得

MY=MX+Mu4.21

取Y*=MY,X*=MX,u*=Mu,上式变换为

Y*=X*+u*4.22

则u*的方差协方差矩阵为

Var（u*）=E（u*u*'）=E（Muu'M'）

=Ms2M'=s2MM'=s2I4.23

变换后模型中的Var（u*）是一个纯量对角矩阵。

对变换后模型进行OLS估计，便可以得到的最佳线性无偏估计量。

这种估计方法称作广义最小二乘法。

的广义最小二乘（GLS）估计量定义为

（GLS）=（X*'X*）-1X*'Y*

=（X'M'MX）-1X'M'MY

=（X'-1X）-1X'-1Y4.24

下面以异方差形式Var（ut）=2xt2为例，具体介绍广义最小二乘法变换结果。

2=2

4.25

定义

4.26

从而使

Var（Mu）=E（Muu'M'）=Ms2M'=s2MM'

=2I（TT）4.27

已消除了异方差。

4.5.2利用Glejser检验结果消除异方差

设回归模型为

yt=0+1x1t+2x2t+ut

假设Glejser检验结果是

x1t

说明异方差形式是Var（ut）=（

x1t）22。

用（

x1t）除原模型（5.9）各项,

（5.25）

则Var（

）=

Var（ut）

（

x1t）22

=2（5.26）

说明消除了异方差。

对（5.25）式做OLS估计，把回归参数的估计值代入原模型（5.9）。

4.5.3可行的GLS方法

用广义最小二乘法对异方差进行修正首先必须知道异方差的形式，经验应用中对于异方差的形式有很多不同的设定。

这里我们介绍一种常见的设定形式。

Var（u|x）=σ2exp（δ0+δ1x1+δ2x2+δkxk）

在应用GLS之前，首先要估计上式中的未知参数δi。

根据上式可以通过如下计量模型估计δi

u2=σ2exp（δ0+δ1x1+δ2x2+δkxk）v

然后用OLS方法得到的残差平方序列

作为u2的替代变量估计上述方程。

首先将方程取自然对数，得到

log（

）=log（σ2）+δ0+δ1x1+δ2x2+δkxk+vt

=δ0*+δ1x1+δ2x2+δkxk+vt，

然后再利用OLS方法估计上述模型。

具体操作步骤如下。

1．首先估计方程：

yt=0+1x1t+2x2t+…+kxkt+ut。

提取其残差平方序列，表示为

。

2．估计方程：

log（

）=δ0*+δ1x1+δ2x2+δkxk+vt，并计算

的预测值

。

3．以1/

作为权重序列重新估计方程：

yt=0+1x1t+2x2t+…+kxkt+ut。

对异方差的另外一种更一般的设定形式为，

Var（u|x）=σ2exp[（δ0+δ1x1+δ2x2+δkxk）+（δ0+δ1x1+δ2x2+δkxk）2]

对于这种形式的设定，其修正步骤为如下。

1．首先估计方程：

yt=0+1x1t+2x2t+…+kxkt+ut。

提取其残差平方序列，表示为

；提取yt的拟合值，表示为

。

2．估计方程：

log（

）=a0+a1

+a2

+vtt，并计算

的预测值

。

3．以1/

作为权重序列重新估计方程：

yt=0+1x1t+2x2t+…+kxkt+ut。

4.5.4通过对变量取对数消除异方差

在实际应用中，通过对变量取对数的方法常常能达到消除异方差的目的。

详细请见本章后面的案例。

4.6案例分析

案例1

取1986年中国29个省市自治区农作物种植业产值yt（亿元）和农作物播种面积xt（万亩）数据（见表5.1）研究二者之间的关系。

得估计的线性模型如下，

yt=-5.6610+0.0123xt（5.27）

（12.4）R2=0.85,F=155.0,T=29

表5.1yt和xt数据

序号

农作物产值

农作物播种面积

序号

农作物产值

农作物播种面积

16.31

907.5

183.65

17729.2

17.14

873.2

146.79

11061.5

125.24

13159.2

129.63

11304.7

42.24

5928.1

154.28

9166.2

40.28

6834.4

61.24

6821.7

84.47

5495.5

206.5

17779.6

70.7

6055.2

44.37

4701.3

101.67

12694.6

51.79

6036.1

16.83

1018.5

3.53

316.5

211.51

12770.9

59.45

7016.5

101

6542.7

37.29

5252.5

155.87

12244.3

6.33

761.7

49.72

3601.5

10.07

1235.2

69.7

8158.1

展开阅读全文