chap4 异方差.docx
《chap4 异方差.docx》由会员分享,可在线阅读,更多相关《chap4 异方差.docx(26页珍藏版)》请在冰豆网上搜索。
chap4异方差
4.异方差
用OLS法得到的估计模型通过统计检验后,还要检验模型是否满足假定条件。
只有模型的假定条件都满足时,用OLS法得到的回归系数估计量才具有最佳线性无偏特性。
当一个或多个假定条件不成立时,OLS估计量将丧失上述特性。
第5-7章讨论当假定条件不成立时,对参数估计带来的影响以及相应的补救措施。
以下讨论都是在某一个假定条件被违反,而其他假定条件都成立的情况下进行。
分为5个步骤。
(1)回顾假定条件。
(2)假定条件不成立时对模型参数估计带来的影响。
(3)定性分析假定条件是否成立。
(4)检验(定量分析)假定条件是否成立。
(5)假定条件不成立时的补救措施。
本章介绍异方差的检验和修正方法。
4.1异方差的概念
在随机误差项u满足同方差和没有序列自相关的假定下,u的方差协方差矩阵Var(u)是一个对角矩阵,
Var(u)=2I=2
=
4.1
即Var(u)主对角线上的元素都是常数且相等,每一误差项的方差都是有限的相同值(同方差假定);且非主对角线上的元素为零(非自相关假定)。
当这两个假定不成立时,Var(u)不再是一个纯量对角矩阵,表示如下。
Var(u)=2=2
¹2I4.2
当误差向量u的方差协方差矩阵主对角线上的元素不相等时,这意味着对应不同的随机变量,方差不同。
此时,称该随机误差系列存在异方差,即误差向量u中的元素ut取自不同的分布总体。
非主对角线上的元素表示误差项之间的协方差值。
比如中的ij,(i¹j)表示与第i组和第j组观测值相对应的ui与uj的协方差。
若非主对角线上的部分或全部元素都不为零,误差项就是自相关的。
本章讨论异方差。
第6章讨论自相关。
第7章讨论多重共线性及其他一些违反假定条件的情形。
以两个变量为例,同方差假定如图4.1和4.2所示。
对于每一个xt值,相应ut的分布方差都是相同的。
图4.1同方差情形图4.2同方差情形
4.2异方差表现、来源及后果
4.2.1异方差的表现与来源
异方差通常有三种表现形式,
(1)递增型,
(2)递减型,(3)条件自回归型。
递增型异方差见图5.3和5.4。
随着解释变量的增加,随机误差项的方差越来越大。
图5.5为递减型异方差,即随着解释变量的增加,随机误差项的方差越来越小。
图5.6为条件自回归型异方差。
经济时间序列中的异方差常表现为递增型异方差。
金融时间序列中的异方差常表现为自回归条件异方差。
时间序列数据和截面数据中都有可能存在异方差。
无论是时间序列数据还是截面数据。
递增型异方差的来源主要是因为随着解释变量值的增大,被解释变量取值的差异性增大。
图4.3递增型异方差图4.4递增型异方差
图4.5递减型异方差图4.6条件自回归型异方差
4.2.2异方差的后果
下面以简单线性回归模型为例讨论异方差对参数估计的影响。
对模型
yt=0+1xt+ut4.3
当Var(ut)=t2为异方差时(t2是一个随时间或序数变化的量),回归参数估计量仍具有无偏性和一致性。
以
为例
=1+ktut其中,kt=
4.4
E(
|xt)=E[1+
|xt]
=1+
=1
但是回归参数估计量不再具有有效性。
以
为例,由一元线性回归模型的内容可知
Var(
|xt)=E(
-1|xt)2=E[
]
=
=
¹
4.5
(在上式的推导中)。
上式不等号左侧项分子中的t2不是一个常量,不能从累加式中提出,所以不等号左侧项不等于不等号右侧项。
而不等号右侧项是同方差条件下1的最小二乘估计量
的方差。
因此,异方差条件下的
失去有效性。
这时,OLS估计量不再具有BLUE性质。
回归参数估计量的t统计量不再服从t分布,而且即使是在大样本的情况下也是如此。
回归参数估计量的方差估计量是真实方差的有偏估计量。
F统计量也不再是F分布。
下面用矩阵形式讨论异方差。
因为OLS估计量无偏性的证明只依赖于模型的一阶矩,所以当Var(u)如(5.2)式所示时,OLS估计量
仍具有无偏性和一致性。
E(
)=E[(X'X)-1X'Y]=E[(X'X)-1X'(X+u)]
=+(X'X)-1X'E(u)=4.6
但不具有有效性和渐近有效性。
而且
的分布将受到影响。
Var(
|X)=E[(
-)(
-)'|X]
=E[(X'X)-1X'uu'X(X'X)-1|X]
=(X'X)-1X'E(uu'|X)X(X'X)-1
=s2(X'X)-1X'X(X'X)-14.7
不等于s(X'X)-1,所以异方差条件下的
是非有效估计量。
4.3异方差稳健推断
4.3.1异方差稳健标准差
White(1980)提出,对于一元线性回归模型
yt=0+1x1t+ut
当存在异方差时(不论异方差是什么形式),可以通过如下公式得到参数估计量
的有效方差估计量
。
4.8
对于多元线性回归模型
yt=0+1x1t+2x2t+…+kxkt+ut,
可以通过如下公式计算参数估计量
的有效方差估计量
4.9
其中,
表示用第i个解释变量xi对所有其他解释变量进行回归得到的残差,SSTi为其残差平方和。
(4.9)式的平方根被称作
的异方差稳健标准差(heteroskedasticity-robuststandarderror),也经常被称作Huber/White/sandwich标准差。
有时,先用自由度对(4.9)式进行修正,之后再求其平方根作为
的异方差稳健标准差。
即,
。
4.10
这时,我们便可以利用异方差稳健标准差构建异方差稳健t统计量
思考题:
既然在很多情况下异方差稳健标准差比OLS估计量的普通标准差更有效,那么为什么不直接用异方差稳健估计量呢?
还需要检验模型中是否存在异方差吗?
Key:
1.如果模型中不存在异方差,那么OLS估计量的普通标准差具有确切的t分布,与样本水平没有关系。
而通过异方差稳健标准差构建的异方差稳健t统计量只是渐进服从t分布,即只是在大样本下才成立。
2.如果存在异方差,那么OLS估计量不再具有BLUE性质,但是如果知道异方差的具体形式,那么可以得到比OLS估计量更好的估计量。
例:
OLS估计:
结果为:
异方差稳健标准差为:
4.3.2异方差稳健LM检验
如果模型中存在异方差,则参数线性约束的F检验也不再有效。
这时可以利用异方差稳健LM检验。
步骤如下。
Step1:
回归受约束模型,提取残差项
;
Step2:
用X2中每个变量对X2回归,提取残差项,记为
;
Step3:
用
与
相乘,得到
;
Step4:
利用OLS方法回归方程
,残差平方和记为SSE0;
Step5:
构建LM统计量
。
例:
对约束的异方差稳健LM检验:
.stata
结果为:
4.4异方差的检验方法
异方差的基本假定形式
H0:
E(ui2|x1,x2,…,xk)=E(ui2|x1,x2,…,xk)=σ2
即,ui的条件方差是相同的,或者说当ui与x1,x2,…,xk不相关时,ui的方差是相同的。
如果ui存在异方差,那么说明ui与x1,x2,…,xk存在相关性。
因此,检验异方差的基本思路是考察ui与x1,x2,…,xk是否存在相关性,以及什么形式的相关性。
对实际问题的分析,有时可以初步判别是否存在异方差。
主要有三种方式。
(1)当经济变量取值的差别随时间或解释变量的增大而变大时,容易出现异方差。
如在个人支出与收入的关系中,投入与产出的关系中,常会存在异方差。
(2)利用散点图也可以初步判断是否存在异方差。
如果两个变量的散点图与图4.4相类似时,说明存在异方差。
(3)也可以利用模型的残差图做初步判断。
如果模型的残差图如图4.7相类似时,说明存在递增型异方差。
注意:
对于截面样本,当用残差图观测是否存在异方差时,必须先按解释变量给样本值排序。
否则即使是有异方差,利用残差图也看不出来。
4.4.1Goldfeld-Quandt检验
Goldfeld-Quandt检验由Goldfeld和Quandt1965年提出。
这种检验的思想是以引起异方差的解释变量的大小为顺序,去掉中间若干个值,从而把整个样本分为两个子样本。
用两个子样本分别进行回归,并计算残差平方和。
用两个残差平方和构造检验异方差的统计量。
具体步骤如下。
设回归模型为:
yt=0+1x1t+2x2t+…+kxkt+ut
Goldfeld-Quandt检验的零假设和备择假设是
H0:
ut具有同方差
H1:
ut具有递增型异方差
①把原样本分成两个子样本。
具体方法是把成对(组)的观测值按解释变量的从小到大顺序排列,略去m个处于中心位置的观测值(通常T>30时,取m»T/4,余下的T-m个观测值自然分成容量相等的两个子样本,容量各为(T-m)/2。
如下所示。
{x1,x2,…,…xi-1,xi,xi+1,…,…xT-1,xT}
n1=(T-m)/2m=T/4n2=(T-m)/2
②用两个子样本分别估计回归直线,并计算残差平方和。
相对于n2和n1的残差平方和分别用SSE2(对应于xt值比较大的子样本)和SSE1(对应于xt值比较小的子样本)表示。
③构造F统计量,
F=
4.11
其中n2=n1为子样本容量,k为原模型中被估参数个数。
在H0成立条件下,
F~F(n2–k-1,n1-k-1)
④根据实际情况分析,若不存在异方差,两个子样本对应的残差平方和应该近似相等,即F值接近1。
若存在递增型异方差,则SSE2要远远大于SSE1,即F值很大。
判别规则如下,
若F£F(n2–k-1,n1-k-1),接受H0(ut具有同方差)
若F>F(n2–k-1,n1-k-1),拒绝H0(具有递增型异方差)
对于Goldfeld-Quandt检验应该注意如下四点:
①对于截面样本,计算F统计量之前,必须先把数据按解释变量的值从小到大排序。
②此法只适用于递增型异方差。
③Goldfeld-Quandt检验依赖于随机误差项服从正态分布。
④当模型含有多个解释变量时,应以每一个解释变量为基准检验异方差。
例:
农作物种植面积与农作物产出
.sortx,stable
.regressyxin1/11
.scalars1=e(rss)
.regressyxin19/29
.scalars2=e(rss)
.scalarF=s2/s1
.scalarFprob=Ftail(11,11,F)
.scalarlist
4.4.2Glejser检验
Glejser检验由H.Glejser1969年提出。
检验原回归式的残差的绝对值|
|是否与解释变量xt的若干形式存在函数关系。
若有,则说明存在该种形式的异方差;若无,则说明不存在异方差。
通常给出的几种形式是
|
|=a0+a1xt
|
|=a0+a1xt2
|
|=a0+a1
….
如果哪一种形式的
通过显著性检验,则说明存在该种形式的异方差。
Glejser检验的特点是:
① 既可检验递增型异方差,也可检验递减型异方差。
②一旦发现异方差,同时也就发现了异方差的具体表现形式。
③计算量相对较大。
4当原模型含有多个解释变量值时,可以把|
|拟合成多变量回归形式。
例:
.regressyx
.predictres,residual
.genabsres=abs(res)
.regressabsresx
得到结果如下。
4.4.3BreuschandPagan/Cook-Weisberg检验
根据异方差检验的基本思路,可以考虑这样一种简单的检验方法。
假设相关关系式为
u2=δ0+δ1x1+δ2x2+δkxk+vt
如果原假设H0:
E(ui2|x1,x2,…,xk)=E(ui|x1,x2,…,xk)=σ2成立,那么上式中每个解释变量的回归系数都不应该具有显著性,即δ0=0,δ1=0,…,δk=0。
实际检验步骤如下。
Step1:
首先估计方程:
yt=0+1x1t+2x2t+…+kxkt+ut。
提取其残差,表示为
。
Step2:
估计方程:
=δ0+δ1x1+δ2x2+δkxk+vt。
对整个方程的显著性进行检验。
一般地,利用F统计量、Wald统计量或LM检验来完成。
注:
在第二步中,经常采用另外一种形式,用被解释变量的拟合值作为解释变量。
即
然后计算方程显著性的F统计量。
例:
.estathettest,normal
.estathettest,iid
.estathettest,fstat
4.4.4White检验
White检验由H.White1980年提出。
Goldfeld-Quandt检验必须先把数据按解释变量的值从小到大排序。
Glejser检验通常要试拟合多个回归式。
White检验不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一个辅助回归式构造2统计量进行异方差检验。
White检验的具体步骤如下。
以二元回归模型为例,
yt=0+1x1t+2x2t+ut4.12
1.首先对上式进行OLS回归,求残差
。
2.作如下辅助回归式
=0+1x1t+2x2t+3x1t2+4x2t2+5x1tx2t+vt4.13
或者
=0+1x1t+2x2t+3x1t2+4x2t2+vt4.14
即用
对原回归式中的各解释变量、解释变量的平方项、交叉积项进行OLS回归。
注意,上式中要保留常数项。
求辅助回归式(4.13)或(4.14)的可决系数R2。
3.White检验的零假设和备择假设是
H0:
模型中ut不存在异方差,
H1:
模型中ut存在异方差
4.在不存在异方差假设条件下统计量
TR22(k)4.15
其中T表示样本容量,R2是辅助回归式(4.13)或(4.14)的OLS估计式的可决系数,自由度k表示辅助回归式中解释变量的个数(注意,不包括常数项)。
如果采用(4.13),那么自由度k=5;如果采用(4.14),那么自由度k=4。
5.判别规则
如果检验辅助回归式采用(4.13),若TR2£2(5),接受H0(ut具有同方差);若TR2>2(5),拒绝H0(ut具有异方差)。
如果检验辅助回归式采用(4.14),若TR2£2(4),接受H0(ut具有同方差);若TR2>2(4),拒绝H0(ut具有异方差)。
例:
.estatimtet,white
4.4.5自回归条件异方差检验
异方差的另一种检验方法称作自回归条件异方差(ARCH)检验。
这种检验方法不是把原回归模型的随机误差项t2看作是xt的函数,而是把t2看作随机误差平方项ut-12及其滞后项,ut-22,…的函数。
ARCH是误差项二阶矩的自回归过程。
恩格尔(Engle1982)针对ARCH过程提出LM检验法。
辅助回归式定义为
=0+1
+…+n
4.16
LM统计量定义为
LM=TR22(n)4.17
其中R2是辅助回归式(5.12)的可决系数。
在H0:
1=…=n=0成立条件下,LM渐近服从2(n)分布。
其中n表示
的滞后项个数。
ARCH检验的最常用形式是一阶自回归模型(n=1),
=0+1
在这种情形下,ARCH渐近服从2
(1)分布。
4.5广义最小二乘法
4.5.1广义最小二乘法
下面以矩阵形式描述克服异方差。
设模型为
Y=X+u4.18
其中E(u)=0,Var(u)=E(uu')=2。
已知,与2未知。
因为¹I,违反了假定条件,所以应该对模型进行适当修正。
因为是一个T阶正定矩阵,所以必存在一个非退化T´T阶矩阵M使下式成立。
MM'=ITT4.19
从上式得
M'M=-14.20
用M左乘回归模型(4.18)两侧得
MY=MX+Mu4.21
取Y*=MY,X*=MX,u*=Mu,上式变换为
Y*=X*+u*4.22
则u*的方差协方差矩阵为
Var(u*)=E(u*u*')=E(Muu'M')
=Ms2M'=s2MM'=s2I4.23
变换后模型中的Var(u*)是一个纯量对角矩阵。
对变换后模型进行OLS估计,便可以得到的最佳线性无偏估计量。
这种估计方法称作广义最小二乘法。
的广义最小二乘(GLS)估计量定义为
(GLS)=(X*'X*)-1X*'Y*
=(X'M'MX)-1X'M'MY
=(X'-1X)-1X'-1Y4.24
下面以异方差形式Var(ut)=2xt2为例,具体介绍广义最小二乘法变换结果。
2=2
4.25
定义
M=
4.26
从而使
Var(Mu)=E(Muu'M')=Ms2M'=s2MM'
=2
=2I(TT)4.27
已消除了异方差。
4.5.2利用Glejser检验结果消除异方差
设回归模型为
yt=0+1x1t+2x2t+ut
假设Glejser检验结果是
|
|=
+
x1t
说明异方差形式是Var(ut)=(
+
x1t)22。
用(
+
x1t)除原模型(5.9)各项,
=0
+1
+2
+
(5.25)
则Var(
)=
Var(ut)
=
(
+
x1t)22
=2(5.26)
说明消除了异方差。
对(5.25)式做OLS估计,把回归参数的估计值代入原模型(5.9)。
4.5.3可行的GLS方法
用广义最小二乘法对异方差进行修正首先必须知道异方差的形式,经验应用中对于异方差的形式有很多不同的设定。
这里我们介绍一种常见的设定形式。
Var(u|x)=σ2exp(δ0+δ1x1+δ2x2+δkxk)
在应用GLS之前,首先要估计上式中的未知参数δi。
根据上式可以通过如下计量模型估计δi
u2=σ2exp(δ0+δ1x1+δ2x2+δkxk)v
然后用OLS方法得到的残差平方序列
作为u2的替代变量估计上述方程。
首先将方程取自然对数,得到
log(
)=log(σ2)+δ0+δ1x1+δ2x2+δkxk+vt
=δ0*+δ1x1+δ2x2+δkxk+vt,
然后再利用OLS方法估计上述模型。
具体操作步骤如下。
1.首先估计方程:
yt=0+1x1t+2x2t+…+kxkt+ut。
提取其残差平方序列,表示为
。
2.估计方程:
log(
)=δ0*+δ1x1+δ2x2+δkxk+vt,并计算
的预测值
。
3.以1/
作为权重序列重新估计方程:
yt=0+1x1t+2x2t+…+kxkt+ut。
对异方差的另外一种更一般的设定形式为,
Var(u|x)=σ2exp[(δ0+δ1x1+δ2x2+δkxk)+(δ0+δ1x1+δ2x2+δkxk)2]
对于这种形式的设定,其修正步骤为如下。
1.首先估计方程:
yt=0+1x1t+2x2t+…+kxkt+ut。
提取其残差平方序列,表示为
;提取yt的拟合值,表示为
。
2.估计方程:
log(
)=a0+a1
+a2
+vtt,并计算
的预测值
。
3.以1/
作为权重序列重新估计方程:
yt=0+1x1t+2x2t+…+kxkt+ut。
4.5.4通过对变量取对数消除异方差
在实际应用中,通过对变量取对数的方法常常能达到消除异方差的目的。
详细请见本章后面的案例。
4.6案例分析
案例1
取1986年中国29个省市自治区农作物种植业产值yt(亿元)和农作物播种面积xt(万亩)数据(见表5.1)研究二者之间的关系。
得估计的线性模型如下,
yt=-5.6610+0.0123xt(5.27)
(12.4)R2=0.85,F=155.0,T=29
表5.1yt和xt数据
序号
yt
农作物产值
xt
农作物播种面积
序号
yt
农作物产值
xt
农作物播种面积
1
16.31
907.5
16
183.65
17729.2
2
17.14
873.2
17
146.79
11061.5
3
125.24
13159.2
18
129.63
11304.7
4
42.24
5928.1
19
154.28
9166.2
5
40.28
6834.4
20
61.24
6821.7
6
84.47
5495.5
21
206.5
17779.6
7
70.7
6055.2
22
44.37
4701.3
8
101.67
12694.6
23
51.79
6036.1
9
16.83
1018.5
24
3.53
316.5
10
211.51
12770.9
25
59.45
7016.5
11
101
6542.7
26
37.29
5252.5
12
155.87
12244.3
27
6.33
761.7
13
49.72
3601.5
28
10.07
1235.2
14
69.7
8158.1