第四讲异方差性Word下载.docx
《第四讲异方差性Word下载.docx》由会员分享,可在线阅读,更多相关《第四讲异方差性Word下载.docx(15页珍藏版)》请在冰豆网上搜索。
(3)复杂型:
i2与X的变化呈复杂形式
三、实际经济问题中的异方差性
Ø
例1:
截面资料下研究居民家庭的储蓄行为:
Yi=0+1Xi+i
Yi第i个家庭的储蓄额Xi:
第i个家庭的可支配收入。
高收入家庭:
储蓄的差异较大
低收入家庭:
储蓄则更有规律性,差异较小
i包含人们的储蓄心理、消费习惯
i的方差呈现单调递增型变化
例2:
以绝对收入假设为理论假设、以截面数据为样本建立居民消费函数:
Ci=0+1Yi+i
将居民按照收入等距离分成n组,取组平均数为样本观测值。
•一般情况下,居民收入服从正态分布:
中等收入组人数多,两端收入组人数少。
而人数多的组平均数的误差小,人数少的组平均数的误差大。
•所以样本观测值的观测误差随着解释变量观测值的不同而不同,往往引起异方差性。
例3:
以某一行业的企业为样本建立企业生产函数模型:
Yi=Ai1Ki2Li3ei
被解释变量:
产出量Y
解释变量:
资本K、劳动L、技术A,
那么:
每个企业所处的外部环境对产出量的影响被包含在随机误差项中。
每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。
这时,随机误差项的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。
四、异方差性的后果
计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:
1.参数估计量非有效
2.变量的显著性检验失去意义
3.模型的预测失效
五、异方差性的检验
•检验思路:
由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差。
检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。
•问题在于用什么来表示随机误差项的方差
一般的处理方法:
首先,采用OLS估计模型,以求得随机干扰项的估计量,称之为“近似估计量”,用
表示。
于是有:
即:
用
表示随机干扰项的方差。
然后,寻求
与X之间的相关关系
几种异方差的检验方法:
1.图示法
(1)用X-Y的散点图进行判断
(2)用
与X散点图进行判断。
看是否形成一斜率为零的直线
2.帕克(Park)检验与戈里瑟(Gleiser)检验
基本思想:
以
或
为被解释变量,以原模型的某一解释变量Xj为解释变量,建立如下方程:
选择关于变量Xj的不同的函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。
帕克检验常用的函数形式:
若在统计上是显著的,表明存在异方差性。
缺陷:
f(Xj)的具体形式未知,因此需要选择不同的解释变量进行各种尝试。
3.戈德菲尔德-匡特(Goldfeld-Quandt)检验
G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况。
G-Q检验的思想:
先按某一解释变量对样本排序,再将样本一分为二,对子样①和子样②分别作回归,然后利用两个子样的残差平方和之比构造F统计量进行异方差检验。
由于该统计量服从F分布,因此假如存在递增的异方差,则F远大于1;
反之就会等于1(同方差)、或小于1(递减方差)。
G-Q检验的步骤
[1]将n组样本观察值(Xi,Yi)按观察值Xi的大小排队;
[2]将序列中间大约c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n-c)/2;
[3]对每个子样分别进行OLS回归,并计算各自的残差平方和;
[4]在同方差性假定下,构造如下满足F分布的统计量
[5]给定显著性水平,确定临界值F(v1,v2),
若F>
F(v1,v2),则拒绝同方差性假设,表明存在异方差。
当然,还可根据两个残差平方和对应的子样的顺序判断是递增型异方差还是递减异型方差。
4.怀特(White)检验
怀特检验不需要排序,且适合任何形式的异方差。
怀特检验的基本思想与步骤(以二元为例):
首先,对上述二元模型作OLS估计,得到
然后,做如下辅助回归
(*)
可以证明,在同方差假设下,从该辅助回归得到的可决系数R2与样本容量n的乘积服从辅助回归中解释变量个数的卡方分布:
R2为辅助回归(*)式的可决系数,h为(*)式中解释变量的个数,
注意:
辅助回归仍是检验与解释变量可能的组合的显著性,因此,辅助回归方程中还可引入解释变量的更高次方。
如果存在异方差性,则表明确与解释变量的某种组合有显著的相关性,这时往往显示出有较高的可决系数以及某一参数的t检验值较大。
当然,在多元回归中,由于辅助回归方程中可能有太多解释变量,从而使自由度减少,有时可去掉交叉项。
六、异方差的修正
模型检验出存在异方差性,则需要发展新的估计方法。
可用加权最小二乘法(WeightedLeastSquares,WLS)进行估计。
加权最小二乘法的基本思想:
加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS估计其参数。
在采用OLS方法时:
对较小的残差平方ei2赋予较大的权数;
对较大的残差平方ei2赋予较小的权数。
加权最小二乘法就是对下述模型实施OLS估计
例子:
如果对一多元模型,经检验知:
可以用
去除原模型,变换成如下形式的新模型:
新模型中,存在
即满足同方差性,可用OLS法估计。
WLS具有比OLS更普遍的意义,或者说OLS只是WLS中权恒取1时的一种特殊情况,从此意义看,WLS又称广义最小二乘法(GLS)
4.2序列相关性
一、序列相关性概念
对于模型
随机项互不相关的基本假设表现为
Cov(i,j)=0ij,i,j=1,2,…,n
相关意味着:
Cov(i,j)≠0ij,i,j=1,2,…,n
如果对于不同的样本点,随机误差项之间不再是不相关的,而是存在某种相关性,则认为出现了序列相关性(SerialCorrelation)。
如果仅存在
E(ii+1)0i=1,2,…,n
称为一阶序列相关,或一阶自相关(autocorrelation)
一阶自相关往往可写成如下形式:
i=i-1+i-1<
<
1
其中:
被称为自协方差系数(coefficientofautocovariance)或一阶自相关系数(first-ordercoefficientofautocorrelation)
i是满足以下标准OLS假定的随机干扰项:
序列相关性经常出现在以时间序列为样本的模型中。
二、实际经济问题中的序列相关性
1.经济变量固有的惯性
大多数经济时间数据都有一个明显的特点:
惯性,表现在时间序列不同时间的前后关联上。
例如,绝对收入假设下居民总消费函数模型:
Ct=0+1Yt+tt=1,2,…,n
由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关)。
2.模型设定的偏误
所谓模型设定偏误(Specificationerror)是指所设定的模型“不正确”。
主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误。
例如,本来应该估计的模型为
Yt=0+1X1t+2X2t+3X3t+t
但在模型设定中做了下述回归:
Yt=0+1X1t+1X2t+vt
因此,vt=3X3t+t,如果X3确实影响Y,则出现序列相关。
又如:
如果真实的边际成本回归模型应为:
Yt=0+1Xt+2Xt2+t
Y=边际成本,X=产出。
但建模时设立了如下模型:
Yt=0+1Xt+vt
因此,由于vt=2Xt2+t,,包含了产出的平方对随机项的系统性影响,随机项也呈现序列相关性。
3.数据的“编造”
在实际经济问题中,有些数据是通过已知数据生成的。
因此,新生成的数据与原数据间就有了内在的联系,表现出序列相关性。
例如:
季度数据来自月度数据的简单平均,这种平均的计算减弱了每月数据的波动性,从而使随机干扰项出现序列相关。
还有就是两个时间点之间的“内插”技术往往导致随机项的序列相关性。
三、序列相关性的后果
计量经济学模型一旦出现序列相关性,如果仍采用OLS法估计模型参数,会产生下列不良后果:
1.参数估计量非有效
四、序列相关性的检验
基本思路:
序列相关性检验方法有多种,但基本思路相同:
然后,通过分析这些“近似估计量”之间的相关性,以判断随机误差项是否具有序列相关性。
常见的检验方法:
1.图示法
由于
是μ的估计量,可以通过
的变化图来判断序列相关性
2.回归检验法
………
如果存在某一种函数形式,使得方程显著成立,则说明原模型存在序列相关性。
回归检验法的优点是:
(1)能够确定序列相关的形式
(2)适用于任何类型序列相关性问题的检验。
3.杜宾—瓦森(Durbin-Watson)检验法
D-W检验是杜宾(J.Durbin)和瓦森(G.S.Watson)于1951年提出的一种检验序列自相关的方法。
该方法的假定条件是:
(1)解释变量X非随机;
(2)随机误差项i为一阶自回归形式:
i=i-1+i
(3)回归模型中不应含有滞后应变量作为解释变量,即不应出现下列形式:
Yi=0+1X1i+kXki+Yi-1+i
(4)回归含有截距项
D.W.统计量:
针对原假设:
H0:
=0,构如下述统计量:
该统计量的分布与出现和给定样本中的X值有复杂的关系,因此其精确的分布很难得到。
但是,他们成功地导出了临界值的下限dL和上限dU,且这些上下限只与样本的容量n和解释变量的个数k有关,而与解释变量X的取值无关。
D.W检验步骤:
(1)计算DW值
(2)给定,由n和k的大小查DW分布表,得临界值dL和dU
(3)比较、判断
若0<
D.W.<
dL存在正自相关
dL<
dU不能确定
dU<
4-dU无自相关
4-dU<
4-dL不能确定
4-dL<
4存在负自相关
当D.W.值在2左右时,模型不存在一阶自相关。
4.拉格朗日乘数(LM)检验
拉格朗日乘数检验克服了DW检验的缺陷,适合于高阶序列相关以及模型中存在滞后被解释变量的情形。
它是由布劳殊(Breusch)与戈弗雷(Godfrey)于1978年提出的,也被称为GB检验。
对于模型:
如果怀疑随机扰动项存在p阶序列相关:
GB检验可用来检验如下受约束回归方程:
约束条件为:
H0:
1=2=…=p=0
构造辅助回归:
当约束条件H0为真时,在大样本下,
其中,n为样本容量,R2为上述辅助回归的可决系数
给定,查临界值2(p),与LM值比较,做出判断,实际检验中,可从1阶、2阶、…逐次向更高阶检验。
四、序列相关的补救
如果模型被检验证明存在序列相关性,则需要发展新的方法估计模型。
最常用的方法是广义最小二乘法(GLS:
Generalizedleastsquares)和广义差分法(GeneralizedDifference)。
1.广义最小二乘法
2.广义差分法
广义差分法是将原模型变换为满足OLS法的差分模型,再进行OLS估计。
如果原模型
存在
可以将原模型变换为:
该模型为广义差分模型,不存在序列相关问题。
可进行OLS估计。
注意:
广义差分法就是上述广义最小二乘法,但是却损失了部分样本观测值。
如:
一阶序列相关的情况下,广义差分是估计下式:
六、虚假序列相关问题
由于随机项的序列相关往往是在模型设定中遗漏了重要的解释变量或对模型的函数形式设定有误,这种情形可称为虚假序列相关(falseautocorrelation),应在模型设定中排除。
避免产生虚假序列相关性的措施是在开始时建立一个“一般”的模型,然后逐渐剔除确实不显著的变量。
4.3多重共线性
一、多重共线性的概念
Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n
其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0i=1,2,…,n
其中:
ci不全为0,则称为解释变量间存在完全共线性(perfectmulticollinearity)。
c1X1i+c2X2i+…+ckXki+vi=0i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为近似共线性或交互相关。
在矩阵表示的线性回归模型
Y=X+
中,完全共线性指:
秩(X)<
k+1,即
中,至少有一列向量可由其他列向量(不包括第一列)线性表出。
如:
X2=X1,则X2对Y的作用可由X1代替。
二、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面:
(1)经济变量相关的共同趋势
时间序列样本:
经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;
衰退时期,又同时趋于下降。
横截面数据:
生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。
例如,消费=f(当期收入,前期收入)
显然,两期收入间有较强的线性相关性。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。
一般经验:
时间序列数据样本:
简单线性模型,往往存在多重共线性。
截面数据样本:
问题不那么严重,但多重共线性仍然是存在的。
三、多重共线性的后果
1.完全共线性下参数估计量不存在
2.近似共线性下OLS估计量非有效
3.参数估计量经济含义不合理
如果模型中两个解释变量具有线性相关性,例如X2=X1,
这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。
1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:
例如1本来应该是正的,结果恰是负的。
4.变量的显著性检验失去意义
5.模型的预测功能失效
四、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:
如判定系数检验法、逐步回归检验法等。
多重共线性检验的任务是:
(1)检验多重共线性是否存在;
(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
1.检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法
求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法
若在OLS法下:
R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。
2.判明存在多重共线性的范围
如果存在多重共线性,需进一步确定究竟由哪些变量引起。
(1)可决系数检验法
使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。
如果某一种回归:
Xji=1X1i+2X2i+LXLi的可决系数较大,说明Xj与其他X间存在共线性。
另一等价的检验是:
在模型中排除某一个解释变量Xj,估计模型;
如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。
(2)逐步回归法
以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否独立。
如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;
如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。
五、克服多重共线性的方法
如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。
1.第一类方法:
排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出去,是最为有效地克服多重共线性问题的方法,所以逐步回归法得到最广泛的应用。
剩余解释变量参数的经济含义和数值都发生了变化。
2.第二类方法:
差分法
对于以时间序列数据为样本的线性模型
将原模型变换为差分模型:
Yi=1X1i+2X2i++kXki+i
可以有效地消除原模型中的多重共线性。