STATA与面板数据回归中文好_精品文档.pdf
《STATA与面板数据回归中文好_精品文档.pdf》由会员分享,可在线阅读,更多相关《STATA与面板数据回归中文好_精品文档.pdf(33页珍藏版)》请在冰豆网上搜索。
EstimationwithSTATA连玉君(西安交通大学金禾经济研究中心)2005.10目录第八章面板数据模型28.1简介.28.2静态面板数据模型.38.2.1固定效应模型.48.2.2随机效应模型.78.2.3假设检验.118.2.4STATA实现.138.3非均齐方差.218.3.1异方差.218.3.2序列相关.258.3.3方差形式未知时的稳健性估计.308.3.4STATA实现.308.4参考文献.321第八章面板数据模型8.1简介面板数据,简言之是时间序列和截面数据的混合。
严格地讲是指对一组个体(如居民、国家、公司等)连续观察多期得到的资料。
所以很多时候我们也称其为“追踪资料”。
近年来,由于面板数据资料获得变得相对容易,使得其应用范围也不断扩大。
而关于面板数据的计量理论也几乎涉及到了以往截面分析和时间序列分析中所有可能出现的主题,如近年来发展出的面板向量自回归模型(PanelVAR)、面板单位根检验(PanelUnitRoottest)、面板协整分析(PanelCointegeration)、门槛面板数据模型(PanelThreshold)等,都是在现有截面分析和时间序列分析中的热点主题的基础上发展起来的。
采用面板数据模型进行分析的主要目的在于两个方向:
一是控制不可观测的个体异质性;二是描述和分析动态调整过程,处理误差成分。
使用面板数据主要有以下几方面的优点:
便于控制个体的异质性。
比如,我们在研究全国30个省份居民人均消费青岛啤酒的数量时。
可以选取居民的收入、当地的啤酒价格、上一年的啤酒消费量等变量作为解释变量。
但同时我们认为民族习惯、1风俗文化、2广告投放等因素也会显著地影响居民的啤酒消费量。
对于特定的个体而言,前两种因素不会随时间的推移而有明显的变化,通常称为个体效应。
而广告的投放往往通过电视或广播,我们可以认为在特定的年份所有省份所接受的广告投放量是相同的,通常称为时间效应。
这些因素往往因为难以获得数据或不易衡量而无法进入我们的模型,在截面分析中者往往会引起遗漏变量的问题。
而面板数据模型的主要用途之一就在于处理这些不可观测的个体效应或时间效应。
包含的信息量更大,降低了变量间共线性的可能性,增加了自由度和估计的有效性。
便于分析动态调整。
1如宁夏属于回族自治区,那里的回民因为信仰伊斯兰教,所以不允许饮酒的,而生活在宁夏的许多汉民也往往因为自己的回民朋友无法饮酒而无形中减少了啤酒的消费量。
2如中国南部地区啤酒的消费量比较大,而北方很多地区只有在夏天才会饮用较多的啤酒,冬天他们一般是只喝白酒的。
28.2.静态面板数据模型38.2静态面板数据模型我们一般所说的静态面板数据模型,是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项)的情形。
但严格地讲,随机干扰项服从某种序列相关(如AR
(1),AR
(2),MA
(1)等)的模型也不是静态模型。
动态模型和静态模型在处理方法上往往有较大的差异。
本节中我们重点介绍两种最为常用的静态模型固定效应模型和随机效应模型。
考虑如下模型:
yit=x0it+uit(8.1)uit=ai+it(8.2)其中,i=1,2,N,t=1,2,T;xit为K1列向量,K为解释变量的个数,为K1系数列向量。
对于特定的个体i而言,ai表示那些不随时间改变的影响因素,而这些因素在多数情况下都是无法直接观测或难以量化的,如个人的消费习惯、国家的社会制度等,我们一般称其为“个体效应”(individualeffects)。
对“个体效应”的处理主要有两种方式:
一种是视其为不随时间改变的固定性因素,相应的模型称为“固定效应”模型;另一种是视其为随机因素,相应的模型称为“随机效应”模型。
这两种模型的差异主要反映在对“个体效应”的处理上。
固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上;随机效应模型则假设所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上,因此该模型通常也称为“误差成分模型”。
基于此,一种常见的观点认为,当我们的样本来自一个较小的母体时,我们应该使用固定效应模型,而当样本来自一个很大的母体时,应当采用随机效应模型。
比如在研究中国地区经济增长的过程中,我们以全国28个省区为研究对象,可以认为这28个省区几乎代表了整个母体。
同时也可以假设在样本区间内,各省区的经济结构、人口素质等不可观测的特质性因素是固定不变的,因此采用固定效应模型是比较合适的。
而当我们研究西安市居民的消费行为时,即使样本数为10000人,相对于西安市600万人口的母体而言仍然是个很小的样本。
此时,可以认为不同的居民在个人能力、消费习惯等方面的差异是随机的,此时采用随机效应模型较为合适。
遗憾的是,很多情况下,我们并不能明确地区分我们的样本来自一个较大母体还是较小的母体。
因此有些学者认为,区分固定效应模型和随机效应模型应当看使用二者的假设条件是否满足。
由于随机效应模型把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应不相关,而固定效应模型并不需要这个假设条件。
所以如果我们的检验结果表明该假设满足,那么就应该采用随机效应模型,因为它更为有效,反之,就需要采用固定效应模型。
另外,有些学者认为具体采用哪一种模型主要决定于我们的分析目的。
如果主要目的在于8.2.静态面板数据模型4估计模型的参数,而模型中个体的数目又不是很大的情况下,采用固定效应模型是个不错的选择,因为它非常容易估计。
但当我们需要对模型的误差成分进行分析时(通常分解为长期效果和短期效果),就只能采用随机效应模型。
在这种情况下,即使模型中的部分解释变量与个体效应相关,我们仍然可以通过工具变量法对模型进行估计。
简言之,两种模型有各自的优缺点和适用范围,在实证分析的过程中,我们一方面要根据分析的目的选择合适的模型,同时也要以8.2.3节中介绍的假设检验方法为基础进行模型筛选。
8.2.1固定效应模型模型的基本设定和假设条件若视ai为固定效应,模型(8.1)可以采用向量的形式表示为:
yi=ai1T+xi+i(8.3)其中,yi=(yi1,yi2,yiT)0,xi=(xi1,xi2,xiT)0,i=(i1,i2,iT)0,1T是一个所有元素都为1的T1列向量。
我们有如下两个基本假设:
3假设1:
Ei|xi,ai=0(8.4)假设2:
Vari|xi,ai=2IT(8.5)假设1表明干扰项与解释变量x的当期观察值、前期观察值以及未来的观察值均不相关,也就是说我们的模型中所有的解释变量都是严格外生的。
假设2就是一般的同方差假设,在此假设下模型(8.1)的OLS估计是BLUE的。
当此假设无法满足时,我们就需要处理异方差或序列相关以便得到稳健性估计量。
组内估计量上面我们已经提到,在假设1和假设2同时成立的情况下,模型(8.1)的OLS估计是BLUE的。
但在实际操作的过程中,如果N比较大,那么我们的模型中将包含(N+K)个解释变量,4计算的工作量往往很大,对于N相当大的情况(如N=10000),一般的计算机都无法胜3一般应用中,我们也常采用如下两个相对较弱的假设。
假设10:
Ei|xi=0和假设20:
Vari|xi=2IT。
4此时,我们可以将模型(8.1)视为一个包含N个虚拟变量,X中不包含常数项的普通OLS模型。
当然,我们也可以在X中包含常数项,但此时只需加入N-1个虚拟变量,参见脚注6。
8.2.静态面板数据模型5任。
所以我们有必要先进行一些变换以消除固定效应,进而对简化的模型进行估计,本小节和下一小节介绍的这两种方法都是基于此目的进行的。
我们首先将所有观察值进行堆叠,于是模型(8.1)可用矩阵形式表示为:
y=Da+X+(8.6)其中,y=(y01,y02,y0N)0,=(1,2,N)0,均为NT1向量,D=IN1T,a=(a1,a2,aN)0。
考虑到D矩阵的构造形式,它事实上对应着N个虚拟变量。
因此,模型(8.6)等价于给混合OLS模型y=X+加入N个虚拟变量。
在正式估计模型之前,我们先定义一些有用的矩阵运算,它们将在后面的分析中反复使用。
定义DD0=INJT,其中,JT=1T10T为TT维矩阵,每个元素均为1。
同时,我们定义P=D(D0D)1D0=INJT,JT=(1/T)JT是TT维矩阵,每个元素均为1/T;Q=INTD(D0D)1D0=INTP。
矩阵P和Q都具有如下性质:
(1)对称、幂等性:
P0=P,且P2=P;
(2)正交性:
PQ=0;(3)和为单位矩阵:
P+Q=INT.我们可以从上述三个性质中的任意两个推导出第三个。
易于证明,QD=0,因此,我们可以通过在等式(8.6)两边同时左乘Q以消除固定效应:
Qy=QX+Q(8.7)变换后的模型的OLS估计量为:
5WG=(X0QX)1X0Qy(8.8)方差估计量为:
Var(WG)=2(X0QX)1(8.9)显然,2的一致估计量为:
2=1NTNK(QyQXWG)0(QyQXWG)(8.10)5事实上,模型(8.7)并不满足OLS的经典假设,因为E(Q)(Q)0=2Q6=2I,但其GLS估计量与(8.8)式相同。
具体推导过程留给读者。
8.2.静态面板数据模型6个体效应的估计值为:
ai=yixiWG(8.11)该估计量通常称为“组内估计量”,因为上述变换实质上是从每个观察值中减去其组内平均值,以去除组内不随时间变化的个体效应。
变换后的模型(8.8)的特定元素为:
(yityi)=(x0itxi)+(iti)(8.12)其中,yi=(1/T)PTt=1yit,xi和i的定义方式与此相同。
所以,要得到WG,我们只需要从原始数据中间去其组内平均,然后对变换后的模型执行OLS估计即可。
需要注意的是,在模型(8.6)中,Da项实际上对应着N个虚拟变量,所以为了避免共线性问题,解释变量X中不应再包含常数项。
6一阶差分估计量除了上述通过“组内去心”的办法消除固定效应外,我们还可以通过一阶差分的方式去除固定效应。
对(8.1)式取一阶差分,得到4yi2=4xi2+4i2.4yiT=4xiT+4iT(8.13)采用矩阵形式可表示为Byi=Bxi+Bi(8.14)其中,B=1100001100.00011(T1)T(8.15)对所有观察值进行堆叠,得到(INB)y=(INB)X+(INB)(8.16)设QB=INB,则相应的OLS的估计量为:
OLS=(X0QBX)1X0QBy(8.17)6当然,我们也可以在X中加入常数项,但此时要同时加入约束条件:
PNi=1ai=0。
这样我们估计出的个体效应ai就应当解释为个体i的相对截距项,而不是前面得到的绝对截距项。
STATA8.0就采取了在X中包含常数项的处理方式。
8.2.静态面板数据模型7根据假设1可知,EX=0,所以OLS是的无偏估计量,在N较大的情况下,OLS也是一致的。
由假设2可知,满足同方差假设,且不存在序列相关。
但变换后的干扰项B却并不满足同方差的假设,Var(QB)=2QBQ0B(8.18)但此时模型(8.16)的GLS估计量是BLUE的,GLS=XQB(QBQ0B)1QBX1XQB(QBQ0B)1QBy.(8.19)易于证明QB(QBQ0B)1QB=Q。
7因此,GLSWG也就是说,我们采用一阶差分去除“固定效应”后,再用GLS估计差分后的模型以消除由于差分而导致的干扰项的序列相关问题得到的GLS估计量与我们前面介绍的组内估计是等价的。
由于GLS满足经典OLS的基本假设,所以WG是BLUE的。
8.2.2随机效应模型模型的基本设定和GLS估计当N很大时,采用固定效应模型往往会使参数的个数迅速增加,自由度的损失往往较大。
另一方面,固定效应模型的基本目的是在控制个体效应的前提下估计模型的参数