第15章短面板.docx

资源描述

第15章短面板.docx

《第15章短面板.docx》由会员分享，可在线阅读，更多相关《第15章短面板.docx（22页珍藏版）》请在冰豆网上搜索。

第15章短面板.docx

第15章短面板

©陈强,《高级计量经济学及Stata应用》课件，第二版，2014年，高等教育出版社。

第15章短面板

15.1面板数据的特点

面板数据（paneldata或longitudinaldata），指的是在一段时间内跟踪同一组个体（individual）的数据。

它既有横截面的维度（n个个体），又有时间维度（T个时期）。

一个T=3的面板数据结构如表15.1。

表15.1面板数据的结构

Individual1:

t=1

Individual1:

t=2

Individual1:

t=3

Individualn:

t=1

Individualn:

t=2

Individualn:

t=3

如果面板数据T较小，而n较大，在使用大样本理论时让n趋于无穷大。

这种面板数据被称为“短面板”（shortpanel）。

反之，如果T较大，而n较小，则被称为“长面板”（longpanel）。

在面板模型中，如果解释变量包含被解释变量的滞后值，则称

为“动态面板”（dynamicpanel）；反之，则称为“静态面板”（static

panel）。

如果在面板数据中，每个时期在样本中的个体完全一样，则称为“平衡面板数据”（balancedpanel）；反之，则称为“非平衡面板数据”（unbalancedpanel）。

面板数据的优点：

（1）解决遗漏变量问题：

遗漏变量常由不可观测的个体差异或“异质性”（heterogeneity）造成。

如果个体差异“不随时间而改变”（timeinvariant），则面板数据可解决遗漏变量问题。

（2）提供个体动态行为的信息：

例：

考虑区分规模效应与技术进步对企业生产效率的影响。

对于截面数据，没有时间维度，无法观测到技术进步。

对于时间序列，无法区分生产效率的提高究竟有多少由于规模扩大，有多少

由于技术进步。

例：

对于失业问题，截面数据能告诉在某个时点上哪些人失业，时间序列数据能告诉某个人就业与失业的历史，但这两种数据均无法告诉是否失业的总是同一批人（低流转率），还是失业的人群总在变动（高流转率）。

（3）样本容量较大：

同时有截面维度与时间维度，面板数据的样本容量更大，可提高估计精度。

面板数据也会带来问题，比如，数据通常不满足独立同分布的假定，因为同一个体在不同期的扰动项一般存在自相关。

面板数据的收集成本通常较高，不易获得。

15.2面板数据的估计策略

一个极端策略是将其看成是截面数据而进行混合回归（pooledregression），要求样本中每位个体拥有相同的回归方程。

此策略忽略个体间不可观测或被遗漏的异质性（heterogeneity），而该异质性可能与解释变量相关，导致估计不一致。

另一极端策略则是，为每位个体估计一个单独的回归方程。

此策略忽略了个体的共性，可能没有足够大的样本容量。

实践中常采用折衷的估计策略，即假定个体的回归方程拥有相同的斜率，但可有不同的截距项，以此来捕捉异质性。

个体效应模型（individual-specificeffectsmodel）

yit

=xi'tβ

zi'δ

εit

（i=1,,n;t

=1,,T）

zi为不随时间而变（timeinvariant）的个体特征，比如性别；

xit可随个体及时间而变（time-varying）；

扰动项由（ui

εit）两部分构成，称为“复合扰动项”（compositeerror

term）；不可观测的随机变量ui是代表个体异质性的截距项。

εit为随个体与时间而改变的扰动项。

假设{εit}为iid，且与ui不相关。

如果ui与某个解释变量相关，则称为“固定效应模型”（FixedEffectsModel，简记FE）。

此时，OLS不一致。

如果ui与所有解释变量（xit,zi）均不相关，则称为“随机效应模型”

（RandomEffectsModel，简记RE）。

15.3混合回归

如果所有个体拥有一样的回归方程，则方程可写为

yit

=α+

xi'tβ

zi'δ

εit

xit不包括常数项。

把所有数据放在一起，像对待横截面数据那样进行OLS回归，称为“混合回归”（pooledregression）。

应使用聚类稳健的标准误（cluster-robuststandarderrors），聚类

（cluster）由每位个体不同期的所有观测值所组成。

15.4个体固定效应模型

对于固定效应模型，给定个体i，将方程两边对时间平均：

yi=

xi'β

zi'δ

εi

将原方程减去平均后的方程可得：

yit

=（xit

-xi）'β

（εit

-εi）

定义yit

≡yit

yi，xit

≡xit

xi，εit

≡εit

εi，则

yit

=xi'tβ

εit

上式已将ui消去，只要εit与xit不相关，可用OLS一致地估计β，称为“固定效应估计量”（FixedEffectsEstimator），记为βˆFE。

βˆFE主要使用了每个位体的组内离差信息，也称“组内估计量”

（withinestimator）。

即使个体特征ui与解释变量xit相关，组内估计量也一致。

在作离差转换时，zi'δ也被消掉，无法估计δ，故FE无法估计不随时间而变的变量之影响。

为保证（εit

εi）与（xit

xi）不相关，要求第i个观测值满足严格外

生性，即E（εit

xi1,,

xiT）=0，因为xi中包含了所有（xi1,,

xiT）的信

息。

扰动项须与各期解释变量均不相关（不仅仅是当期解释变量）。

在原方程中引入（n-1）个虚拟变量（如果没有截距项，则引入n

个虚拟变量）来代表不同的个体，可得到同样结果。

FE也称为“最小二乘虚拟变量模型”（LeastSquareDummyVariableModel，简记LSDV）。

正如线性回归与离差形式的回归在某种意义上是等价的。

比如，

yi=α

βxi

+εi⇔

yi-y

=β（xi

-x）+（εi

-ε）

使用LSDV的好处是可以得到个体异质性ui的估计。

LSDV法的缺点是，如果n很大，须在回归方程中引入很多虚拟变量，可能超出计量软件所允许的解释变量个数。

15.5时间固定效应

引入时间固定效应，可解决不随个体而变（individualinvariant）但随时间而变（timevarying）的遗漏变量问题。

假设模型为

yit

=xi'tβ

zi'δ

γSt

εit

St不可观测。

定义λt≡γSt，则

yit

=xi'tβ

zi'δ

λt

εit

将λt视为第t期独有的截距项，并将其解释为“第t期”对y的效应，故λ1,,λT称为“时间固定效应”（timefixedeffects）。

使用LSDV法来，对每个时期定义一个虚拟变量，把（T-1）个时间虚拟变量包括在回归方程中：

yit

=xi'tβ

zi'δ

+γ2D2t

++γTDTt

εit

其中，时间虚拟变量D2t

以此类推。

=1，如果t=

2；D2t

=0，如果t≠2；

此方程既考虑个体固定效应，又考虑时间固定效应，称为“双向固定效应”（Two-wayFE）。

为节省参数，可引入时间趋势项，替代（T-1）个时间虚拟变量：

yit

=xi'tβ

zi'δ

γt+ui

εit

上式隐含较强假定，即每个时期的时间效应相等，每期均增加γ。

15.6一阶差分法

对于固定效应模型，可对原方程两边进行一阶差分，以消去个体效应ui（同时把zi'δ消掉了），

yit

yi,t-1

=（xit

-xi,t-1）'β

（εit

-εi,t-1）

对此方程使用OLS，即得到“一阶差分估计量”（FirstDifferencingEstimator），记为βˆFD。

只要（εit

εi,t-1）与（xit

xi,t-1）不相关，则βˆFD一致。

此一致性条件比严格外生性假定更弱，这是βˆFD的主要优点。

可以证明（参见习题），如果T=2，则βˆFD=βˆFE。

对于T>2，如果{εit}为iid，则βˆFE比βˆFD更有效率，故实践中主要使用βˆFE。

对于动态面板（第16章），严格外生性假定无法满足，用差分法。

15.7随机效应模型

对于方程yit=xi'tβ+zi'δ+ui+εit，随机效应模型假设ui与解释变

量{xit,zi}均不相关，故OLS一致。

但扰动项由（ui

εit）组成，不是球型扰动项，故OLS不是最有效

率的，应进行FGLS估计。

假设不同个体之间的扰动项互不相关。

由于ui的存在，同一个体不同时期的扰动项之间仍存在自相关，

⎧σ2,若t≠s

Cov（ui

εit,ui

+εis）=⎨u

ο2+σ2,若t=s

⎩uε

ο2为u的方差，σ2为ε的方差。

uiεit

当t≠s时，其自相关系数为

ρ≡Corr（ui

εit,

iis

u+ε）=u

2+σ2

自相关系数不随时间距离（t-s）而改变。

越大，则复合扰动项（ui

εit）中个体效应的部分（ui）越重要。

同一个体扰动项的协方差阵为

⎛σ2

+σ2σ2

...

ο2⎫

çuεuu⎪

ο2σ2

+σ2

...σ2

Σ=ç

uuεu⎪

ç⎪

çσ2σ2...σ2+σ2⎪

⎝uuu

ε⎭T⨯T

整个样本的协方差阵为块对角矩阵（blockdiagonalmatrix），

⎛∑0⎫

Ω=ç⎪

ç⎪

ç0∑⎪

⎝⎭nT⨯nT

由于OLS是一致的，且其扰动项为（ui+εit），故可用OLS的残差

来估计（σ2+σ2）。

uε

另一方面，FE也一致，且其扰动项为（εit

来估计σ2。

-εi），故可用FE的残差

然后，用FGLS估计原模型，得到“随机效应估计量”（RandomEffectsEstimator），记为βˆRE。

具体来说，用OLS来估计以下“广义离差”（quasi-demeaned）模型：

yit

-θˆyi

=（xit

-θˆxi）'β

+（1-θˆ）zi'δ

+⎡（1-θˆ）ui+（εit-θˆεi）⎤

⎣⎦

误差项

其中，θˆ是θ

≡1-

（Tσ2

σε

+σ2）12

的一致估计量。

可以证明，此扰动项不再有自相关。

对于随机效应模型，如果进一步假设扰动项服从正态分布，可进行MLE估计。

15.8组间估计量

对于随机效应模型，还可使用“组间估计量”。

如果个体数据较不准确，可对每位个体取时间平均值，然后用平均值来回归：

yi=

xi'β

zi'δ

εi

（i=1,,n）

对上式用OLS，可得“组间估计量”（BetweenEstimator），记βˆBE。

由于{xi,

zi}中包含了{xit,

zi}的信息，如果ui与解释变量{xit,

zi}相

关，则βˆBE不一致。

故不能在固定效应模型下使用组间估计法。

15.9拟合优度的度量

在有常数项的情况下，线性模型的R2等于被解释变量y与预测

值yˆ之间相关系数的平方，即R2

=[corr（y,

yˆ）]2。

对于面板模型，如使用混合回归，可直接用混合回归的R2。

如使用固定效应、随机效应或组间回归，拟合优度略复杂。

给定估计量（βˆ,δˆ），Stata提供了以下三种R2。

首先，对应于原模型，称[Corr（y,x'βˆ+z'δˆ）]2为“整体R2”

ititi

（R2overall），衡量估计量（βˆ,δˆ）对原模型的拟合优度。

其次，对应于组内模型，称[Corr（y,x'βˆ）]2为“组内R2”

itit

（R2within），衡量估计量（βˆ,δˆ）对组内模型的拟合优度。

再次，对应于组间模型，称[Corr（y,x'βˆ+z'δˆ）]2为“组间R2”

iii

（R2between），衡量估计量（βˆ,δˆ）对组间模型的拟合优度。

对于固定效应模型，建议使用组内R2，即组内方程的R2。

对于组间回归模型，建议使用组间R2，即组间方程的R2。

对于随机效应模型，这三种R2都只是相应的相关系数平方，而非随机效应方程的R2。

15.10非平衡面板

非平衡面板数据并不影响计算离差形式的组内估计量（withinestimator），固定效应模型的估计可照样进行。

对于随机效应模型而言，非平衡面板数据也没有实质性影响，只要在做广义离差变换时让

θi≡1-

（Tσ2

σε

+σ2）12

其中，Ti为个体i的时间维度，就可照常进行FGLS估计。

非平衡面板的最大问题是，那些原来在样本中但后来丢掉的个

体，如果“丢掉”的原因是内生的（即与扰动项相关），则会导致样本不具有代表性（不再是随机样本），从而导致估计量不一致。

比如，低收入的人群更易从面板数据中丢掉。

15.11究竟该用固定效应还是随机效应模型

检验原假设“H0:

ui与xit,zi不相关”（即随机效应模型为正确模型）。

无论原假设成立与否，FE都是一致的。

如果原假设不成立，则RE不一致。

如果H0成立，则FE与RE估计量将共同收敛于真实的参数值，故

（βˆFE

βˆ）−p−→0。

如果二者的差距过大，则倾向于拒绝原假设。

豪斯曼检验（Hausman,1978）的统计量为

ˆˆ'⎡ˆ

ˆ⎤-1ˆˆd2

（βFE

βRE）

⎢⎣Var（βFE）-Var（βRE）⎦⎥

（βFE

-βRE）−−→χ

（K）

其中，K为βˆFE的维度。

上述检验假设在H0成立的情况下，βˆRE最有效率。

如果存在异方差，则βˆRE并非最有效率的估计量，故不适用异方差的情形。

解决方法之一，通过自助法计算Var（βˆFE-βˆRE），参见第19章。

解决方法之二，进行以下辅助回归（Wooldridge,2010），

yit

-θˆyi

=（xit

-θˆxi）'β

+（1-θˆ）zi'δ

（xit

-xi）'γ

+⎡（1-θˆ）ui

（εit

-θˆεi）⎤

使用聚类稳健标准误检验原假设“H0:

的情况下也适用。

⎣⎦

=0”，此检验在异方差

由于总可以把原模型变换为随机效应的方程：

yit

-θˆyi

=（xit

-θˆxi）'β

+（1-θˆ）zi'δ

+⎡（1-θˆ）ui+（εit-θˆεi）⎤

⎣⎦

误差项

故在上面的辅助回归中，γ=0。

如果随机效应模型成立，则OLS一致，故plimγˆ=γ

n→∞

=0。

如果固定效应模型成立，扰动项⎡（1-θˆ）ui+（εit-θˆεi）⎤与（xit

xi）

⎣⎦

相关（因为u与x相关），OLS不一致，即plimγˆ

=γ*≠γ

=0。

iit

n→∞

拒绝“H0:

=0”，则意味着拒绝随机效应，接受固定效应。

对于非平衡面板，则以θˆ替代方程中的θˆ即可。

15.12个体时间趋势

个体异质性还可能表现为个体的不同时间趋势。

比如，在跨国面板中，各国的经济增长率可能不同。

考虑以下模型：

yit

=xi'tβ

zi'δ

γit+ui

εit

γit为个体时间趋势。

一般将γi视为来自某分布的随机变量（从该分布随机抽出一个观测值后，就不再随时间而变）。

此模型称为“随机趋势模型”（randomtrendmodel）。

如果yit取对数形式（比如lnGDPit），则γi可解释为在给定（xit,

zi）条件

下的平均增长率（即∂E（lnGDPit）/∂t），故也称“随机增长模型”（randomgrowthmodel）。

首先对方程两边做差分，去掉ui：

∆yit

=∆xi'tβ

γi

∆εit

在形式上，此方程与标准的个体效应模型一样。

如果γi与解释变量∆xit不相关，可用RE估计此方程。

如果γi与解释变量∆xit相关，可用FE或FD估计此方程。

展开阅读全文