面板数据模型入门讲解.doc

资源描述

面板数据模型入门讲解.doc

《面板数据模型入门讲解.doc》由会员分享，可在线阅读，更多相关《面板数据模型入门讲解.doc（18页珍藏版）》请在冰豆网上搜索。

面板数据模型入门讲解.doc

第十四章面板数据模型

在第五章，当我们分析城镇居民的消费特征时，我们使用的是城镇居民的时间序列数据；而当分析农村居民的消费特征时，我们使用农村居民的时间序列数据。

如果我们想要分析全体中国居民的消费特征呢？

我们有两种选择：

一是使用中国居民的时间序列数据进行分析，二是把城镇居民和农村居民的样本合并，实际上就是两个时间序列的样本合并为一个样本。

多个观测对象的时间序列数据所组成的样本数据，被称为面板数据（PanelData）。

通常也被称为综列数据，意即综合了多个时间序列的数据。

当然，面板数据也可以看成多个横截面数据的综合。

在面板数据中，每一个观测对象，我们称之为一个个体（Individual）。

例如城镇居民是一个观测个体，农村居民是另一个观测个体。

如果面板数据中各观测个体的观测区间是相同的，我们称其为平衡的面板数据，反之，则为非平衡的面板数据。

基于面板数据所建立的计量经济学模型则被称为面板数据模型。

例如，表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间，所以，它是一个平衡的面板数据。

§14.1面板数据模型

一、两个例子

1.居民消费行为的面板数据分析

让我们重新回到居民消费的例子。

在表5.1.1中，如果我们将城镇居民和农村居民的时间序列数据作为一个样本，以分析中国居民的消费特征。

那么，此时模型（5.1.1）的凯恩斯消费函数就可以表述为：

（14.1.1）

（14.1.2）

其中：

和分别表示第i个观测个体在第t期的消费和收入。

i=1、2分别表示城镇居民和农村居民两个观测个体，t＝1980、…、2008表示不同年度。

为经典误差项。

在（14.1.2）中，随观测个体的变化，而不随时间变化，它反映个体之间不随时间变化的差异性，被称为个体效应。

反映不随个体变化的时间上的差异性，被称为时间效应。

在本例中，城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动，还有一部分差异是由城镇居民和农村居民的身份或地域差异决定的，它不随时间变化，这种差异性就由和来反映。

同时，对同一种居民，在收入不变的情况下，消费支出还可能随时间的变化而变化，这种变化的来源在于除随机扰动以外经济环境的一些系统性变化，如经济体制的变迁，这种变化是所有居民共同面对的，所导致的居民消费在时间上的差异性就由时间效应、、…、来反映。

实际上，模型（14.1.1）还隐含了一个假定，既假定城乡居民的边际消费倾向相同并且不随时间变化。

尽管这一假定不一定成立，但作为熟悉面板数据模型基础知识的例子，我们还是暂且保留这一假定。

2.农村居民收入分析

为了考察中国农民收入与农村要素投入结构之间的关系，同样地，我们既可以采用全国的时间序列总量数据进行分析，也可以采用各省市自治区的横截面数据进行分析。

但是，如果能够综合各省市自治区的时间序列数据，从而基于面板数据进行分析，一个显而易见的好处就是，我们将会有更多更具体的信息，估计和检验统计量都会有更大的自由度，从而获得更可靠的分析结论。

简单而言，由于农村剩余劳动力的存在，影响农村居民收入的要素配置因素可以分为以下几个方面：

资本拥有量、投资主体结构、劳动的配置状态等。

所以，基于省际面板数据，有研究者建立了如下的面板数据模型：

（14.1.3）

。

，

其中：

it为地区在第期的农村人均纯收入，各年份的现值均按本地区农村消费者价格指数折算为1995年不变价。

it为地区在第期乡村劳动力中非农产业从业人数与农林牧渔等传统产业从业人数之比。

it为地区在第期农村集体投资与个人投资的比率。

it为估算的地区在第期农村人均资本存量。

和分别为个体效应和时间效应。

反映除劳动力分配比例、投资比例、资本存量的影响以外，各省人均纯收入受本省内在因素（如地理位置，经济发展基础等）所导致的不随时间变化的差异性。

而时间效应反映除解释变量的影响以外，所有省份农村人均纯收入面对共同的经济环境的变化而形成的时间上的差异性。

显然，面板模型与我们以前所学的模型之间的区别，就在于存在个体效应和时间效应。

简而言之，剔除了解释变量的影响以后，由个体内部不变的因素所导致的个体之间的差异性，就是个体效应；由所有个体所面对的共同因素所导致的时间上的变化，就是时间效应。

二、面板数据的特征及优势

基于前面两个例子，我们发现，面板数据既可以看作多个个体时间序列数据的合并，也可以看作多个时点横截面数据的合并。

所以，面板数据的基本特征就是其数据结构的二维性（图14.1.1）。

或者说，面板数据是一个数据平面，这也正是其被以“面板”命名的原因。

横截面数据

时间序列数据

图14.1.1变量X的面板数据结构

那么，有读者会说，我们可以基于全国的总量数据（城镇居民和农村居民数据加总）来分析中国居民的消费行为，为什么要使用面板数据呢？

实际上，使用面板数据会为我们的计量经济学分析带来很多的好处。

（1）扩大信息量，增加估计和检验统计量的自由度。

显然，与时间序列数据和横截面数据不同，面板数据是二维数据。

它既包含观测同一个体随时间的变化，也包含同一时间不同个体之间的差异。

这显著扩大了样本的信息量和样本容量，有助于提高参数估计的精度和检验结论的可靠性。

对模型（14.1.1）而言，如果我们基于居民的时间序列数据进行分析，样本容量为29。

而基于城镇和农村的面板数据，样本容量则为58，如果基于省市区的面板数据，样本容量将更大，模型估计量和检验统计量的自由度显著增加。

更重要的是，基于总量数据进行分析，无法反映两种居民之间的差异性，其数据信息对于两种居民都有显著的偏差。

（2）有助于提供动态分析的可靠性。

基于单个个体的时间序列数据进行动态分析，一方面会受到采样区间的限制，另一方面其研究结论也缺乏普适性。

而基于面板数据，则可以在较短的采样区间内反映多个个体共同的动态变化特征，从而弱化样本区间的制约得到更为可靠的分析结论。

当我们在模型（14.1.1）中引入预期因素时，其回归模型被表述为：

。

（14.1.4）

如果使用总量数据，我们只能根据不同年度消费额的变化信息来估计消费的动态性质，而使用面板数据，我们有两种居民消费的变化信息可供利用。

（3）有助于反映经济结构、经济制度的渐进性变化。

对于所考察的经济体系而言，经济结构和经济制度的变化通常是渐进性的，我们很难找到一个量化的指标来反映这种渐进性变化。

幸运的是，使用面板数据时，时间效应是被解释变量中不随个体变化而只随时间变化的部分，它反映了所有个体所面对的共同因素的影响。

所以，时间效应是对经济结构和经济制度渐变效应的一个很好的度量指标。

（4）面板数据有助于反映经济体的结构性特征。

与总量数据相比，面板数据提供了更具微观层次的信息。

对很多经济问题的分析而言，某些变量涉及不同观测个体之间的相互关系，例如资本和劳动在区域和产业之间的流动，技术的溢出，通胀的相互影响等。

使用面板数据使得这些结构性变化信息的分析成为可能。

三、面板数据模型的混合估计

既然面板数据有诸多优势，那么，面板数据模型的分析与时间序列或横截面数据模型有什么不同呢？

在（14.1.1）和（14.1.3）中，如果假定个体效应和时间效应为0，那么，这些模型与我们前面所熟悉的单方程模型没有任何本质上的差异。

所以，我们可以直接基于OLS对其进行估计。

也就是说，我们没有考虑面板数据的结构特殊性，而直接把各时间序列或各横截面数据混合起来进行估计，这种估计方法我们称之为面板混合OLS估计。

对于模型（14.1.3），如果假定个体效应和时间效应为0，则模型可以表述为：

（14.1.5）

其中：

，it为地区在第期的农村人均纯收入。

也就是说，我们将各个地区的数据堆积起来，看成是对同一个对象的观测数据。

其他变量的向量表述也是类似的。

如果为经典误差项，这一模型与第五章所讲的多元线性回归模型没有任何本质区别，其OLS估计量是线性无偏最优估计量。

基于中国28个省市自治区（不包括重庆、海南、西藏）1995～2005年的面板数据，其面板混合OLS估计的结果为：

（14.1.6）

t统计值202.273017.25205.7464－3.1736

p值0.00000.00000.00000.0017

＝0.8409＝0.8393。

但是，对面板数据而言，把个体效应和时间效应假定为0一般是不符合经济现实的，尤其是个体效应。

我们很难想象各地区农村居民的消费特征不存在差异性。

当我们考虑个体效应与时间效应时，我们会发现，面板数据在为我们带来更多信息和便利的同时，也带来了一些新的问题。

§14.2固定效应与随机效应

面板数据模型的一般形式可以表述为：

（14.2.1）

。

其中：

为经典误差项。

，，，。

我们已经知道，与时间序列数据或横截面数据的单方程模型相比，面板数据模型唯一的不同之处就是存在个体效应和时间效应。

根据和与模型解释变量是否相关，面板数据的个体效应和时间效应又分为两种情形：

固定效应和随机效应。

如果个体效应与模型中的解释变量是相关的，我们就称这种个体效应是固定效应（FixedEffect）。

反之，如果个体效应与模型中的解释变量不相关，我们称之为随机效应（RandomEffect）。

同样地，如果时间效应与模型中的解释变量是相关的，我们就称这种时间效应是固定效应。

反之，则为随机效应。

例如：

在模型（14.1.1）中，如果个体效应与收入相关，时间效应与收入不相关，那么，该模型的个体效应是固定效应，时间效应是随机效应。

如何理解固定效应和随机效应的含义呢？

当个体效应与解释变量相关时，因为解释变量反映观测个体的个性化特征，所以，此时的个体效应反映了观测个体的个性化特征。

或者说，此时个体效应的差异与观测个体的特征有内在的联系，所以，我们可以称这种效应是“固定”的。

相反，如果个体效应与解释变量不相关，则说明个体效应的差异与观测个体的特征没有显著的内在联系，在某种程度上，这种个体差异有可能是“随机”产生的。

同样，时间效应的固定效应是指时间效应在时间上的差异是与特定观测时间的经济背景有内在联系，而其随机效应则是指时间效应在时间上的差异是“随机”产生的。

§14.3静态面板数据模型的估计

对于面板数据模型（14.2.1），我们首先考虑解释变量中不含被解释变量滞后项的情形，这样的模型我们称之为静态面板数据模型。

当个体效应和时间效应是固定效应和随机效应时，模型所面对的计量经济学问题是不同的，其估计方法也不同。

一、静态面板数据模型的固定效应估计

如果个体效应和时间效应满足固定效应假定，显然此时模型的随机误差项与解释变量相关，它违背了高斯－马尔可夫定理对“解释变量与误差项不相关”的假定，根据我们在模型设定和联立方程中所学的知识，此时模型中参数的OLS估计量是有偏的。

显然，固定效应面板数据模型的本质问题是解释变量的内生性问题，其后果是OLS估计量不再是无偏的估计量。

既然OLS估计量是有偏的，我们就需要新的无偏估计量。

对于固定效应的静态面板数据模型，其线性最优无偏的估计方法是最小二乘虚拟变量法（LSDV方法）。

1.LSDV估计方法

为了表述简便，我们以

展开阅读全文