面板数据的F检验固定效应检验之欧阳法创编.docx
《面板数据的F检验固定效应检验之欧阳法创编.docx》由会员分享,可在线阅读,更多相关《面板数据的F检验固定效应检验之欧阳法创编.docx(23页珍藏版)》请在冰豆网上搜索。
面板数据的F检验固定效应检验之欧阳法创编
面板数据模型(PANELDATA)F检验,固定效应检验
时间:
2021.03.09
创作:
欧阳法
1.面板数据定义。
时间序列数据或截面数据都是一维数据。
例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。
面板数据(paneldata)也称时间序列截面数据(timeseriesandcrosssectiondata)或混合数据(pooldata)。
面板数据是同时在时间和截面空间上取得的二维数据。
面板数据示意图见图1。
面板数据从横截面(crosssection)上看,是由若干个体(entity,unit,individual)在某一时刻构成的截面观测值,从纵剖面(longitudinalsection)上看是一个时间序列。
面板数据用双下标变量表示。
例如
yit, i=1,2,…,N;t=1,2,…,T
N表示面板数据中含有N个个体。
T表示时间序列的最大长度。
若固定t不变,yi.,(i=1,2,…,N)是横截面上的N个随机变量;若固定i不变,y.t,(t=1,2,…,T)是纵剖面上的一个时间序列(个体)。
图1 N=7,T=50的面板数据示意图
例如1990-2000年30个省份的农业总产值数据。
固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。
面板数据由30个个体组成。
共有330个观测值。
对于面板数据yit,i=1,2,…,N;t=1,2,…,T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balancedpaneldata)。
若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalancedpaneldata)。
注意:
EViwes3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。
例1(file:
panel02):
1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。
数据是7年的,每一年都有15个数据,共105组观测值。
人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。
人均消费和收入的面板数据从纵剖面观察分别见图2和图3。
从横截面观察分别见图4和图5。
横截面数据散点图的表现与观测值顺序有关。
图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。
表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)
地区人均消费
1996
1997
1998
1999
2000
2001
2002
CP-AH(安徽)
3282.466
3646.150
3777.410
3989.581
4203.555
4495.174
4784.364
CP-BJ(北京)
5133.978
6203.048
6807.451
7453.757
8206.271
8654.433
10473.12
CP-FJ(福建)
4011.775
4853.441
5197.041
5314.521
5522.762
6094.336
6665.005
CP-HB(河北)
3197.339
3868.319
3896.778
4104.281
4361.555
4457.463
5120.485
CP-HLJ(黑龙江)
2904.687
3077.989
3289.990
3596.839
3890.580
4159.087
4493.535
CP-JL(吉林)
2833.321
3286.432
3477.560
3736.408
4077.961
4281.560
4998.874
CP-JS(江苏)
3712.260
4457.788
4918.944
5076.910
5317.862
5488.829
6091.331
CP-JX(江西)
2714.124
3136.873
3234.465
3531.775
3612.722
3914.080
4544.775
CP-LN(辽宁)
3237.275
3608.060
3918.167
4046.582
4360.420
4654.420
5402.063
CP-NMG(内蒙古)
2572.342
2901.722
3127.633
3475.942
3877.345
4170.596
4850.180
CP-SD(山东)
3440.684
3930.574
4168.974
4546.878
5011.976
5159.538
5635.770
CP-SH(上海)
6193.333
6634.183
6866.410
8125.803
8651.893
9336.100
10411.94
CP-SX(山西)
2813.336
3131.629
3314.097
3507.008
3793.908
4131.273
4787.561
CP-TJ(天津)
4293.220
5047.672
5498.503
5916.613
6145.622
6904.368
7220.843
CP-ZJ(浙江)
5342.234
6002.082
6236.640
6600.749
6950.713
7968.327
8792.210
资料来源:
《中国统计年鉴》1997-2003。
表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据(不变价格)
地区人均收入
1996
1997
1998
1999
2000
2001
2002
IP-AH(安徽)
4106.251
4540.247
4770.470
5178.528
5256.753
5640.597
6093.333
IP-BJ(北京)
6569.901
7419.905
8273.418
9127.992
9999.700
11229.66
12692.38
IP-FJ(福建)
4884.731
6040.944
6505.145
6922.109
7279.393
8422.573
9235.538
IP-HB(河北)
4148.282
4790.986
5167.317
5468.940
5678.195
5955.045
6747.152
IP-HLJ(黑龙江)
3518.497
3918.314
4251.494
4747.045
4997.843
5382.808
6143.565
IP-JL(吉林)
3549.935
4041.061
4240.565
4571.439
4878.296
5271.925
6291.618
IP-JS(江苏)
4744.547
5668.830
6054.175
6624.316
6793.437
7316.567
8243.589
IP-JX(江西)
3487.269
3991.490
4209.327
4787.606
5088.315
5533.688
6329.311
IP-LN(辽宁)
3899.194
4382.250
4649.789
4968.164
5363.153
5797.010
6597.088
IP-NMG(内蒙古)
3189.414
3774.804
4383.706
4780.090
5063.228
5502.873
6038.922
IP-SD(山东)
4461.934
5049.407
5412.555
5849.909
6477.016
6975.521
7668.036
IP-SH(上海)
7489.451
8209.037
8773.100
10770.09
11432.20
12883.46
13183.88
IP-SX(山西)
3431.594
3869.952
4156.927
4360.050
4546.785
5401.854
6335.732
IP-TJ(天津)
5474.963
6409.690
7146.271
7734.914
8173.193
8852.470
9375.060
IP-ZJ(浙江)
6446.515
7158.288
7860.341
8530.314
9187.287
10485.64
11822.00
资料来源:
《中国统计年鉴》1997-2003。
图2 15个省级地区的人均消费序列(纵剖面)图3 15个省级地区的人均收入序列(file:
4panel02)
图4 15个省级地区的人均消费散点图 图5 15个省级地区的人均收入散点图(7个横截面叠加)
(每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值)
用CP表示消费,IP表示收入。
AH,BJ,FJ,HB,HLJ,JL,JS,JX,LN,NMG,SD,SH,SX,TJ,ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。
15个地区7年人均消费对收入的面板数据散点图见图6和图7。
图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。
相当于观察15个时间序列。
图7中每一种符号代表一个年度的截面散点图(共7个截面)。
相当于观察7个截面散点图的叠加。
图6 用15个时间序列表示的人均消费对收入的面板数据
图7 用7个截面表示的人均消费对收入的面板数据(7个截面叠加)
为了观察得更清楚一些,图8给出北京和内蒙古1996-2002年消费对收入散点图。
从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。
内蒙古2002年的收入与消费规模还不如北京市1996年的大。
图9给出该15个省级地区1996和2002年的消费对收入散点图。
可见6年之后15个地区的消费和收入都有了相应的提高。
图8 北京和内蒙古1996-2002年消费对收入时序图 图9 1996和2002年15个地区的消费对收入散点图
2.面板数据的估计。
用面板数据建立的模型通常有3种。
即混合估计模型、固定效应模型和随机效应模型。
2.1混合估计模型。
如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型,
yit=a+b1xit+eit, i=1,2,…,N;t=1,2,…,T
(1)
a和b1不随i,t变化。
称模型
(1)为混合估计模型。
以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:
图10
EViwes估计方法:
在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选NewObject功能,从而打开NewObject(新对象)选择窗。
在TypeofObject选择区选择Pool(混合数据库),点击OK键,从而打开Pool(混合数据)窗口。
在窗口中输入15个地区标识AH(安徽)、BJ(北京)、…、ZJ(浙江)。
工具栏中点击Sheet键,从而打开SeriesList(列写序列名)窗口,定义变量CP?
和IP?
,点击OK键,Pool(混合或合并数据库)窗口显示面板数据。
在Pool窗口的工具栏中点击Estimate键,打开PooledEstimation(混合估计)窗口如下图。
图11
在DependentVariable(相依变量)选择窗填入CP?
;在Commoncoefficients(系数相同)选择窗填入IP?
;Crosssectionspecificcoefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击Noweighting。
点击PooledEstimation(混合估计)窗口中的OK键。
得输出结果如图10。
相应表达式是
=129.6313+0.7587IPit
(2.0) (79.7) R2=0.98,SSEr=4824588,t0.05(103)=1.99
15个省级地区的人均支出平均占收入的76%。
如果从时间和截面上看模型截距都为零,就可以建立不含截距项的(a=0)的混合估计模型。
以二变量模型为例,建立混合估计模型如下,
yit=b1xit+eit, i=1,2,…,N;t=1,2,…,T
(2)
对于本例,因为上式中的截距项有显著性(t=2.0>t0.05(103)=1.99),所以建立截距项为零的混合估计模型是不合适的。
EViwes估计方法:
在PooledEstimation(混合估计)对话框中Intercept(截距项)选择窗中选None,其余选项同上。
2.2固定效应模型。
在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixedeffectsregressionmodel)。
固定效应模型分为3种类型,即个体固定效应模型(entityfixedeffectsregressionmodel)、时刻固定效应模型(timefixedeffectsregressionmodel)和时刻个体固定效应模型(timeandentityfixedeffectsregressionmodel)。
下面分别介绍。
(1)个体固定效应模型。
个体固定效应模型就是对于不同的个体有不同截距的模型。
如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型,表示如下,
yit=b1xit+g1W1+g2W2+…+gNWN +eit, t=1,2,…,T (3)
其中
Wi=
eit,i=1,2,…,N;t=1,2,…,T,表示随机误差项。
yit,xit,i=1,2,…,N;t=1,2,…,T分别表示被解释变量和解释变量。
模型(3)或者表示为
y1t=g1+b1x1t+e1t, i=1(对于第1个个体,或时间序列),t=1,2,…,T
y2t=g2+b1x2t+e2t, i=2(对于第2个个体,或时间序列),t=1,2,…,T
…
yNt=gN+b1xNt+eNt, i=N(对于第N个个体,或时间序列),t=1,2,…,T
写成矩阵形式,
y1=(1 x1)+e1=g1+x1b+e1
…
yN=(1 xN)+eN=gN+xNb+eN
上式中yi,gi,ei,xi都是N´1阶列向量。
b为标量。
当模型中含有k个解释变量时,b为k´1阶列向量。
进一步写成矩阵形式,
=+b +
上式中的元素1,0都是T´1阶列向量。
面板数据模型用OLS方法估计时应满足如下5个假定条件:
(1)E(eit|xi1,xi2,…,xiT,ai)=0。
以xi1,xi2,…,xiT,ai为条件的eit的期望等于零。
(2)(xi1,xi2,…,xiT),(yi1,yi2,…,yiT),i=1,2,…,N分别来自于同一个联合分布总体,并相互独立。
(3)(xit,eit)具有非零的有限值4阶矩。
(4)解释变量之间不存在完全共线性。
(5)Cov(eiteis|xit,xis,ai)=0,t¹s。
在固定效应模型中随机误差项eit在时间上是非自相关的。
其中xit代表一个或多个解释变量。
对模型
(1)进行OLS估计,全部参数估计量都是无偏的和一致的。
模型的自由度是NT–1–N。
当模型含有k个解释变量,且N很大,相对较小时,因为模型中含有k+N个被估参数,一般软件执行OLS运算很困难。
在计量经济学软件中是采用一种特殊处理方式进行OLS估计。
估计原理是,先用每个变量减其组内均值,把数据中心化(entity-demeaned),然后用变换的数据先估计个体固定效应模型的回归系数(不包括截距项),然后利用组内均值等式计算截距项。
这种方法计算起来速度快。
具体分3步如下。
(1)首先把变量中心化(entity-demeaned)。
仍以单解释变量模型(3)为例,则有
=gi+b1+, i=1,2,…,N (4)
其中=,=,=, i=1,2,…,N。
公式
(1)、(4)相减得,
(yit-)=b1(xit-)+(eit-) (5)
令(yit-)=,(xit-)=,(eit-)=,上式写为
=b1+ (6)
用OLS法估计
(1)、(6)式中的b1,结果是一样的,但是用(6)式估计,可以减少被估参数个数。
(2)用OLS法估计回归参数(不包括截距项,即固定效应)。
在k个解释变量条件下,把用向量形式表示,则利用中心化数据,按OLS法估计公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下,
()=(')-1 (7)
其中=,是相对于的残差向量。
(3)计算回归模型截距项,即固定效应参数gi。
=- (8)
以例1(file:
panel02)为例得到的个体固定效应模型估计结果如下:
注意:
个体固定效应模型的EViwes输出结果中没有公共截距项。
图12
EViwes估计方法:
在EViwes的PooledEstimation对话框中Intercept选项中选Fixedeffects。
其余选项同上。
注意:
(1)个体固定效应模型的EViwes输出结果中没有公共截距项。
(2)EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值。
不认为截距项是模型中的重要参数。
(3)当对个体固定效应模型选择加权估计时,输出结果将给出加权估计和非加权估计两种统计量评价结果。
(4)输出结果的联立方程组形式可以通过点击View选Representations功能获得。
(5)点击View选WaldCoefficientTests…功能可以对模型的斜率进行Wald检验。
(6)点击View选Residuals/Table,Graphs,CovarianceMatrix,CorrelationMatrix功能可以分别得到按个体计算的残差序列表,残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵。
(7)点击Procs选MakeModel功能,将会出现估计结果的联立方程形式,进一步点击Solve键,在随后出现的对话框中可以进行动态和静态预测。
输出结果的方程形式是
=安徽+ x1t=479.3+0.70x1t
(55.0)
=北京+x2t=1053.2+0.70x2t
… (55.0)
=浙江+x15t=714.2+0.70x15t
(55.0)
R2=0.99,SSEr=2270386,t0.05(88)=1.98
从结果看,北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。
相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。
原假设H0:
不同个体的模型截距项相同(建立混合估计模型)。
备择假设H1:
不同个体的模型截距项不同(建立个体固定效应模型)。
F统计量定义为:
F== (9)
其中SSEr,SSEu分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)的残差平方和。
非约束模型比约束模型多了N-1个被估参数。
(混合估计模型给出公共截距项。
)
注意:
当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-k。
用上例计算,已知SSEr=4824588,SSEu=2270386,
F====7.15
F0.05(14,89)=1.81
因为F=7.15>F0.05(14,89)=1.81,所以,拒绝原假设。
结论是应该建立个体固定效应模型。
(2)时刻固定效应模型。
时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。
如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型,表示如下,
yit=b1xit+a1+a2D2+…+aTDT+eit, i=1,2,…,N (10)
其中
Dt=
eit,i=1,2,…,N;t=1,2,…,T,表示随机误差项。
yit,xit,i=1,2,…,N;t=1,2,…,T分别表示被解释变量和解释变量