TC数据模型.docx
《TC数据模型.docx》由会员分享,可在线阅读,更多相关《TC数据模型.docx(25页珍藏版)》请在冰豆网上搜索。
TC数据模型
面板数据模型
一、面板数据的概念
面板数据是时间序列数据和截面数据相结合的二维数据,为方面起见,暂且将之统称为TC数据(即时间截面二维数据的意思),以我国31个省份1991-1999年的GDP数据为例,则每一个年度称为一个截面,每个省份称为一个个体,每一个年度的31个省份的GDP数据(31个)就是截面数据,每一个省份的9年的GDP数据(9个)就是时间序列数据,即GDP这个变量在时间维度有9个取值,在截面维度有31个取值,这些数据合在一起就是TC数据,共31*9=279个。
如果每个截面包含相同数量的个体,则称之为平衡TC数据,否则为非平衡TC数据。
面板数据的主要优点有:
1.有利于降低多重共线性程度。
增加数据纬度的同时也增加了样本容量,样本容量增加可以增加变量之间的差异,降低变量间的相关程度,从而降低共线性程度。
2.可以进行模型效应分析,更准确地理解统计结果的实际含义。
二、面板数据模型的种类
面板数据模型分为PooledData模型和PanelData模型二类,PooledData模型适用于研究时期较多个体较少的TC数据,须为每个个体命名,研究目的侧重于个体差异或时期趋势;PanelData模型适用于研究个体较多、时期较少的TC数据,不须为每个个体命名,研究目的侧重于由时期差异或个体推断总体。
另外,PooledData模型允许各时期的个体不相同,PanelData模型要求各时期的个体相同。
例如:
pooleddata
t=1:
ABCDF
t=2:
ABDE
paneldata
t=1:
ABCDE
t=2:
ABCDE
三、模型的基本形式
1.PooledData模型
,
…………①
2.PanelData模型
,
…………①
其中,
可以是非线性的。
比较分析:
由于研究目的不同,所以前者允许系数可变,后者假定系数不变。
四、模型形式的分类
根据模型是否存在个体效应(即不同的个体是否有不同的模型),可分为效应模型和无效应模型两类,其中,PooledData模型的效应模型又分为变系数模型和变截距模型两种;PanelData模型的效应模型只有变截距模型一种。
所以,PooledData模型有3种,PanelData模型只有2种。
1.效应模型
(1)变系数模型
如果对不同的
(
),
和
都不相同,则称为个体(时期)效应变系数模型,可表示为:
…………②
或:
变系数模型等价于在模型中纳入“单独的个体哑变量项”和“个体哑变量与自变量的交叉项”来体现个体差异。
该模型用于描述:
x和y的关系不仅在个体之间存在显著差异,而且x对这种差异有显著影响,或者说,x是产生这种差异的影响因素。
这种结论是普通回归模型难以得到的(因为代表个体的哑变量须设置很多“二分变量”)。
(2)变截距模型
如果对不同的
(
),只是
不相同,但
相同,则称为个体(时期)效应变截距模型,可表示为:
…………③
或:
变截距模型等价于在模型中纳入“单独的个体哑变量项”来体现个体差异。
该模型用于描述:
x和y的关系在不同个体存在显著差异。
2.无效应模型
如果对不同的
(
),
和
都相同,则称为混合模型,可表示为:
…………④
该模型用于描述:
x和y的关系与个体或时期均无关。
模型效应包括固定效应和随机效应2种,当个体就是总体时,则称之为固定效应模型(FE);当个体是来自总体的随机样本时,则称之为随机效应模型(RE)。
对于平衡数据,Eviews可以估计“双向FE”或“双向RE”,非平衡数据则不能。
五、模型选择
1.模型形式选择
(1)PooledData模型形式选择-F检验
1)假设:
:
假设模型为变截距模型
:
假设模型为混合模型
2)统计量
~
~
其中,S1、S2、S3分别表示变系数模型、变截距模型和混合模型的残差平方和,N是样本个数,K是外生变量个数,T是时期总数。
(注:
S1和S2均采用FE模型计算,可从回归结果中取得,然后手工计算F1和F1)
3)检验规则
(A)如果F2小于临界值(p值大于0.05),则不否定H02,应选择混合模型;
(B)如果F2、F1均大于临界值(两个p值均小于0.05),则否定H02和H01,应选择FE变系数模型;
(C)如果F2大于临界值但F1小于临界值(F2的p值小于0.05,但F1的p值大于0.05),则否定H02但不否定H01,应选择FE变截距模型。
.
[参考]F检验的Eviews操作:
◊估计变系数模型(无约束模型),做F检验(View/Fixed/RandomEffectsTesting/RedundantFixedEffects-LikelihoodRatio下同),P值记为p1;估计变截距模型(相对混合模型而言,也是无约束模型),做F检验,P值记为p2。
◊当p1<临界值时,则否定“约束”,故采用变系数模型
◊当p1>临界值,但p2<临界值时,则否定“截距”约束,但不否定“斜率”约束,故采用变截距模型
◊当p1、p2都>临界值时,则不否定“截距”约束,也不否定“斜率”约束,故采用混合模型
(2)PanelData模型形式选择-LikelihoodRatio检验
PanelData模型形式包括变截距模型(效应模型)和混合模型(无效应模型)两种。
1)假设
:
模型为混合模型(约束模型),
:
模型为FE变截距模型(未约束模型)
2)统计量
式中,S1、S2分别表示FE变截距模型和混合模型的残差平方和。
如果p值小于0.05,则拒绝原假设,选择FE变截距模型,反之则选择混合模型。
Eviews操作:
先估计FE变截距模型,然后做LikelihoodRatio检验(View/Fixed/RandomEffectsTesting/RedundantFixedEffects–LikelihoodRatio.)。
如果P值<0.05,则拒绝混合模型,接受FE变截距模型。
注:
(1)Paneldata模型的混合模型是在PanelOptions页的效应定义菜单中选择“None”选项来设置。
(2)该检验也适合于PooledData模型中的混合模型和FE变截距模型之间的选择。
由于变系数模型太复杂,实际应用很少采用,因此一般只考虑是采用混合模型还是FE变截距模型。
该检验也称为“F检验”、“FE显著性检验”等。
2.模型效应选择
前面在选择模型种类时都是按照FE计算的,而RE模型的含义更具有普遍性,所以如果可能的话,应尽量采用RE模型的结果。
由于软件的局限,模型效应的选择目前只适合于变截距模型,不适合于变系数模型,变系数模型就不用选择了,一律采用FE。
变截距模型效应可按照下列步骤选择:
(1)根据研究对象和目的不同作定性选择
如果研究对象就是样本/个体本身,目的也是比较样本之间的特点,
或样本量和时期数都较小时,则应选择FE;如果研究对象是总体,目的是通过样本推断总体,则应选用RE。
(2)Hausman检验(RE合理性检验)
Eviews操作:
先估计RE模型,然后做Hausman检验(View/Fixed/RandomEffectsTesting/CorrelatedRandomEffects-HausmanTest.)。
如果P值<0.05,则拒绝原假设“RE与解释变量不相关”,即拒绝采用RE模型。
参考:
不相关的假设下,固定效应和随机效应模型是一致的,但固定效应不具有效性;反之,则随机效应模型不具一致性,而应采用固定效应模型。
六、模型估计
1.异方差
如果存在个体/时期异方差(例如,个体/时期个数大于时期/个体个数时),在Eviews中可选用“个体/时期加权回归法”(cross-section/periodweight)估计模型。
2.自相关
如果同时存在个体/时期异方差和自相关,在Eviews中可选用“个体/时期近似不相关加权回归法”(cross-section/periodSUR)估计模型。
七、单位根检验和协整检验
1.单位根检验
共6种检验方法,按照原假设不同可分为三类:
(1)假设存在相同单位根。
LLC(Levin,Lin&Chu),Breitung
(2)假设存在不同的单位根。
IPS(Im,Pesaran,Shin),ADF-Fisher,PP-Fisher
(3)假设不存在相同的单位根。
Hadri
参考:
只要有两种不同的单位根检验方法(相同根与不同根检验)检验结果不存在单位根就可以接受“序列平稳”,不要求所有检验都通过。
Eviews操作:
在pool对象窗口中,View\UnitRootTest
2.协整检验
如果基于单位根检验的结果发现变量之间是同阶单整的,即可进行协整检验。
通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。
因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。
Pedroni、Kao、Johansen的方法。
零假设是没有协整关系
Eviews操作:
在pool对象窗口中,View\CointegrationTest
八、Eviews操作举例
[例1]建立我国城镇居民消费函数的面板数据模型(数据文件:
E:
\zy\统计学\时间序列\pooldata.wf1或paneldata.wf1)。
在excel中按如下格式输入数据,并保存为paneldata.xls。
地区
Region
Year
CONS
CONS1
INC
安徽
1
1994
2551
3048
安徽
1
1995
2728
2551
3275
安徽
1
1996
2827
2728
3536
安徽
1
1997
2841
2827
3537
安徽
1
1998
2896
2841
3658
安徽
1
1999
3065
2896
3979
北京
2
1994
4134
5085
北京
2
1995
4279
4134
5315
北京
2
1996
4377
4279
5601
北京
2
1997
4739
4377
5668
北京
2
1998
4938
4739
6002
(一)PanelData模型
1.数据文件建立
方法一:
(1)新建工作文件:
file/new/workfile
(2)将paneldata.xls读入到Eviews中。
Proc\Import\ReadText-Lotus-Excel
方法二:
(1)新建工作文件:
file/new/workfile
(2)将paneldata.xls读入到Eviews中。
Proc\Import\ReadText-Lotus-Excel
(3)修改数据格式
Proc\Structure\ResizeCurrentPage,或双击"Range:
"
174
2.模型形式选择
估计个体FE变截距模型
DependentVariable:
CONS
Method:
PanelLeastSquares
Date:
03/24/10Time:
23:
40
Sample(adjusted):
19951999
Cross-sectionsincluded:
29
Totalpanel(unbalanced)observations:
142
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
585.0825
109.3800
5.349082
0.0000
CONS1
0.102468
0.058452
1.753031
0.0824
INC
0.581585
0.031431
18.50368
0.0000
注:
如果想得到标准化系数,则须自己动手对变量进行标准化转换,eviews命令为:
新变量名=(X-@mean(原变量名))/@stdev(原变量名)
EffectsSpecification
Cross-sectionfixed(dummyvariables)
R-squared
0.994624
Meandependentvar
3234.430
AdjustedR-squared
0.993171
S.D.dependentvar
916.4458
S.E.ofregression
75.73195
Akaikeinfocriterion
11.68260
Sumsquaredresid
636621.5
Schwarzcriterion
12.32789
Loglikelihood
-798.4646
F-statistic
684.5609
Durbin-Watsonstat
2.153824
Prob(F-statistic)
0.000000
观察变截距情况
View/Fixed/RandomEffects/Coss-sectionEffects
REGION
Effect
1.000000
-89.33830
2.000000
297.9273
3.000000
97.83291
4.000000
-132.4350
5.000000
505.1705
6.000000
160.6781
7.000000
-57.45104
8.000000
-56.56254
9.000000
-133.2480
10.00000
-132.5468
11.00000
-163.8827
12.00000
42.09169
13.00000
58.35272
14.00000
-93.37451
15.00000
1.870924
16.00000
-219.1768
18.00000
-7.732197
19.00000
-244.6682
20.00000
-76.90029
21.00000
-66.76854
22.00000
-123.4103
23.00000
-135.9862
24.00000
-9.677288
25.00000
325.3022
26.00000
97.84863
27.00000
66.89539
28.00000
-177.7432
29.00000
46.80014
30.00000
278.8408
LikelihoodRatio检验
RedundantFixedEffectsTests
Equation:
Untitled
Testcross-sectionfixedeffects
EffectsTest
Statistic
d.f.
Prob.
Cross-sectionF
3.249093
(28,111)
0.0000
Cross-sectionChi-square
85.002864
28
0.0000
P值<0.05,则拒绝混合模型,接受个体FE变截距模型。
本例的研究对象是各地区本身,因此没必要进行关于RE合理性的Hausman检验
估计时期FE变截距模型
DependentVariable:
CONS
Method:
PanelLeastSquares
Date:
03/24/10Time:
23:
53
Sample(adjusted):
19951999
Cross-sectionsincluded:
29
Totalpanel(unbalanced)observations:
142
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
3.224260
27.53995
0.117076
0.9070
CONS1
0.488472
0.045900
10.64219
0.0000
INC
0.429126
0.035242
12.17647
0.0000
EffectsSpecification
Periodfixed(dummyvariables)
R-squared
0.991373
Meandependentvar
3234.430
AdjustedR-squared
0.990990
S.D.dependentvar
916.4458
S.E.ofregression
86.99212
Akaikeinfocriterion
11.81755
Sumsquaredresid
1021630.
Schwarzcriterion
11.96326
Loglikelihood
-832.0462
F-statistic
2585.584
Durbin-Watsonstat
1.716525
Prob(F-statistic)
0.000000
View/Fixed/RandomEffects/PeriodEffects
DATEID
Effect
1995-01-01
50.39859
1996-01-01
-32.99133
1997-01-01
4.728160
1998-01-01
-33.82692
1999-01-01
12.45479
LikelihoodRatio检验
RedundantFixedEffectsTests
Equation:
Untitled
Testperiodfixedeffects
EffectsTest
Statistic
d.f.
Prob.
PeriodF
4.517949
(4,135)
0.0019
PeriodChi-square
17.839786
4
0.0013
P值<0.05,则拒绝混合模型,接受时期FE变截距模型。
3.模型效应选择
Hausman检验
CorrelatedRandomEffects-HausmanTest
Equation:
Untitled
Testperiodrandomeffects
TestSummary
Chi-Sq.Statistic
Chi-Sq.d.f.
Prob.
Periodrandom
16.185821
2
0.0003
**Warning:
estimatedperiodrandomeffectsvarianceiszero.
P值<0.05,则拒绝采用时期RE模型。
结论:
采用paneldata模型估计时,应选择个体FE变截距模型和时期FE变截距模型
(二)PooledData模型
1.数据文件建立
(1)新建工作文件:
file/new/workfile
(2)新建pool对象:
objects/newobject/pool
或输入命令:
poolpool1
(3)定义个体(省份)名称
输入命令:
pool1.defineANHBJFUJGASGUDGUXGUZHUNHEBHUNHLJHUBHUNJILJISJIXLILNMGLIXQIHSHDSHXXAXSHHSCTJXIJYUNZJ
(4)定义变量名称
输入命令:
pool1.sheetcons?
cons1?
Inc?
(必须加“?
”号)
(5)打开pool1,读取excel文件(E:
\zy\统计学\时间序列\PoolData.xls)
Proc\importpooldata\……出现窗口……OK
2.模型形式选择
N=29,K=1,T=6
(1)个体效应模型形式选择
◊估计变系数模型
SumsquaredresidS1=362203
◊估计变截距模型
SumsquaredresidS2=648473
◊估计混合模型pool1.lscons?
cons1?
inc?
SumsquaredresidS3=1136199
=((1136199-362203)/((29-1)*(1+1)))/(362203/(29*(6-1-1)))=4.43
=((648473-362203)/((29-1)*1))/(362203/(29*(6-1-1)))=3.27
计算F检验的临界值:
的临界值
=0.6731Eviews命令:
=@qfdist(0.05,56,116)
的临界值
=0.5828Eviews命令:
=@qfdist(0.05,28,116)
因为F2、F1均大于临界值,所以接受个体FE变系数模型。
由于变系数模型只能进行FE估计,所以就不必再做模型效应检验了。
(2)时期效应模型形式选择
S1=962503、S2=987688648473、S3=1136199
=((1136199-962503)/((29-1)*(1+1)))/(962503/(29*(6-1-1)))=0.37
=((987688-962503)/((29-1)*1))/(962503/(29*(6-1-1)))=0.11
因为
小于
的临界值0.6731,所以应选择混合模型。
结论:
采用pooleddata模型估计时,应选择个体FE变系数模型。
(注:
可编辑