TC数据模型.docx

资源描述

TC数据模型.docx

《TC数据模型.docx》由会员分享，可在线阅读，更多相关《TC数据模型.docx（25页珍藏版）》请在冰豆网上搜索。

TC数据模型.docx

TC数据模型

面板数据模型

一、面板数据的概念

面板数据是时间序列数据和截面数据相结合的二维数据，为方面起见，暂且将之统称为TC数据（即时间截面二维数据的意思），以我国31个省份1991-1999年的GDP数据为例，则每一个年度称为一个截面，每个省份称为一个个体，每一个年度的31个省份的GDP数据（31个）就是截面数据，每一个省份的9年的GDP数据（9个）就是时间序列数据，即GDP这个变量在时间维度有9个取值，在截面维度有31个取值，这些数据合在一起就是TC数据，共31*9=279个。

如果每个截面包含相同数量的个体，则称之为平衡TC数据，否则为非平衡TC数据。

面板数据的主要优点有：

1.有利于降低多重共线性程度。

增加数据纬度的同时也增加了样本容量，样本容量增加可以增加变量之间的差异，降低变量间的相关程度，从而降低共线性程度。

2.可以进行模型效应分析，更准确地理解统计结果的实际含义。

二、面板数据模型的种类

面板数据模型分为PooledData模型和PanelData模型二类，PooledData模型适用于研究时期较多个体较少的TC数据，须为每个个体命名，研究目的侧重于个体差异或时期趋势；PanelData模型适用于研究个体较多、时期较少的TC数据，不须为每个个体命名，研究目的侧重于由时期差异或个体推断总体。

另外，PooledData模型允许各时期的个体不相同，PanelData模型要求各时期的个体相同。

例如：

pooleddata

t=1:

ABCDF

t=2:

ABDE

paneldata

t=1:

ABCDE

t=2:

ABCDE

三、模型的基本形式

1.PooledData模型

，

…………①

2.PanelData模型

，

…………①

其中，

可以是非线性的。

比较分析：

由于研究目的不同，所以前者允许系数可变，后者假定系数不变。

四、模型形式的分类

根据模型是否存在个体效应（即不同的个体是否有不同的模型），可分为效应模型和无效应模型两类，其中，PooledData模型的效应模型又分为变系数模型和变截距模型两种；PanelData模型的效应模型只有变截距模型一种。

所以，PooledData模型有3种，PanelData模型只有2种。

1.效应模型

（1）变系数模型

如果对不同的

（

），

和

都不相同，则称为个体（时期）效应变系数模型，可表示为：

…………②

或：

变系数模型等价于在模型中纳入“单独的个体哑变量项”和“个体哑变量与自变量的交叉项”来体现个体差异。

该模型用于描述：

x和y的关系不仅在个体之间存在显著差异，而且x对这种差异有显著影响，或者说，x是产生这种差异的影响因素。

这种结论是普通回归模型难以得到的（因为代表个体的哑变量须设置很多“二分变量”）。

（2）变截距模型

如果对不同的

（

），只是

不相同，但

相同，则称为个体（时期）效应变截距模型，可表示为：

…………③

或：

变截距模型等价于在模型中纳入“单独的个体哑变量项”来体现个体差异。

该模型用于描述：

x和y的关系在不同个体存在显著差异。

2.无效应模型

如果对不同的

（

），

和

都相同，则称为混合模型，可表示为：

…………④

该模型用于描述：

x和y的关系与个体或时期均无关。

模型效应包括固定效应和随机效应2种，当个体就是总体时，则称之为固定效应模型（FE）；当个体是来自总体的随机样本时，则称之为随机效应模型（RE）。

对于平衡数据，Eviews可以估计“双向FE”或“双向RE”，非平衡数据则不能。

五、模型选择

1.模型形式选择

（1）PooledData模型形式选择-F检验

1）假设：

：

假设模型为变截距模型

：

假设模型为混合模型

2）统计量

其中，S1、S2、S3分别表示变系数模型、变截距模型和混合模型的残差平方和，N是样本个数，K是外生变量个数，T是时期总数。

（注：

S1和S2均采用FE模型计算，可从回归结果中取得，然后手工计算F1和F1）

3）检验规则

（A）如果F2小于临界值（p值大于0.05），则不否定H02，应选择混合模型；

（B）如果F2、F1均大于临界值（两个p值均小于0.05），则否定H02和H01，应选择FE变系数模型；

（C）如果F2大于临界值但F1小于临界值（F2的p值小于0.05，但F1的p值大于0.05），则否定H02但不否定H01，应选择FE变截距模型。

[参考]F检验的Eviews操作：

◊估计变系数模型（无约束模型），做F检验（View/Fixed/RandomEffectsTesting/RedundantFixedEffects-LikelihoodRatio下同），P值记为p1；估计变截距模型（相对混合模型而言，也是无约束模型），做F检验，P值记为p2。

◊当p1<临界值时，则否定“约束”，故采用变系数模型

◊当p1>临界值，但p2<临界值时，则否定“截距”约束，但不否定“斜率”约束，故采用变截距模型

◊当p1、p2都>临界值时，则不否定“截距”约束，也不否定“斜率”约束，故采用混合模型

（2）PanelData模型形式选择-LikelihoodRatio检验

PanelData模型形式包括变截距模型（效应模型）和混合模型（无效应模型）两种。

1）假设

：

模型为混合模型（约束模型），

：

模型为FE变截距模型（未约束模型）

2）统计量

式中，S1、S2分别表示FE变截距模型和混合模型的残差平方和。

如果p值小于0.05，则拒绝原假设，选择FE变截距模型，反之则选择混合模型。

Eviews操作：

先估计FE变截距模型，然后做LikelihoodRatio检验（View/Fixed/RandomEffectsTesting/RedundantFixedEffects–LikelihoodRatio.）。

如果P值<0.05，则拒绝混合模型，接受FE变截距模型。

注：

（1）Paneldata模型的混合模型是在PanelOptions页的效应定义菜单中选择“None”选项来设置。

（2）该检验也适合于PooledData模型中的混合模型和FE变截距模型之间的选择。

由于变系数模型太复杂，实际应用很少采用，因此一般只考虑是采用混合模型还是FE变截距模型。

该检验也称为“F检验”、“FE显著性检验”等。

2.模型效应选择

前面在选择模型种类时都是按照FE计算的，而RE模型的含义更具有普遍性，所以如果可能的话，应尽量采用RE模型的结果。

由于软件的局限，模型效应的选择目前只适合于变截距模型，不适合于变系数模型，变系数模型就不用选择了，一律采用FE。

变截距模型效应可按照下列步骤选择：

（1）根据研究对象和目的不同作定性选择

如果研究对象就是样本/个体本身，目的也是比较样本之间的特点，

或样本量和时期数都较小时，则应选择FE；如果研究对象是总体，目的是通过样本推断总体，则应选用RE。

（2）Hausman检验（RE合理性检验）

Eviews操作：

先估计RE模型，然后做Hausman检验（View/Fixed/RandomEffectsTesting/CorrelatedRandomEffects-HausmanTest.）。

如果P值<0.05，则拒绝原假设“RE与解释变量不相关”，即拒绝采用RE模型。

参考：

不相关的假设下，固定效应和随机效应模型是一致的，但固定效应不具有效性；反之，则随机效应模型不具一致性，而应采用固定效应模型。

六、模型估计

1.异方差

如果存在个体/时期异方差（例如，个体/时期个数大于时期/个体个数时），在Eviews中可选用“个体/时期加权回归法”（cross-section/periodweight）估计模型。

2.自相关

如果同时存在个体/时期异方差和自相关，在Eviews中可选用“个体/时期近似不相关加权回归法”（cross-section/periodSUR）估计模型。

七、单位根检验和协整检验

1.单位根检验

共6种检验方法，按照原假设不同可分为三类：

（1）假设存在相同单位根。

LLC（Levin,Lin&Chu），Breitung

（2）假设存在不同的单位根。

IPS（Im,Pesaran,Shin），ADF-Fisher，PP-Fisher

（3）假设不存在相同的单位根。

Hadri

参考：

只要有两种不同的单位根检验方法（相同根与不同根检验）检验结果不存在单位根就可以接受“序列平稳”，不要求所有检验都通过。

Eviews操作：

在pool对象窗口中，View\UnitRootTest

2.协整检验

如果基于单位根检验的结果发现变量之间是同阶单整的，即可进行协整检验。

通过了协整检验，说明变量之间存在着长期稳定的均衡关系，其方程回归残差是平稳的。

因此可以在此基础上直接对原方程进行回归，此时的回归结果是较精确的。

Pedroni、Kao、Johansen的方法。

零假设是没有协整关系

Eviews操作：

在pool对象窗口中，View\CointegrationTest

八、Eviews操作举例

[例1]建立我国城镇居民消费函数的面板数据模型（数据文件：

\zy\统计学\时间序列\pooldata.wf1或paneldata.wf1）。

在excel中按如下格式输入数据，并保存为paneldata.xls。

地区

Region

Year

CONS

CONS1

INC

安徽

1994

2551

3048

安徽

1995

2728

2551

3275

安徽

1996

2827

2728

3536

安徽

1997

2841

2827

3537

安徽

1998

2896

2841

3658

安徽

1999

3065

2896

3979

北京

1994

4134

5085

北京

1995

4279

4134

5315

北京

1996

4377

4279

5601

北京

1997

4739

4377

5668

北京

1998

4938

4739

6002

（一）PanelData模型

1.数据文件建立

方法一：

（1）新建工作文件：

file/new/workfile

（2）将paneldata.xls读入到Eviews中。

Proc\Import\ReadText-Lotus-Excel

方法二：

（1）新建工作文件：

file/new/workfile

（2）将paneldata.xls读入到Eviews中。

Proc\Import\ReadText-Lotus-Excel

（3）修改数据格式

Proc\Structure\ResizeCurrentPage，或双击"Range:

174

2.模型形式选择

估计个体FE变截距模型

DependentVariable:

CONS

Method:

PanelLeastSquares

Date:

03/24/10Time:

23:

Sample（adjusted）:

19951999

Cross-sectionsincluded:

Totalpanel（unbalanced）observations:

142

Variable

Coefficient

Std.Error

t-Statistic

Prob.

585.0825

109.3800

5.349082

0.0000

CONS1

0.102468

0.058452

1.753031

0.0824

INC

0.581585

0.031431

18.50368

0.0000

注：

如果想得到标准化系数，则须自己动手对变量进行标准化转换，eviews命令为：

新变量名=（X-@mean（原变量名））/@stdev（原变量名）

EffectsSpecification

Cross-sectionfixed（dummyvariables）

R-squared

0.994624

Meandependentvar

3234.430

AdjustedR-squared

0.993171

S.D.dependentvar

916.4458

S.E.ofregression

75.73195

Akaikeinfocriterion

11.68260

Sumsquaredresid

636621.5

Schwarzcriterion

12.32789

Loglikelihood

-798.4646

F-statistic

684.5609

Durbin-Watsonstat

2.153824

Prob（F-statistic）

0.000000

观察变截距情况

View/Fixed/RandomEffects/Coss-sectionEffects

REGION

Effect

1.000000

-89.33830

2.000000

297.9273

3.000000

97.83291

4.000000

-132.4350

5.000000

505.1705

6.000000

160.6781

7.000000

-57.45104

8.000000

-56.56254

9.000000

-133.2480

10.00000

-132.5468

11.00000

-163.8827

12.00000

42.09169

13.00000

58.35272

14.00000

-93.37451

15.00000

1.870924

16.00000

-219.1768

18.00000

-7.732197

19.00000

-244.6682

20.00000

-76.90029

21.00000

-66.76854

22.00000

-123.4103

23.00000

-135.9862

24.00000

-9.677288

25.00000

325.3022

26.00000

97.84863

27.00000

66.89539

28.00000

-177.7432

29.00000

46.80014

30.00000

278.8408

LikelihoodRatio检验

RedundantFixedEffectsTests

Equation:

Untitled

Testcross-sectionfixedeffects

EffectsTest

Statistic

d.f.

Prob.

Cross-sectionF

3.249093

（28,111）

0.0000

Cross-sectionChi-square

85.002864

0.0000

P值<0.05，则拒绝混合模型，接受个体FE变截距模型。

本例的研究对象是各地区本身，因此没必要进行关于RE合理性的Hausman检验

估计时期FE变截距模型

DependentVariable:

CONS

Method:

PanelLeastSquares

Date:

03/24/10Time:

23:

Sample（adjusted）:

19951999

Cross-sectionsincluded:

Totalpanel（unbalanced）observations:

142

Variable

Coefficient

Std.Error

t-Statistic

Prob.

3.224260

27.53995

0.117076

0.9070

CONS1

0.488472

0.045900

10.64219

0.0000

INC

0.429126

0.035242

12.17647

0.0000

EffectsSpecification

Periodfixed（dummyvariables）

R-squared

0.991373

Meandependentvar

3234.430

AdjustedR-squared

0.990990

S.D.dependentvar

916.4458

S.E.ofregression

86.99212

Akaikeinfocriterion

11.81755

Sumsquaredresid

1021630.

Schwarzcriterion

11.96326

Loglikelihood

-832.0462

F-statistic

2585.584

Durbin-Watsonstat

1.716525

Prob（F-statistic）

0.000000

View/Fixed/RandomEffects/PeriodEffects

DATEID

Effect

1995-01-01

50.39859

1996-01-01

-32.99133

1997-01-01

4.728160

1998-01-01

-33.82692

1999-01-01

12.45479

LikelihoodRatio检验

RedundantFixedEffectsTests

Equation:

Untitled

Testperiodfixedeffects

EffectsTest

Statistic

d.f.

Prob.

PeriodF

4.517949

（4,135）

0.0019

PeriodChi-square

17.839786

0.0013

P值<0.05，则拒绝混合模型，接受时期FE变截距模型。

3.模型效应选择

Hausman检验

CorrelatedRandomEffects-HausmanTest

Equation:

Untitled

Testperiodrandomeffects

TestSummary

Chi-Sq.Statistic

Chi-Sq.d.f.

Prob.

Periodrandom

16.185821

0.0003

**Warning:

estimatedperiodrandomeffectsvarianceiszero.

P值<0.05，则拒绝采用时期RE模型。

结论：

采用paneldata模型估计时，应选择个体FE变截距模型和时期FE变截距模型

（二）PooledData模型

1.数据文件建立

（1）新建工作文件：

file/new/workfile

（2）新建pool对象：

objects/newobject/pool

或输入命令：

poolpool1

（3）定义个体（省份）名称

输入命令：

pool1.defineANHBJFUJGASGUDGUXGUZHUNHEBHUNHLJHUBHUNJILJISJIXLILNMGLIXQIHSHDSHXXAXSHHSCTJXIJYUNZJ

（4）定义变量名称

输入命令：

pool1.sheetcons?

cons1?

Inc?

（必须加“？

”号）

（5）打开pool1，读取excel文件（E:

\zy\统计学\时间序列\PoolData.xls）

Proc\importpooldata\……出现窗口……OK

2.模型形式选择

N=29，K=1，T=6

（1）个体效应模型形式选择

◊估计变系数模型

SumsquaredresidS1=362203

◊估计变截距模型

SumsquaredresidS2=648473

◊估计混合模型pool1.lscons?

cons1?

inc?

SumsquaredresidS3=1136199

=（（1136199-362203）/（（29-1）*（1+1）））/（362203/（29*（6-1-1）））=4.43

=（（648473-362203）/（（29-1）*1））/（362203/（29*（6-1-1）））=3.27

计算F检验的临界值：

的临界值

=0.6731Eviews命令：

=@qfdist（0.05,56,116）

的临界值

=0.5828Eviews命令：

=@qfdist（0.05,28,116）

因为F2、F1均大于临界值，所以接受个体FE变系数模型。

由于变系数模型只能进行FE估计，所以就不必再做模型效应检验了。

（2）时期效应模型形式选择

S1=962503、S2=987688648473、S3=1136199

=（（1136199-962503）/（（29-1）*（1+1）））/（962503/（29*（6-1-1）））=0.37

=（（987688-962503）/（（29-1）*1））/（962503/（29*（6-1-1）））=0.11

因为

小于

的临界值0.6731，所以应选择混合模型。

结论：

采用pooleddata模型估计时，应选择个体FE变系数模型。

（注：

可编辑

展开阅读全文