面板数据中固定效应和随机效应的选择及其应用之欧阳引擎创编Word文件下载.docx
《面板数据中固定效应和随机效应的选择及其应用之欧阳引擎创编Word文件下载.docx》由会员分享,可在线阅读,更多相关《面板数据中固定效应和随机效应的选择及其应用之欧阳引擎创编Word文件下载.docx(8页珍藏版)》请在冰豆网上搜索。
文献标识码:
A
FixedEffectsModelandRandomEffectsModelSelectioninPanelDataanditsApplication
HANXueliang
ManagementSchoolofJinanUniversity,Guangzhou
510632
Abstract:
Inpaneldataanalysis,therehasbeenarguingonfixedeffectsmodelandrandomeffectsmodelselection.Inthispaper,wecomparedthesetwomodelsandconsiderthatchoosefixedeffectsmodelorrandomeffectsmodelshoulddependonyourresearchneed/theory,ratherthanHausmantest.Tosomeextent,Hausmantestdoesnotwork,sincewhatevertheoutcome,choosefixedeffectsmodelisalwaysright.Likethedifferencebetweenthefixedeffectsmodelandrandomeffectsmodel,thereisessentialdifferencebetweenHausmantestandBreusch-Pagantest.WecannotrejecttheBreusch-PagantestwhenHausmantestrejectstherandomeffectsmodel.Wealsouseoneempiricalanalysistoconveythisopinion.Theempirialanalysisresultsshowthat,ingeneraltheselectedvariablesdohaveeffectonthedependentvariable,butwhencomeintothedifferentindustries,theeffectisdiffer.
Keywords:
FixedEffectsModel;
RandomEffectsModel;
HausmanTest;
Breusch-PaganTest;
TradeCredit
0
引言
面板数据(PanelData)综合了时间序列数据和截面数据的特点,提供了更多与客观现实相关的信息,并控制了个体的异质性,增大了自由度和减小了变量间的多重共线性。
相对于单纯的时间序列数据和截面数据而言,在动态分析、个体分析等方面面板数据都具有其无可比拟的优势。
[1]因此,面板数据引发了学者们的广泛兴趣,并在原有的基础模型上衍生出一系列的模型。
然而,无论是采用那一种模型,面临的一个最根本的问题就是“误差分解满足固定效应还是随机效应进行判断与检验”(张红星、贾彦东,2006)。
[2]有关固定效应和随机效应的选择,国内外一直存有争论。
在此背景下,大多数学者(尤其是在国内)对于这两种效应模型不慎理解,在做研究时,经常采用先做固定效应模型,然后再用同样的数据做随机效应模型,之后进行Hausman检验,最后根据Hausman检验的结果进行选择和解释。
需要指出的是,这并不是一个合理的选择。
即便是在统计上能够解释,就现实而言很难相符。
本文接下来将就固定效应模型和随机效应模型的机理和Hausman检验的原理等加以阐释,并结合一个实证分析对此进行说明。
1
固定效应模型和随机效应模型[3][4][5]
面板数据分析中常用的两种模型即固定效应模型(fixedeffectmodel)和随机效应模型(randomeffectmodel),本文首先对这两个模型的基本原理进行解释。
1.1固定效应模型
固定效应模型的一般形式为:
其中,
代表因变量(DV),i表示个体,t表示时间;
代表自变量的系数;
代表自变量(IV);
(i=1,2,3……n)代表影响个体的未知项;
代表误差项目。
固定效应模型建立的初衷是检验那些随时间变化的变量对与因变量的影响,而一些不随时间变化而变化的变量被排斥在固定效应模型之外。
[6]在假设上,与随机效应模型不同,固定效应模型尤其强调:
(1)个体范围内的某些因素会影响结果,引起偏差;
(2)那些不随时间而变化的变量对于个体而言是独一无二的,这些变量不应该与其他个体的特征相关。
根据假设
(1),应该剔除那些不随时间的变化而变化的自变量对因变量的影响,其估计的结果是净效应;
根据假设
(2),如果误差项是相关的,那么固定效应模型就不合适(因为推论未必正确)。
此时就需要考虑其他效应模型(如随机效应模型)。
Hausman检验的基本原理也是基于对假设
(2)的检验,并没有考虑到假设
(1)。
1.2随机效应模型
随机效应模型的一般表达形式为:
代表个体之间的差异;
代表个体内部的差异。
如果有足够的理由能够确信个体之间的不同会影响到因变量,那么就应该采用随机效应模型。
在假设上,与固定效应模型不同,随机效应模型强调:
(1)个体的误差与所预测的是不相关的;
(2)解释变量之间不存在完全线性关系。
在把变量引入到模型中上,相对于固定效应模型而言,随机效应模型允许那些不随时间变化而变化的自变量加入到模型之中。
在应用随机效应模型时所遇到的一个难题就是,需要明确那些自变量能够影响或不能够影响到因变量。
本文主张在模型设定初期,尽可能考虑更多的变量,以免因遗漏某一变量造成估计偏差。
1.3固定效应模型和随机效应模型的比较
从上述的分析可以发现,固定效应模型和随机效应模型之间最大的不同就在于其基本假设,即个体不随时间改变的变量是否与所预测的或自变量相关。
[8]固定效应模型认为包含个体影响效果的变量是内生的,而与此相反,随机效应模型是假设全部的包含个体随机影响的回归变量是外生的(Mundlak,1978)。
[7]在模型中变量的引入上,固定效应模型默认了那些不随时间变化而变化的自变量不会对因变量造成影响,因而不允许这类变量出现在模型之中;
随机效应模型则认为表示某些个体特征的但不随时间变化而变化的自变量能够对因变量造成影响,允许这类变量引入到模型之中。
在假定了解释变量是外生性的情况下,固定效应模型中的估计量是无偏的。
与一阶差分法一样,固定效应通过一个变换,把非观察效应消除掉了,也正是其允许与任意时期内的解释变量随意相关,才导致任何不随时间变化而变化的解释变量也会随之消除。
固定效应自由度问题:
。
此外,当面板数据中某一对象只有一个截面,则在固定效应模型中起不到作用。
即,仅具有一时期的样本会被忽略,而造成耗损。
当有足够的理由相信非观察效应与所有解释变量都无关时,随机效应模型则更为合理。
理想的随机效应模型假设包含了所有的固定效应假设之外,又假定与所有时期任意解释变量无关。
2Hausman检验和Breusch-Pagan检验
尽管有些学者指出,过分的区别固定效应和随机效应本身并不具有学者们所宣称的“重要意义”,一般情况下,都应该把个体视为是随机的(Mundlak,1978)。
[7]然而,在实际应用中,对两种模型的选择依旧存在很大争议。
有关模型选择的检验方法也层出不穷,但最基本的、通常的做法就是Hausman检验。
需要进一步指出的是,Hausman检验并非总有效。
比如,当模型中的关键自变量是不随时间的变化而变化时。
如果有足够的理由或者客观情况下不得不首选随机效应模型时,在对所建立的模型估计后,就可以采用Breusch-Pagan检验进行补救。
本文接下来讲对这两种检验方法进行讨论。
2.1Hausman检验[9][10]
Hausman检验构建的统计量为:
H=(b-B)´
[Var(b)-Var(B)]-1(b-B)~x2(k)
其零假设为:
优先选择随机效应模型(见Green,2008,chapter9)。
Hausman检验的基本原理是:
通过检验固定效应u_i与其他解释变量数是否相关,进而判断是该采用固定效应还是随机效应。
其遵循的思想是,在u_i与其他解释变量数不相关的原假设下,用OLS估计的固定效应模型与用GLS估计的随机效应的模型得到的参数是一致的,只是用OLS估计的固定效应模型不具有效应;
反之,当OLS一致时,GLS则不一定一致。
在统计软件stata11.0中,Hausman检验很容易实现。
在设定好面板和模型以后,首选做一个固定效应模型,并存储:
xtregyx1x2,fe……其中,y代表因变量,x1x2代表自变量
eststorefe
然后做一个随机效应模型,并存储:
xtregyx1x2,re
最后,输入Hausman检验命令:
hausmanfere
通过上述三步,stata11.0会自动输出Hausman检验结果。
在结果中有如下值:
prob>
chi2=?
在上述式子中,若“?
”在设定的检验水平上是显著的(如,?
<
0.05),那么就采用固定效应模型;
反之,则可以采用随机效应模型。
即,如果检验的结果不显著,则意味着采用固定效应模型和随机效应模型没有差异,采用哪一种模型无关紧要。
从某种意义上上来说,这种检验是无意义的。
因为,不管检验结果是否显著,采用固定效应模型总是对的。
这是因为,若检验结果显著,就只能选择固定效应模型而抛弃随机效应模型;
若不显著,既然无明显差异,抛弃随机效应模型选择固定效应模型也没有错。
在实际中,Hausman检验的结果经常是显著的,所以在大多数情况下,研究者“被迫”认为固定效应模型是最佳的选择。
需要指出的还有,Hausman检验对模型的筛选也仅仅是考虑到了一个假设而已。
因此,利用Hausman检验的结果拒绝采用随机效应模型,显然是不恰当的,也是不够的。
2.2Breusch-Pagan检验[11][12]
Breusch-Pagan检验通过构建拉格朗日乘数来确定选择随机效应模型还是采用简单OLS估计的方法。
Breusch-Pagan检验的零假设是:
个体之间不存在差异。
即,个体之间不存在明显的不同。
Breusch-Pagan检验的基本原理是:
若约束是有效的,那么最大化拉格朗日函数所得到的有约束的参数估计量应该位于最大化原始样本似然函数的参数估计值附近。
因而,在处对数似然函数的斜率应该趋近于0。
因而,Breusch-Pagan检验就是在有约束估计量处,通过检验对数似然函数的斜率是否趋近于0来检验约束是否有效。
Breusch-Pagan检验在stata11.0中也很容易实现。
在设定好面板和模型以后,首先,做随机效应模型估计:
然后,
xttest0
通过上述两步,stata11.0会自动输出Breusch-Pagan检验结果。
0.05),那么就可以认定采用随机效应是正确的,反之,则随机效应模型不如一般的OLS估计。
尽管它并没有考虑到u_i与其他解释变量数的相关性,但Breusch-Pagan检验仍然可以用来作为模型选择优劣的标准之一。
3实证分析及讨论
为了说明在面板数据中是选择固定效应模型还是随机效应模型,本文以“研究中小企业间关系对其商业信用融资的影响”为例作进一步讨论。
在样本选择中,在确保研究结果的稳定性和代表性的前提下,以最大样本为基准(新上市股票数和累计上市数两个方面考虑),从中小板市场初次选取了累积到2007年底的201家中小企业作为候选样本。
之后,剔除掉了金融业(1家)和股票非正常的企业(4家),最终确定的样本为196家。
(鉴于尚未公开发表,此处内容恕暂不提供。
)
3.1模型的选择
从模型的设定,可以发现本文采用的是随机效应模型。
其理由如下:
一、一般情况下,都应该把个体视为是随机的(Mundlak,1978)。
[7]本文认为作为个体的企业是随机的,企业自身的特征能够影响到企业商业信用的可得性;
本文对于行业的划分是基于是否为工业企业这一标准,但即使在同一标准下的企业也有不同的特征(如规模等),这些特征能够影响到企业商业信用的可得性。
二、模型中的关键某些关键变量是不随时间的变化而改变的。
如,企业参与商协会的情况。
针对某一个企业,鉴于客观情况不可能按照年份逐一获得其参与商协会的情况。
即便是能够做到,在3年(2007-2009)内,也可能是不变的。
若采用固定效应模型,则不能够检验到这一因素对企业获取商业信用融资的影响,而本文认为这是影响企业商业信用融资的关键变量之一。
三、在所选取的样本中,从截面上来看,共计有196个截面;
从时间上来看,仅3个时间点。
即,样本数据为短面板数据。
从统计学的角度来看,采用固定效应模型会损失很大的自由度。
采用随机效应模型,则可以避免自由度的损失。
3.2模型检验
根据模型的设定,本文对模型的检验将采用Breusch-Pagan检验。
通常情况下,许多作者在论文中采用两种效应(固定效应和随机效应)对模型进行估计,并进行Hausman检验,进而对得到的参数的不同略加解释,或者坚持认为固定效应更为合适(因为Hausman检验在大多数情况下都是“拒绝原假设”、迫使采用固定效应模型)。
从理论上来说说,这种做法是不对的。
这是因为固定效应模型和随机效应模型对于抽样的假设存有本质的区别,因而通过它们得到的结果之间不具有本质上的可比性。
本文前面也曾指出,从某种程度上来说Hausman检验是没有任何意义的。
这是因为,无论检验结果如何,采用固定效应都是对的。
此外,还需要指出的是,即便是能够进行Hausman检验,若发生Hausman检验结果和Breusch-Pagan检验结果存在矛盾,也不能否认后者。
这是因为,Breusch-Pagan检验与Hausman检验的出发点也不同,这二者在本质上同样不具备可比性。
针对异方差和序列相关问题,随机效应模型本身就考虑到了异方差问题(体现在sigma_u^2上,连玉君),异方差检验通常用在对固定效应模型的检验中;
在短面板数据中,一般也不考虑序列相关问题,只有在包含了很长序列的面板数据中才考虑序列相关性(Baltagi,2005)。
[①]因此,出进行Breusch-Pagan检验外,本文不再做其他性质的检验。
[②]
3.3估计结果及结论
本文通过stata11.0作为工具,采用逐步回归的方法对模型的估计结果如下所示从上述随机效应模型估计结果来:
在整体估计中,企业关联交易集中度对企业商业信用融资显著(在没有商协会,或者国家级以上商协会和市级以下商协会的影响下),显著水平为1%,r1、r2的系数分别为-0.473、0.0517和-0.487、0.0535;
企业参与省级商协会对企业商业信用融资在10%的水平上是显著的,影响系数为0.0202(在不考虑参与其他商协会的情况下)。
通过进一步分行业估计发现,企业关联交易集中度对企业商业信用融资的影响仅在工业行业内是显著的,在非工业行业内并不显著;
企业参与商协会的情况在非工业行业内的影响是显著的,在工业行业内并不显著。
Breusch-Pagan检验结果发现,随机效应模型要优于简单OLS估计。
4结论
本文首先分别对固定效应模型和随机效应模型、Hausam检验和Breusch-Pagan检验的假设、基本原理等,做了分析和对比,认为:
一、固定效应模型和随机效应模型存在本质的区别,从其假设和对样本选择的理论假设来看,二者不具有可比性;
二、Hausam检验和Breusch-Pagan检验同样不具有可比性,这两种检验方法的出发点不同。
从某种程度上来说,Hausam检验是没有任何意义的。
因为无论Hausam检验结果如何,采用固定效应模型总是没有错的。
尽管Breusch-Pagan检验仅仅比较了固定效应模型和简单OLS估计之间的优劣,但仍然不失为对随机效应模型的检验的合理选择。
三、虽然当前计量方法层出不穷,但对于具体的研究需要而言,没有更优,只有更合适。
在具体的研究中,究竟是选择固定效应模型还是随机效应模型,应该着眼于具体的研究假设和客观需要,而不是追求方法上的完美。
在本文的实证分析中,根据本文研究假设(企业个体是随机的)和模型估计中采用的数据特征(196个截面、3个时间点的短面板,某些关键变量为不随时间变化而变化的),选择了随机效应模型。
在实证模型中,本文尽可能的控制了多个变量,包括企业自身的(诸如企业控股权情况、年龄、规模、资金缺口、声誉等)和外部的宏观环境(企业所在省份的人均GDP),在尽可能的范围内避免了因遗漏重要变量带来的估计偏差。
实证研究结果发现,虽然在整体上企业关联交易集中度和参与省级商协会都能够对企业获取商业信用融资产生影响(分别在1%和10%的水平上是显著的),但具体到工业和非工业行业内,二者的影响显著水平存在明显差别。
企业关联交易集中度仅在工业行业对企业商业信用融资有显著影响(显著水平1%),参与省级商协会仅在非工业行业对企业商业信用融资有显著影响(显著水平1%)。
[参考文献]
[1]Hsiao.AnalysisofPanelData,Cambridge:
UniversityPress,2003.
[2]张红星、贾彦东.PanelData模型设定的新思路[J].数量经济技术经济研究,2006(6),p148-154.
[3]Econometricanalysis/WilliamH.Greene.6thed.,UpperSaddleRiver,N.J.:
PrenticeHall,2008.
[4]DataAnalysisUsingStata/UlrichKohler,FraukeKreuter,2nded.,StataPress,2009.
[5]杰弗里·
M·
伍德里奇著、费剑平译校.计量经济学导论[M].北京:
中国人民大学出版社,2010.
[6]Kohler,Ulrich,FraukeKreuter,DataAnalysisUsingStata,2nded.,p.245.
[7]Mundlak.OnthePoolingofTimeSeriesandCrossSectionData,0Econometrica,46:
69~85,1978a.
[8]Green.Cochranehandbookforsystematicreviewsofinterventionsversion5.0.0[updatedFebruary2008],p.183.
[9]JerryA.HausmanandWilliamE.Taylor.PanelDataandUnobservableIndividualEffects,Econometrica,Vol.49,No.6(Nov.,1981),pp.1377-1398.
[10]J.A.Hausman.SpecificationTestsinEconometrics,Econometrica,Vol.46,No.6(Nov.,1978),pp.1251-1271.
[11]T.S.Breusch,A.R.Pagan.ASimpleTestforHeteroscedasticityandRandomCoefficientVariation,Econometrica,Vol.47,No.5(Sep.,1979),pp.1287-1294.
[12]T.S.Breusch,A.R.Pagan.TheLagrangeMultiplierTestanditsApplicationstoModelSpecificationinEconometrics,TheReviewofEconomicStudiesVol.47,No.1,EconometricsIssue(Jan.,1980),pp.239-253.
[①]Baltagi.Econometricanalysisofpaneldata,JohnWileyandSons,2005.
[②]本文在模型设定的同时,已经做了变量系数的简单相关性检验。
从简单相关性检验系数来看,相关性最高的是“关联交易集中度”及其自身的平方(0.986)、“企业的年龄”及其自身的平方(0.962),而这在计量经济学模型中中是被允许的。
次之为“企业关联交易集中度”及其平方与“企业年龄”及其平方的相关系数(0.3左右),其他个变量间相关系数均小于0.3。
从变量间相关系数检验的结果来看,本文所选取的变量可以同时出现在同一个模型之中。
[③]模型中除了r1、r2和union外其他均为控制变量。