stata学习笔记样本.docx
《stata学习笔记样本.docx》由会员分享,可在线阅读,更多相关《stata学习笔记样本.docx(39页珍藏版)》请在冰豆网上搜索。
stata学习笔记样本
经济数据特点与类型。
1、横截面数据:
各种经济个体变量在同一时间点上取值,如中华人民共和国各省GDP
2、时间数列数据:
指是某个经济个体变量在不同步点上取值,如1978-山东省每年GDP
3、面板数据:
各种经济个体变量在不同步点上取值,如1978-中华人民共和国各省GDP
小样本OLS(最小二乘法):
单一方程线性回归最常用办法
条件:
解释变量与扰动项正交、扰动项无自有关、同方差。
拟合优度:
衡量线性回归模型对样本数据拟合限度(R2),越高阐明模型拟合限度越好。
单系数T检查:
对回归方程扰动项详细概率进行假设
明显性水平进行检查
F检查:
整个回归方程与否明显
STATA操作简介:
如果数据中包括1949-10-01或1949/10/01时间变量,导入stata后也许会被视为字符串,因而对于日度数据,可以使用命令gennewvar=date(varname,YMD),将其转换为整数日期变量,其中YMD阐明原始数据格式为年月日,如果原始数据格式为月日年则使用MDY;对于月度数据则gennewvar=monthly(varname,YM)。
.describe:
数据概貌.dropkeep:
删除和保存
.su:
记录特性Pwcorr:
变量之间有关系数
Star(.05):
5%明显性水平gen:
产生
gintc=log(tc):
取自然对数.reg:
OLS回归
.Vce:
协方差矩阵reg。
。
。
,noc表达在进行回归时不要常数项
大样本OLS:
只规定解释变量与同期扰动项正交即可
Robust:
稳健原则误,如果存在异方差,则应使用稳健原则误
最大似然预计法:
如果回归方程存在非线性,则使用最大似然预计法(MLE)或非线性最小二乘法(NLS)
三类在大样本下渐进等价记录检查:
WaldtestLR(似然比检查)LM
操作环节如下:
sysuseauto(调用数据集)
Histmpg,normal(画变量mpg直方图,并与正态密度比较)
直方图显示,变量mpg分布于正态分布有一定差距。
变量可以取对数解决非正态分布问题。
异方差与GLS(广义最小二乘法)
异方差检查:
看残差图、怀特检查(whitetest)、BP检查(BreuschandPagan)
异方差解决:
1、OLS+稳健原则误(最佳)
2、广义最小二乘法(GLS)
3、加权最小二乘法(WLS)
实例操作:
1、使用数据:
usenerlove.dta,clear
2、regintcinqinplinpkinpf(进行回归)
3、
4、画残差图:
rvfplot
上图可以发现当拟合值较小时,扰动项方差较大,继续考察残差与解释变量inq散点图:
rvpplotinq,成果与上图几乎一致,也许存在异方差,即扰动项方差随着观测值而变。
5、完毕回归后,进行怀特检查:
estatimtest,white
P值明显,以为存在异方差
6、完毕回归后,进行BP检查:
estathettest,iidestathottest,rhsiidestathottestinq,iid
三种形式检查都强烈回绝同方差原假设,存在异方差(这里只放一种形式检查成果)
7、解决异方差
自有关:
扰动项之间自有关
自有关例子:
1、时间序列数据中普通具备某种持续性和持久性,如相邻两年GDP增长率;2、截面数据中相邻观测单位之间也许存在溢出效应,如相邻地区农业产量收到类似天气变化影响;3、对数据人为解决如数据中包括移动平均数等;4、如果模型设定中漏掉了某个自有关解释变量并被纳入到扰动项中,则会引起扰动项自有关。
自有关检查:
1、画图(不推荐)2、BG检查estatbgodfrey3、BOX-PierceQ检查4、DW检查estatdwatson.检查都要在OLS做完后才干做。
自有关解决:
1、使用OLS+异方差自有关稳健原则误;2、OLS+聚类稳健原则误;3、使用可行广义最小二乘法(FGLS);4、修改模型设定
自有关解决实例:
1、使用数据icecream然后进行回归
BG检查
明显回绝了原假设无自有关,则以为存在自有关
Q检查(略)、DW检查如下
DW=1.02距离2很远可以以为存在自有关。
由以上检查可以看出扰动项之间存在自有关,因而OLS提供原则误是不精确,应使用异方差自有关稳健原则误,由于样本为30个,n四分之一=2.34,故取NEWey-West预计量滞后值为P=3,成果如下:
上图显示原则误与OLS原则误无多大区别,因而将滞后阶数增长为6,
从上图可以看到无论截断参数是3还是6,原则误都变化不大,比较稳健。
此外,前面提到自有关存在也许是由于模型设定不对的,因而考虑在解释变量中加入temp滞后值,然后再进行OLS回归:
然后使用BG检查与否存在自有关:
成果显示无自有关,而后DW值也改进为1.58,因而修改模型后扰动项基本不再存在自有关。
模型设定与数据问题
漏掉变量:
被解释变量也许被加入到扰动项中
解决方式:
加入尽量多控制变量;使用代理变量;工具变量法;使用面板数据;随机实验或自然实验。
其中代理变量应满足两个条件:
多余性,仅通过影响漏掉变量而作用于被解释变量;剩余独立性,漏掉变量中不受代理变量影响剩余某些与所有解释变量均不有关。
多重共线性:
某一解释变量可以由其她解释变量线性表出,即存在多重共线性。
检测:
先回归,然后estatvifVIF低于10即不存在多重共线性。
工具变量,2SLS与GMM
工具变量合用条件:
OLS成立最重要条件是解释变量与扰动项不有关,如浮现有关可以使用工具变量法来解决。
其中在计量经济学中,将所有与扰动项有关解释变量成为内生变量,一种有效工具变量应满足一下两个条件:
1、工具变量与内生解释变量有关;2、工具变量与扰动项不有关。
过程:
老式工具变量法普通通过二阶段最小二乘法(2SLS或TSLS)来实现:
1、用内生解释变量对工具变量进行回归,得到拟合值Pt(Pt事实上是内生变量中外生某些,而另一某些是与扰动项有关);2、用被解释变量对第一阶段拟合值Pt进行回归。
工具变量检测:
1、不可辨认检查;2、弱工具变量检查;3、过度辨认检查(estatoverid)。
豪斯曼检查:
原假设为所有解释变量均为外生变量,若回绝假设话应当使用工具变量法,若接受话使用OLS。
豪斯曼过程:
regX1x2
Estimatesstoreols(存储OLS成果)
Ivregress2slsyx1(x2=z1z2)(假设怀疑X2为内生变量)
Estimatesstoreiv(存储2SLS成果)
Hausmanivols,constantsigmamore(依照存储成果进行豪斯曼检查)
若存在异方差问题,则可以使用杜宾-吴-豪斯曼检查。
它在异方差状况下也合用。
在球形扰动项假定下,2SLS最有效,但如果扰动项存在异方差或自有关,则存在GMM广义矩预计这一更有效办法:
一方面使用2SLS得到残差,然后GMM,但是在实际操作中使用迭代法。
GMM命令:
ivregressgmmyx1(x2=z1z2)两步最优GMM
ivregressgmmyx1(x2=z1z2),igmm迭代GMM
estatoverid过度辨认检查
工具变量法STATA命令和实例:
Usegrilic.dta,clear
Sum
然后考察智商和受教诲年限有关关系(本文研究是工资与受教诲年限关系)
具备较强正有关关系。
然后作为一种参照系,进行OLS回归并使用稳健原则误。
教诲投资率10.26%,显然过高,也许是漏掉了变量能力,使得能力对工资贡献也被纳入教诲贡献。
因而使用iq作为能力代理变量,再进行OLS回归,可以发现加入iq作为能力代理变量后,教诲投资回报率减少了某些,但还是过高。
(如下图)
使用iq来度量能力存在测量误差,因而iq为内生变量,考虑使用medkwwmrtage作为iq工具变量,进行2SLS回归,并使用稳健原则误。
受教诲年限回报上升,而iq居然是负有关,因而不可信,使用工具变量法需要验证其工具变量有效性因而进行过度辨认来检查所有工具变量与否外生。
上图显示有些工具变量不合格,与扰动项有关。
怀疑mrt和age不满足外生性,因而仅合用med和kww作为iq工具变量,再次进行2SLS回归,同步显示第一阶段回归成果。
如上图,第一某些回归是使用内生解释变量对工具变量进行回归,第二某些用被解释变量对第一阶段回归拟合值进行回归。
上图中教诲回报率较为合理,并且iq系数也为整数,再次进行过度辨认检查。
成果没有回绝外生原假设。
接下来继续考察作为工具变量第二个条件,即工具变量与内生变量有关性,由第一阶段回归看出,med和kww对iq有较好解释力,但为稳健起见,还是使用对弱工具变量更不敏感有限信息最大似然法(LIML)。
以上成果与2SLS非常接近,侧面验证了不存在弱工具变量。
尚有,使用工具变量法前提是存在内生解释变量,因而进行豪斯曼检查。
成果显示回绝了原假设,因而存在iq为内生变量,又由于老式豪斯曼检查在异方差状况下不成立,下面进行异方差稳健DWH检查:
DWHP值不大于0.05,故可以以为iq为内生解释变量。
此外如果存在异方差,则GMM比2SLS更有效,因而进行最优GMM预计:
上图显示两步最优GMM与2SLS很接近,再进行过度辨认检查
成果接受原假设,阐明所有工具变量外生。
然后再做迭代GMM:
下图显示与两步GMM系数预计值相差不大。
如果但愿将以上各预计值级原则误弄在同一张表中:
quireglwsexprtenurernssmsa,r
.eststools_no_iq
.quireglwiqsexprtenurernssmsa,r
.eststools_with_iq
.quiivregress2slslwsexprtenurernssmsa(iq=medkww),r
.eststotsls
.quiivregresslimllwsexprtenurernssmsa(iq=medkww),r
.eststoliml
.quiivregressgmmlwsexprtenuretnssmsa(iq=medkww)
.quiivregressgmmlwsexprtenurernssmsa(iq=medkww)
.eststogmm
.quiivregressgmmlwsexprtenurernssmsa(iq=medkww),igmm
.eststoigmm
.estimatestableols_no_iqols_with_iqtslslimlgmmigmm,bse
其中,选项b表达显示回归系数,se表达显示原则误差
如果但愿用一颗星表达10%明显性水平等等:
如果想像论文同样显示,则如下表:
se表达在括弧中显示原则误差,p表达显示P值,r2表达显示R平方,mtitle显示使用模型名字,
二值选取模型
离散选取模型、定性反映模型或被解释变量取非负整数时,都不适当使用OLS回归。
1、二值选取模型:
只有两种选取,与否。
Probityx1x2x3,r(probit模型)
Logityx1x2x3,orvce(clusterclustvar)(logit模型)
其中,r代表使用稳健原则误,or显示几率比而不是系数,vce表达使用以clustvar为聚类变量聚类稳健原则误。
Stata举例:
美国妇女就业与否二值选取模型。
然后使用logit进行预计:
成果显示所有系数联合明显性很高,继续使用稳健原则误进行logit回归:
对比以上两个表格显示原则误相差不大,因而不用紧张模型设定问题。
二值选取模型中异方差问题:
hetprobyx1x2x3,het(varlist),如果接受原假设则为同方差。
此外,二值选取模型中普通都没有扰动项存在。
二值选取模型中异方差问题可以进行似然比检查(LR):
hetprobyx1x2x3,het(varlist)(这是在异方差状况下进行Probit预计stata命令,het(varlist)制定对扰动项方差有影响所有变量,如het(agemarriedchildren)),LR检查原假设为同方差。
多值选取模型
个体面临选取有时是多值,因而也许需要使用到多项probit或多项logit,或者在有某项条件时需要用到条件logit,尚有在不随方案而变多项logit模型和解释变量随方案而变条件logit模型混合logit模型。
举例来说,问卷调查将受访者职业分为五类(OCC),解释变量为与否白人、受教诲年限、工龄,解释变量都依赖于个体而不依赖于方案,因而使用多项logit或多项probit回归:
进行多项logit回归:
上述成果阐明白人更不也许选取服务业或工匠;与否白人对选取蓝领或白领没明显影响。
。
。
排序与计数模型
1、泊松回归:
被解释变量只能取非负整数,即0,1,2….,这时惯用泊松回归。
Poissonyx1x2x3,rirr
Poissonyx1x2x3,rexposure(x1)
Poissonyx1x2x3,roffset(x1)
其中,r为稳健原则误,irr为显示发生率比,exposure表达把inx1作为解释变量并使其系数为1,offset表达将x1作为解释变量并使其系数为1.
2、负二项回归:
泊松回归局限是泊松分布盼望与方差一定相等,但如果被解释变量方差明显不不大于盼望,即存在过度分散,这时候可以使用负二项回归。
Nbregyx1x2x3,rexposure(x1)
Nbregyx1x2x3,rdispersion(constant)offset(x1)
其中dispersion(constant)表达使用NB1模型。
3、零膨胀泊松回归与负二项回归:
如计数数据中包括大量0值,则可以使用零膨胀泊松回归或零膨胀负二项回归。
如果vuong记录量很大为正数,则应当使用零膨胀泊松回归,如果记录量很小为负数,则使用零膨胀负二项回归。
Zipyx1x2x3,inflate(varlist)vuong(零膨胀泊松回归)
Zinbyx1x2x3,inflate(varlist)vuong(零膨胀负二项回归),其中inflate(varlist)不可缺少列出所有变量。
如果研究者只关注参数预计值,则泊松回归。
Stata举例:
被解释变量narr86(1986年被逮捕次数),被解释变量为计数数据,尽管如此,还是使用OLS回归进行观测:
R平方为0.07,但大多数解释变量都明显,下面进行泊松回归,并使用稳健原则误:
(nolog)表达不显示迭代记录。
上俩图可以看出虽然OLS和泊松系数相差很大,但两者并不具备可比性,为以便比较,计算泊松回归平均边际效应:
可以看出,泊松模型平均边际效应与OLS回归系数很接近,为便于解释系数,下面计算发生率比:
可以看出黑人被逮捕次数比白人多93.6%。
此外使用泊松回归前提之一是被解释变量盼望与方差相等,因而考察被解释变量记录特性:
成果显示样本方差几乎是样本均值两倍,为放松此假定进行负二项回归(NB2):
上图中alpha置信区间为0.7-1.24,因而可在5%明显性水平下回绝过度分散参数alpha=0原假设,也因而应使用负二项回归。
短面板
面板数据指是一段时间内跟踪同一组个体数据,它既有横截面维度又有时间维度。
其中,如果每个时期在样本中个体完全同样,则称为平衡面板数据,反之为非平衡面板数据。
固定效应还是随机效应:
当不存在异方差时候,使用hausman检查,如果假设成立,则使用随机效应,如果回绝假设,则使用固定效应。
而当存在异方差时候,使用辅助回归然后聚类稳健原则误来检查,如果接受假设,则使用随机效应模型。
短面板stata命令及实例:
Xtsetpanelvartimevar(xt阐明数据为面板数据,panelvar取值必要为整数且不重复,相称于进行编号,timevar为时间变量,如果panelvar为字串符,如国家,则使用encodecountry,gen(cntry))
Xtdes显示面板构造,与否为平衡面板
Xtsum显示组内,组间与整体记录指标
Xttabvarname显示组内,组间与整体分布频率,tab指是tabulate
交通死亡率:
一方面设定state与year为面板变量及时间变量。
上图显示这是一种平衡面板数据(每个时期在样本中个体完全同样),然后显示数据集构造:
n=48,T=7,n大而T小,阐明这是一种短面板,然后作为参照系,一方面进行混合回归:
regyx1x2x3,vce(clusterid)其中id用来拟定每个个体变量,vce(clusterstate)表达使用以state为聚类变量聚类稳健原则误
由于每个州状况不同样,也许存在不随时间变化漏掉变量,故考虑使用固定效应:
Xtregyx1x2x3,fer
LSDV法stata命令为:
regyx1x2x3i.id,r
其中r为使用聚类稳健原则误,vce(clusterid)也能达到这种效果,id表达用来拟定个体变量,i.id表达依照变量id而生成虚拟变量。
一方面使用组内预计量:
在选取随机还是固定期:
使用hausman检查:
xtregyx1x2x3,fe(固定效应预计)
Estimatesstorefe(存贮)
Xtregyx1x2x3,re(随机效应预计)
Estimatesstorere(存储)
Hausmanfere,constantsigmamore(豪斯曼检查)
长面板与动态面板
在长面板中,T也许会比较大,因而也许存在组间异方差,组内自有关或组间同期有关问题,重要有两种解决方式:
1、使用OLS即LSDV来预计系数,只对原则误差进行矫正(即面板矫正误差);3、对异方差或自有关详细形式进行假设,然后使用可行广义最小二乘法FGLS进行预计。
1、矫正原则误差
虽然扰动项存在组间异方差或组间同期有关等,LSDV也依然有效,此时,只要使用组间异方差、组间同期方差稳健原则误差即可,即面板校正原则误差PCSE:
Xtpvseyx1x2x3,hetonly,其中hetonly表达存在组间异方差,但不存在组间同期有关;
举例:
inc为被解释变量,由于n=10,T=30,因而是一种长面板。
为了考虑时间效应,生成时间趋势变量t,然后用LSDV法预计双向固定效应模型(作为对比先不考虑异方差等)
下图可以看出有些州虚拟变量明显,即存在固定效应,而时间效应则不太明显,p值为0.19.然后下表未考虑组间异方差等,因而使用面板校正原则误进行预计(下下图)
命令xtpcse与命令reg预计系数完全同样,只是原则误不同。
2、仅解决组内自有关FGLS:
xtpcseyx1x2,corr(ar1)。
无论是使用prais-winsten还是OLS办法都在组间异方差与组间同期有关状况下成立。
继续使用以上数据,考虑组内自有关情形,但规定各组自回归系数相似
3、组间异方差检查:
如果回绝假设,则存在组间异方差。
Sscinstallxttest3(下载安装命令)
Quietlyxtreglnclnpi.statet,rfe
xttest3
Quietlyxtglslnclnpi.statet
Xttest3
4、组内自有关检查:
如果回绝假设,则存在组内自有关
Netinstallst0039
Xtserialyx1x2x3,output
5、组间同期有关检查:
如果回绝假设,即存在组间同期有关。
Sscinstallxtest2
Quietlyxregincinpinpmininyt,fe
Xttest2
非线性面板
对于面板数据,如果被解释变量为虚拟变量、计数变量、受限变量等,则为非线性面板。
1、如果被解释变量为虚拟变量,则称为面板二值选取模型。
普通采用混合、固定或随机效应模型。
混合回归:
如果不存在个体效应,则使用混合回归
Probityx1x2x3,vce(clusterid)混合probit回归
Logityx1x2x3,vce(clusterid)混合logit回归其中Id为拟定面板单位变量
随后效应模型:
Xtprobitx1x2x3,
Xtlogityx1x2x3,再次输出成果中,包括了对原假设LR检查成果,如回绝则使用随机,接受则使用混合
固定效应模型:
xtlogityx1x2x3,fe
Stata实例:
被解释变量为与否起义uprising,由于面板probit无固定效应模型,因而使用面板logit模型。
一方面进行固定效应面板logit预计:
如下图所示,第二行有一种朝代未发生公司,因而在预计固定效应时应被去掉。
然后进行混合回归logit模型,为保持与固定效应样本同样,在混合回归中也去掉了dyn=2朝代:
为了在固定和混合进行选取,使用豪斯曼检查,但豪斯曼不容许在混合回归使用选取项vce(cluesterdyn),因而重新进行混合回归:
quietlylogituprisingagepoptempsfaminesfamine1sfamine2sfamine3reliefrelief1relief2relief3ifdyn~=2,nolog(不显示成果)
成果回绝假设,因而使用固定效应模型。
(pooled表达将回归放在一起做)
然后下面进行随机效应logit预计
从上表最后一行值LR检查回绝假设,因而应使用面板随机效应模型,不适当进行混合回归。
最后,为了在固定效应与随机效应模型之间进行选取,再次进行豪斯曼检查:
成果回绝假设,因而应使用固定效应模型。
2、面板泊松回归:
被解释变量为计数变量时,非负整数。
其中,混合泊松回归:
poissonyx1x2x3,vce(clusterid)irr(irr为回报发生率比)
面板泊松回归:
xtpoissonyx1x2x3,fenormalirr(自由选取fe和re)
面板负二项回归:
泊松回归缺陷是如果方差与盼望之间差距过大即存在过度分散,既可以采用负二项回归。
混合负二项回归:
nbregyx1x2x3,vce(clusterid)
面板负二项回归:
xtnbregyx1x2x3,feirr(自由选取fe和re)
Stata实例:
被解释变量mdu为个体看医生次数。
面板变量为id,时间跨度为5年,为非平衡面板。
然后进行混合泊松回归,并使用聚类稳健原则误
然后进行随机效应面板泊松回归,
上图最后LR检查回绝原假设,则回绝混合泊松模型,以为应使用随机效应面板泊松模型。
然后再进行固定效应面板泊松回归:
上图显示有265组数据由于仅有一期观测值而被去掉