卓顶精文stata命令大全全.docx

资源描述

卓顶精文stata命令大全全.docx

《卓顶精文stata命令大全全.docx》由会员分享，可在线阅读，更多相关《卓顶精文stata命令大全全.docx（33页珍藏版）》请在冰豆网上搜索。

卓顶精文stata命令大全全.docx

卓顶精文stata命令大全全

*********面板数据计量分析与软件实现*********

说明：

以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。

本人做了一定的修改与筛选。

*----------面板数据模型

*1.静态面板模型：

FE和RE

*2.模型选择：

FEvsPOLS,REvsPOLS,FEvsRE（pols混合最小二乘估计）

*3.异方差、序列相关和截面相关检验

*4.动态面板模型（DID-GMM,SYS-GMM）

*5.面板随机前沿模型

*6.面板协整分析（FMOLS,DOLS）

***说明：

1-5均用STATA软件实现，6用GAUSS软件实现。

*生产效率分析（尤其指TFP）：

数据包络分析（DEA）与随机前沿分析（SFA）

***说明：

DEA由DEAP2.1软件实现，SFA由Frontier4.1实现，尤其后者，侧重于比较C-D与Translog生产函数，一步法与两步法的区别。

常应用于地区经济差异、FDI溢出效应（SpilloversEffect）、工业行业效率状况等。

*空间计量分析：

SLM模型与SEM模型

*说明：

STATA与Matlab结合使用。

常应用于空间溢出效应（R&D）、财政分权、地方政府公共行为等。

*---------------------------------

*--------一、常用的数据处理与作图-----------

*---------------------------------

*指定面板格式

xtsetidyear（id为截面名称，year为时间名称）

xtdes/*数据特征*/

xtsumlogyh/*数据统计特征*/

sumlogyh/*数据统计特征*/

*添加标签或更改变量名

labelvarh"人力资本"

renamehhum

*排序

sortidyear/*是以STATA面板数据格式出现*/

sortyearid/*是以DEA格式出现*/

*删除个别年份或省份

dropifyear<1992

dropifid==2/*注意用==*/

*如何得到连续year或id编号（当完成上述操作时，year或id就不连续，为形成panel格式，需要用egen命令）

egenyear_new=group（year）

xtsetidyear_new

**保留变量或保留观测值

keepinv/*删除变量*/

**或

keepifyear==2019

**排序

sortidyear/*是以STATA面板数据格式出现

sortyearid/*是以DEA格式出现

**长数据和宽数据的转换

*长>>>宽数据

reshapewidelogy,i（id）j（year）

*宽>>>长数据

reshapelogy,i（id）j（year）

**追加数据（用于面板数据和时间序列）

xtsetidyear

*或者

xtdes

tsappend,add（5）/表示在每个省份再追加5年，用于面板数据/

tsset

*或者

tsdes

.tsappend,add（8）/表示追加8年，用于时间序列/

*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z，求方差var（Y）,协方差Cov（X,Y）和Cov（Z,Y）

bysortyear:

corrYXZ,cov

**生产虚拟变量

*生成年份虚拟变量

tabyear,gen（yr）

*生成省份虚拟变量

tabid,gen（dum）

**生成滞后项和差分项

xtsetidyear

genylag=l.y/*产生一阶滞后项），同样可产生二阶滞后项*/

genylag2=L2.y

gendy=D.y/*产生差分项*/

*求出各省2019年以前的openinv的平均增长率

collapse（mean）openinvifyear<2019,by（id）

变量排序，当变量太多，按规律排列。

可用命令

aorder

或者

orderfdiopeninsti

*-----------------

*二、静态面板模型

*-----------------

*---------简介-----------

*面板数据的结构（兼具截面资料和时间序列资料的特征）

useproduct.dta,clear

browse

xtsetidyear

xtdes

*---------------------------------

*--------固定效应模型-----------

*---------------------------------

*实质上就是在传统的线性回归模型中加入N-1个虚拟变量，

*使得每个截面都有自己的截距项，

*截距项的不同反映了个体的某些不随时间改变的特征

*例如：

lny=a_i+b1*lnK+b2*lnL+e_it

*考虑中国29个省份的C-D生产函数

*******-------画图------*

*散点图+线性拟合直线

twoway（scatterlogyh）（lfitlogyh）

*散点图+二次拟合曲线

twoway（scatterlogyh）（qfitlogyh）

*散点图+线性拟合直线+置信区间

twoway（scatterlogyh）（lfitlogyh）（lfitcilogyh）

*按不同个体画出散点图和拟合线，可以以做出fevsre的初判断*

twoway（scatterlogyhifid<4）（lfitlogyhifid<4）（lfitlogyhifid==1）（lfitlogyhifid==2）（lfitlogyhifid==3）

*按不同个体画散点图,sobeautiful!

graphtwowayscatterlogyhifid==1||scatterlogyhifid==2,msymbol（Sh）||scatterlogyhifid==3,msymbol（T）||scatterlogyhifid==4,msymbol（d）||,legend（position（11）ring（0）label（1"北京"）label（2"天津"）label（3"河北"）label（4"山西"））

**每个省份logy与h的散点图，并将各个图形合并

twowayscatterlogyh,by（id）ylabel（,format（%3.0f））xlabel（,format（%3.0f））

*每个个体的时间趋势图*

xtlinehifid<11,overlaylegend（on）

*一个例子：

中国29个省份的C-D生产函数的估计

tabid,gen（dum）

list

*回归分析

reglogylogklogldum*,

eststorem_ols

xtreglogylogklogl,fe

eststorem_fe

esttablem_olsm_fe,b（%6.3f）star（0.10.050.01）

*Wald检验

testlogk=logl=0

testlogk=logl

*stata的估计方法解析

*目的：

如果截面的个数非常多，那么采用虚拟变量的方式运算量过大

*因此，要寻求合理的方式去除掉个体效应

*因为，我们关注的是x的系数，而非每个截面的截距项

*处理方法：

*y_it=u_i+x_it*b+e_it

（1）

*ym_i=u_i+xm_i*b+em_i

（2）组内平均

*ym=um+xm*b+em（3）样本平均

（1）-

（2）,可得：

*（y_it-ym_i）=（x_it-xm_i）*b+（e_it-em_i）（4）/*withinestimator*/

*（4）+（3）,可得：

*（y_it-ym_i+ym）=um+（x_it-xm_i+xm）*b+（e_it-em_i+em）

*可重新表示为：

*Y_it=a_0+X_it*b+E_it

*对该模型执行OLS估计，即可得到b的无偏估计量

**stata后台操作，揭开fe估计的神秘面纱！

！

egeny_meanw=mean（logy）,by（id）/*个体内部平均*/

egeny_mean=mean（logy）/*样本平均*/

egenk_meanw=mean（logk）,by（id）

egenk_mean=mean（logk）

egenl_meanw=mean（logl）,by（id）

egenl_mean=mean（logl）

gendyw=logy-y_meanw

gendkw=logk-k_meanw

gendlw=logl-l_meanw

regdywdkwdlw,nocons

eststorem_stata

gendy=logy-y_meanw+y_mean

gendk=logk-k_meanw+k_mean

gendl=logl-l_meanw+l_mean

regdydkdl

eststorem_stata

esttablem_*,b（%6.3f）star（0.10.050.01）

*解读xtreg,fe的估计结果

xtreglogyhinvgovopen,fe

*--R^2

*y_it=a_0+x_it*b_o+e_it

（1）pooledOLS

*y_it=u_i+x_it*b_w+e_it

（2）withinestimator

*ym_i=a_0+xm_i*b_b+em_i（3）betweenestimator

*-->R-sq:

within模型

（2）对应的R2，是一个真正意义上的R2

*-->R-sq:

betweencorr{xm_i*b_w,ym_i}^2

*-->R-sq:

overallcorr{x_it*b_w,y_it}^2

*--F（4,373）=855.93检验除常数项外其他解释变量的联合显著性

*--corr（u_i,Xb）=-0.2347

*--sigma_u,sigma_e,rho

*rho=sigma_u^2/（sigma_u^2+sigma_e^2）

dise（sigma_u）^2/（e（sigma_u）^2+e（sigma_e）^2）

*个体效应是否显著？

*F（28,373）=338.86H0:

a1=a2=a3=a4=a29

*Prob>F=0.0000表明，固定效应高度显著

*---如何得到调整后的R2,即adj-R2？

ereturnlist

reglogyhinvgovopendum*

*---拟合值和残差

*y_it=u_i+x_it*b+e_it

*predictnewvar,[option]

xbxb,fittedvalues;thedefault

stdpcalculatestandarderrorofthefittedvalues

ueu_i+e_it,thecombinedresidual

xbuxb+u_i,predictionincludingeffect

uu_i,thefixed-orrandom-errorcomponent

ee_it,theoverallerrorcomponent*/

xtreglogylogklogl,fe

predicty_hat

predicta,u

predictres,e

predictcres,ue

genares=a+res

listarescresin1/10

*---------------------------------

*----------随机效应模型---------

*---------------------------------

*y_it=x_it*b+（a_i+u_it）

展开阅读全文