stata学习笔记46484.docx-资源下载

stata学习笔记46484.docx

1、stata学习笔记46484经济数据的特点与类型。1、横截面数据：多个经济个体的变量在同一时间点上的取值，如2012年中国各省的GDP2、时间数列数据：指的是某个经济个体的变量在不同时点上的取值，如1978-2012年山东省每年的GDP3、面板数据：多个经济个体的变量在不同时点上的取值，如1978-2012年中国各省的GDP小样本OLS（最小二乘法）：单一方程线性回归最常见方法条件：解释变量与扰动项正交、扰动项无自相关、同方差。拟合优度：衡量线性回归模型对样本数据的拟合程度（R2），越高说明模型拟合程度越好。单系数T检验：对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验：整个回归方程

2、是否显著STATA操作简介：如果数据中包含1949-10-01或1949/10/01的时间变量，导入stata后可能会被视为字符串，因此对于日度数据，可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量，其中YMD说明原始数据的格式为年月日，如果原始数据的格式为月日年则使用MDY；对于月度数据则gen newvar=monthly(varname,YM)。.describe：数据的概貌 .drop keep：删除和保留.su：统计特征 Pwcorr：变量之间相关系数Star（.05）：5%显著性水平 gen:产生g intc=log（tc）：取自然对数.

3、 reg：OLS回归*.Vce：协方差矩阵 reg。，noc表示在进行回归时不要常数项大样本OLS：只要求解释变量与同期的扰动项正交即可Robust：稳健标准误，如果存在异方差，则应使用稳健标准误最大似然估计法：如果回归方程存在非线性，则使用最大似然估计法（MLE）或非线性最小二乘法（NLS）三类在大样本下渐进等价的统计检验：Wald test LR（似然比检验） LM操作步骤如下：sysuse auto（调用数据集）Hist mpg，normal（画变量mpg的直方图，并与正态密度比较）（直方图显示，变量mpg的分布于正态分布有一定差距。变量可以取对数解决非正态分布的问题。异方差与GLS（广

4、义最小二乘法）异方差的检验：看残差图、怀特检验（white test）、BP检验（Breusch and Pagan）异方差的处理：1、OLS+稳健标准误（最好的） 2、广义最小二乘法（GLS） 3、加权最小二乘法（WLS）|实例操作：1、使用数据：use ,clear2、reg intc inq inpl inpk inpf（进行回归）3、4、画残差图：rvfplot上图可以发现当拟合值较小时，扰动项方差较大，继续考察残差与解释变量inq的散点图：rvpplot inq，结果与上图几乎一致，可能存在异方差，即扰动项的方差随着观测值而变。5、￥6、完成回归后，进行怀特检验：estat imte

5、st，white P值显著，认为存在异方差6、完成回归后，进行BP检验：estat hettest,iid estat hottest,rhs iid estat hottest inq,iid三种形式的检验都强烈拒绝同方差的原假设，存在异方差（这里只放一个形式的检验结果）7、处理异方差自相关：扰动项之间自相关】自相关的例子：1、时间序列数据中通常具有某种连续性和持久性，如相邻两年的GDP增长率；2、截面数据中相邻的观测单位之间可能存在溢出效应，如相邻地区的农业产量收到类似天气变化的影响；3、对数据的人为处理如数据中包含移动平均数等；4、如果模型设定中遗漏了某个自相关的解释变量并被纳入到扰动

6、项中，则会引起扰动项的自相关。自相关的检验：1、画图（不推荐）2、BG检验estat bgodfrey 3、BOX-Pierce Q检验 4、DW检验 estat dwatson. 检验都要在OLS做完后才能做。自相关的处理：1、使用OLS+异方差自相关稳健的标准误；2、OLS+聚类稳健的标准误；3、使用可行广义最小二乘法（FGLS）；4、修改模型设定自相关处理实例：1、使用数据 icecream 然后进行回归 BG检验【显著拒绝了原假设无自相关，则认为存在自相关Q检验（略）、DW检验如下DW= 距离2很远可以认为存在自相关。由以上的检验可以看出扰动项之间存在自相关，因此OLS提供的标准误

7、是不准确的，应使用异方差自相关稳健标准误，由于样本为30个，n四分之一=，故取NEWey-West估计量的滞后值为P=3，结果如下：上图显示标准误与OLS标准误无多大区别，因此将滞后阶数增加为6，从上图可以看到无论截断参数是3还是6，标准误都变化不大，比较稳健。此外，前面提到自相关存在可能是因为模型设定不正确，因此考虑在解释变量中加入temp的滞后值，然后再进行OLS回归：然后使用BG检验是否存在自相关：结果显示无自相关，而后DW值也改进为，因此修改模型后扰动项基本不再存在自相关。模型设定与数据问题$遗漏变量：被解释变量可能被加入到扰动项中解决方式：加入尽可能多的控制变量；使用代理变量；工具变

8、量法；使用面板数据；随机试验或自然实验。其中代理变量应满足两个条件：多余性，仅通过影响遗漏变量而作用于被解释变量；剩余独立性，遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不相关。多重共线性：某一解释变量可以由其他解释变量线性表出，即存在多重共线性。检测：先回归，然后estat vif VIF低于10即不存在多重共线性。工具变量，2SLS与GMM工具变量的适用条件：OLS成立的最重要条件是解释变量与扰动项不相关，如出现相关可以使用工具变量法来解决。其中在计量经济学中，将所有与扰动项相关的解释变量成为内生变量，一个有效的工具变量应满足一下两个条件：1、工具变量与内生解释变量相关；2、工具变

9、量与扰动项不相关。过程：传统的工具变量法一般通过二阶段最小二乘法（2SLS或TSLS）来实现：1、用内生解释变量对工具变量进行回归，得到拟合值Pt（Pt实际上是内生变量中的外生部分，而另一部分是与扰动项相关）；2、用被解释变量对第一阶段的拟合值Pt进行回归。工具变量的检测：1、不可识别检验；2、弱工具变量检验；3、过度识别检验（estat overid）。豪斯曼检验：原假设为所有解释变量均为外生变量，若拒绝假设的话应该使用工具变量法，若接受的话使用OLS。豪斯曼过程：reg X1 x2Estimates store ols(存储OLS的结果)Ivregress 2sls y x1(x2=z1

10、z2)(假设怀疑X2为内生变量)|Estimates store iv(存储2SLS结果)Hausman iv ols,constant sigmamore(根据存储的结果进行豪斯曼检验)若存在异方差的问题，则可以使用杜宾-吴-豪斯曼检验。它在异方差的情况下也适用。在球形扰动项的假定下，2SLS最有效，但如果扰动项存在异方差或自相关，则存在GMM广义矩估计这一更有效的方法：首先使用2SLS得到残差，然后GMM，但是在实际操作中使用迭代法。GMM的命令：ivregress gmm y x1(x2=z1 z2) 两步最优GMMivregress gmm y x1 (x2=z1 z2)，igmm 迭

11、代GMM|estat overid 过度识别检验工具变量法的STATA命令和实例：Use ,clearSum然后考察智商和受教育年限的相关关系（本文研究的是工资与受教育年限的关系）具有较强的正相关关系。然后作为一个参照系，进行OLS回归并使用稳健标准误。教育投资率%，显然过高，可能是遗漏了变量能力，使得能力对工资的贡献也被纳入教育的贡献。因此使用iq作为能力的代理变量，再进行OLS回归，可以发现加入iq作为能力的代理变量后，教育投资回报率降低了一些，但还是过高。（如下图）使用iq来度量能力存在测量误差，因此iq为内生变量，考虑使用med kww mrt age作为iq的工具变量，进行2SLS回

12、归 ,并使用稳健标准误。受教育年限回报上升，而iq竟然是负相关，因此不可信，使用工具变量法需要验证其工具变量的有效性因此进行过度识别来检验所有工具变量是否外生。上图显示有些工具变量不合格，与扰动项相关。怀疑mrt和age不满足外生性，因此仅适用med和kww作为iq的工具变量，再次进行2SLS回归，同时显示第一阶段的回归结果。如上图，第一部分回归是使用内生解释变量对工具变量进行回归，第二部分用被解释变量对第一阶段回归的拟合值进行回归。上图中教育回报率较为合理，而且iq系数也为整数，再次进行过度识别检验。结果没有拒绝外生的原假设。接下来继续考察作为工具变量的第二个条件，即工具变量与内生变量的相关

13、性，由第一阶段的回归看出，med和kww对iq有较好的解释力，但为稳健起见，还是使用对弱工具变量更不敏感的有限信息最大似然法（LIML）。-以上结果与2SLS非常接近，侧面验证了不存在弱工具变量。还有，使用工具变量法的前提是存在内生解释变量，因此进行豪斯曼检验。结果显示拒绝了原假设，因此存在iq为内生变量，又因为传统的豪斯曼检验在异方差的情况下不成立，下面进行异方差稳健的DWH检验：DWH的P值小于，故可以认为iq为内生解释变量。!另外如果存在异方差，则GMM比2SLS更有效，因此进行最优GMM估计：上图显示两步最优GMM与2SLS很接近，再进行过度识别检验结果接受原假设，说明所有工具变量外生

14、。然后再做迭代GMM：下图显示与两步GMM系数估计值相差不大。如果希望将以上各估计值级标准误弄在同一张表中：;qui reg lw s expr tenure rns smsa,r. est sto ols_no_iq. qui reg lw iq s expr tenure rns smsa,r. est sto ols_with_iq. qui ivregress 2sls lw s expr tenure rns smsa (iq=med kww),r. est sto tsls. qui ivregress liml lw s expr tenure rns smsa (iq=med

15、kww),r. est sto liml%. qui ivregress gmm lw s expr tenure tns smsa (iq=med kww). qui ivregress gmm lw s expr tenure rns smsa (iq=med kww). est sto gmm. qui ivregress gmm lw s expr tenure rns smsa (iq=med kww),igmm. est sto igmm. estimates table ols_no_iq ols_with_iq tsls liml gmm igmm,b se其中，选项b表示显示

16、回归系数，se表示显示标准误差,如果希望用一颗星表示10%显著性水平等等：如果想像论文一样显示，则如下表：se表示在括弧中显示标准误差，p表示显示P值，r2表示显示R的平方，mtitle显示使用模型名字，二值选择模型离散选择模型、定性反应模型或被解释变量取非负整数时，都不适宜使用OLS回归。1、？2、二值选择模型：只有两种选择，是否。Probit y x1 x2 x3,r (probit模型)Logit y x1 x2 x3,or vce（cluster clustvar）（logit模型）其中，r代表使用稳健标准误，or显示几率比而不是系数，vce表示使用以clustvar为聚类变量的聚类

17、稳健标准误。Stata举例：美国妇女就业与否的二值选择模型。然后使用logit进行估计：结果显示所有系数的联合显著性很高，继续使用稳健标准误进行logit回归：对比以上两个表格显示标准误相差不大，因此不用担心模型设定问题。二值选择模型中的异方差问题：hetprob y x1 x2 x3,het(varlist)，如果接受原假设则为同方差。此外，二值选择模型中一般都没有扰动项的存在。二值选择模型中的异方差问题可以进行似然比检验（LR）：hetprob y x1 x2 x3,het(varlist)(这是在异方差情况下进行Probit估计的stata命令，het（varlist）制定对扰动项方差有

18、影响的所有变量，如het（age married children）)，LR检验原假设为同方差。多值选择模型个体面临的选择有时是多值的，因此可能需要使用到多项probit或多项logit，或者在有某项条件时需要用到条件logit，还有在不随方案而变的多项logit模型和解释变量随方案而变的条件logit模型混合的logit模型。&举例来说，问卷调查将受访者职业分为五类（OCC），解释变量为是否白人、受教育年限、工龄，解释变量都依赖于个体而不依赖于方案，因此使用多项logit或多项probit回归：进行多项logit回归：上述结果说明白人更不可能选择服务业或工匠；是否白人对选择蓝领或白领没显著影

19、响。排序与计数模型1、泊松回归：被解释变量只能取非负整数，即0,1,2.，这时常用泊松回归。Poisson y x1 x2 x3,r irrPoisson y x1 x2 x3,r exposure(x1)Poisson y x1 x2 x3,r offset(x1)其中，r为稳健标准误，irr为显示发生率比，exposure表示把inx1作为解释变量并使其系数为1，offset表示将x1作为解释变量并使其系数为1.2、负二项回归：泊松回归的局限是泊松分布的期望与方差一定相等，但如果被解释变量的方差明显大于期望，即存在过度分散，这时候可以使用负二项回归。Nbreg y x1 x2 x3,r e

20、xposure(x1)Nbreg y x1 x2 x3,r dispersion(constant) offset(x1)其中dispersion（constant）表示使用NB1模型。3、!4、零膨胀泊松回归与负二项回归：如计数数据中包含大量0值，则可以使用零膨胀泊松回归或零膨胀负二项回归。如果vuong统计量很大为正数，则应该使用零膨胀泊松回归，如果统计量很小为负数，则使用零膨胀负二项回归。Zip y x1 x2 x3,inflate(varlist) vuong(零膨胀泊松回归)Zinb y x1 x2 x3,inflate(varlist) vuong(零膨胀负二项回归)，其中infl

21、ate(varlist)不可缺少列出所有变量。如果研究者只关注参数的估计值，则泊松回归。Stata举例：被解释变量narr86（1986年被逮捕的次数），被解释变量为计数数据，尽管如此，还是使用OLS回归进行观察：；R的平方为，但大多数解释变量都显著，下面进行泊松回归，并使用稳健标准误：（nolog）表示不显示迭代记录。上俩图可以看出虽然OLS和泊松的系数相差很大，但两者并不具有可比性，为方便比较，计算泊松回归的平均边际效应：可以看出，泊松模型的平均边际效应与OLS的回归系数很接近，为便于解释系数，下面计算发生率比：可以看出黑人被逮捕次数比白人多%。此外使用泊松回归的前提之一是被解释变量的期望

22、与方差相等，因此考察被解释变量的统计特征：】结果显示样本方差几乎是样本均值的两倍，为放松此假定进行负二项回归（NB2）：上图中alpha的置信区间为，因此可在5%的显著性水平下拒绝过度分散参数alpha=0的原假设，也因此应使用负二项回归。短面板面板数据指的是一段时间内跟踪同一组个体数据，它既有横截面的维度又有时间维度。其中，如果每个时期在样本中的个体完全一样，则称为平衡面板数据，反之为非平衡面板数据。固定效应还是随机效应：当不存在异方差的时候，使用hausman检验，如果假设成立，则使用随机效应，如果拒绝假设，则使用固定效应。而当存在异方差时候，使用辅助回归然后聚类稳健标准误来检验，如果接

23、受假设，则使用随机效应模型。短面板的stata命令及实例：、Xtset panelvar timevar（xt说明数据为面板数据，panelvar取值必须为整数且不重复，相当于进行编号，timevar为时间变量，假如panelvar为字串符，如国家，则使用encode country，gen（cntry）Xtdes 显示面板的结构，是否为平衡面板Xtsum 显示组内，组间与整体的统计指标Xttab varname 显示组内，组间与整体的分布频率，tab指的是tabulate交通死亡率：首先设定state与year为面板变量及时间变量。上图显示这是一个平衡的面板数据（每个时期在样本中的个体完全一

24、样)，然后显示数据集的结构:n=48，T=7，n大而T小，说明这是一个短面板，然后作为参照系，首先进行混合回归：reg y x1 x2 x3，vce（cluster id）其中id用来确定每个个体的变量，vce（cluster state）表示使用以state为聚类变量的聚类稳健标准误由于每个州的情况不一样，可能存在不随时间变化的遗漏变量，故考虑使用固定效应：Xtreg y x1 x2 x3，fe rLSDV法的stata命令为：reg y x1 x2 x3 ，r其中r为使用聚类稳健标准误，vce（cluster id）也能达到这种效果，id表示用来确定个体的变量，表示根据变量id而生成的虚拟

25、变量。首先使用组内估计量：在选择随机还是固定时：使用hausman检验：xtreg y x1 x2 x3，fe（固定效应估计） Estimates store fe（存贮） Xtreg y x1 x2 x3，re（随机效应估计） Estimates store re（存储） Hausman fe re，constant sigmamore（豪斯曼检验）长面板与动态面板在长面板中，T可能会比较大，因此可能存在组间异方差，组内自相关或组间同期相关的问题，主要有两种处理方式：1、使用OLS即LSDV来估计系数，只对标准误差进行矫正（即面板矫正误差）；3、对异方差或自相关的具体形式进行假设，然后使用可

26、行广义最小二乘法FGLS进行估计。1、矫正标准误差即使扰动项存在组间异方差或组间同期相关等，LSDV也依然有效，此时，只要使用组间异方差、组间同期方差稳健的标准误差即可，即面板校正标准误差PCSE：Xtpvse y x1 x2 x3,hetonly，其中hetonly表示存在组间异方差，但不存在组间同期相关；举例：inc为被解释变量，由于n=10，T=30，因此是一个长面板。为了考虑时间效应，生成时间趋势变量t，然后用LSDV法估计双向固定效应模型（作为对比先不考虑异方差等）下图可以看出有些州虚拟变量显著，即存在固定效应，而时间效应则不太显著，p值为.然后下表未考虑组间异方差等，因此使用面板校

27、正标准误进行估计（下下图）命令xtpcse与命令reg的估计系数完全一样，只是标准误不同。2、仅解决组内自相关的FGLS：xtpcse y x1 x2，corr（ar1）。无论是使用prais-winsten还是OLS方法都在组间异方差与组间同期相关的情况下成立。继续使用以上数据，考虑组内自相关的情形，但要求各组的自回归系数相同3、组间异方差的检验：如果拒绝假设，则存在组间异方差。Ssc install xttest3（下载安装命令）Quietly xtreg lnc lnp t，r fexttest3/Quietly xtgls lnc lnp tXttest34、组内自相关检验：如果拒绝假

28、设，则存在组内自相关Net install st0039Xtserial y x1 x2 x3,output5、组间同期相关的检验：如果拒绝假设，即存在组间同期相关。Ssc install xtest2Quietly xreg inc inp inpmin iny t,feXttest2非线性面板对于面板数据，如果被解释变量为虚拟变量、计数变量、受限变量等，则为非线性面板。1、如果被解释变量为虚拟变量，则称为面板二值选择模型。一般采用混合、固定或随机效应模型。混合回归：如果不存在个体效应，则使用混合回归Probit y x1 x2 x3,vce(cluster id) 混合probit回归Lo

29、git y x1 x2 x3,vce(cluster id) 混合logit回归其中Id为确定面板单位的变量随即效应模型：?Xtprobit x1 x2 x3,Xtlogit y x1 x2 x3，再次输出结果中，包含了对原假设的LR检验结果，如拒绝则使用随机，接受则使用混合固定效应模型：xtlogit y x1 x2 x3,feStata实例：被解释变量为是否起义uprising，由于面板probit无固定效应模型，因此使用面板logit模型。首先进行固定效应面板logit估计：如下图所示，第二行有一个朝代未发生企业，因此在估计固定效应时应被去掉。然后进行混合回归logit模型，为保持与固

30、定效应样本一样，在混合回归中也去掉了dyn=2的朝代：为了在固定和混合进行选择，使用豪斯曼检验，但豪斯曼不允许在混合回归使用选择项vce（cluester dyn），因此重新进行混合回归：quietly logit uprising age pop temp sfamine sfamine1 sfamine2 sfamine3 relief relief1 relief2 relief3 if dyn=2, nolog（不显示结果）结果拒绝假设，因此使用固定效应模型。（pooled表示将回归放在一起做）然后下面进行随机效应logit估计从上表最后一行的值LR检验拒绝假设，因此应使用面板随机效应

31、模型，不宜进行混合回归。最后，为了在固定效应与随机效应模型之间进行选择，再次进行豪斯曼检验：结果拒绝假设，因此应使用固定效应模型。2、面板泊松回归：被解释变量为计数变量时，非负整数。其中，混合泊松回归：poisson y x1 x2 x3,vce(cluster id)irr（irr为回报发生率比）面板泊松回归：xtpoisson y x1 x2 x3,fe normal irr(自由选择fe和re)面板负二项回归：泊松回归的缺陷是如果方差与期望之间差距过大即存在过度分散，既可以采用负二项回归。混合负二项回归：nbreg y x1 x2 x3,vce(cluster id) 面板负二项回归：xtnbreg y x1 x2 x3,fe irr（自由选择

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？