STATA实用学习笔记doc.docx

资源描述

STATA实用学习笔记doc.docx

《STATA实用学习笔记doc.docx》由会员分享，可在线阅读，更多相关《STATA实用学习笔记doc.docx（45页珍藏版）》请在冰豆网上搜索。

STATA实用学习笔记doc.docx

STATA实用学习笔记doc

STATA实用学习笔记

北京科技大学

STATA应用

学习摘录

内存为空时才可以导入数据集，否则会出现（youmuststartwithanemptydataset）

（1）清空内存中的所有变量：

.drop_all

（2）导入语句后加入“clear”命令。

一、保存文件

1、save“C:

\DocumentsandSettings\Administrator\桌面\ST9007\dataset\Fees1.dta”

2、save“C:

\DocumentsandSettings\Administrator\桌面\ST9007\dataset\Fees1.dta”,replace

二、打开及退出已存文件use

1、.Use文件路径及文件名,clear

2、.Drop_all/.exit

三、记录命令和输出结果（log）

1、开始建立记录文件：

logusing"J:

\phd\output.log",replace

2、暂停记录文件：

logoff

3、重新打开记录文件：

logon

4、关闭记录文件：

logclose

十一、创建和保存程序文件：

（doedit,do）

1、打开程序编辑窗口：

doedit

2、写入命令

3、保存文件，.do.

4、运行命令：

.do程序文件路径及文件名

十二、多个数据集合并为一个数据集（变量和结构相同）纵向合并append

insheetusing"J:

\phd\Fees1.csv",clear

save"J:

\phd\Fees1.dta",replace

insheetusing"J:

\phd\Fees2.csv",clear

appendusing"J:

\phd\Fees1.dta"

save"J:

\phd\Fees1.dta",replace

十三、横向合并，在原数据集基础上加上另外的变量merge

1、insheetusing"J:

\phd\Fees1.csv",clear

sortcompanyidyearend

save"J:

\phd\Fees1.dta",replace

describe

insheetusing"J:

\phd\Fees6.csv",clear

sortcompanyidyearend

mergecompanyidyearendusing"J:

\phd\Fees1.dta"

save"J:

\phd\Fees1.dta",replace

describe

2、_merge==1obs.Frommasterdata

_merge==2obs.Fromusingdata

_merge==3obs.Frombothmasterandusingdata

十四、帮助文件：

help

1、.Helpdescribe

十五、描述性统计量

1、summarizeincorporationyear单个

summarizeincorporationyear-big6连续多个

summarize_allorsimplysummarize所有

2、更详细的统计量

summarizeincorporationyear,detail

3、centile

centileauditfees,centile（0（10）100）

centileauditfees,centile（0（5）100）

4、tabulate不同类型变量的频数和比例

tabulatecompanytype

tabulatecompanytypebig6,column按列计算百分比

tabulatecompanytypebig6,row按行计算百分比

tabcompanytypebig6ifcompanytype<=3,rowcol同时按行列和条件计算百分比

5、计算满足条件观测的个数

countifbig6==1

countifbig6==0|big6==1

6、按离散变量排序，对连续变量计算描述性统计量：

（1）bycompanytype,sort:

summarizeauditfees,detail

（2）sortcompanytype

Bycompanytype:

summarizeauditees

十六、转换变量

1、按公司类型将公开发行股票公司赋值为1，其他为0

genlisted=0

replacelisted=1ifcompanytype==2

replacelisted=1ifcompanytype==3

replacelisted=1ifcompanytype==5

replacelisted=.ifcompanytype==.

十七、产生新变量gen

Generatenewvar=表达式

十八、数据类型

1、数值型

Storagetype

Bytes

Min

Max

byte

-127

+100

int

-32,767

+32,740

long

-2,147,483,647

2,147,483,620

float

-1.70141173319*1038

1.70141173319*1036

double

-8.9884656743*10307

8.9884656743*10308

2、字符型

Storagetype

Bytes

Maxlength（characters）

str1

str2

…

str80

3、新建变量的过程中定义数据类型

●genstr3gender="male"

●listgenderin1/10

4、变量所占字节过长

●dropgender

●genstr30gender="male"

●browse

●describegender

●compressgender

5、日期数据类型：

%ddates,whichisacountofthenumberofdayselapsedsinceJanuary1,1960。

（1）date（日期变量）

●genfye=date（yearend,"MDY"）MDY应根据前面日期的排列顺序而定，结果显示的是距离1960年1月1日的天数

●listyearendfyein1/10

（2）日期格式化%d（显示fye变量为日期形式，但数值并未真正变动）：

●formatfye%d

●listyearendfyein1/10

●sumfye

（3）利用日期天数求对应的年、月、日

●genyear=year（fye）

●genmonth=month（fye）

●genday=day（fye）

●listyearendfyeyearmonthdayin1/10

（4）将三个分别表示年、月、日的变量合并为一个日期变量

●dropfye

●genfye=mdy（month,day,year）

●formatfye%d

●listyearendfyein1/10

（5）将一个数值型的时间数据（20080131）转变为ST可识别的时间数据

●genyear=int（date/10000）

●genmonth=int（（date-year*10000）/100）

●genday=date-year*10000-month*100

●listdateyearmonthdayin1/10

●genedate=mdy（month,day,year）

●formatedate%d

●listedatedatein1/10

十九、存贮统计量的内部变量R（）

●sumauditfees

●genmeanadjaf=auditfees-r（mean）

●listmeanadjafin1/10

SUM命令后常见的几种R（）值

r（N）

Numberofcases

r（sd）

Standarddeviation

r（sum_w）

Sumofweights

r（min）

Minimum

r（mean）

Arithmeticmean

r（max）

Maximum

r（var）

Variance

r（sum）

Sumofvariable

显示这些变量值的命令

●sumauditfees,detail

●returnlist

二十、recode命令（PPT61）

1、产生有多个值的变量的哑变量recode

recodeyear（min/1999=0）（2000/max=1）,gen（yeardum）

min/1999表示小于等于1999的值全部赋值为0

2000/max表示大于等于2000的值全部赋为1。

2、对一个连续变量按一定值分为不同间隔的组recode

genassets_categ=recode（totalassets,100,500,1000,5000,20000,100000,1000000）。

分组的值为每组的上限，包含该值。

sortassets_categ

byassets_categ:

sumtotalassetsassets_categ

3、对一个连续变量按一定值分为相同间隔的组autocode

autocode（variablename,#ofintervals,minvalue,maxvalue）

forexample:

genassets_categ=autocode（totalassets,10,0,10000）

4、对一个连续变量按每组样本数相同进行分组：

xtile

xtileassets_categ=totalassets,nquantiles（10）

每组样本不一定完全相同

二十一、一次性计算同一变量不同组别的均值：

egen命令

按公司类型先排序，再计算每一类型公司审计费用的均值并赋值给新变量：

bycompanytype,sort:

egenmeanaf2=mean（auditfees）

●count（）

●mean（）

●median（）

●sum（）

二十二、_n和_N命令

1、显示每个观测的序号并显示总观测数

sortcompanyidfye

capturedropx

genx=_n

capturedropy

geny=_N

listcompanyidfyexyin1/30

2、分组显示每个组中变量的序号和每组总的样本数

●capturedropxy

●sortcompanyidfye

●bycompanyid:

genx=_n

●bycompanyid:

geny=_N

●listcompanyidfyexyin1/30

3、创建新变量等于每个分组中变量的第一个值或最后一个值

●sortcompanyidfye

●bycompanyid:

genauditfees_first=auditfees[1]

●bycompanyid:

genauditfees_last=auditfees[_N]

●listcompanyidfyeauditfeesauditfees_firstauditfees_lastin1/30

4、创建新变量等于滞后一期或滞后两期的值

●sortcompanyidfye

●bycompanyid:

genauditfees_lag1=auditfees[_n-1]

●bycompanyid:

genauditfees_lag2=auditfees[_n-2]

●listcompanyidfyeauditfeesauditfees_lag1auditfees_lag2in1/30

二十三、转变数据集结构：

reshape

不同数据库的数据集结构不同：

长型是指同一公司不同年度数据在不同的行。

宽型数据是指同一数据不同年度数据在现一行。

二者间的转换可通过reshape命令来实现。

需要注意的是，在转换过程中对数据集是有要求的，一个公司只能有一个年度数据，否则会出错。

1、长型转换为宽型：

reshapewideyearendincorporationyearcompanytypesalesauditfeesnonauditfeescurrentassetscurrentliabilitiestotalassetsbig6fye,i（companyid）j（year）

2、宽型转换为长型：

reshapelongyearendincorporationyearcompanytypesalesauditfeesnonauditfeescurrentassetscurrentliabilitiestotalassetsbig6fye,i（companyid）j（year）

3、第二次转换时命令可简化：

●reshapewide

●reshapelong

二十四、计算CAR的例子：

已知股票日回报率，市场回报率，事件日，计算窗口期为三天的CAR。

1、定义三天的窗口期：

●sorttickeredate

●genwindow=0ifeventdate<.（事件日为0）

●replacewindow=-1ifwindow[_n+1]==0&ticker==ticker[_n+1]

●replacewindow=1ifwindow[_n-1]==0&ticker==ticker[_n-1]

2、计算AR和CAR

●genar=ret-vwretd

●gencar=ar+ar[_n-1]+ar[_n+1]ifwindow==0&ticker==ticker[_n+1]&ticker==ticker[_n-1]

3、检验

●listtickeredateretvwretdarcarwindowifwindow<.

二十五、means的T检验：

1、检验总体上big6的审计收费有无显著不同

●use"J:

\phd\Fees.dta",clear

●genlnaf=ln（auditfees）

●bybig6,sort:

sumlnaf

●testlnaf,by（big6）

2、分年度比较big6的审计收费有无显著不同,加入byyear命令。

●genfye=date（yearend,"MDY"）

●formatfye%d

●genyear=year（fye）

●sortyear

●byyear:

ttestlnaf,by（big6）

3、均值等于特定值得的T检验：

●sumlnaf

●ttestlnaf=2.1

二十六、meadian的显著性检验：

1、获取中位数的命令：

bybig6,sort:

sumlnaf,detail

bybig6,sort:

centilelnaf

2、中位数检验：

●medianlnaf,by（big6）

●ranksumlnaf,by（big6）

二十七、列联表检验：

1、创建列联表的命令：

●tabulatecompanytypebig6,row

第一个变量是表的最左侧一列的项目，第二个变量是表的第一行的项目。

2、两变量之间的相关性检验：

chi2

tabulatecompanytypebig6,chi2row

3、相关矩阵：

pwcorrlnafbig6yearlisted

4、列出相关矩阵并进行符号检验

pwcorrlnafbig6yearlisted,sig

5、在矩阵中列出观测数

●pwcorrlnafbig6listedifyear==2000,sigobs

二十八、创建一个不包含缺失值的数据集

1、无缺失值的变量值为1，至少有一个的为0

gensamp=1iflnaf<.&big6<.&year<.&listed<.

2、缺失值的变量值表示同一行中缺失值的个数

egenmiss=rmiss（lnafbig6yearlisted）

summiss,detail

二十九、图形

1、直方图

●histogramincorporationyear,width

（1）

●histogramincorporationyear,bin（147）

width表示分一小份的宽度。

bin表示分成的份数。

改变宽度值可以使图像看起来更合适。

●选择起始点和间隔宽度：

histlnafiflnaf>=0&lnaf<=5,width（0.25）

●选择描述横轴和纵轴的单位和数据标识：

histlnafiflnaf>=0&lnaf<=5,width（0.25）xlabel（0（0.5）5）

●是否与正态分布一致：

histlnafiflnaf>=0&lnaf<=5,width（0.25）normal

2、散点图（scatter）

●scatterlnaflnta

第一个变量是纵轴，第二个变量是横轴。

●twoway（scatterlnaflnta,msize（tiny））（lfitlnaflnta）

在散点图上加入最适合的一条直线。

三十、缩尾处理winsor

.winsorrev,gen（wrev）p（0.01）0.01代表去掉的百分数。

Winsorrev,gen（wrev）h（5）,5代表去掉的个数

第二章线性回归

内容简介：

Ø2.1Thebasicideaunderlyinglinearregression

Ø2.2SinglevariableOLS

Ø2.3Correctlyinterpretingthecoefficients

Ø2.4Examiningtheresiduals

Ø2.5Multipleregression

Ø2.6Heteroskedasticity

Ø2.7Correlatederrors

Ø2.8Multicollinearity

Ø2.9Outlyingobservations

Ø2.10Medianregression

Ø2.11“Looping”

2.1Thebasicideaunderlyinglinearregression

1．残差

F为真实值，为预测值，ε为残差。

OLS回归就是使残差最小。

2.基本一元回归

regressyx

3．回归结果的保存

回归结果的系数保存在_b[varname]内存变量中，常数项的系数保存在（_cons）内存变量中。

4、预测值及残差

●predictyhat

●predictyres,resid

yres即为真实值得与预测值之差。

5、残差与X的散点图

twoway（scattery_resx）（lfity_resx）

6、衡量估计系数准确程度：

标准误差。

用样本的标准偏差与系数之间的关系来衡量即T值（用系数除以标准差），同时P值是根据T值的分布计算出来的，表示系数落入标准对应上下限的可能性。

前提是残差符合以下假设：

同方差：

Homoscedasticity（i.e.,theresidualshaveaconstantvariance）

独立不相关：

Non-correlation（i.e.,theresidualsarenotcorrelatedwitheachother）

正态分布：

Normality（i.e.,theresidualsarenormallydistributed）

7、回归结果包含的一些内容的意思

●各变差的自由度：

ØFortheESS,df=k-1wherek=numberofregressioncoefficients（df=2–1）

ØFortheRSS,df=n–kwheren=numberofobservations（=11-2）

ØFortheTSS,df=n-1（=11–1）

●MS：

变差除以自由度：

Thelastcolumn（MS）reportstheESS,RSSandTSSdividedbytheirrespectivedegreesoffreedom

●R平方：

TheR-squared=ESS/TSS

●调整的R平方：

AdjR-squared=1-（1-R2）（n-1）/（n-k），消除了加入相关度不高解释变量后R平方增加的不足。

●RootMSE=squarerootofRSS/n-k：

模型的平均解释能力

●TheF-statistic=（ESS/k-1）/（RSS/n-k）：

模型的总解释能力

2.3Correctlyinterpretingthecoefficients

1、假如想检验big6的审计费用在公开发行和非公开发行公司之间的区别时，可用交互变量。

Big6*listed.

2、变量回归系数的解释

（1）对连续变量系数的解释：

估计系数的经济意义是指X对Y的影响，可以有不同的方法来衡量：

一种是用X从25%变动到75%时Y的变动量。

或X变动一个标准差时Y的变动。

●regauditfeestotalassets

●sumtotalassetsifauditfees<.,detail

●genfees_low=_b[_cons]+_b[totalassets]*r（p25）

●genfees_high=_b[_cons]+_b[totalassets]*r（p75）

●sumfees_lowfees_high

（2）对非连续变量的解释

一般使用0和1，而不是百分比。

●reglnafbig6

●genfees_nb6=exp（_b[_cons]）

●genfees_b6=exp（_b[_cons]+_b[big6]）

●sumfees_nb6fees_b6

2.4Examiningtheresiduals

1、报告结果时，不仅用R平方来衡量显著性，而且需要报告其他统计结果：

●istheresignificantheteroscedasticity?

●isthe

展开阅读全文