STATA实用学习笔记doc.docx

上传人:b****4 文档编号:4751693 上传时间:2022-12-08 格式:DOCX 页数:45 大小:511.83KB
下载 相关 举报
STATA实用学习笔记doc.docx_第1页
第1页 / 共45页
STATA实用学习笔记doc.docx_第2页
第2页 / 共45页
STATA实用学习笔记doc.docx_第3页
第3页 / 共45页
STATA实用学习笔记doc.docx_第4页
第4页 / 共45页
STATA实用学习笔记doc.docx_第5页
第5页 / 共45页
点击查看更多>>
下载资源
资源描述

STATA实用学习笔记doc.docx

《STATA实用学习笔记doc.docx》由会员分享,可在线阅读,更多相关《STATA实用学习笔记doc.docx(45页珍藏版)》请在冰豆网上搜索。

STATA实用学习笔记doc.docx

STATA实用学习笔记doc

STATA实用学习笔记

北京科技大学

STATA应用

学习摘录

 

内存为空时才可以导入数据集,否则会出现(youmuststartwithanemptydataset)

(1)清空内存中的所有变量:

.drop_all

(2)导入语句后加入“clear”命令。

一、保存文件

1、save“C:

\DocumentsandSettings\Administrator\桌面\ST9007\dataset\Fees1.dta”

2、save“C:

\DocumentsandSettings\Administrator\桌面\ST9007\dataset\Fees1.dta”,replace

二、打开及退出已存文件use

1、.Use文件路径及文件名,clear

2、.Drop_all/.exit

三、记录命令和输出结果(log)

1、开始建立记录文件:

logusing"J:

\phd\output.log",replace

2、暂停记录文件:

logoff

3、重新打开记录文件:

logon

4、关闭记录文件:

logclose

十一、创建和保存程序文件:

(doedit,do)

1、打开程序编辑窗口:

doedit

2、写入命令

3、保存文件,.do.

4、运行命令:

.do程序文件路径及文件名

十二、多个数据集合并为一个数据集(变量和结构相同)纵向合并append

insheetusing"J:

\phd\Fees1.csv",clear

save"J:

\phd\Fees1.dta",replace

insheetusing"J:

\phd\Fees2.csv",clear

appendusing"J:

\phd\Fees1.dta"

save"J:

\phd\Fees1.dta",replace

十三、横向合并,在原数据集基础上加上另外的变量merge

1、insheetusing"J:

\phd\Fees1.csv",clear

sortcompanyidyearend

save"J:

\phd\Fees1.dta",replace

describe

insheetusing"J:

\phd\Fees6.csv",clear

sortcompanyidyearend

mergecompanyidyearendusing"J:

\phd\Fees1.dta"

save"J:

\phd\Fees1.dta",replace

describe

2、_merge==1obs.Frommasterdata

_merge==2obs.Fromusingdata

_merge==3obs.Frombothmasterandusingdata

十四、帮助文件:

help

1、.Helpdescribe

十五、描述性统计量

1、summarizeincorporationyear单个

summarizeincorporationyear-big6连续多个

summarize_allorsimplysummarize所有

2、更详细的统计量

summarizeincorporationyear,detail

3、centile

centileauditfees,centile(0(10)100)

centileauditfees,centile(0(5)100)

4、tabulate不同类型变量的频数和比例

tabulatecompanytype

tabulatecompanytypebig6,column按列计算百分比

tabulatecompanytypebig6,row按行计算百分比

tabcompanytypebig6ifcompanytype<=3,rowcol同时按行列和条件计算百分比

5、计算满足条件观测的个数

countifbig6==1

countifbig6==0|big6==1

6、按离散变量排序,对连续变量计算描述性统计量:

(1)bycompanytype,sort:

summarizeauditfees,detail

(2)sortcompanytype

Bycompanytype:

summarizeauditees

十六、转换变量

1、按公司类型将公开发行股票公司赋值为1,其他为0

genlisted=0

replacelisted=1ifcompanytype==2

replacelisted=1ifcompanytype==3

replacelisted=1ifcompanytype==5

replacelisted=.ifcompanytype==.

十七、产生新变量gen

Generatenewvar=表达式

十八、数据类型

1、数值型

Storagetype

Bytes

Min

Max

byte

1

-127

+100

int

2

-32,767

+32,740

long

4

-2,147,483,647

2,147,483,620

float

4

-1.70141173319*1038

1.70141173319*1036

double

8

-8.9884656743*10307

8.9884656743*10308

2、字符型

Storagetype

Bytes

Maxlength(characters)

str1

1

1

str2

2

2

 

 

str80

80

80

3、新建变量的过程中定义数据类型

●genstr3gender="male"

●listgenderin1/10

4、变量所占字节过长

●dropgender

●genstr30gender="male"

●browse

●describegender

●compressgender

5、日期数据类型:

%ddates,whichisacountofthenumberofdayselapsedsinceJanuary1,1960。

(1)date(日期变量)

●genfye=date(yearend,"MDY")MDY应根据前面日期的排列顺序而定,结果显示的是距离1960年1月1日的天数

●listyearendfyein1/10

(2)日期格式化%d(显示fye变量为日期形式,但数值并未真正变动):

●formatfye%d

●listyearendfyein1/10

●sumfye

(3)利用日期天数求对应的年、月、日

●genyear=year(fye)

●genmonth=month(fye)

●genday=day(fye)

●listyearendfyeyearmonthdayin1/10

(4)将三个分别表示年、月、日的变量合并为一个日期变量

●dropfye

●genfye=mdy(month,day,year)

●formatfye%d

●listyearendfyein1/10

(5)将一个数值型的时间数据(20080131)转变为ST可识别的时间数据

●genyear=int(date/10000)

●genmonth=int((date-year*10000)/100)

●genday=date-year*10000-month*100

●listdateyearmonthdayin1/10

●genedate=mdy(month,day,year)

●formatedate%d

●listedatedatein1/10

十九、存贮统计量的内部变量R()

●sumauditfees

●genmeanadjaf=auditfees-r(mean)

●listmeanadjafin1/10

SUM命令后常见的几种R()值

r(N)

Numberofcases

r(sd)

Standarddeviation

r(sum_w)

Sumofweights

r(min)

Minimum

r(mean)

Arithmeticmean

r(max)

Maximum

r(var)

Variance

r(sum)

Sumofvariable

显示这些变量值的命令

●sumauditfees,detail

●returnlist

二十、recode命令(PPT61)

1、产生有多个值的变量的哑变量recode

recodeyear(min/1999=0)(2000/max=1),gen(yeardum)

min/1999表示小于等于1999的值全部赋值为0

2000/max表示大于等于2000的值全部赋为1。

2、对一个连续变量按一定值分为不同间隔的组recode

genassets_categ=recode(totalassets,100,500,1000,5000,20000,100000,1000000)。

分组的值为每组的上限,包含该值。

sortassets_categ

byassets_categ:

sumtotalassetsassets_categ

3、对一个连续变量按一定值分为相同间隔的组autocode

autocode(variablename,#ofintervals,minvalue,maxvalue)

forexample:

genassets_categ=autocode(totalassets,10,0,10000)

4、对一个连续变量按每组样本数相同进行分组:

xtile

xtileassets_categ=totalassets,nquantiles(10)

每组样本不一定完全相同

二十一、一次性计算同一变量不同组别的均值:

egen命令

按公司类型先排序,再计算每一类型公司审计费用的均值并赋值给新变量:

bycompanytype,sort:

egenmeanaf2=mean(auditfees)

●count()

●mean()

●median()

●sum()

二十二、_n和_N命令

1、显示每个观测的序号并显示总观测数

sortcompanyidfye

capturedropx

genx=_n

capturedropy

geny=_N

listcompanyidfyexyin1/30

2、分组显示每个组中变量的序号和每组总的样本数

●capturedropxy

●sortcompanyidfye

●bycompanyid:

genx=_n

●bycompanyid:

geny=_N

●listcompanyidfyexyin1/30

3、创建新变量等于每个分组中变量的第一个值或最后一个值

●sortcompanyidfye

●bycompanyid:

genauditfees_first=auditfees[1]

●bycompanyid:

genauditfees_last=auditfees[_N]

●listcompanyidfyeauditfeesauditfees_firstauditfees_lastin1/30

4、创建新变量等于滞后一期或滞后两期的值

●sortcompanyidfye

●bycompanyid:

genauditfees_lag1=auditfees[_n-1]

●bycompanyid:

genauditfees_lag2=auditfees[_n-2]

●listcompanyidfyeauditfeesauditfees_lag1auditfees_lag2in1/30

二十三、转变数据集结构:

reshape

不同数据库的数据集结构不同:

长型是指同一公司不同年度数据在不同的行。

宽型数据是指同一数据不同年度数据在现一行。

二者间的转换可通过reshape命令来实现。

需要注意的是,在转换过程中对数据集是有要求的,一个公司只能有一个年度数据,否则会出错。

1、长型转换为宽型:

reshapewideyearendincorporationyearcompanytypesalesauditfeesnonauditfeescurrentassetscurrentliabilitiestotalassetsbig6fye,i(companyid)j(year)

2、宽型转换为长型:

reshapelongyearendincorporationyearcompanytypesalesauditfeesnonauditfeescurrentassetscurrentliabilitiestotalassetsbig6fye,i(companyid)j(year)

3、第二次转换时命令可简化:

●reshapewide

●reshapelong

二十四、计算CAR的例子:

已知股票日回报率,市场回报率,事件日,计算窗口期为三天的CAR。

1、定义三天的窗口期:

●sorttickeredate

●genwindow=0ifeventdate<.(事件日为0)

●replacewindow=-1ifwindow[_n+1]==0&ticker==ticker[_n+1]

●replacewindow=1ifwindow[_n-1]==0&ticker==ticker[_n-1]

2、计算AR和CAR

●genar=ret-vwretd

●gencar=ar+ar[_n-1]+ar[_n+1]ifwindow==0&ticker==ticker[_n+1]&ticker==ticker[_n-1]

3、检验

●listtickeredateretvwretdarcarwindowifwindow<.

二十五、means的T检验:

1、检验总体上big6的审计收费有无显著不同

●use"J:

\phd\Fees.dta",clear

●genlnaf=ln(auditfees)

●bybig6,sort:

sumlnaf

●testlnaf,by(big6)

2、分年度比较big6的审计收费有无显著不同,加入byyear命令。

●genfye=date(yearend,"MDY")

●formatfye%d

●genyear=year(fye)

●sortyear

●byyear:

ttestlnaf,by(big6)

3、均值等于特定值得的T检验:

●sumlnaf

●ttestlnaf=2.1

二十六、meadian的显著性检验:

1、获取中位数的命令:

bybig6,sort:

sumlnaf,detail

bybig6,sort:

centilelnaf

2、中位数检验:

●medianlnaf,by(big6)

●ranksumlnaf,by(big6)

二十七、列联表检验:

1、创建列联表的命令:

●tabulatecompanytypebig6,row

第一个变量是表的最左侧一列的项目,第二个变量是表的第一行的项目。

2、两变量之间的相关性检验:

chi2

tabulatecompanytypebig6,chi2row

3、相关矩阵:

pwcorrlnafbig6yearlisted

4、列出相关矩阵并进行符号检验

pwcorrlnafbig6yearlisted,sig

5、在矩阵中列出观测数

●pwcorrlnafbig6listedifyear==2000,sigobs

二十八、创建一个不包含缺失值的数据集

1、无缺失值的变量值为1,至少有一个的为0

gensamp=1iflnaf<.&big6<.&year<.&listed<.

2、缺失值的变量值表示同一行中缺失值的个数

egenmiss=rmiss(lnafbig6yearlisted)

summiss,detail

二十九、图形

1、直方图

●histogramincorporationyear,width

(1)

●histogramincorporationyear,bin(147)

width表示分一小份的宽度。

bin表示分成的份数。

改变宽度值可以使图像看起来更合适。

●选择起始点和间隔宽度:

histlnafiflnaf>=0&lnaf<=5,width(0.25)

●选择描述横轴和纵轴的单位和数据标识:

histlnafiflnaf>=0&lnaf<=5,width(0.25)xlabel(0(0.5)5)

●是否与正态分布一致:

histlnafiflnaf>=0&lnaf<=5,width(0.25)normal

2、散点图(scatter)

●scatterlnaflnta

第一个变量是纵轴,第二个变量是横轴。

●twoway(scatterlnaflnta,msize(tiny))(lfitlnaflnta)

在散点图上加入最适合的一条直线。

三十、缩尾处理winsor

.winsorrev,gen(wrev)p(0.01)0.01代表去掉的百分数。

Winsorrev,gen(wrev)h(5),5代表去掉的个数

第二章线性回归

内容简介:

Ø2.1Thebasicideaunderlyinglinearregression

Ø2.2SinglevariableOLS

Ø2.3Correctlyinterpretingthecoefficients

Ø2.4Examiningtheresiduals

Ø2.5Multipleregression

Ø2.6Heteroskedasticity

Ø2.7Correlatederrors

Ø2.8Multicollinearity

Ø2.9Outlyingobservations

Ø2.10Medianregression

Ø2.11“Looping”

2.1Thebasicideaunderlyinglinearregression

1.残差

F为真实值,为预测值,ε为残差。

OLS回归就是使残差最小。

2.基本一元回归

regressyx

3.回归结果的保存

回归结果的系数保存在_b[varname]内存变量中,常数项的系数保存在(_cons)内存变量中。

4、预测值及残差

●predictyhat

●predictyres,resid

yres即为真实值得与预测值之差。

5、残差与X的散点图

twoway(scattery_resx)(lfity_resx)

6、衡量估计系数准确程度:

标准误差。

用样本的标准偏差与系数之间的关系来衡量即T值(用系数除以标准差),同时P值是根据T值的分布计算出来的,表示系数落入标准对应上下限的可能性。

前提是残差符合以下假设:

同方差:

Homoscedasticity(i.e.,theresidualshaveaconstantvariance)

独立不相关:

Non-correlation(i.e.,theresidualsarenotcorrelatedwitheachother)

正态分布:

Normality(i.e.,theresidualsarenormallydistributed)

7、回归结果包含的一些内容的意思

●各变差的自由度:

ØFortheESS,df=k-1wherek=numberofregressioncoefficients(df=2–1)

ØFortheRSS,df=n–kwheren=numberofobservations(=11-2)

ØFortheTSS,df=n-1(=11–1)

●MS:

变差除以自由度:

Thelastcolumn(MS)reportstheESS,RSSandTSSdividedbytheirrespectivedegreesoffreedom

●R平方:

TheR-squared=ESS/TSS

●调整的R平方:

AdjR-squared=1-(1-R2)(n-1)/(n-k),消除了加入相关度不高解释变量后R平方增加的不足。

●RootMSE=squarerootofRSS/n-k:

模型的平均解释能力

●TheF-statistic=(ESS/k-1)/(RSS/n-k):

模型的总解释能力

2.3Correctlyinterpretingthecoefficients

1、假如想检验big6的审计费用在公开发行和非公开发行公司之间的区别时,可用交互变量。

Big6*listed.

2、变量回归系数的解释

(1)对连续变量系数的解释:

估计系数的经济意义是指X对Y的影响,可以有不同的方法来衡量:

一种是用X从25%变动到75%时Y的变动量。

或X变动一个标准差时Y的变动。

●regauditfeestotalassets

●sumtotalassetsifauditfees<.,detail

●genfees_low=_b[_cons]+_b[totalassets]*r(p25)

●genfees_high=_b[_cons]+_b[totalassets]*r(p75)

●sumfees_lowfees_high

(2)对非连续变量的解释

一般使用0和1,而不是百分比。

●reglnafbig6

●genfees_nb6=exp(_b[_cons])

●genfees_b6=exp(_b[_cons]+_b[big6])

●sumfees_nb6fees_b6

2.4Examiningtheresiduals

1、报告结果时,不仅用R平方来衡量显著性,而且需要报告其他统计结果:

●istheresignificantheteroscedasticity?

●isthe

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1