StataT统计分析与应用.docx

上传人:b****6 文档编号:7105388 上传时间:2023-01-17 格式:DOCX 页数:51 大小:1,002.01KB
下载 相关 举报
StataT统计分析与应用.docx_第1页
第1页 / 共51页
StataT统计分析与应用.docx_第2页
第2页 / 共51页
StataT统计分析与应用.docx_第3页
第3页 / 共51页
StataT统计分析与应用.docx_第4页
第4页 / 共51页
StataT统计分析与应用.docx_第5页
第5页 / 共51页
点击查看更多>>
下载资源
资源描述

StataT统计分析与应用.docx

《StataT统计分析与应用.docx》由会员分享,可在线阅读,更多相关《StataT统计分析与应用.docx(51页珍藏版)》请在冰豆网上搜索。

StataT统计分析与应用.docx

StataT统计分析与应用统计分析与应用第二章、数据管理第二章、数据管理Stata命名原则:

L变量名可达32个字符;2.字符组成部分为AZ、a.z、0-9与下划线“一,这些字符之外的其他符号不可以出现在变量名中;3.变量名不可以数字开头;4.变量名区分英文大小写。

字符型数据:

存储格式是str#,其中str表示stata使用字符型变量的格式,而#表示stata该变量的存储最多可容纳的字符数。

字符变量显示格式:

字符变量显示格式只有一种,其表达式为#s。

其中,%是一个提示符,即宽度;s表示字符变量显示格式。

使用format命令规范变量的显示格式为变量规定显示格式:

formatvarlist%fmt或者format%fmtvarlist显示变量目前所采用的格式:

formatvarliststata%14s一一%-14s(即由右对齐改为左对齐);pop%11.0g一一%12.0gc(增加三位一个的数字分界符);medage%9.0g%8.1f(要求显示一位小数)变量标签1.添加数据集的标签使用:

labeldatalable2.添加变量的标签使用:

Labelvariablevarnamelabel命令1.browse和edit命令browsevarlistifineditvarlistifin2.rename命令renameold_varnamenew_varname3.save命令savefilename,save_opinionsnolable不保存设定的标签replace允许新的文件覆盖原有文件,常用命令;all主要用于编程,指定将e(samples)与数据一起保存。

4.describe命令describevarlist,memory_options5.list命令listvarlistifin,optionsseparator(#)海隔#行画一条分割线,系统默认#=5sepby(varlist)海当varlist数值发生变化时就画出一条线nolable:

显示变量的赋值而不是标签。

6.codebook命令命令codebookvarlistifin,options读取格式为dta格式的数据cdC/D/E/F:

*(数据文件存储位置)usefilename,clearnolableclear:

指明即使目前内存中的数据尚未保存仍然可以使用新数据来代替他nolabel:

载入数据时不载入标签算数符号stata算数符号有+、*、/、八关系符号:

“=二等于;勺=不等于;、=、=4&educ=7&educ10&educ=13&educ=16&educ=18egen命令:

命令:

Stata还提供了另一个创建变量的命令,egen(表示是对generate命令的扩展),他有自己的一系列用于完成generate命令无法轻易完成的命令。

这些函数包括计算现有变量或变量表达式的总和、max、mini、中位数、四分位数、标准化分值或移动平均数等。

egentypenewvar=fcn(argument)ifin,optionsegenzscore=std(x)创建一个名为zscore的新变量,等于x的标准化;egenavg=rowmean(x,y,z,w)创建一个名为avg的新变量,等于每一个观测案例在x,y,z,w四个变量上忽略了任何缺失值的行平均数;egensum=rowsum(x,y,z,w)创建一个名为sum的新变量,等于每一个观测案例在x,y,z,w的合计生成一个新变量educde2,其赋值为educ与受教育年数中位数之差,这项工作要求分性别进行:

bysortfemale:

egeneducme=median(educ)geneeducde2=educ-educmesumeduceducmeeducde2生成一个新变量sexmar,赋值为1、2、3,这些数值为female和marriage的各种组合编上类别序号。

egensexmar=group(femalemarried)/使用了group函数listsexmarfemalemarriedin1/20/列举前二十个观测值,以对比这三个变量?

数值和字符串之间的转换字符型变量到数字型变量encodevarnameifin,generate(newvar)label(name)generate(newvar):

此项必须,用于指定新生成的变量的名称,新变量的名称写在newvar的位置上。

label(name);指定新变量使用的标签名,若不加此项,那么新变量默认使用与原变量相同的标签数值型变量到字符型变量:

decodevarnameifin,generate(newvar)maxlength(#)generate(newvar):

llt项必须,用于指定新生成变量的变量名称,新变量的名称写在newvar位置上;recode命令:

recodevarlist(rule)(rule)generate(newvar)常见的赋值规则如下:

规则例子含义#=#3=13转换为1#=#2=92和缺失值转换为9#/#=#1/5=41至IJ5转换为4nonmissing=#nonmiss=8所有非缺失值转换为8missing=#miss=9所有缺失值转换为9分类变量:

分类变量:

autocode。

、。

、recode。

和。

和group()autocode。

、recode。

和group()是常用的用于生成分类变量的函数,它们的含义如下所示:

autocode(x,n,xmin,xmax)表示根据x值形成分类变量:

将x的值域(即最小值xmin至最大值xmax)分成等距的n份,并求出各x值所在区间的上限。

group(x)一一建立一个分类变量,将按排序后的数据分为尽量等规模的x个子样本。

recode(x,xl,x2,,xn)当x缺失时求得缺失值,当xxl时求得xl,当x散点的颜色mcolor(colorstylelist)和散点的大小msize(markersizestylelist)是比较重要的三个选项.1散点的形状msymbol(symbolstylelist)散点的形状选项可以简写为ms(),括号中填充的是各种形状,表3-5总结了散点图形状的各种选择。

2散点的颜色散点的颜色mcolor(colorstylelist)散点的颜色选择非常丰富,包括从黑到白的灰阶、蓝色、黄色、红色,还可以使用RGB或者CMYK进行数字调色,.3散点的大小msize(markersizestylelist)msize(markersizestylelist)选项用于控制每个散点的大小,这个选项的取值从最小的vtiny到最大的ehugeo这些取值都是有含义的:

第一个层次是tiny,第二个层次是small,第三个层次是medium,接着是large和huge,4散点的整体设定可以浦过另外一个选项来同时设定这五个方面,也就是设定散点图的整体显示效果,这个选项就是markerstyle()o其的取值如下:

pl-P15设定散点图整体样式;plbox-pl5box设定箱线图整体样式;pldot-pl5dot设定点图整体样式。

例子,例子,wage.dta1,绘制女性educ,wage以及exper,wage的散点图,要求前者是以整体样式P9,后者是以整体样式p8Keepiffemale=lscattereducexperwage,mstyle(p8p8)导.8-8-o-itVtI0e101520averagehourlyearnings、yearsofeducationyeanpotentialexpenence绘制女性的educ与wage以及exper与wage的散点图,要求散点图形状前者选择实心圆,后者选择大写字母X;散点颜色前者选择绿色,后者选择蓝色;塞散点大小均选择中等。

scattereducexperwage,msymbol(OXp)mcolor(greenblueblack)msize(mediummediumsmall)含义确定标签变量标签整体样式标签位置另一种标签的方法标签与散点的距离标签的角度标签文字的整体样式标签的大小标签的颜色散点标签选项(marker_label_options)用于设定散点图标签,所谓散点图标签一般是指位于每个散点旁的用于说明该散点所代表个体的文字,比如如果我们所做的图形是每个国家的期望寿命与这个国家的人均GNP之间的散点图,那么我们可能需要在每个散点旁放置一个“标签”用以说明每个散点所代表的国家。

散点标签选项主要包括表3.8所示的九个具体的选项:

选项名称mlabel(varname)mlabstyle(markerlabelstyle)mlabposition(clockposstyle)mlabvposition(varname)mlabgap(relativesize)mlabangle(anglestyle)mlabtextstyIe(textstyIe)mlabsize(textsizestyle)mlabcolor(colorstyle)例lifexp.dta要求使用北美洲国家的数据绘制以预期人口寿命lexp为v轴变量,以人均GNPgnppc为x轴变量的散点图,要求添加国家名称country作为标签,利用mlabpos()选项调整标签的位置scatterlexpgnppcifregion=2,mlabel(country)mlabpos(9)C33=.01000020000GNPpe/capita用北美洲国家的数据绘制以预期人口寿命lexp为v轴变量,以人均GNPgnppc为x轴变量的散点图,要求添加国家名称country作为标签,并将标签放置在隐藏的散点上。

scatterlexpgnppcifregion=2,mlabel(country)m(i)选项名称connect(connectstyle)sort(varlist)cmissing(y|n)Ipattern(linepatternstyle)Iwidth(linewidthstyle)lcolor(colorstyle)Istyle(linestyle)pstyle(pstyle)recast(newplottype)连接选项(connect_options)的设定连线选项(connect_options)用来设定如何用线将散点图上各点连接起来,这样可以更加清楚地查看变动的趋势。

选项含义设定如何连接相邻的两点在连接之前首先对X轴变量进行排序如何对待缺失值连线的类型,是实现还是虚线连线的宽度连线的颜色连线的整体样式整体的作图样式更高阶的选项,将绘图视为一个新的绘图类型(newplottype)震荡选项(jitter_options)的设定一旦我们设定了震荡选项jitter(#),scatter会在绘图前向数据中增加白噪声,选项中的数字“#就是用来指定一个数字,表明震荡的程度占绘图区域的百分比例auto.dta绘制mpg和weight的散点图,并使用震荡选项使各个散点相互分离。

scattermpgweight,jitter(7)/jitter(7)表明我们对散点图震荡的程度相当于整个绘图区域的7%,读者可以增加或者减少这个数值来进行尝试?

00ooi0L6dE)85055zooo3,0004.000Weight(lbs.)5.000标题选项(tittle_options)的设定标题选项组用来设定绘图的标题以解释图形的内容标题选项(title_options)含义title(tinfo)总标题subtitle(tinfo)副标题note(tinfo)标注很少使用很少使用纵向标题纵向标题caption(tinfo)字幕标题tltitle(tinfo)t2title(tinfo)bltitle(tinfo)b2title(tinfo)lltitle(tinfo)I2title(tinfo)rltitle(tinfo)r2title(tinfo)by选项的设定byvarlist,byopts其中,varlist是作图的根据变量,而byopts是子选项例auto.dta按照是否为国产(相关变量foreign)分组绘制mpg和weigh的散点图scattermpgweight,by(foreign)Foreign2.(X3.ODG4.0005.(X2.0003.0004.price与weight的散点图,要求两个y轴变量英用一个y轴。

scattermpgpriceweight绘制mpg、price与weight的散点图,要求两个V轴变量分别使用两个Y轴twoway(scattermpgweight)(scatterpriceweight,yaxis

(2)o-Mileage(mpg)Prioe第四章、其他图形绘制第四章、其他图形绘制4.1绘制曲线标绘图twowaylinevarlistifin,options其中,twoway可以省略,varlist包括参加绘图的变量名称,选项options包括connect_options,axis_choice和各种其他的twoway_options.例auto.dta通过散点图和曲线图的符合来绘制mpg对weigh一元线性回归的95%的预测置信区间quietlyregressmpgweightpredicthatpredictstdf,stdfgenerateIo=hat-1.96*stdfgeneratehi=hat+1.96*stdfscattermpgweight11linehatIohiweight,pstyle(p2p3p3)sortquietlyregressmpgweight以mpg为因变量,weight为自变量做回归,quietly要求不显示回归的结果predicthat/得到预测值hatpredictstdf,stdf得到预测的标准差generateIo=hat-1.96*stdf/构建置信区间下界,其中1.96是置信度为95%的双侧检验的t值generatehi=hat+1.96*stdf/构建置信区间上界,其中1.96是置信度为95%的双侧检验的t值scattermpgweight11linehatIohiweight,pstyle(p2p3p3)sortscattermpgweigh要求以mpg为y轴变量,weight为x轴变量绘制散点图;linehatIohiweight,pstyle(p2p3p3)要求以hatIo和hi为y轴变量,weight为x轴变量绘制散点图;选项sort要求对weight进行排序,需要强调的是sort必须加上,否则会得到没有意义的图形绘制连线标绘图连线标绘图命令:

twowayconnectedvarlistifin,scatter_optionsSd190019201940196019802000:

Year连线标绘图与散点图本质是一致的,下面两条命令结果是一样的twowayconnectedyvarxvarscatteryvarxvar;connect(l)scatteryvarxvartwowayconnectedyvarxvar;connect(none)绘制一次拟合图一次拟合图的绘制实际分为两步,首先stata使用yvar为因变量,xvar为自变量进行一元线性回归,得到yvar的拟合值比如hat,然后使用hat对xvar做曲线标绘图,同时符合原始数据的散点图:

一次拟合的命令如下:

twowavIfityvarxvarifinweigh,options例auto.dta绘制复合图形,包括mpg和weigh的散点图以及mpg和weight的一次拟合图。

根据分类变量foreign绘制复合图形,包括mpg和weight的散点图以及mpg和weight的一次拟合图twowayIfitmpgweight11scattermpgweight,by(foreign)FittedvaluesMileage(mpg)Gray*0/Carr/pe绘制mpg,weight的散点图与一次拟合图的复合图,以foreign区分,同时三张图放在一起。

绘制二次拟合图二次拟合图形的绘制分两步,首先stata使用yvar为因变量,xvar和xvar的平方为自变量进行二元线性回归,得到yvar的拟合值如hat,然后使用hat对xvar做曲线标绘图,同时复合原始数据的散点图。

二次拟合命令:

twowayqfityvarxvarifinweight,options例auto.dta绘制复合图形,包括mpg和weight的散点图以及mpg和weight的二次拟合图根据分类变量foreign绘制复合图形,包括mpg和weight的散点图以及mpg和weight的二次拟合图。

scattermpgweight11qfitmpgweightWeight(lbs.)FittedvaluesMileage(mpg)GraDrewCartfOe绘制lowess拟合图twowaylowessyvarxvarifin,options例auto.dta绘制复合图形,包括mpg和weight的散点图、mpg和weight的1次拟合图以及lowess修匀拟合图根据分类变量foreign绘制复合图形,包括mpg和weight的散点图、mpg和weight的一次拟合图以及lowess修匀拟合图twowayqfitmpgweight11scattermpgweight11lowessmpgweight,by(foreign,totalrow(l)DomesticForeignTotal200030004000500020003000400D5000200030004OD0Weightlbs)FittedvaluesMileage(mpg)lowessmpgweightCirt/oe绘制条形图条形图显示的描述性统计量统计量Stata写法均值Mean中位数Median和Sum计数Count标准差Sd最大值Max最小值Min各种百分位数Pl.2.plOOgraphbaryvarsifinweight,options用于绘制纵向条形图,此时,y轴是数值型,x轴是分类变量graphhbaryvarsifinweight,options用于绘制横向条形图条形图选项分类选项(Options)含义group_options用于设定分类的组别yvar_options用于设定绘制条形图的变量Lookofbar_options设定条形图的外观Legending_options设定条形图的图例Axis_options设定y轴的刻度标识Title_and_other_options设定添加标题等例citytemp.dta使用region为分类变量,绘制tempjuly和tempjan的条形图。

graphbartempjulytempjangraphbartempjulytempjanover(region)meanoftempjulyIHHmeanoftempjangraphbar(mean)tempjulytempjan,over(region)legend(label(lJuly)label(2January)对图例的文字说明进行重新定义,对第一个条形图的文字说明是“July”,对第二个条形图的文字说明是“January”NENCntrlSouthWestIMMiJulyJanuarygraphbar(mean)tempjulytempjan,over(region)legend(label(lJuly)label(2January)ytitleCDegreesFahrenheit11)对Y轴加入定义“DegreesFahrenheitvs导ONIIEcoaBJMQaeaNCntrlSouthWestJulyJanuarygraphbar(mean)tempjulytempjan,over(region)legend(label(lJuly)label(2January”)ytitle(nDegreesFahrenheit)title(HAverageJulyandJanuarytemperatures11)加入图标主标题AverageJulyandJanuarytemperaturesvAverageJulyandJanuarytemperaturesS09导OZua=UMDu.maoa)oagraphbar(mean)tempjulytempjan,over(region)legend(label(lJuly)label(2January1)ytitle(HDegreesFahrenheit)title(HAverageJulyandJanuarytemperatures11)subtitle(HbyregionsoftheUnitedStates11)加入副标题“byregionsoftheUnitedStates”AverageJulyandJanuarytemperaturesbyregionsoftheUnitedStatesJulyJanuary0808W20uu82BdsDfAgostino检验、ShapiroWilkW检验和ShapiroFranciaW,检验的Stata命令。

各种正态性统计检验的命令格式和选项如下:

1偏度一峰度检验sktestvarlistifinweight,noadjustnoadjust选项用未经调整过的检验结果代替Royston(1991)对整体卡方检验和显著性水平做调整后的结果,可能会降低检验的显著性水平,使拒绝原假设的可能下降。

2ShapiroWilkW检验swilkvarlistifin,options该命令的选项及其含义是:

generate(newvar):

产生包含W检验系数的新变量;Innormal:

对ln(Xk)做正态性检验,其中k使得ln(X)偏度为0。

我们使用InskewO来确定k的取值。

3ShapiroFranciaW,检验sfranc

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 经济学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1