stata入门简明课件Word下载.docx
《stata入门简明课件Word下载.docx》由会员分享,可在线阅读,更多相关《stata入门简明课件Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
1、Excel数据的导入
2、.dta数据的读入
a.use“文件路径和名称”(读入全部数据)
b.usevarlistusing“文件路径和名称”(读入部分变量)
c.use“文件路径和名称”inX/Y(读入部分样本,X~Y之间的观察值)
d.use“文件路径和名称”if条件语句
4.3数据的类型
Byte字节型
Int整数型
Float浮点型
Double双精度型
Str字符型
4.4变量名与数据标签的修改
1)命令方式修改
rename原变量名新变量名
2)a.labeldata“这是一份农村调查数据”
b.labelvarage年龄
c.labeldefinesex11”male”0”female”
labelvaluessexsex1
browse
(蓝色:
文字与数字有对应关系的)
labelbook
窗口菜单方式
lookforvar(搜索变量)
五、数据库的描述
5.1数据的描述(des)
describe,simple(只输出数据中的变量名称)
describe,short(只输出数据的样本量、变量的数目、数据的大小等)
describe,detail
变量名变量的保存形式表现格式变量取值的标签变量的标签
5.2变量编码簿(codebook)
在对数据基本情况有了了解之后,我们再来了解一下变量的具体信息。
codebook命令相当于编码簿,提供数值型变量的描述性统计,也获得字符型变量相关信息的简洁途径。
菜单路径:
Data-describedata-describedatacontents(codebook)
命令:
codebook
5.3描述变量的属性(inspect)
在了解变量的一些基本信息之后,还需要对变量的频数分布、中央趋势、离散趋势等进行描述。
菜单路径:
Data-describedata-Inspectvariables
命令:
inspect
5.4显示数据(list,browse)
Eg:
listABCD,sep(10)noobs
listCifD>
18
5.5排序数据(sort)
所谓排序,就是按关键变量数值的递增或递减次序进行排列。
用作排序运算依据的关键变量可以是数字类型,也可以是字符类型。
参与排序的变量可以只有一个,也可以有两个或者多个。
sortBCD
gsort:
既可以对当前数据从小到大,也可以从大到小(-号置于一个变量前)。
*缺失值被默认为大于正数的最大值
六、变量的生成与处理
6.1新变量的生成和改变
gen新变量名=表达式1
eg:
genx=_n
genx2=x^2
listxx2
scatterxx2
replace变量名=表达式2if条件表达式
6.2变量的生成规则
a.变量的名称可长达32个字符,必须以字母或字符开头,也可以下划线开头,但是不能使用空白字符或!
?
等特殊字符。
变量最后一个字符不能是句号。
b.变量名称必须唯一
c.要区分大小写,不能混用
6.3生成字符型变量
gensex1=”male”
replacesex1=”female”ifsex==0
listsexsex1
6.4生成分组变量
genagegrp=0
replaceagegrp=1ifage>
=18&
age<
25
replaceagegrp=2ifage>
=25&
35
replaceagegrp=3ifage>
=35&
55
replaceagegrp=4ifage>
=55
replaceagegrp=.ifage==.
(分组要遵守不重不漏原则,对于缺失值要注意,因为缺失值默认为正无穷)
6.5变量类型的转换
a.将字符型变量转换为数值型变量
eg:
destringnation,gen(newvar)
destringnation,replace
七、数据的描述
7.1变量频数分布
tabulatevar
菜单:
statistics-summaries,tables,andtests-frequencytables-One-waytable
注意:
当tabulate的后边接两个变量的时候,则生成它们之间的交叉表
在使用tab进行频数分析的时候,常常会接多个变量,则得到“toomanyvariablesspecified”的错误提示,下面区分一下tabtab1tab2这三条命令:
tab:
可用于生成单个变量的频数分布,或两个变量的交叉分布
tab1:
可接多个变量,但只能分别生成单个变量的频数分布,不能生成交叉表
tab2:
可以生成多个双变量的交叉表
eg:
tabexportagenationeduincomeusingresults.txt,s(meansd)replace
shelloutresults.txt
7.2变量的中央趋势和离散趋势
集中趋势是指数据分布的一种表现形式。
频数最多的组段代表了中心位置,从两侧到中心,频数分布是逐步增加的。
集中趋势包括变量的均值、中数、众数、最大值、最小值等。
离散趋势,从中心到两侧,频数分布是逐渐减少的,反映了数据的离散程度。
主要测量方法包括方差、极差、标准差。
statistics-summaries,tables,andtests-summarystatistics-summarystatistics
summarizevarlist,detail
formatincome%6.2f///限定输出格式
sumincome,format
7.3描述数值型数据统计量的其他方法
tabsum、tabstat、table等命令,在此不再详细介绍。
八、图形的制作与数据的描述
8.1散点图
Scatter描绘散点图,且是双向关系图,反映两个变量之间的关系。
其图形反映Y轴的数值是否随X轴数值的变化而发生相应的变化。
scatterincomeedu
sysuseauto,clear
twowayscatterpricewei
graphmatrixpriceweilenmpg
Scatter有很多选项helpscatter
8.2线图
8.3条形图
8.4直方图(histogram)
histage,discrete
sysusenlsw88.dta,clear
histwage
genln_wage=ln(wage)
histln(wage),normal
disln(10-----100----10000)
8.5饼图
8.6箱线图
九、回归分析
前边的章节介绍了社会科学中定量分析方法的过程与步骤,熟悉数据、描述数据和处理数据的基本技术,包括了解数据的基本特征和分布、修改和生成变量、数据的清理、数据分组以及绘图的基本程序命令和窗口路径。
推断性统计方法运用概率理论,根据观察到的样本特征预测和推断总体特征。
但是几种推断性统计分析(假定检验和方差分析)都存在一定的局限。
比如,假定检验只能同时分析两个变量,且分类变量只能有两个取值。
方差分析虽然客服了该局限,分类的自变量可以有多个取值,且同时允许分析连续的因变量是否随多个自变量的不同取值各异。
但方差分析本身除了提供F统计量外,并不提供更多的信息;
而且方差分析主要用于分类自变量与数值型因变量之间的分析。
虽然它也能纳数值型自变量于分析之中,但是不能提供单个自变量对因变量作用的大小。
从方差分析发展而来的另一种推断性统计方法——回归分析,可以客服这些局限。
回归分析研究的主要对象是客观事物之间的联系,表现为变量之间的统计关系。
在进行回归分析之前,首先必须掌握变量之间是否相关。
只有变量之间存在关系,才有必要进行回归分析。
假如当X增加时,Y的取值发生相应的变化,则X与Y之间时相关的;
假如当X增加时,Y的取值没有确定的变化,则X与Y之间时不相关或者没有相关关系的。
对风牛马不相及的事件进行回归时没有任何意义的。
9.1线性回归(OLS)
a.相关散点图(scatterplot)
eg:
genx1=_n
geny1=-x1
scattery1x1
b.相关系数
-1<
R<
1接近0表示两变量的线性关系微弱或者完全不相关
相关系数仅能衡量两个变量之间的线性关系,不能提供曲线关系的信息。
因此R=0不一定表示两变量之间没有任何关系。
correlatevarlist
graphmatrixincomeeduage,maxis(ylabel(none)xlabel(none))
c.模型成立的条件
1)零均值假定
2)同方差假定
3)无自相关假定
4)解释变量与扰动项不相关假定
5)在重复抽样中Xi的值是固定的
在重复的样本中,解释变量Xi所取的值被认为是固定的,也就是说Xi是非随机的。
d.命令
regressvarlist,option
regeduage
regeduage,r
异方差(截面数据很容易出现异方差)
异方差的检验
1)看残差图(rvfplot)
2)怀特检验(estatimtest,white)
3)BP检验(estathettest)
异方差的处理
1)OLS+稳健标准误
(输出稳健标准误:
如果使用的数据采取了分步骤、多阶段的聚类抽样设计和方法,同一单位的样本不一定完全独立,从而违背了统计理论的一个基本原则。
其后果是,出现异方差,分析结果可能出现偏误。
robust有助于克服这一不足。
)
2)广义最小二乘法(GLS)
3)加权最小二乘法(WLS)自行学习
4)可行广义最小二乘法
自相关
1)时间序列数据,往往会出现自相关
2)截面数据中的自相关
3)认为处理:
移动平均数,内插值
4)设定误差:
如果模型设定中遗漏了某个自相关的解释变量,并被纳入到扰动项中,则会引起扰动项的自相关。
自相关的检验:
1)画图scatter
2)BG检验
3)DW检验
处理方法:
1)使用:
OLS+异方差自相关稳健的标准误
2)使用OLS+聚类稳健的标准误
3)使用可行广义最小二乘法