stata入门简明课件.docx

资源描述

stata入门简明课件.docx

《stata入门简明课件.docx》由会员分享，可在线阅读，更多相关《stata入门简明课件.docx（10页珍藏版）》请在冰豆网上搜索。

stata入门简明课件.docx

stata入门简明课件

Stata入门讲义

一、Stata安装及注意事项

1.1.下载stata13.rar软件后，请解压到D盘（其他盘也可以）根目录下即可。

下载地址：

XX云盘

二、数据清理以及问卷的信度与效度检验

三、界面介绍

1、五个窗口

2、菜单基本功能介绍

3、工具栏快捷键的介绍

4、语法和命令

四、数据的输入与熟悉

4.1log（记录文件）

1、菜单操作

2、命令输入

a.logusing“文件路径和名称”

b.logoff

logon

logclose

4.2数据的读入与另存

数据分析的第一步是，将数据处理成为Stata所用的格式。

输入数据的方式有六种，包括键盘输入数据，读入文本文件数据，将spss或Excel数据文件直接复制或者导入，或者先利用其他软件将文件导成.dta格式。

1、Excel数据的导入

2、.dta数据的读入

a.use“文件路径和名称”（读入全部数据）

b.usevarlistusing“文件路径和名称”（读入部分变量）

c.use“文件路径和名称”inX/Y（读入部分样本，X~Y之间的观察值）

d.use“文件路径和名称”if条件语句

4.3数据的类型

Byte字节型

Int整数型

Float浮点型

Double双精度型

Str字符型

4.4变量名与数据标签的修改

1）命令方式修改

rename原变量名新变量名

2）a.labeldata“这是一份农村调查数据”

b.labelvarage年龄

c.labeldefinesex11”male”0”female”

labelvaluessexsex1

browse

（蓝色：

文字与数字有对应关系的）

labelbook

窗口菜单方式

lookforvar（搜索变量）

五、数据库的描述

5.1数据的描述（des）

describe,simple（只输出数据中的变量名称）

describe,short（只输出数据的样本量、变量的数目、数据的大小等）

describe,detail

变量名变量的保存形式表现格式变量取值的标签变量的标签

5.2变量编码簿（codebook）

在对数据基本情况有了了解之后，我们再来了解一下变量的具体信息。

codebook命令相当于编码簿，提供数值型变量的描述性统计，也获得字符型变量相关信息的简洁途径。

菜单路径：

Data-describedata-describedatacontents（codebook）

命令：

codebook

5.3描述变量的属性（inspect）

在了解变量的一些基本信息之后，还需要对变量的频数分布、中央趋势、离散趋势等进行描述。

菜单路径：

Data-describedata-Inspectvariables

命令：

inspect

5.4显示数据（list，browse）

Eg：

命令：

listABCD，sep（10）noobs

listCifD>18

5.5排序数据（sort）

所谓排序，就是按关键变量数值的递增或递减次序进行排列。

用作排序运算依据的关键变量可以是数字类型，也可以是字符类型。

参与排序的变量可以只有一个，也可以有两个或者多个。

命令：

sortBCD

gsort:

既可以对当前数据从小到大，也可以从大到小（-号置于一个变量前）。

*缺失值被默认为大于正数的最大值

六、变量的生成与处理

6.1新变量的生成和改变

命令：

gen新变量名=表达式1

eg：

genx=_n

genx2=x^2

listxx2

scatterxx2

replace变量名=表达式2if条件表达式

6.2变量的生成规则

a．变量的名称可长达32个字符，必须以字母或字符开头，也可以下划线开头，但是不能使用空白字符或！

？

等特殊字符。

变量最后一个字符不能是句号。

b．变量名称必须唯一

c．要区分大小写，不能混用

6.3生成字符型变量

gensex1=”male”

replacesex1=”female”ifsex==0

listsexsex1

6.4生成分组变量

genagegrp=0

replaceagegrp=1ifage>=18&age<25

replaceagegrp=2ifage>=25&age<35

replaceagegrp=3ifage>=35&age<55

replaceagegrp=4ifage>=55

replaceagegrp=.ifage==.

（分组要遵守不重不漏原则，对于缺失值要注意，因为缺失值默认为正无穷）

6.5变量类型的转换

a．将字符型变量转换为数值型变量

eg：

destringnation，gen（newvar）

destringnation,replace

七、数据的描述

7.1变量频数分布

命令：

tabulatevar

菜单：

statistics-summaries,tables,andtests-frequencytables-One-waytable

注意：

当tabulate的后边接两个变量的时候，则生成它们之间的交叉表

在使用tab进行频数分析的时候，常常会接多个变量，则得到“toomanyvariablesspecified”的错误提示，下面区分一下tabtab1tab2这三条命令：

tab：

可用于生成单个变量的频数分布，或两个变量的交叉分布

tab1：

可接多个变量，但只能分别生成单个变量的频数分布，不能生成交叉表

tab2：

可以生成多个双变量的交叉表

eg：

tabexportagenationeduincomeusingresults.txt,s（meansd）replace

shelloutresults.txt

7.2变量的中央趋势和离散趋势

集中趋势是指数据分布的一种表现形式。

频数最多的组段代表了中心位置，从两侧到中心，频数分布是逐步增加的。

集中趋势包括变量的均值、中数、众数、最大值、最小值等。

离散趋势，从中心到两侧，频数分布是逐渐减少的，反映了数据的离散程度。

主要测量方法包括方差、极差、标准差。

菜单：

statistics-summaries,tables,andtests-summarystatistics-summarystatistics

命令：

summarizevarlist,detail

formatincome%6.2f///限定输出格式

sumincome,format

7.3描述数值型数据统计量的其他方法

tabsum、tabstat、table等命令，在此不再详细介绍。

八、图形的制作与数据的描述

8.1散点图

Scatter描绘散点图，且是双向关系图，反映两个变量之间的关系。

其图形反映Y轴的数值是否随X轴数值的变化而发生相应的变化。

eg：

scatterincomeedu

sysuseauto,clear

twowayscatterpricewei

graphmatrixpriceweilenmpg

Scatter有很多选项helpscatter

8.2线图

8.3条形图

8.4直方图（histogram）

histage,discrete

sysusenlsw88.dta,clear

histwage

genln_wage=ln（wage）

histln（wage）,normal

disln（10-----100----10000）

8.5饼图

8.6箱线图

九、回归分析

前边的章节介绍了社会科学中定量分析方法的过程与步骤，熟悉数据、描述数据和处理数据的基本技术，包括了解数据的基本特征和分布、修改和生成变量、数据的清理、数据分组以及绘图的基本程序命令和窗口路径。

推断性统计方法运用概率理论，根据观察到的样本特征预测和推断总体特征。

但是几种推断性统计分析（假定检验和方差分析）都存在一定的局限。

比如，假定检验只能同时分析两个变量，且分类变量只能有两个取值。

方差分析虽然客服了该局限，分类的自变量可以有多个取值，且同时允许分析连续的因变量是否随多个自变量的不同取值各异。

但方差分析本身除了提供F统计量外，并不提供更多的信息；而且方差分析主要用于分类自变量与数值型因变量之间的分析。

虽然它也能纳数值型自变量于分析之中，但是不能提供单个自变量对因变量作用的大小。

从方差分析发展而来的另一种推断性统计方法——回归分析，可以客服这些局限。

回归分析研究的主要对象是客观事物之间的联系，表现为变量之间的统计关系。

在进行回归分析之前，首先必须掌握变量之间是否相关。

只有变量之间存在关系，才有必要进行回归分析。

假如当X增加时，Y的取值发生相应的变化，则X与Y之间时相关的；假如当X增加时，Y的取值没有确定的变化，则X与Y之间时不相关或者没有相关关系的。

对风牛马不相及的事件进行回归时没有任何意义的。

9.1线性回归（OLS）

a.相关散点图（scatterplot）

eg:

genx1=_n

geny1=-x1

scattery1x1

b.相关系数

-1

相关系数仅能衡量两个变量之间的线性关系，不能提供曲线关系的信息。

因此R=0不一定表示两变量之间没有任何关系。

命令：

correlatevarlist

graphmatrixincomeeduage,maxis（ylabel（none）xlabel（none））

c.模型成立的条件

1）零均值假定

2）同方差假定

3）无自相关假定

4）解释变量与扰动项不相关假定

5）在重复抽样中Xi的值是固定的

在重复的样本中，解释变量Xi所取的值被认为是固定的，也就是说Xi是非随机的。

d.命令

regressvarlist,option

regeduage

regeduage,r

异方差（截面数据很容易出现异方差）

异方差的检验

1）看残差图（rvfplot）

2）怀特检验（estatimtest,white）

3）BP检验（estathettest）

异方差的处理

1）OLS+稳健标准误

（输出稳健标准误：

如果使用的数据采取了分步骤、多阶段的聚类抽样设计和方法，同一单位的样本不一定完全独立，从而违背了统计理论的一个基本原则。

其后果是，出现异方差，分析结果可能出现偏误。

robust有助于克服这一不足。

）

2）广义最小二乘法（GLS）

3）加权最小二乘法（WLS）自行学习

4）可行广义最小二乘法

自相关

1）时间序列数据，往往会出现自相关

2）截面数据中的自相关

3）认为处理：

移动平均数，内插值

4）设定误差:

如果模型设定中遗漏了某个自相关的解释变量，并被纳入到扰动项中，则会引起扰动项的自相关。

自相关的检验：

1）画图scatter

2）BG检验

3）DW检验

处理方法：

1）使用:

OLS+异方差自相关稳健的标准误

2）使用OLS+聚类稳健的标准误

3）使用可行广义最小二乘法

展开阅读全文