stata入门简明课件.docx

上传人:b****5 文档编号:3226761 上传时间:2022-11-20 格式:DOCX 页数:10 大小:118.85KB
下载 相关 举报
stata入门简明课件.docx_第1页
第1页 / 共10页
stata入门简明课件.docx_第2页
第2页 / 共10页
stata入门简明课件.docx_第3页
第3页 / 共10页
stata入门简明课件.docx_第4页
第4页 / 共10页
stata入门简明课件.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

stata入门简明课件.docx

《stata入门简明课件.docx》由会员分享,可在线阅读,更多相关《stata入门简明课件.docx(10页珍藏版)》请在冰豆网上搜索。

stata入门简明课件.docx

stata入门简明课件

Stata入门讲义

一、Stata安装及注意事项

1.1.下载stata13.rar软件后,请解压到D盘(其他盘也可以)根目录下即可。

下载地址:

XX云盘 

 

二、数据清理以及问卷的信度与效度检验

三、界面介绍

1、五个窗口

2、菜单基本功能介绍

3、工具栏快捷键的介绍

4、语法和命令

四、数据的输入与熟悉

4.1log(记录文件)

1、菜单操作

2、命令输入

a.logusing“文件路径和名称”

b.logoff

logon

logclose

4.2数据的读入与另存

数据分析的第一步是,将数据处理成为Stata所用的格式。

输入数据的方式有六种,包括键盘输入数据,读入文本文件数据,将spss或Excel数据文件直接复制或者导入,或者先利用其他软件将文件导成.dta格式。

1、Excel数据的导入

2、.dta数据的读入

a.use“文件路径和名称”(读入全部数据)

b.usevarlistusing“文件路径和名称”(读入部分变量)

c.use“文件路径和名称”inX/Y(读入部分样本,X~Y之间的观察值)

d.use“文件路径和名称”if条件语句

4.3数据的类型

Byte字节型

Int整数型

Float浮点型

Double双精度型

Str字符型

4.4变量名与数据标签的修改

1)命令方式修改

rename原变量名新变量名

2)a.labeldata“这是一份农村调查数据”

b.labelvarage年龄

c.labeldefinesex11”male”0”female”

labelvaluessexsex1

browse

(蓝色:

文字与数字有对应关系的)

labelbook

窗口菜单方式

lookforvar(搜索变量)

五、数据库的描述

5.1数据的描述(des)

describe,simple(只输出数据中的变量名称)

describe,short(只输出数据的样本量、变量的数目、数据的大小等)

describe,detail

变量名变量的保存形式表现格式变量取值的标签变量的标签

5.2变量编码簿(codebook)

在对数据基本情况有了了解之后,我们再来了解一下变量的具体信息。

codebook命令相当于编码簿,提供数值型变量的描述性统计,也获得字符型变量相关信息的简洁途径。

菜单路径:

Data-describedata-describedatacontents(codebook)

命令:

codebook

5.3描述变量的属性(inspect)

在了解变量的一些基本信息之后,还需要对变量的频数分布、中央趋势、离散趋势等进行描述。

菜单路径:

Data-describedata-Inspectvariables

命令:

inspect

5.4显示数据(list,browse)

Eg:

命令:

listABCD,sep(10)noobs

listCifD>18

5.5排序数据(sort)

所谓排序,就是按关键变量数值的递增或递减次序进行排列。

用作排序运算依据的关键变量可以是数字类型,也可以是字符类型。

参与排序的变量可以只有一个,也可以有两个或者多个。

命令:

sortBCD

gsort:

既可以对当前数据从小到大,也可以从大到小(-号置于一个变量前)。

*缺失值被默认为大于正数的最大值

六、变量的生成与处理

6.1新变量的生成和改变

命令:

gen新变量名=表达式1

eg:

genx=_n

genx2=x^2

listxx2

scatterxx2

replace变量名=表达式2if条件表达式

6.2变量的生成规则

a.变量的名称可长达32个字符,必须以字母或字符开头,也可以下划线开头,但是不能使用空白字符或!

等特殊字符。

变量最后一个字符不能是句号。

b.变量名称必须唯一

c.要区分大小写,不能混用

6.3生成字符型变量

gensex1=”male”

replacesex1=”female”ifsex==0

listsexsex1

6.4生成分组变量

genagegrp=0

replaceagegrp=1ifage>=18&age<25

replaceagegrp=2ifage>=25&age<35

replaceagegrp=3ifage>=35&age<55

replaceagegrp=4ifage>=55

replaceagegrp=.ifage==.

(分组要遵守不重不漏原则,对于缺失值要注意,因为缺失值默认为正无穷)

6.5变量类型的转换

a.将字符型变量转换为数值型变量

eg:

destringnation,gen(newvar)

destringnation,replace

七、数据的描述

7.1变量频数分布

命令:

tabulatevar

菜单:

statistics-summaries,tables,andtests-frequencytables-One-waytable

注意:

当tabulate的后边接两个变量的时候,则生成它们之间的交叉表

在使用tab进行频数分析的时候,常常会接多个变量,则得到“toomanyvariablesspecified”的错误提示,下面区分一下tabtab1tab2这三条命令:

tab:

可用于生成单个变量的频数分布,或两个变量的交叉分布

tab1:

可接多个变量,但只能分别生成单个变量的频数分布,不能生成交叉表

tab2:

可以生成多个双变量的交叉表

eg:

tabexportagenationeduincomeusingresults.txt,s(meansd)replace

shelloutresults.txt

7.2变量的中央趋势和离散趋势

集中趋势是指数据分布的一种表现形式。

频数最多的组段代表了中心位置,从两侧到中心,频数分布是逐步增加的。

集中趋势包括变量的均值、中数、众数、最大值、最小值等。

离散趋势,从中心到两侧,频数分布是逐渐减少的,反映了数据的离散程度。

主要测量方法包括方差、极差、标准差。

菜单:

statistics-summaries,tables,andtests-summarystatistics-summarystatistics

命令:

summarizevarlist,detail

formatincome%6.2f///限定输出格式

sumincome,format

7.3描述数值型数据统计量的其他方法

tabsum、tabstat、table等命令,在此不再详细介绍。

八、图形的制作与数据的描述

8.1散点图

Scatter描绘散点图,且是双向关系图,反映两个变量之间的关系。

其图形反映Y轴的数值是否随X轴数值的变化而发生相应的变化。

eg:

scatterincomeedu

sysuseauto,clear

twowayscatterpricewei

graphmatrixpriceweilenmpg

Scatter有很多选项helpscatter

8.2线图

8.3条形图

8.4直方图(histogram)

histage,discrete

sysusenlsw88.dta,clear

histwage

genln_wage=ln(wage)

histln(wage),normal

disln(10-----100----10000)

8.5饼图

8.6箱线图

九、回归分析

前边的章节介绍了社会科学中定量分析方法的过程与步骤,熟悉数据、描述数据和处理数据的基本技术,包括了解数据的基本特征和分布、修改和生成变量、数据的清理、数据分组以及绘图的基本程序命令和窗口路径。

推断性统计方法运用概率理论,根据观察到的样本特征预测和推断总体特征。

但是几种推断性统计分析(假定检验和方差分析)都存在一定的局限。

比如,假定检验只能同时分析两个变量,且分类变量只能有两个取值。

方差分析虽然客服了该局限,分类的自变量可以有多个取值,且同时允许分析连续的因变量是否随多个自变量的不同取值各异。

但方差分析本身除了提供F统计量外,并不提供更多的信息;而且方差分析主要用于分类自变量与数值型因变量之间的分析。

虽然它也能纳数值型自变量于分析之中,但是不能提供单个自变量对因变量作用的大小。

从方差分析发展而来的另一种推断性统计方法——回归分析,可以客服这些局限。

回归分析研究的主要对象是客观事物之间的联系,表现为变量之间的统计关系。

在进行回归分析之前,首先必须掌握变量之间是否相关。

只有变量之间存在关系,才有必要进行回归分析。

假如当X增加时,Y的取值发生相应的变化,则X与Y之间时相关的;假如当X增加时,Y的取值没有确定的变化,则X与Y之间时不相关或者没有相关关系的。

对风牛马不相及的事件进行回归时没有任何意义的。

9.1线性回归(OLS)

a.相关散点图(scatterplot)

eg:

genx1=_n

geny1=-x1

scattery1x1

b.相关系数

-1

相关系数仅能衡量两个变量之间的线性关系,不能提供曲线关系的信息。

因此R=0不一定表示两变量之间没有任何关系。

命令:

correlatevarlist

graphmatrixincomeeduage,maxis(ylabel(none)xlabel(none))

c.模型成立的条件

1)零均值假定

2)同方差假定

3)无自相关假定

4)解释变量与扰动项不相关假定

5)在重复抽样中Xi的值是固定的

在重复的样本中,解释变量Xi所取的值被认为是固定的,也就是说Xi是非随机的。

d.命令

regressvarlist,option

regeduage

regeduage,r

异方差(截面数据很容易出现异方差)

异方差的检验

1)看残差图(rvfplot)

2)怀特检验(estatimtest,white)

3)BP检验(estathettest)

异方差的处理

1)OLS+稳健标准误

(输出稳健标准误:

如果使用的数据采取了分步骤、多阶段的聚类抽样设计和方法,同一单位的样本不一定完全独立,从而违背了统计理论的一个基本原则。

其后果是,出现异方差,分析结果可能出现偏误。

robust有助于克服这一不足。

2)广义最小二乘法(GLS)

3)加权最小二乘法(WLS)自行学习

4)可行广义最小二乘法

自相关

1)时间序列数据,往往会出现自相关

2)截面数据中的自相关

3)认为处理:

移动平均数,内插值

4)设定误差:

如果模型设定中遗漏了某个自相关的解释变量,并被纳入到扰动项中,则会引起扰动项的自相关。

自相关的检验:

1)画图scatter

2)BG检验

3)DW检验

处理方法:

1)使用:

OLS+异方差自相关稳健的标准误

2)使用OLS+聚类稳健的标准误

3)使用可行广义最小二乘法

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 生产经营管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1