stata入门中文讲义.docx

资源描述

stata入门中文讲义.docx

《stata入门中文讲义.docx》由会员分享，可在线阅读，更多相关《stata入门中文讲义.docx（54页珍藏版）》请在冰豆网上搜索。

stata入门中文讲义.docx

stata入门中文讲义

及数据处理

第一章　基础

命令格式

缩写、关系式和错误信息

文件

标量和矩阵

使用命令的结果

宏

循环语句

用户写的程序

参考文献

练习

第二章数据管理和画图

数据类型和格式

数据输入

画图

第章线性回归基础

数据和数据描述

变量描述

简单统计

二维表

加统计信息的一维表

统计检验

数据画图

回归分析

相关分析

线性回归

假设检验

估计结果呈现

预测

资源

第章数据处理的组织方法

、可执行程序的编写与执行

方法：

文件

方法：

交互式命令

方法：

在文件中使用命令

方法：

文件合并

方法：

文件

、文件的组织

、数据导入

、和的用法

第一章　基础

的使用有两种方式，即菜单驱动和命令驱动。

菜单驱动比较适合于初学者，容易入学，而命令驱动更有效率，适合于高级用户。

我们主要着眼于经验分析，因而重点介绍命令驱动模式。

图　的基本界面

关于的使用，可以参考手册，特别是[]，尤其是第１章和第２章。

有关使用的资料非常多，其中官方的有手册，比如对于初学者，[]是有用的起点，最有用的手册可能是[]’。

除此之外，还有很多的其他相关手册，相关介绍参见用户手册[]—。

（）和（）是的官方期刊，里面介绍一些没有包括在当前安装里的例子和程序。

其中，是的前身，自年起，改为。

另外，的网站上有很多有用的信息软件本身也提供很多有用的帮助命令，其中使用最多的可能是命令，比如当你忘记命令的使用方法时，可以在命令窗口输入，从而调出的窗口，提供命令的使用方法。

有时，你如果不知道具体的命令，也可以使用命令获得帮助，比如想了解特征的函数命令，但有忘记了，可以使用调出所有的函数。

另外，还提供、、等搜索命令。

会在官方帮助文件、、例子、、等搜索关键词，但不会搜索网络。

会在网络（包括）上搜索可安装的程序。

会进行更广范围的搜索，包括本机和网络信息，并且关键词不必完整。

会在本机上搜索所有的帮助文件（扩展名为或的文件），包括官方命令和用户写的命令。

1.1命令格式

所有命令基本具有下列模式

][][][][][][][,]

方括号表示可选项，打字机体是直接输入，斜体需要用户替代，其中

表示前缀，是相应的命令，是变量列表，是表达式，是文件名，表示适用于该命令的一个或多个可选项。

比如，简单统计命令的命令格式为

[][][][][,]

下划线表示该命令也可缩写为。

以系统自带数据为例，看一下命令的使用。

可以利用查看它的可选项，比如用可选项，还可以把变量的偏度和峰度显示出来。

再比如回归命令的格式为

[][][][][,]

假设我们用（每加仑汽油可以跑多少英里，测度油耗）对价格和车重回归，如下

的系数是，表示如果车重增加磅，每加仑汽车将少跑英里。

一个更复杂一些的使用如下：

有时，我们不想看到输出结果，可以使用前缀，比如

1.2缩写、关系式和错误信息

命令可以缩写，比如可以缩写为，可以缩写为，在文件中，命令下划线部分即该命令可以缩写的最短形式。

加外，任意符*可以表示任意字母，比如*表示对所有首字母为的变量进行简单统计。

数学运算符有加（）、减（）、乘（*）、除（）、指数（^）、负（前缀）；关系运算符有大于（>）、小于（<）、等（）、不等于（或）。

逻辑运算符有与（）、或（）、非（!

或）。

运行出错时，会提供错误代码，比如（），用户可以交互式的通过命令，获得错误代码的意思或直接在输出窗口中点击（）得到相应解释。

1.3文件

文件是将命令列表形式生成的一个文本文件，运行该文件时，即会按照文件命令的排列顺序逐条执行。

文件是软件的一个重要特色，在数据处理和实证分析中特别有用。

的书写可以使用任何文本编辑器进行，也可以使用自带的编辑器书写，可以用命令直接调出自带文本编辑器进行编辑。

比如我们写一个简单的文件，将命令,、,放在同一个文件中，起名为。

则我可以使用命令来执行该文件。

当文件比较大，命令比较多时，加入解释和说明是必要的。

允许在文件中加入说明。

有三种方式，

第种，直接以*开头进行的一行的说明。

第种在命令后面直接加

第种用**或加注

比如下面的文件

当然，也可以通过改变结尾分隔符的方式来做，比如

;

;,;

;

为了程序可读性，我们通常用而不使用改变分隔符的形式。

文件的运行非常简单，直接在命令窗口输入即可。

1.4标量和矩阵

一个标量可以用来储存数字或字符，比如

矩阵的使用有两种方式，一种是直接在命令窗口利用前缀，另一种使用命令。

1.5使用命令的结果

命令的结果有两类，一类是类、一类是类，中分析数据但不估计参数的命令称为类命令，这类命令的结果会保存在（）中，通过命令可以列出该命令产生的所有结果，比如，

因而，可以利用这些信息计算一些有用的参数，比如我们计算的极差，

那些估计参数的命令称为类命令，其结果会保存在（）中，利用可以列出所有的结果。

比如回归命令，

1.6宏

宏（）是利用一个字符串代表另一个字符串。

比如，我们可以利用宏来代替””。

这种替代可以使程序更短，增加易读性，并且很容易修改。

宏分为全局宏和局部宏。

全局宏用进行定义，并用$进行引用，比如，

全局宏可以适用于软件的整个期间。

比如修改，调整宏，都会起作用的。

`’

局部宏用进行定义，用`’进行引用（其中左引号通常在键上，与通常的单引号是不同的）。

另一个例子

1.7循环语句

的循环语句有三种：

、、。

是根据列表中的每一项进行循环，是根据连续整数进行循环，是根据用户的条件是否满足进行循环。

先看两处数据产生命令和，和随机数产生器（）。

下面，我们分别用三种循环语句实现个变量的求和。

首先用

{

}

下面用

（）{

}

利用命令

`'<{

}

有用的其他命令

用户手册中提出的每个人需要知道的最常用的条命令

[]’

,[]

[]

[][]

[]

[],[]

[]

[],

[]

[]:

[]

[]—

[]

1.8用户写的程序

比如，,可以运用并安装使用

1.9参考文献

....,,,,.

1.10练习

.运用数据，获得价格的简单统计信息，并利用（）的储存的信息计算价格的变异系数（即标准差除以平均值）。

.利用数据，做对,的回归，并利用（）中储存的信息计算。

.利用数据，定义一个全局宏变量，代替变量,,,并获得所代表变量的简单统计信息，利用局部宏重复上述过程。

.利用数据，利用循环语句产生一个新的变量，等于和的加和，并用命令检验均值是否正确。

参考答案：

（）（）

（）（（）（））

`’

{

`’

}

第二章数据管理和画图

数据类型和格式

内部数值型数据有五种模式

存在类型字节数最小最大

хх

另外，还有字符型数据，与其相关的两条命令是，将字符型变量转变为数值型，则将数值型转化为字符型。

数据显示格式可以利用命令来进行调整，具体参数有

固定形式

一般形式

指数形式

千分位加豆号

可以利用命令了解数据显示格式的更多内容。

数据输入

（）

格式数据的输入

[,]

[][][][,]

例：

输入文本文件数据

[][,]

[]

（""）

[]

例：

[],

….

调入文件（工业企业数据）

\\\

（“”）

直接从键盘输入

两种方法：

和

其他输入方式，参考

*软件可以进行不同格式数据转换

画图

.散点图

[][][][][,]

[][][][,]

（（））（）

（）,（）

（,（））（,（））,（""）

加置信区间：

[][,]

或直接用选项

（[,]）

保存的图可以组合起来，打开盘中的图用

.直方图

[][][][,[]]

.核密度图（）

[][][][,]

（）显示在两张独立的图上

（）（）,（（“”）（“”）同一图中

更多资源

参考[]和[]。

有用的在线帮助命令包括：

）,,;）,,,,;）,,,,,,,,,,,,;）,,,,,。

第章线性回归基础

3.1数据和数据描述

比如我们研究收入决定模型，使用年的中国城镇居民收入调查数据。

首先，将数据调入系统，对变量进行描述。

3.1.1变量描述

[]

3.1.2简单统计

可以用来对变量列表

3.1.3二维表

[,]

三维表

3.1.4加统计信息的一维表

[]

统计表格

（）（）

3.1.5统计检验

可以用来检验变量总体均值是否等于某一常数（:

μμ*），或检验两个均值是否相等（:

μμ）

3.1.6数据画图

和可以用来画变量的分布，比如工资的分布

（）

（）（）,（（）（））

3.2回归分析

3.2.1相关分析

相关系数，仅对所有变量同时取值时，不考虑缺失值

相关系数，两两计算相关系数，考虑缺失值，可以加参数、（显著性）

3.2.2线性回归

[][][][][,]

3.2.3假设检验

联合假设

有约束回归

（）

3.2.4估计结果呈现

可以将（）中的回归结果保存起来。

可以将的结果以表格的形式呈现出来。

可以将样本容量和似然函数值统计出来。

（）（）

一个更好的结果呈现命令：

，是用户写的非官方命令，用时需要先安装。

[][][,]

（）

（（）,（）,（））

（）

（（）,（）,（））

（）（）（******）

（）（******）

将内存中的保存的估计结果清除掉。

（）（）（）

（）（）

3.3预测

[][][][,]

预测值

残差，在使用预测命令时，最好加上条件（）以保证预测时所使用的样本和估计时使用的一样。

比较命令

（）,的不同

边际效应（）

[][][][][,]

用于求解边际影响，可以用于求解导数、弹性、半弹性等，特别适用非线性模型边际效应的计算。

用于线性回归或非线性回归之后。

老版本命令

（）

3.4资源

关键参考资料：

[]’和[],[],[],[],[]。

用户自写程序。

第章数据处理的组织方法

、可执行程序的编写与执行

方法：

文件

文件是一个文本文件，里面包含了相关的命令。

执行文件时，会逐条执行文件里面的命令。

文件可以运用各种文字编辑器编辑，可以使用自带的记事本，或自带的文本编辑器（可以用命令调用），最好不要使用等加格式的编辑器。

比如一个简单的文件：

，内容如下：

“,”

在命令输入窗口输入

就会运行文件里面的命令，其中带*的是注释语句，会自动忽略，直接执行“,”，在显示区将结果输出。

方法：

交互式命令

另一种方式是在命令窗口直接交互式的使用命令定义程序，比如在命令窗口输入：

.“,”

当我们想运行该程序时，直接在命令窗口输入

则即可运行刚才输入的程序

在实际使用中，我们很少直接使用交互式定义程序。

另外，如果我们想修改该程序，比如我们在“,”之后再加一条命令“,”。

你在命令窗口输入

（）

会返回错误，因为会记住程序定义。

如果你想重新定义一个程序，必须先利用命令把同名程序清除：

.“,”

使用命令定义程序的另一个问题是不知道内部命令的名称，如果你定义的程序名称和内容命令同名，当你运行该程序时，实际将执行的内容命令。

比如你定义程序

1.“,”

当执行上述命令时，实际运行的将是命令。

第个问题是不检测语法，因而如果定义的中命令有错误，在运行该程序时将出错。

如果定义的程序命令行很长，可以打开的跟踪功能寻找可能发生的错误。

打开跟踪时不要忘记关掉，不然你将发现的输出内容会很多。

当修改比较复杂的程序时，可以利用

*打开跟踪*

*将分屏显示关闭*

*开始一个名为的日志文件*

.运行程序

*关闭日志文件*

*将分屏显示打开*

第个问题是一个单个文件包含不能超过行命令，并且在要小于个字符。

第个问题不能编辑修改程序。

方法：

在文件中使用命令

在文件中使用的好处是随时可以修改你的程序，比如我们建议一个文件

“,”

让我们运行一个该文件，

（）;

出错了，为什么，因为刚才我们利用充互方式已经定义了一个同名的程序，因此要运行我们的文件，必须先将内存中的同名程序清除，利用

<我们输入的

<输入的

.“,”

我们执行文件时，才把程序调入系统，但并没有执行该程序。

这时，我们在命令窗口直接输入程序名，才会执行程序，如下：

我们也可以用命令将文件中的程序调入系统，和相同，但不会将文件中的命令行显示出来。

方法：

文件合并

文件可以做更多，交互式能做的，都可以放在文件中，因而，我们可以将程序定义，及程序执行全部放在同一个文件中，比如

","

用执行该文件，系统会提示错误，因为我们系统中刚才已经定义了程序，所以要先用清除掉,我们可以直接在文件中将该条命令加入第行，但如果系统中没有程序，运行清除命令时又会提示出错，我们可以在清除命令前加入，表示后面的命令出错时，不会报错，也不会停下来，会直接执行后面的语句，但它会将错误保存下来。

修改后的程序如下：

","

方法：

文件

文件实际上是以文件形式写程序方式的扩展，称为自执行文件，其运行类似于内部命令。

加到文件

“,”

直接将文件保存为，内容不变，即

","

运行该文件时，先用清除系统内的程序，然后在命令窗口直接输入

注意：

在修改文件后，运行之前要用清除原文件，从而刷新文件，否则你可能发现修改很多次的文件运行结果一直没有改变。

、文件的组织

、数据导入

数据格式文件，直接用可以打开，如果是利用电子表格文件转化来的文本文件，可以使用命令导入。

如果数据具有固定格式，需要用命令导入。

假设我们要处理一个包含家庭信息及个人信息的数据，基本数据信息如下：

家庭信息

个人信息

家庭信息

个人信息

......

假设家庭记录：

第－列为家庭代码，第列为“”表示家庭信息，第列为住房类型。

个人记录：

第－列为个人代码，第列为“”表示个人信息，第－列为年龄，第列为性别代码。

现在我们想产生一个数据，包含下列信息：

家庭代码、住房类型、个人代码、年龄、性别代码。

每个记录只包含一个个人信息，并且来自同一家庭的个人家庭信息相同。

如果原始数据中个人记录中也有家庭代码信息，则可以分别将家庭信息和个人信息读入系统，建立两个数据文件，然后根据家庭代码多对一合并数据即可。

但原始记录中个人记录中没有家庭代码，这里需要我们自己构造一个新的家庭代码。

首先，根据数据结构，建立两个数据字典文件和，分别如下：

{

（）""

}

{

（）""

（）"（）"

（）""

}

首先检验一下字典是否能够正确的将数据导入系统

如果不存在什么问题，上述语句修改后，可以放在文件里面。

基本的文件安排是首先读入家庭信息，产生家庭数据，然后读入个人信息，产生个人数据，最后将家庭数据和个人数据合并。

为了实现第三步的合并，这里我们需要产生一个识别代码。

首先，第一步，

*产生一个识别码*

然后，我们读入个人数据，不过，我们会将原始数据中家庭信息作为个人信息一样读入系统，读入后数据如下：

..家庭信息

我们利用产生一个代码全是的变量，结果如下：

然后，利用（），产生如下结果：

最后，将类型为家庭信息的记录删除，则仅剩下个人信息的记录，并且个人记录里包含了家庭记录的识别代码。

将个人数据与家庭数据按照进行合并即可。

最终程序如下：

（）

关于

命令可以用来检验变量取值是否存在问题，当后面的条件成立时，不会有任何提示，如果条件不成立，将给出提示，如果在文件中，文件将停止执行。

可复制性

程序中避免随机因素的存在，否则每次运行文件可能会产生不同结果。

可以利用，比如如果使用的数据比较大，在初步试分析中可以利用命令抽取一个较小的样本进行分析，命令抽象时是随机的，所以为了保证每次运行获得的结果一致，可以使用保证抽得的样本一样。

在进行随机模拟和里，也经常需要加上。

另外，有时仅有也不能保证不确定性的发生。

比如命令，

将观测按地区进行排序，但在同一区域内观测的排序是随机的，为了保证每次运行得到同样的结果，可以排序时加上参数，即

、和的用法

[]

和

作用是一样的。

[]

则为的滞后变量，其中[]为缺失值。

[]

为的先导变量，[]为缺失值

[]

的所有观测值均为[]

[]

是逆序观测值

：

结果和按照分组生成不同的数据，然后再分别对不同数据运行的作用一样。

附录：

复制（）表

*,,*

{

`'`'

}

（）

*（）,,

（）,.*

`'（）（）（）

（）（）

下面我们用一个例子来说明数据处理问题

中国居民收入调查（）例子

*":

\\\\\\\"

在当前目录直接打开

是一个用户写的命令，需要安装，用，然后再运行程序

根据代码排序，并针对每一个代码产生一个数值是的内部变量

确认没有重复观测值了

改城市为，为了与另一数据库一致，便于合并

（）*产生家庭代码

仅保留我们感兴趣的变量

保存数据

*":

\\\\\\\"

打开另一个数据库

合并数据

仅保留同时来自两库的数据

*******

********

（）*产生一个个人

加标签

（）（）（.）（）将变量征集编码

（.）（"小学以下"）（"小学"）（"初中"）（"高中"）（"大专"）（"大学"）（）教育程度

（.）（）（）（）

（.）（）（）（）（）,（）

（.）（）（）（）（）（）（）（）（）（）（）（）（）（）

（.）（）（）（）（）（）（）,（）

>仅考虑工资为正的数据

（）产生对数工资

（><）

*********

（）

年的

展开阅读全文