STATA入门5函数与运算符Word文件下载.docx

资源描述

STATA入门5函数与运算符Word文件下载.docx

《STATA入门5函数与运算符Word文件下载.docx》由会员分享，可在线阅读，更多相关《STATA入门5函数与运算符Word文件下载.docx（14页珍藏版）》请在冰豆网上搜索。

STATA入门5函数与运算符Word文件下载.docx

，<

=,>

＝,＝=，&

｜

当不确定优先序的时候，最好用括号将优先序直接表达出来。

5．１.1代数运算

包括加（+）、减（-）、乘（*）、除（/）,幂（^）和负数（－），当遇到缺失值或者运算不可行时（比如除数为零）均会得到缺失值。

例:

求正式的值，若ｘ=４,y=2,显然经过心算,应该为:

-1

.dｉ–（4＋2^（4-2））/（2＊4）/／di是dｉｓｐlay命令的略写，表示显示结果

.dｉ4－2　　　//输出2

．di　3*5//输出15

．ｄi8／2　　　　／/8除以2,输出4

.dｉ2^３　　//2的立方，输出８

.di　–（2＋3^（2－3））/ｓqｒt（2＊３）／/括号运算优先,想一想,结果应为多少?

实际上,更多的情形是两个或多个变量的直接运算。

比如，将进口车的价格都增加100元（可能是关税），而国产车不变。

．sysuseauｔo,clｅar

.gennprｉｃe=prｉce+forｅign*100

.lｉst　ｎpricｅｐrｉceforeiｇｎ

5.1．2字符运算

加（+）号同样可用于字符运算，当加号出现在两个字符之间时,两个字符将被连成一个字符。

比如把”我爱”“STＡTA”合并在一起，命令为：

.ｓcalara=”我爱”＋“STATA”　　//要特别注意，引号必须是半角和英文模式

．ｓcａlaｒlｉst　a　//sｃalａr命令将两个字符运算后的结果赋于ａ，然后显示a

.scalａr　a=2+“3”　／／注意到：

字符与数值不能直接相加,显示类型不匹配

typemｉsmatch

ｒ（109）;

５.1.3关系运算

关系运算包括大于、小于、等于;

不等于、不小于、不大于等多种比较关系。

特别要注意到STATA中的等于符号为“=＝”，是两个等号连写在一起，不同于赋值时用的单个等号“=”。

.ｄi3＜5　//输出结果为1，意味着3小于5为真

．di3＞5//输出的结果为0,意味着３大于5为假。

当数据中含有缺失值的时候需要特别小心,因为系统缺失值大于任何一个数据,利用这一点,我们可以使用条件语句排除缺失值。

任务：

将年龄分组为６５岁以下和65岁及以上两组，缺失值显然不能包括在任何一组中。

agｅ

８０

.clｅar

.ediｔ

将上述数据复制到STＡTA中,然后退出数据编辑器。

．genaｇegrｐ１=（age>

=65）

生成的数据中,将缺失值视为6５岁以上分在了高龄组，这是错误的

.　gen　ａgegrｐ２=（ａge>

=6５）ifagｅ<

生成的数据中，将缺失值排除在外,正确！

这一命令常被用于生成虚拟变量。

.genagegｒp3=（age==65）iｆaｇe＜.　/／仅判断是否恰好为65岁

.ｌist　//比较ageｇｒp1、agｅgrp2和ａgｅgrp3的差异,体会ｉｆａge<

.的作用。

ａge

Aｇegrp1

Agegrｐ2

Agegrｐ3

０

．

１

６5

１8

5．１.4逻辑运算

逻辑运算包括非（!

），和（＆）、或（|）三种,主要用于条件语句中。

列示出价格大于10000元的任何车,或者小于4０0０元的国产车。

.sysuseauto,ｃleaｒ

.list　prｉcefｏreiｇnif　price>

1000０|　pｒice<

40０0　&

forei＝=0

在STAＴA中,和（&

）优先于或（|）,因此上述命令与下面的命令等价:

.liｓt　priceforeｉgｎifｐrice>

1０0０0｜　（price<

400０&

forｅｉ＝=0）

试一试下面的命令,这里列示的是国产车中价格高于１000０元或者低于40０0元的车。

.lisｔ　ｐriceforeｉgｎiｆ（ｐricｅ>

1０0０0|prｉcｅ<

4000）&

　forei==0

5.2函数概览function

函数只不过是一些编号的小程序，它会按一定的规则进行处理,之后报告结果。

实际上，谁也记不住这么多函数,因此,首先要学会查找函数的帮助，当记不住的时候,随时去查寻帮助。

记住下面的命令才是最关键的。

．heｌpfunction

Typeofｆｕncｔｉoｎ　　　　　Seehelp　　　　

------------------－---－----------－----+－--－-－－------－-－---－－----

Maｔhematicａlｆuncｔions　　　　　maｔhfunctions　

Proｂａbilitydistｒibｕｔiｏｎsand　　　　　　　　　　

ｄｅnsity　fｕnｃｔiｏns　　　densiｔyfｕｎｃｔions　

Ｒanｄom-numberｆunｃtionｓ　　　random-numｂｅr　functions　

Stringfuｎctioｎｓｓtrｉｎg　functiｏnｓ　　

Pｒogrａmmｉngｆｕnctions　　　　　　progrａmminｇ　ｆunctiｏns　

Ｄatｅfunctioｎs　　dateｆｕnctions　　　

Timｅ-ｓｅrｉeｓｆuｎctioｎs　tｉmｅ－ｓｅriesｆｕnｃｔions　

Maｔriｘｆunｃtionｓ　　　　　　ｍatrｉx　ｆunctioｎs　　

弹出来的对话框告诉我们,STAＴA包括八类函数，分别是数学函数,分布函数,随机数函数,字符函数,程序函数,日期函数,时间序列函数和矩阵函数。

本章主要介绍数学函数和字符函数，其他函数将在后面相应的章节介绍。

常用函数一览表

函数

含义

举例

数值型函数

aｂs（x）

绝对值

aｂs（-９）=9

cｏmb（ｎ,ｋ）

从n中取k个的组合

ｃｏmb（10,2）=45

exｐ（x）

ｅｘｐ（０）＝１

filｌ（）

自动填充数据

iｎt（x）

取整

int（5.6）=5,　int（－5.2）＝　-5．

ln（x）

对数

ｌn

（1）=０

lｏg10（x）

以10为底的对数

lｏｇ10（１００0）=３

ｍｏｄ（x,y）

=x-y*inｔ（x/y）

mod（9,２）=1

rｏund（ｘ）

四舍五入

roｕｎｄ（5.6）=6

sqrt（x）

sqrt（16）=4

sum（ｘ）

求和

随机函数

uniｆoｒm（）

均匀分布随机数

第10讲将介绍

iｎvnｏｒｍal（uniform（））

标准正态分布随机数

第11讲将介绍

字符函数

ｒeａl（s）

字符型转化为数值型

striｎg（n）

数值型转化为字符型

ｓｕbstr（s,n1,n2）

从Ｓ的第n1个字符开始,截取n2个字符

Subsｔr（“ｔhｉs”,2,2）＝iｓ

word（s,n）

返回s的第ｎ个字符

Work（“thｉｓ”,3）=i

系统变量

当前观察值的序号

共有多少观察值

＿ｐｉ

５.3数学函数ｍatｈfunctｉons

5.3．１三角函数,指数和对数函数

数学函数可以直接对数据进行运算,也可以对变量进行运算。

.disｑrt（４）　　　//开方,输出２

.diｓqrｔ（6+3）　//先相加,再开方,输出３

.dｉabs（－1０0）　//求绝对值,输出１00

．diｅxp

（1）　　　//表示e１，输出2．718２８18

.di　lｎ（ｅxp

（2））　　//先求e2,再取对数，得到２

．　di　_ｐi　　　　　　　　//_pi为圆周率，得到３.141５92７

.dicｏs（＿pi）　　　//_ｐi的余弦值，得到-1

数学函数可以直接对数据进行运算，也可以对变量进行运算。

对变量的操作：

　ｃlear

ｓeｔ　ｏbｓ　５

gｅnｘ=＿n　　　／/生成新变量x,取值为1，２，３，4，５

　geny1=ｅxp（x）　／/取指数

gｅny２=lｎ（x）　　//取对数

geny3=sｉn（eｘｐ（ｘ）　）＋ｃos（ｌｎ（x））//取对数

5.3．2取整和四舍五入

.di　iｎt（3.49）　//inｔ（）取整，不论后面的小数是什么,只取小数点前的数值

.　ｄi　int（3.５１）　　　//输出3

．　di　inｔ（－３．49）　　　//输出－3

．ｄiｉnt（－3.5１）　　//输出-3

．　diround（３.49）　／/roｕｎd（）取整，四舍五入，结果为３

.ｄiround（３．51）　　　/／四舍五入,结果为４

.ｄiround（-3.4９）　　//四舍五入，结果为-3

.dｉ　rｏund（-3.５1）　／/四舍五入到个位数，结果为-4

.di　round（3.３４5,.1）　　//四舍五入到十分位,结果为3.3

.dirouｎd（３.３51,.１）　//四舍五入到十分位,结果为３.４

．di　rｏunｄ（3.3４5,.0１）/／四舍五入到百分位,结果为３.3５

.di　round（3．35１，．０１）　　　//四舍五入到百分位,结果为3.３５

.diｒoｕnd（335．１，１０）　　　／/四舍五入到十位,结果为3３0

对变量的操作

.sysuseaｕto，ｃlear

.ｇennｐriｃe=price/10000／／将价格变到以万为单位

.gennpｒice２=ｒouｎｄ（nｐｒice,0.01）　/／四舍五入到百分位

.liｓｔnpriｃe＊　　　　//比较结果

5.３.3求和及求均值geｎ和egen

clear

　ｓｅtｏbs５

geｎx=_ｎ　/／生成新变量ｘ,x的取值从1到5

　gｅny=sum（x）　　//求列累积和

ｅｇｅnz=sum（ｘ）//求列总和

eｇｅnr=ｒｓum（xyｚ）　//求x+y+ｚ总和

egenhsum=ｒowtotａl（x　y　z）　　/／求hsum=ａ＋b＋c

egenｈavg=　ｒowmeａn（ｘ　yz）/／求havg＝（a+b＋ｃ）/3

eｇenhsd=rowsｄ（xyz）　　//求a、ｂ和ｃ的方差

ｅgen　rmin=rowmiｎ（xｙz）　　　//求xyz）三个变量的最小值

ｅｇenrｍax=rｏwｍax（xｙｚ）//求ｘ　yz）三个变量的最大值

　ｌisｔ　／／注意比较y和z的不同。

ｅgeｎａvgx=ｍeaｎ（ｘ）　　／/求列均值

egenmｅdx=median（x）　/／求列中值

ｅgｅn　stdx=std（x）//求列标准差

rｅｐｌacey=3in３

eｇｅn　byteｄxy=diff（ｘy）//当x与y相等时，ｄifｆer取0,若不相等为１

更多关于egen命令的用法将参考帮助:

help　egen

5.3．４其他

　sysuｓeａｕto,　cleaｒ

eｇen　rmpｇ=　ｒank（ｍpg）　/／求mpg的次序

sortrｍpg

liｓtmｐgrank　//列示结果

ｅｇeｎｈighrep７８=anyｖalue（ｒep78），v（３／5）　/*若rｅｐ78不为3、4或5,

　　　　　　　　　　　　　则为缺失值*/

listreｐ78ｈighｒｅp7８

ｃｌｅar

inpuｔaﻩb

0０

1ﻩ1

0ﻩ1

１ﻩ.

.ﻩ0

ｅｎｄ

ｅgeｎ　ab=grｏup（ａｂ）

egenａb2＝grｏup（ab），ｍissiｎg

ｌ

ﻩa　　b　　　ａbab2

ﻩ------－-－---------

1．ﻩ10　33

2.001　1

3.ﻩ1　1　　4　4

4.０１　2　2

5．ﻩ0　0　　1　　1　

ﻩ-------－-----－－－--

6.1　　．　．　　5

７..0　．6

５．4字符函数ｓtｒing　funｃtiｏns

将美国汽车数据中汽车商标变量值简化为取前三个字母,得到一个新的变量make3

ｓyｓuse　auto，clear

gｅn　str3　make3＝suｂstr（ｍake,1,3）

liｓｔ　make*

下表的数据是一个多选题，请把这道多选题转化为四个单选题

ａﻭ

２

2、1、3

1、2、4

４、2、1

1、2

１、2

ｇeｎnａ1＝ｓtｒpos（a,　"

１＂）！

=0　　　//ｓtropｓ（s1,s2）返回字符s２在ｓ1中的位置

gｅｎ　nａ2＝strpos（ａ,＂２"

）!

geｎna3=sｔrpoｓ（a,"

＝0

geｎna4=ｓtｒｐos（a,"

）！

=０

list

ａﻩﻩna1ｎa２na3ｎa4

1.2ﻩﻩ　0　　1　00　

２.ﻩ2　ﻩ0　1０　0

3.ﻩ1、2、3　　1　　１　1０

4.ﻩ1、２、4　　1　１　　0１　

5.1、２、4　　１　　1　０　　1　

６.ﻩ１、2　　　　　１　1　0　0

７.ﻩ2　　0　1　0　0

8.1、2　　　1　　　１　　0０

ｗeｂuｓｅgeｎxmpl2,cｌｅar

gｅnname２=ｗｏrd（ｎame,2）//新变量namｅ2，取值为naｍe的第二个字母

lｉst　n*

５.5分类操作bｙ

ｃlear

eｄit

*将下表复制粘贴到ＳTATA数据编辑器中,注意粘贴时把光标停在第一格。

1.1

1．2

1.3

2.1

2.２

gｅｎn＝_n//生成一个新变量n＝1,2，3，4，5

geｎN=_N　//生成一个新变量Ｎ=5,5，5，5，５

genｚ=y[1]/／生成一个新变量ｚ＝y的第一个观察值

xynN　ｚ

ﻩ－-－-－-－－--－------------

1.１　1．１　151.1

2.ﻩ11.2　2　51.1　

3．ﻩ1　1.３　　3　5　　1.１

4．2　2.１4５１．1　

5.2　2.2　55　1.1

by　x,sｏrｔ：

　ｇen　n１=＿n/／注意到n1与n的不同，ｎ１按x分类进行操作

bｙx,sort:

genN1=＿N

bｙx,　sorｔ:

gｅnｚ1=y[１]

ｌｉｓt

ﻩx　　yｎＮ　　　zn1　N1　z1

１.1　1.１　　１５　1.1　　１　３　1.1　

2．1１.2　251.12　3１.1

3.ﻩ1　1.３　3　5　１．1　　3３　1.1

4.2　　2.1　451.1　１２２.1　

5.2　2.2　55　１．１　２　　2　　２.1

下列数据为家庭成员数据faｍily.dta,其中hhｉｄ为家庭编码,aｇe为家庭成员的年龄。

将下表数据复制到ＳTＡＴA,然后另存为ｆａmｉlｙ.dta

hｈid

3６

2８

５

要求:

（１）生成一个新变量hhｓize,该变量表示共有多少个家庭成员。

（2）给每个家庭成员一个编码id。

如第一个家庭的第一个成员编码为11;

（3）按家庭生成一个全家成员平均年龄值mage。

（4）对每个家庭，分别按年龄大小排序,然后生成一个家庭成员代码，即家庭内年龄最小的成员代码为１，年龄最大的家庭成员，代码为nid。

最后需要生成的数据集如下：

hhid

age

ｈhsｉze

ｉd

magｅ

nid

１5

49.8

４9.８

4２

5７

１4

49.８

2３

2１

请自己先思考，再参考如下操作:

将上表数据复制粘贴到STＡＴＡ数据编辑器,然后执行下面的命令

ｕsｅ　fａｍiｌｙ，cｌear

byhhｉｄ,sｏrｔ：

gｅnhｈsiｚｅ=_N//得到家庭规模ｈｈsize

bｙhhid,ｓoｒt：

ｇeｎid=＿n+hhiｄ*1０//为家庭成员编码

ｂyhhid,sort：

　ｅgenmage=mｅａn（ａｇe）　／／求平均年龄

ｓｏrthhｉd　aｇe　　/／按户排序，在每个户内按年龄大小排序

by　hhid：

gｅnnid=_ｎ//在户内按年龄大小为家庭成员编码

　＋--－----－－---－-------－-－-－---－－--－－-－-－-＋

　　　　｜　hhiｄagｅ　hhsｉzeiｄ　maｇe　nｉd|

　　|--－-－--－-－-－-－-－--－－－--－-－--－－－--------|

1．　|１2８　５1１49.8　1　｜

2.|　　1　36　　５　1２　49.８　　2|

3.　|1　　4２5１3　49.8　3｜

　4.|157　5　１4　　49.8　4|

5.|1　86　　5　１5　49.8　５　|

　|－---－-－--－-------－----------－－-－-------|

　６.　｜２５　　　　　３　２129　1|

７.｜　240　3２2　29　2　|

　8.　｜　　２42　3　　２3　　　2９　３　|

另一个例子:

usefamily,cｌeaｒ

bｙｓort　hｈid（ａｇe）：

gennid１=_n　//括号中的变量aｇe只排序,不参于分组。

bｙsoｒthhｉd　age:

gen　nｉd2=_n　/／hhid　和ａge都既用来参与排序也分组

liｓt　　　　　//比较上面两个命令得到的不同结果

ｈhiｄ　　ａｇe　ｎid１nid2

ﻩ－－-－-－－----－-－－－----------

1.ﻩ1　　28　１　1

2.1　　３6　　　2　　1

3．1　　4２　3　　　1

4．ﻩ157　4　　　　1

5.186　　5　　　1　

－－-----－-------－---－------

６.２　　5　　1　　1　

７．2　402　　1　

8.2　　42　　3　　　1

webuｓe　staｎ2,　clear

ｅxpanｄ　２ｉf　tｒaｎsｐlant　　　/／将transplaｎt=＝1的观察值再复制一个

sｏｒt　ｉd

byｉd：

generateｂyteｐosttran＝　（＿n＝＝2）　/*生成一个新变量postｔrａn,使得

　　　　　　　　　　　　对同一个人，第一个观察值取0,第

　　　　　二个观察值取1*/

byｉd:

geneｒaｔet１　=　ｓtime　ｉｆ　_n==_N/*生成新变量t１，使得在同一个id下，

　　　　　　　对第二期取值为sｔime,否则为“．”

展开阅读全文