ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:127.21KB ,
资源ID:21014452      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/21014452.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(SAS讲义 第十五课用在DATA步的控制语句Word格式.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

SAS讲义 第十五课用在DATA步的控制语句Word格式.docx

1、例如,我们需要产生一组均匀分布的随机数流的数据集,程序如下:Data DoRanuni ; seed = 20000101 ;Do I = 1 to 10 by 2 ; X1=ranuni(seed ) ; X2=ranuni(seed ) ; Output ;End ;Proc print data=DoRanuni ;Run ;程序中的X1和X2都采用是相同种子变量值SEED=20000101来产生的均匀分布的随机数流。在数据步DATA中使用DO循环语句时常常与OUTPUT语句配合来产生数据集。OUTPUT语句作用是把当前的观测输出到正在被创建的数据集DoRanuni中。第一次顺序执行产生

2、Seed、I、X1、X2四个变量,OUTPUT输出后,遇到END语句回到DO语句,产生I、X1、X2变量的第二次值,Seed变量因为没有遇到DATA语句,继续保持原来值,DOEND循环结束后,DATA步也就结束了。均匀分布随机数是最基本也是最重要的随机数,其它分布的随机数都可以用均匀随机数经过变换得到。最常用的均匀分布随机函数是RANUNI(seed),这个函数是一个模为2311,乘子为397204094的素数模发生器。Seed必须是小于模2311任何数值常数。相同的Seed值会产生相同的随机数序列数,但不同次调用随机函数所产生的值通常是不同的,因此计算机所产生的随机数是一种伪随机数。这个程序

3、中的X1和X2都采用是相同种子变量值SEED=20000101所产生的均匀分布的随机数流。SAS系统提供产生了11种常见分布随机数的函数,见表15-1所示,随机数是我们实验和研究问题的重要的输入数据。因此要能编写程序,产生符合要求分布的随机数数据集。程序运行结果见图21所示:图151 用循环DO组产生随机数数据集表15-1: SAS系统的各种随机函数随机数函数名作用UNIFORM(seed)产生(0,1)区域均匀分布随机数,乘同余发生器RANUNI(seed)产生(0,1)区域均匀分布随机数,素数模发生器NORMAL(seed)产生标准正态分布随机数,利用中心极限定理近似公式RANNOR(se

4、ed)产生标准正态分布随机数,利用变换抽样法RANEXP(seed)产生=1的指数分布随机数RANGAM(seed,alpha)产生伽马分布随机数,alpha0,seed为任意数值RANTRI(seed,h)产生三角分布随机数,0h0的整数,0pRANTBL(seed,p1,p2,pn)产生离散分布随机数,0pi1,seed为任意数值注:种子seed一般取0,或5位,6位,7位的奇整数。对于均值为M,标准差为S的正态分布随机数,可由标准正态分布随机数的线性函数得到:X=M+S*NORMAL(seed)2 在循环DO组中使用下标数组产生数据集当我们需要用同一种方法来处理很多变量时,可以用数组语句

5、定义这组变量为数组的一些元素,这个数组中一些元素就可以在DATA步中较后面的SAS语句里以数组下标的形式被引用。数组ARRAY语句的基本格式为:Array 数组名下标 (初始值);例如,以下的几种数组定义方式都是合法的: Array x3 T1 T2 T3 ; Array x5,3 T1-T15 ; Array x2:6,2:4 T1-T15 ; Array x3 T1 T2 T3 (100,99,98) ; Array x* T1 T2 T3 ;第一种方式表示定义了一个一维名为X的数组,它有三个元素,对应的变量为T1,T2和T3。第二种方式表示定义了一个二维名为X的数组,它共有53=15个元

6、素,对应的变量为T1到T15。第三种方式与第二种方式区别是还规定每一维下标的下界和上界,通常不特别指明下标的下界从1开始。第四种方式给出了数组中相应元素的初始值T1=100,T2=99,T3=98。第五种方式下标用星号*来代替,表示SAS系统通过数组中的变量个数来确定下标。下面我们通过一个在循环中使用数组变量来产生一个新的数据集的例子,来说明循环中使用数组变量的用法。假设要由一个老的数据集产生一个新的数据集,新的数据集要新增n个变量,新增变量Ti的值与原数据集的变量Xj值和新增变量的位置值i有关。为简便起见,假设新增变量Ti=Xji。程序如下:Data DoArray ;Input X1-X3

7、 ;Array a4 T1-T4 ;Do i = 1 to 4 ; ai=(X1+X2+X3)*i ;Card ; 1 2 3 4 5 6Proc print data= DoArray;程序运行结果见图152所示:图152 循环DO组中使用数组来产生数据集此程序循环结构是外循环DATA步执行二次,因此产生二条观测,在每次外循环中,内循环DO重复执行四次,新增四个变量。使用DO语句的循环变量i作为数组的下标,这种下标的使用方法是DO循环中处理下标数组最常用的方法。3 在循环DO组中使用OUTPUT语句产生数据集如果在DOEND内循环结束语句END前插入一条OUTPUT语句,那么每次内循环将输出

8、一条观测,而不是内循环所产生的所有变量值只输出在一条观测中。对于每条观测的变量取值,要注意在DATA步的同一个外循环中,已经产生的变量值保持不变,内循环OUTPUT语句前未赋值的变量为缺失值,直到DATA步的下一个外循环开始时,所有用INPUT或赋值语句创建的变量在重复DATA步开始时将被设置为缺失值。我们以上面的程序END语句前插入一条OUTPUT语句为例,程序运行结果见图153所示。图153 循环DO组中使用了OUTPUT语句4 用循环DO组和RETAIN语句产生数据集由已有数据集产生具有新增变量的新数据集时,通常新增变量值是本条观测原变量值和循环变量值的函数值。但如果新增变量值是历史观测

9、中原变量值和循环变量值的函数值时,首先考虑是将历史观测中原变量值取到中间变量,例如数组变量中。但是因为在每次重复开始DATA步时,所有用INPUT或赋值语句创建的变量将被设置为缺失值,那该如何处理解决呢?在SAS系统中有一条RETAIN语句专门用于解决这一问题。在数据步DATA中使用了RETAIN语句来为变量设置初值后,RETAIN语句使得用INPUT语句或赋值语句所指定的变量值从DATA步的这次执行到下一次重复时被保留。而如果没有使用RETAIN语句,DATA步每次重复执行之前这些变量就会被设置为缺失值。我们这里给出了RETAIN语句几种常用的使用格式: Retain ; Retain T1

10、 T2 T3 ; Retain T1 T2 T3 100 ; Retain T1 T2 T3 (100 ) ; Retain T1 T2 T3 (100 99 98 ) ;第一种使用格式表示用INPUT语句或赋值语句创建的所有变量从DATA步的这次执行到下一次重复时被保留。第二种使用格式规定了变量名字,变量列表或数组名,它们的值是用户想保留的。第三种使用格式表示一个变量列表T1、T2、T3接受同一个初始值100。第四种使用格式是将初始值100用小括号括起来,SAS系统将分配括号中的这个值给变量列表中的第一个变量,即T1=100,其它T2和T3为缺失值。第五种使用格式给出了初始值列表,将依此分配

11、初始值列表中的值给变量列表中各个变量,即T1=100,T2=99,T3=98。例如,我们有一组日期DATE和收盘价CLOSE股票数据,要生成一个带有3日移动平均价MOVEAVER的数据集。所谓3日移动平均价,指最近3日收盘价的平均值,即当天、昨天和前天收盘价的平均值。昨天和前天收盘价数据要在产生时用RETAIN语句事先保留下来,在计算当日移动平均价时才不至于取到是缺失值,而不能计算。为了便于理解,我们将程序编写如下:Data MAV ;Retain day 3 i 1 ;Input date date7. close ;Array a4 ;a i = close ; Retain ;If _n

12、_= day Then do ; t=0 ;Do i = 1 to day ; t= t+ai ;ai= ai +1 ; moveaver=t/day ;i=day-1 ;i=i+1 ; 19MAY99 12.41 20MAY99 13.6521MAY99 15.0224MAY99 16.5225MAY99 18.17Proc print data= MAV ;程序中使用了自动变量_n_,它自动了存放当前观测的逻辑顺序号。移动平均价的计算要考虑初始情况,对于3日移动平均价来讲,第一条和第二条观测的3日移动平均价的数值是不存在的,从第三条观测开始有计算数据。程序中的IF语句就是为了判断从第三条观

13、测开始计算3日移动平均价而设置的。第一条RETAIN语句的目的是设置常量day=3,下标变量i的初值为1,第二条RETAIN语句的主要目的是为了保留存放收盘价数据的数组ai,我们为了使大家明白各个变量的变化过程,RETAIN语句后未专门指定数组ai,而是保留用INPUT语句或赋值语句创建的所有变量。如果指定数组ai,产生的数据集只有DATE、CLOSE和MOVEAVER三个变量。DOEND循环的作用是用T累加器求最近三日收盘价的之和,T变量每次求和前要初始化为0。为了始终保持数组a1 、a2、 a3中存放的是最近三日的收盘价数据,用ai= ai +1语句将刚计算过的数据前移,a2中数据存放a1

14、,a3中数据存放a2,a1中原数据正常丢弃,留空a3准备读下一条记录的收盘价。程序运行结果见图154所示。图154 用循环DO组、数组和RETAIN语句所产生的MAV数据集对于只有少量观测的数据集,我们还可以如下这样编写程序:Data MAV(Keep= date close moveaver) ;Retain day 3 ;Array a5 ;a _n _= close ;If _n_Do i =_n _ day + 1 to _n _ ;这个程序的特点是将历史记录的收盘价全部存放到数组ai中,因此程序编写简单和短小,容易理解,执行速度快。但它有一个致命的缺点,数组ai的大小与记录的条数相关

15、,当实际数据的记录数很大时,将占用很大的存储空间,甚至发生内存溢出错误而不能运行。而前面程序中的数组ai大小只与移动平均的天数有关,相对来说是一个很小的数且是固定的数。当然,以上的程序只是为了说明循环DO组和RETAIN语句的使用,在实际应用中,求移动平均线最简单的方法是采用求滞后值LAGn函数。例如求3日移动平均线相应的程序如下:Moveaver=(close+lag1(close)+lag2(close)/3;二. 实现选择(SELECT语句)在DATA步中使用SELECT语句,使SAS系统去执行几条语句或语句组中的一条语句。本质上是一种多路分支结构,当然可以用IFTHEN结构的多层嵌套来

16、实现,但当分支较多时,SELECT语句会很方便,结构也很清楚。SELECTWHEN结构非常类似其它程序语言中的DO CASE结构。SELECT语句开始一个SELECT组,SELECT组包括一些WHEN语句,当一个设定的条件为真时,执行对应的WHEN语句给出的一些SAS语句。在SELECT组中至少必须有一个WHEN语句。如果所有的WHEN条件均不成立,那么执行OTHERWISE语句给出的SAS语句。最后用一个END语句结束这个SELECT组。SELECT语句的一般格式如下:Select ; When (when表达式) 任意可执行SAS语句 ; Otherwise 任意可执行SAS语句 ;End

17、 ;如果有SELECT的表达式,首先比较select表达式和第一个when表达式计算结果的大小,相等为真,执行这个WHEN后面的SAS语句;不相等为假,执行下一条WHEN语句或OTHERWISE语句。如果没有SELECT的表达式,when表达式中一定要含有比较操作符,先求出第一个when表达式的真假结果,如果为真,执行这个WHEN后面的SAS语句,如果为假,执行下一条WHEN语句或OTHERWISE语句。要特别注意,一个SELECT组是按顺序判断WHEN语句,一旦某个WHEN语句满足条件执行了,就跳出这个SELECT组。即使后面WHEN语句也满足条件,也不再执行了。所以程序员要注意安排好WHE

18、N语句的顺序和条件。例如,我们有一个CLASS数据集,存放的是学生的成绩表,我们要创建一个新的数据集CLASS02,新增平均成绩AVER变量和等级考评GRADE变量,GRADE的值是根据AVER值的大小给出A、B、C、D四个等级。Libname Study “d:sasdatamydir” ;Data Class02 ;Set Study.Class ;aver = (test1+test2+test3)/3 ; Select ; When(aver=90) grade=”A” ;=80) grade=”B” ;=70) grade=”C” ; Otherwise grade=”D” ; En

19、d ;Proc print data= Class02 ;程序运行结果见图155所示。图155 用SELECTWHEN组产生的数据集结果三. 实现分支(IF语句)在SAS语言中,IF语句有两种使用格式: IF语句的格式之一:IF 条件表达式 THEN SAS语句 ; ELSE SAS语句 IF语句的格式之二: IF 条件表达式 ;当我们在创建SAS数据集时使用IF语句的格式之一,可以根据被处理的观测是否使IF条件表达式为真,来决定是否执行THEN后面的SAS语句。如果条件表达式为假,执行ELSE后面的语句,没有ELSE语句执行IF语句的下一条语句。IFTHEN/ELSE语句可以多层嵌套,但要注

20、意IFTHEN/ELSE语句的程序编写格式和匹配。另外THEN和ELSE后还可以跟DO语句,格式见DO语句的程序格式之一。1 使用IFTHEN/ELSE语句例如,我们有一个SURVEY数据集,其中有人的身高HEIGH和体重WEIGHT数据,现在我们要创建一个新的数据集SURVEY02,新的数据集新增一个变量FATNESS,用以标识这个人是否肥胖。假设,人的标准体重计算公式.:男性之标准体重(千克)身长(厘米),女性之标准体重(千克)身长(厘米)。如果超过标准体重的20%,就算肥胖,用Y来表示,否则用N来表示。Data Survey02 ;Set Study.Survey ;if sex=M t

21、henif weight=(heigh*100-100)*1.2 then fatness=yelse fatness=nelseIf weight=(heigh*100-102)*1.2 then fatness= else fatness=Proc print data= Survey02 ;在使用IFTHEN/ELSE语句的多层嵌套结构时要注意两点:一是要以锯齿型来排列一组组IFTHEN/ELSE语句,目的是为了通过程序书写格式就能明确IFTHEN/ELSE语句的层次和配对。二是如果THEN和ELSE后的SAS语句不直接写在同行的后面,而是写在下一行,THEN和ELSE后不能加分号“;”

22、,表示本程序行并没有结束,直到遇到分号“;”为止。程序运行结果我们在这里就省略了。2 使用IF语句当我们在创建SAS数据集时使用IF语句的格式之二,常用来创建满足IF条件表达式的新数据集。例如,我们要从SURVEY数据集中挑选出所有男性观测来产生一个新数据集SURVEY03。Data Survey03 ; ;Proc print data= Survey03 ;四. 实现转移(GOTO语句)GOTO是一种无条件转移语句,它告诉SAS系统立即转到GOTO 语句所指的那条语句,并从那条语句开始执行后面的语句。GOTO语句的实现,是通过GOTO语句中和目标语句前使用相同的语句标号才识别目标和实现转移

23、的。要注意GOTO语句只能在同一个DATA步中进行转移。GOTO语句的基本使用格式如下:Data 数据集 ; ; GOTO 语句标号 ; ;语句标号:GOTO语句是一种非结构化程序设计语句,它通过语句标号可转移到任意目的地的特性常常破坏程序的结构化,许多其它语言都不主张使用或禁止使用。当然GOTO语句的功能是可以通过其它结构化控制转移语句替代实现。但是GOTO语句也有明显的特点,能很方便地和灵活地进行转移。GOTO语句最常见的使用,是出现在IFTHEN语句中,作为THEN分句。例如,我们要对当前输入的一组成绩数据TEST进行动态统计,计数到目前输入为止不及格(=60 then GOTO ok

24、;countif=countif+1;ok: acctest=acctest+test ;cards;100 90 45 55 80 30Proc print data= Study.Survey02 ;程序运行结果见图156所示。图156 用GOTO语句设计的条件计数器和累加器程序中的ok:acctest=acctest+test累加语句,无论IF的累加语句执行;如果条件不成立,执行完countif=countif+1计数语句后,也要执行此累加语句。如果我们在countif=countif+1计数语句后,ok:acctest=acctest+test累加语句前插入一条RETURN返回语句,R

25、ETURN语句的作用是返回到DATA步的开头处理新的输入数据,相应地程序的作用也发生了变化,不是累加全部的成绩,而是累加及格的成绩,计数器仍然计数不及格的人数。最后的结果是,OBS=6时:COUNTIF=3,ACCTEST=270。五. 实现连接(LINK语句)LINK连接语句的作用是立即转到由LINK语句指示的语句标号,并从那里开始继续执行语句直到一个RETURN语句被执行。执行RETURN语句立即返回到LINK语句后面的那个语句并从那里继续执行。与GOTO语句一样,LINK语句和语句标号所在的目标语句必须在同一个DATA步中。LINK语句的基本使用格式如下:Data 数据集 ; ; LINK 语句标号; ;RETURN ;语句标号:RETURNLINKRETURN结构从程序执行的本质看,是调用子程序和子程序返回。类似于其它程序语言中转子语句和返回

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1