sas教程.docx
《sas教程.docx》由会员分享,可在线阅读,更多相关《sas教程.docx(78页珍藏版)》请在冰豆网上搜索。
sas教程
sas教程:
第一章 统计软件中的数据录入格式
统计分析是科研中的必要环节,统计软件则是进行统计分析的利器。
但是,在计算机已逐渐普及的今天,统计软件却仍让人感到几分神秘:
除了大型统计软件都还没有中文版这一原因,统计软件在许多小的方面也有自己的特点,往往就是这些小地方就会让许多人深入宝山而空返。
今天我们就来谈谈使用统计软件时一个最基本而又非常重要的问题--数据录入格式。
简言之,我们平时往往用表格的形式来记录数据,这并无不妥。
问题在于当进行统计分析时,如果我们直接将数据按平时记录的格式来进行分析,那就很可能不得其门而入--因为大多数统计软件对数据格式都有着特定的格式要求,下面我们就举一些常见的情况来解释这一问题。
1.单组或多组数据 平时我们多记录成"第1组、第2组、第3组..."等等,如表一左侧所示。
样本含量相等或不等。
主要用于成组资料比较的t、F或秩和检验等。
这种记录格式姑且称为统计表格格式,在各种统计软件中,该数据通用的分析格式如表一右侧所示,我们把这种格式称为统计分析格式。
表一
①统计表格格式
序号
第1组
第2组
第3组
1
0.1
0.4
0.6
2
0.2
0.5
0.7
3
0.3
0.8
4
0.9
样本量
3
2
4
②统计分析格式
1,0.1
1,0.2
1,0.3
2,0.4
2,0.5
3,0.6
3,0.7
3,0.8
3,0.9
看出来区别了吗?
统计分析格式中第一列为“分组变量”,指示所在的组号;第二列为原始数据。
现在再回到SPSS等统计软件的菜单去,做one-wayANOVA(成组的方差分析)知道怎么选变量了吧!
2.配伍组数据 平时的记录格式同上面相似。
主要用于配伍组资料比较或秩和检验等。
见表二:
表二
①统计表格格式
序号
第1组
第2组
第3组
1
0.1
0.3
0.5
2
0.2
0.4
0.6
样本量
2
2
2
②统计分析格式
1,1,0.1
1,2,0.2
2,1,0.3
2,2,0.4
3,1,0.5
3,2,0.6
统计分析格式中第一列为“第一分组变量”,指示所在的组号;第二列为“第二分组变量”,指示在该组的序号,第三列为原始数据;
3.单组成对数据 变量名分别为:
X、Y,要求样本含量相等。
主要用于配对计量资料比较的t、秩和检验;直线回归与相关;曲线拟合等,格式见表三。
表三
①统计表格格式
序号
X
Y
1
0.1
0.4
2
0.2
0.5
3
0.3
0.6
样本量
3
3
②统计分析格式
0.1,0.4
0.2,0.5
0.3,0.6
两种格式没有区别,但请注意,如果配对资料转用方差分析来处理,则相应的也要变换格式。
4.多组成对数据主要用于协方差分析,格式见表四。
表四
①统计表格格式
序号
X1
Y1
X2
Y2
1
0.1
0.3
0.5
0.8
2
0.2
0.4
0.6
0.9
0.7
1.0
样本量
2
2
3
3
②统计分析格式
1,0.1,0.3
1,0.2,0.4
2,0.5,0.8
2,0.6,0.9
2,0.7,1.0
在统计分析格式中,第一列为对子组号,第二列与第三列分别为该组的对子X、Y。
第二章 SAS/ASSIST视窗简介
SAS是一个庞大的系统,它由许多模块组成,每个模块分别完成不同功能。
由于SAS最初是为专业统计人员设计的(这一点和SPSS恰恰相反),因此使用上以编程为主,初学者掌握较为困难。
现在,微机操作系统已经进入了WINDOWS时代,而WINDOWS软件的一个重要特点就是易学易用。
要想在市场中继续领先,SAS必须推出能体现WINDOWS软件这一特色的新界面,SAS/ASSIST视窗就是这一努力的结果。
虽然它还有许多不足之处,但这一新界面使得初学者较快地学会使用SAS成为可能。
本章将向大家介绍这一SAS的全新界面――SAS/ASSIST视窗。
长期以来,对于统计软件界面的易用性有两种理论:
一种认为统计软件也是软件,美观易用的界面是它必备的功能;另一种理论则认为统计软件有其特殊用途,现在有许多统计方法实际上是在被滥用,而如果任何人都可以通过简单方便(即“友好”)的界面来使用自己实际上并不了解的复杂统计模型,则等同于是在助长这一现象。
这两种理论都有一定的道理,看来SAS倾向于后者:
ASSIST视窗只能提供较常用的统计功能,并且看上去也不怎么漂亮。
2.0.1ASSIST视窗的启动
ASSIST视窗的启动方法也是比较多的。
如果从下拉菜单启动,则请单击Globals-->SAS/ASSIST,系统将开始启动ASSIST视窗,几秒钟后进入ASSIST视窗主界面如下图所示:
ASSIST视窗的正上方为主菜单名(PrimaryMenu),下面的12个按钮分别表示了在该视窗中可用的各种功能。
常用的按钮有:
∙TUTORIAL按钮 由此可以进入SAS提供的教学程序
∙DATAMGMT按钮 由此进入数据库管理模块
∙GRAPHICS按钮 由此进入绘图模块
∙DATAANALYSIS按钮 由此进入统计分析的有关模块
∙INDEX按钮 提供全部可用命令的索引,如果对菜单项的分类不清楚,可以从这里直接查找所需功能
∙EXIT按钮 使我们可以退出ASSIST视窗
我们主要介绍统计分析功能,对于其它功能,有兴趣的同学可以自行摸索。
单击DATAANALYSIS,则视窗进入二级菜单――数据分析菜单(DataAnalysisMenu),它的布局和主菜单界面基本一致,各种按钮中常用的有:
∙ELEMENTARY按钮 提供基本的统计分析,如描述、相关、频数表
∙REGRESSION按钮 提供线性回归、Logstic回归和时间序列回归统计
∙ANOVA按钮 提供方差分析、非参数检验和t检验
∙MULTIVARIATE按钮 提供主成分分析等多元分析方法
∙QUALITYCNTL按钮 进入质量控制模块
∙TIMESERIES按钮 提供时间序列分析功能
∙DATAMGMT按钮 与主菜单的该按钮相同,进入数据库管理模块
∙INDEX按钮 提供全部可用功能的索引
∙GOBACK按钮 退回主菜单
∙HELP按钮 启动HELP视窗
2.0.2ASSIST视窗的使用方法
下面我们以一个例子来说明ASSIST视窗的使用方法。
现有数据集SASUSER.CLASS记录了某班学生的年龄、身高和体重情况,我们要对该数据进行简单的描述,则用ASSIST视窗的操作方法如下:
①单击数据分析菜单中的按钮ELEMENTARY,则系统开启一个新的ELEMETARY对话框如下图所示:
②请注意Summarystatistics是以深色显示的,表示该项为默认值。
用鼠标单击该项目,则系统开启下一个对话框――SummaryStatistics对话框如下图所示:
③SummaryStatistics对话框就是统计描述的主窗口,它由一些按钮和复选框(Checkbox)组成,注意Activedataset:
按钮和Variables:
按钮的右侧写着“-REQUIRED-”,表示这两项必须加以定义,否则程序没有足够的信息来运行。
首先定义所分析的数据集:
单击Activedataset:
,则系统开启新对话框如图A所示:
④在该对话框中列出了可用的所有数据集名,从左到右依次为库名、数据集名和数据集类型,拖动滑块使SASUSER.CLASS数据集出现在窗口中,用鼠标单击数据库名,由于当前数据集只能有一个,所以对话框自动关闭,退回SummaryStatistics对话框。
如果我们再次进入Activedataset对话框,则可见SASUSER.CLASS数据集的左侧有一个星号,如图B所示,这表示该数据集已被选中为当前数据集。
如果要改变选择,直接单击需要的数据集名,系统会自动替换。
⑤请注意右图,Activedataset:
按钮的右侧显示为SASUSER.CLASS,表示当前分析数据集为SASUSER库的数据集CLASS。
现在我们可以定义分析变量了:
单击Variables:
,系统开启一个变量选择对话框供我们选择变量。
⑥SASUSER.CLASS中可供分析的连续变量均显示在变量窗口中,我们想对这三个变量都做描述,则依次单击三个变量名,单击后变量名的左侧出现一个星号,表示该变量被选中;再单击一次则星号消失,表示撤消选择。
将三个变量全部选中,如图C所示。
然后后按OK,该窗口关闭,系统退回上一级窗口。
⑦Variables按钮右侧显示为AGE、HEIGHT、WEIGHT三个变量。
现在我们输入的信息已经满足了运行程序的最低要求,但是我们还想将结果按性别分开输出,则单击Class:
,系统开启变量选择窗口如图D所示。
用鼠标单击变量名“SEX”,再单击OK,
此时变量描述窗口如下图所示:
⑧变量的选择告一段落,现在开始选择所需要的统计量。
变量描述窗口的下方为一些复选框,右侧为复选框名,左侧为复选框的状态。
以SUM复选框为例,用鼠标单击SUM左侧的小方框,此时该方框内打勾,表示该项被选择;再点一下则复选框恢复原状态。
如此选择所需的全部统计量,最后变量描述窗口的状态如下图所示:
⑨现在是最后一步――运行程序了,选择下拉菜单Locals-->Run,则系统开始执行程序,最后OUTPUT视窗自动弹出,显示最终的运行结果。
可能有的同学觉得奇怪,为什么我总是说系统在执行程序,刚才没有写程序啊?
!
事实上,SAS/ASSIST视窗是一个程序自动产生器,我们所做的每一个选择都被写成了程序,最后系统执行这个自动产生的程序来向我们交差。
如果想看所产生的程序,则选择下拉菜单LocalsView-->Sourse。
以刚才的选择为例,系统产生的程序其主要部分如下:
procmeansdata=SASUSER.CLASSvardef=DF
MINMAXRANGESUMMEAN
VARSTDSTDERRCV;
varAGEHEIGHTWEIGHT;
classSEX;
;
run;
通过这个例子,我们掌握了使用SAS/ASSIST视窗时将会碰到的窗口界面的用法。
为了使大家在学习SAS时能打下较坚实的基础,本书仍然以讲述SAS语言为主线。
但是在例题的解中,我们将尽可能给出程序和ASSIST视窗两种操作方法。
同学们可根据具体情况自行选择使用哪种解法。
第三章 SAS程序初步
从本质上讲,SAS是一种完善的第四代计算机语言。
因此要真正掌握它,我们仍然要抛开其华丽的外表,从学习它的核心――SAS程序开始。
现在,让我们将SAS看成一个计算能力极强的统计学白痴(之所以这样说,是因为它计算能力虽然极强,却只能帮你计算而不能提出自己的实验设计方案或研究方向来),而你有一个非常小的关于数据分析的问题要请它帮忙。
自然你要开口提出请求,无论措辞是委婉动听还是直截了当,你的大实话无非是“喂,老兄,我有这样一些数据,我想做这样一种统计分析,您能帮我吗?
”。
他迅速检查您的要求,在认为合情、合理并且合法后,就开始进行计算,并且在很短的时间内给出计算结果。
好的,计算机语言就是我们和计算机对话时所用的语言。
和以上人