第一讲 数据的描述性分析.docx
《第一讲 数据的描述性分析.docx》由会员分享,可在线阅读,更多相关《第一讲 数据的描述性分析.docx(13页珍藏版)》请在冰豆网上搜索。
第一讲数据的描述性分析
数据分析
实验教案
朱宁编
2014.8.25
SAS系统简介
SAS(StatisticalAnalysisSystem)系统是国际著名的数据分析软件系统。
该系统1966年开始研制,1976年由美国SAS公司实现商业化,1985年推出SAS/PC版本,1987年推出6.03版,目前已推出Windows系统支持的8.2和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。
从1976年SAS开发成功至今,SAS的用户遍及119个国家,它已经成为同类产品中的领导者。
在财富500强中,有90%的公司使用SAS。
而在财富500强的前100家企业中,有98%的公司使用SAS。
如此广泛的应用源于SAS系统的强大的分析功能、可组合的模块式软件系统和简单易学。
SAS系统是集数据分析、生成报表于一体的一种集成软件系统。
它由基本部分和外加模块组成,其中基本部分包含的功能如下:
–基本部分:
BASESAS部分;–统计分析计算部分:
SAS/STAT;
–绘图部分:
SAS/GRAPH;–矩阵运算部分:
SAS/IML;
–运筹学和线性规划:
SAS/OR;–经济预测和时间序列分析:
SAS/ETS;
1.1.SAS的启动
1.2.SAS8.0 软件界面
SAS界面包括三个部分,即程序窗口
、日志窗口
和输出窗口
。
EDITOR(程序窗口)编辑窗口用于编辑SAS源程序文件。
编辑窗口支持全窗口编辑功能,即光标可以在整个窗口内随意移动,支持Windows系统常规编辑操作,如复制、剪切、粘贴等功能操作。
SASV8提供了智能编辑功能,它可根据用户输入的SAS关键字、语句选项、变量名、数据、标记等不同内容显示不同的颜色,当用户输入的字串不正确时,对应颜色不对,警告使用者有错误发生。
LOG(日志窗口)运行记录窗口用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误,当程序出现错误时,LOG记录窗口中以红色字符显示错误信息,以绿色显示一些警告信息。
提示使用者修改程序中的错误。
OUTPUT(输出窗口)分页显示SAS程序运行所产生的文本输出结果(图形输出通过GRAPHICS窗口显示)。
对于文本结果的输出,可以使用主界面的菜单File|SaveAs将结果文档保存在磁盘中,保存的文件扩展名为.lst,但实际上是一种文本文件格式,可以使用文字处理软件,如Word或写字板、记事本等打开并进行编辑修改。
对于输出到GRAPHICS窗口的图形,可以使用菜单File|ExportasImage将图形导出保存在磁盘中,图形文件格式可以在“保存类型”下拉列表中选择。
1.3.
1.1SAS程序结构
SAS程序采用模块化结构,模块之间相互独立,每个模块完成一个任务。
模块分为两种类型:
一种类型是数据模块,数据模块以英文单词data作为开始语句。
另一种类型是程序模块,程序模块以proc作为开始语句。
模块中的语句之间用“;”分隔,同一个语句的不同项之间必须用一个以上的空格分隔。
在一个程序中可以包含多个数据模块和程序模块,模块的位置是任意的。
程序按照语句出现的先后顺序执行。
(1)SAS程序的语法
编写程序时必须遵循所使用的软件的语法规则,SAS程序的语法规则可以归纳为以下几条:
①标识符或数据之间至少用一个以上的空格分隔;
②每个语句用分号作为结束标志;
③变量名或其他名称最多包含8个字符,并且第一个字符为英文字母,名称中不能有空格,或SAS系统的保留符号,如:
“-”、“.”、“,”、“…”、“$”等;
④SAS程序可以处理带有缺失数据的文件,数据缺失值用“.”表示;
⑤SAS程序只处理数值和字符串两种类型的变量,为了和数值变量相区别,输入语句中字符串变量名使用“$”作为后缀;
⑥程序中可以包含注释语句,注释语句以“/*”开始,以“*/”结束;
⑦除数据外,SAS程序不区分英文字母的大小写。
(2)SAS数据集
SAS的核心是SAS数据集是SAS文件的一种,一般又以下两部分组成:
(1)描述部分
包含该数据集的一般信息,包括:
数据集的名字及其成员类型、数据集建立的日期和时间、观测的数目以及数据集中每一个变量的特征信息,包括:
Name(变量名)、Type(类型)、Length(长度)、Format(输出格式)、Informat(输入格式)、Label(标签)。
(2)数据部分
包含数据集中收集的数据的值,可以看作是一个矩形的表格。
表格的列(columns)称为变量(variables),对应于原始数据文件或其他一些外部数据库所称的字段(fields);表格的行称为观测(observations),对应于原始数据文件或其他一些外部数据库所称的记录(records)或数据行(datalines)
(3)逻辑库
SAS的逻辑库分为临时逻辑库和永久逻辑库两种。
临时库只有一个,名为work,其他的库均为永久库。
SAS每次启动时会自动指定4个库标记:
work、Sasuser、Sashelp、Sasmap。
存放在work中的SAS文件叫临时文件,当退出SAS系统时这些文件会被自动删除。
永久文件保存在永久库中,在退出SAS系统时不会被自动删除。
所以,通常把作为中间结果或练习使用的数据集保存为临时数据集,而需要以后再用的数据集则可以保存为永久数据集;如果需要备份,最好在退出前把临时文件复制到其他的库中。
在Explorer窗口中单击鼠标右键,在右键菜单中选择New,打开NewLibrary对话框,可以建立新库(如把一个库名为Mylib)。
如果选中Enableatstartup复选框,则每次打开SAS时所建逻辑库都有效。
(4)数据集的导入
建立数据集的方法很多,但是,无论是在Explorer窗口中使用VIEWTABLE程序,或是使用INSIGHT模块和“分析家”,还是使用编程操作中专门的数据读入方法来建立数据集,都需要将数据现场输入,费时费力。
较为简便的方法是:
利用Excel录入数据,并做简单处理,然后将Excel数据表导入到SAS数据集中。
导入Excel数据表的步骤如下:
①在SAS应用工作间中,选择菜单File下的Importdata……,打开导入向导ImportWizard第一步:
选择导入类型(Selectimporttype),默认的类型为Excel数据表,单击Next按钮进入下一步。
②在第二步的Selectfile对话框中,单击Browse按钮,在“打开”对话框中选择所需要的Excel文件,返回。
然后,单击Option按钮,选择所需工作表,单击OK按钮返回。
单击Next按钮进入下一步。
③在第三步的Selectlibraryandmember对话框中,选择导入数据集所存放的逻辑库以及数据集的名称,单击Next按钮进入下一步。
④在第四步的CreateSASStatements对话框中,可以选择将系统生成的程序代码存放的位置,也可不做选择,直接单击Finish按钮,完成数据集的导入。
第一讲数据的描述性分析
1.实验目的
1.了解SAS程序结构及使用方法;
2.掌握使用DATA步建立SAS数据集的方法;
3.会用PROC步调用Means、Capability、Univariate、Corr等进行描述性统计分析和解决实际问题。
2.实验要求
1.会用SAS软件处理数据对建立的数据集进行统计分析;
2.掌握PROC步调用Means、Capability、Univariate、Corr等的基本步骤。
3.实验原理及常用统计量
对于样本容量为n的一个样本:
。
有如下概念:
均值(Mean):
方差:
标准差:
变异系数:
偏度:
峰度:
中位数:
分位数:
上四分位数:
下四分位数:
三均值:
4.实验相关SAS知识
Proc步具有大致相同的程序结构:
PROC过程名
Varvariables;
;
Run;
其中:
option(s):
Data=要分析的数据集(缺省为最新建立的数据集);variables:
要进行统计分析的变量列表(缺省为数据集中的全部变量)
(1)Procmeans过程
statistic-keyword(s):
要输出的统计量关键字,说明如下:
N:
样本容量Mean:
均值Var:
方差
STD:
标准差CV:
变异系数Skewness:
偏度
Kurtosis:
峰度Midian:
中位数Q3:
上四分位数
Q1:
下四分位数Qrange:
四分位极差P1:
第一百分位数
P5:
第五百分位数P10:
第十百分为数P90:
第九十百分为数
P95:
第九十五百分位数P99:
第九十九百分位数
(2)ProcUnivariate过程
主要语句形式如下:
ProcUnivariateoptions;
Varvariables;
Outputout=SASdatasetkeyword=name……;
语句中“options”部分可以是下列内容的部分或全部:
①data=数据集名:
指明所要分析的数据集,若省略则表示分析最新生成的数据集。
②plot:
要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图。
若某区间的观测值超过48,则不绘制茎叶图,而改绘制直方图。
在正态QQ图中,以“*”标示正态QQ图上的点,以“+”标示相应的参考直线。
③freq:
要求生成包括变量值、频数、百分数和累计百分数的表。
④normal:
要求对分析的各变量的观测值进行正态性检验,并输出相应的p值。
若样本容量不超过2000则使用W统计量进行检验;若样本容量大于2000则使用D统计量进行检验。
正态分布的均值和方差分别取样本均值和样本方差。
(3)ProcCorr过程
主要语句形式如下:
Proccorroptions;
Varvariables;
Withvariables;
其中“options”部分可以是下列内容的部分或全部:
①data=数据集名:
指明所要分析的数据集,若省略则表示分析最新生成的数据集。
②pearson:
要求输出pearson相关系数矩阵。
③spearman:
要求输出spearman秩相关系数矩阵。
④cov:
要求计算协方差矩阵。
⑤nosimple:
指明不输出每个变量的简单描述性统计量。
Varvariables中的“variables”则指出了要计算相关系数矩阵或协方差阵的变量名称,它可以是原数据中数值变量的一部分;若省略此句则SAS系统计算关于数据集中所有数值的相关系数矩阵。
5.实例
例1(数据见教材P5例题1.2)
goptionsvsize=12cmhsize=15cm;
dataxueqingdanbai;
inputx@@;
cards;
74.378.868.878.070.480.580.569.771.273.5
79.575.675.078.872.072.072.074.371.272.0
75.073.578.874.375.865.074.371.269.768.0
73.575.072.064.375.880.369.774.373.573.5
75.875.868.876.570.471.281.275.070.468.0
70.472.076.574.376.577.667.372.075.074.3
73.579.573.574.765.076.581.675.472.772.7
67.276.572.770.477.268.867.367.367.372.7
75.873.575.073.573.573.572.781.670.374.3
73.579.570.476.572.777.284.375.076.570.4
;
procmeansdata=xueqingdanbainmeanvarstdmediancvmaxmincssussrangeskewkurtq1q3qrangep1p5p10p90p95p99;
varx;
run;
proccapabilitydata=xueqingdanbaigraphicsnoprint;
histogramx/midpoints=61.5to85.5by3vscale=countnormal;
cdfplotx/normal;
qqplotx/normal;
run;
运行结果分析:
procmeans给出了相应的统计量,结果如下:
Proccapability过程给出了相应的直方图、经验分布函数拟合曲线及正态QQ图:
从这三个图形可看出这组数据近似服从正态分布。
例2(数据见教材例题1.11)
dataexample_1;
inputx@@;
cards;
254550545561646872757578798183848484
8586868687898989809192100
;
procunivariate
data=example_1
plotnormal;
run;
运行结果。
6.[本次实验]
下列数据记录了人体的胸部、腹部、手臂部分皮肤的数据。
试求:
(1)它们的数字特征;
(2)对人体的三项指标分布做正态性检验;
(3)计算Pearson相关矩阵和Spearman相关矩阵及对应P值,并作相关统计分析。
9123
8.5153
13193
1074
7132.5
15.528.55
22.5204.5
5.58.53
25356.5
15194
12.5203
1719.55
1617.56
20207.5
1217422206
17285.5161832127.5613144
211392163.513.56.53.557.53.5
16205.514.514.541023611136
10.5123.51515.53912.5523246.5
14216.51611316.517416153
1215.53.594212655143
17154.51611317.518311.5153
43217.5154.59.511.52.526384
15134.519123
7.课后练习
教材《数据分析》习题一中的1.1、1.2、1.4、1.8。
8.参考文献
[1]范金城,梅长林.数据分析[M].北京:
科学出版社.2005P20-30.
参考答案:
本次实验下列数据记录了人体的胸部,腹部。
手臂部分皮肤的数据。
试求:
(1)它们的数字特征;
(2)计算Pearson相关矩阵和Spearman相关矩阵及对应P值,并作相关统计分析。
解:
dataa1;
inputx1x2x3@@;
cards;
91238.5153131931074
7132.515.528.5522.5204.55.58.53
25356.51519412.52031719.55
1617.5620207.51217422206
17285.5161832127.5613144
211392163.513.56.53.557.53.5
16205.514.514.541023611136
10.5123.51515.53912.5523246.5
14216.51611316.517416153
1215.53.594212655143
17154.51611317.518311.5153
43217.5154.59.511.52.526384
15134.519123
;
proccorrdata=a1pearsonspearmancov;
varx1x2x3;
run;
程序运行结果如下:
第一个图为pearson相关矩阵,第二个图为spearman相关矩阵,由矩阵中数据可看出x1、x2、x3三者之间的关系是显著的。