第一讲 数据的描述性分析文档格式.docx

上传人:b****5 文档编号:18838441 上传时间:2023-01-01 格式:DOCX 页数:13 大小:251.12KB
下载 相关 举报
第一讲 数据的描述性分析文档格式.docx_第1页
第1页 / 共13页
第一讲 数据的描述性分析文档格式.docx_第2页
第2页 / 共13页
第一讲 数据的描述性分析文档格式.docx_第3页
第3页 / 共13页
第一讲 数据的描述性分析文档格式.docx_第4页
第4页 / 共13页
第一讲 数据的描述性分析文档格式.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

第一讲 数据的描述性分析文档格式.docx

《第一讲 数据的描述性分析文档格式.docx》由会员分享,可在线阅读,更多相关《第一讲 数据的描述性分析文档格式.docx(13页珍藏版)》请在冰豆网上搜索。

第一讲 数据的描述性分析文档格式.docx

1.1.SAS的启动

1.2.SAS8.0 软件界面

SAS界面包括三个部分,即程序窗口

、日志窗口

和输出窗口

EDITOR(程序窗口)编辑窗口用于编辑SAS源程序文件。

编辑窗口支持全窗口编辑功能,即光标可以在整个窗口内随意移动,支持Windows系统常规编辑操作,如复制、剪切、粘贴等功能操作。

SASV8提供了智能编辑功能,它可根据用户输入的SAS关键字、语句选项、变量名、数据、标记等不同内容显示不同的颜色,当用户输入的字串不正确时,对应颜色不对,警告使用者有错误发生。

LOG(日志窗口)运行记录窗口用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误,当程序出现错误时,LOG记录窗口中以红色字符显示错误信息,以绿色显示一些警告信息。

提示使用者修改程序中的错误。

OUTPUT(输出窗口)分页显示SAS程序运行所产生的文本输出结果(图形输出通过GRAPHICS窗口显示)。

对于文本结果的输出,可以使用主界面的菜单File|SaveAs将结果文档保存在磁盘中,保存的文件扩展名为.lst,但实际上是一种文本文件格式,可以使用文字处理软件,如Word或写字板、记事本等打开并进行编辑修改。

对于输出到GRAPHICS窗口的图形,可以使用菜单File|ExportasImage将图形导出保存在磁盘中,图形文件格式可以在“保存类型”下拉列表中选择。

1.3.

1.1SAS程序结构

SAS程序采用模块化结构,模块之间相互独立,每个模块完成一个任务。

模块分为两种类型:

一种类型是数据模块,数据模块以英文单词data作为开始语句。

另一种类型是程序模块,程序模块以proc作为开始语句。

模块中的语句之间用“;

”分隔,同一个语句的不同项之间必须用一个以上的空格分隔。

在一个程序中可以包含多个数据模块和程序模块,模块的位置是任意的。

程序按照语句出现的先后顺序执行。

(1)SAS程序的语法

编写程序时必须遵循所使用的软件的语法规则,SAS程序的语法规则可以归纳为以下几条:

①标识符或数据之间至少用一个以上的空格分隔;

②每个语句用分号作为结束标志;

③变量名或其他名称最多包含8个字符,并且第一个字符为英文字母,名称中不能有空格,或SAS系统的保留符号,如:

“-”、“.”、“,”、“…”、“$”等;

④SAS程序可以处理带有缺失数据的文件,数据缺失值用“.”表示;

⑤SAS程序只处理数值和字符串两种类型的变量,为了和数值变量相区别,输入语句中字符串变量名使用“$”作为后缀;

⑥程序中可以包含注释语句,注释语句以“/*”开始,以“*/”结束;

⑦除数据外,SAS程序不区分英文字母的大小写。

(2)SAS数据集

SAS的核心是SAS数据集是SAS文件的一种,一般又以下两部分组成:

(1)描述部分

包含该数据集的一般信息,包括:

数据集的名字及其成员类型、数据集建立的日期和时间、观测的数目以及数据集中每一个变量的特征信息,包括:

Name(变量名)、Type(类型)、Length(长度)、Format(输出格式)、Informat(输入格式)、Label(标签)。

(2)数据部分

包含数据集中收集的数据的值,可以看作是一个矩形的表格。

表格的列(columns)称为变量(variables),对应于原始数据文件或其他一些外部数据库所称的字段(fields);

表格的行称为观测(observations),对应于原始数据文件或其他一些外部数据库所称的记录(records)或数据行(datalines)

(3)逻辑库

SAS的逻辑库分为临时逻辑库和永久逻辑库两种。

临时库只有一个,名为work,其他的库均为永久库。

SAS每次启动时会自动指定4个库标记:

work、Sasuser、Sashelp、Sasmap。

存放在work中的SAS文件叫临时文件,当退出SAS系统时这些文件会被自动删除。

永久文件保存在永久库中,在退出SAS系统时不会被自动删除。

所以,通常把作为中间结果或练习使用的数据集保存为临时数据集,而需要以后再用的数据集则可以保存为永久数据集;

如果需要备份,最好在退出前把临时文件复制到其他的库中。

在Explorer窗口中单击鼠标右键,在右键菜单中选择New,打开NewLibrary对话框,可以建立新库(如把一个库名为Mylib)。

如果选中Enableatstartup复选框,则每次打开SAS时所建逻辑库都有效。

(4)数据集的导入

建立数据集的方法很多,但是,无论是在Explorer窗口中使用VIEWTABLE程序,或是使用INSIGHT模块和“分析家”,还是使用编程操作中专门的数据读入方法来建立数据集,都需要将数据现场输入,费时费力。

较为简便的方法是:

利用Excel录入数据,并做简单处理,然后将Excel数据表导入到SAS数据集中。

导入Excel数据表的步骤如下:

①在SAS应用工作间中,选择菜单File下的Importdata……,打开导入向导ImportWizard第一步:

选择导入类型(Selectimporttype),默认的类型为Excel数据表,单击Next按钮进入下一步。

②在第二步的Selectfile对话框中,单击Browse按钮,在“打开”对话框中选择所需要的Excel文件,返回。

然后,单击Option按钮,选择所需工作表,单击OK按钮返回。

单击Next按钮进入下一步。

③在第三步的Selectlibraryandmember对话框中,选择导入数据集所存放的逻辑库以及数据集的名称,单击Next按钮进入下一步。

④在第四步的CreateSASStatements对话框中,可以选择将系统生成的程序代码存放的位置,也可不做选择,直接单击Finish按钮,完成数据集的导入。

1.实验目的

1.了解SAS程序结构及使用方法;

2.掌握使用DATA步建立SAS数据集的方法;

3.会用PROC步调用Means、Capability、Univariate、Corr等进行描述性统计分析和解决实际问题。

2.实验要求

1.会用SAS软件处理数据对建立的数据集进行统计分析;

2.掌握PROC步调用Means、Capability、Univariate、Corr等的基本步骤。

3.实验原理及常用统计量

对于样本容量为n的一个样本:

有如下概念:

均值(Mean):

方差:

标准差:

变异系数:

偏度:

峰度:

中位数:

分位数:

上四分位数:

下四分位数:

三均值:

4.实验相关SAS知识

Proc步具有大致相同的程序结构:

PROC过程名<

option(s)>

<

statistic-keyword(s)>

;

Varvariables;

otheroption(s)>

Run;

其中:

option(s):

Data=要分析的数据集(缺省为最新建立的数据集);

variables:

要进行统计分析的变量列表(缺省为数据集中的全部变量)

(1)Procmeans过程

statistic-keyword(s):

要输出的统计量关键字,说明如下:

N:

样本容量Mean:

均值Var:

方差

STD:

标准差CV:

变异系数Skewness:

偏度

Kurtosis:

峰度Midian:

中位数Q3:

上四分位数

Q1:

下四分位数Qrange:

四分位极差P1:

第一百分位数

P5:

第五百分位数P10:

第十百分为数P90:

第九十百分为数

P95:

第九十五百分位数P99:

第九十九百分位数

(2)ProcUnivariate过程

主要语句形式如下:

ProcUnivariateoptions;

Varvariables;

Outputout=SASdatasetkeyword=name……;

语句中“options”部分可以是下列内容的部分或全部:

①data=数据集名:

指明所要分析的数据集,若省略则表示分析最新生成的数据集。

②plot:

要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图。

若某区间的观测值超过48,则不绘制茎叶图,而改绘制直方图。

在正态QQ图中,以“*”标示正态QQ图上的点,以“+”标示相应的参考直线。

③freq:

要求生成包括变量值、频数、百分数和累计百分数的表。

④normal:

要求对分析的各变量的观测值进行正态性检验,并输出相应的p值。

若样本容量不超过2000则使用W统计量进行检验;

若样本容量大于2000则使用D统计量进行检验。

正态分布的均值和方差分别取样本均值和样本方差。

(3)ProcCorr过程

Proccorroptions;

Withvariables;

其中“options”部分可以是下列内容的部分或全部:

②pearson:

要求输出pearson相关系数矩阵。

③spearman:

要求输出spearman秩相关系数矩阵。

④cov:

要求计算协方差矩阵。

⑤nosimple:

指明不输出每个变量的简单描述性统计量。

Varvariables中的“variables”则指出了要计算相关系数矩阵或协方差阵的变量名称,它可以是原数据中数值变量的一部分;

若省略此句则SAS系统计算关于数据集中所有数值的相关系数矩阵。

5.实例

例1(数据见教材P5例题1.2)

goptionsvsize=12cmhsize=15cm;

dataxueqingdanbai;

inputx@@;

cards;

74.378.868.878.070.480.580.569.771.273.5

79.575.675.078.872.072.072.074.371.272.0

75.073.578.874.375.865.074.371.269.768.0

73.575.072.064.375.880.369.774.373.573.5

75.875.868.876.570.471.281.275.070.468.0

70.472.076.574.376.577.667.372.075.074.3

73.579.573.574.765.076.581.675.472.772.7

67.276.572.770.477.268.867.367.367.372.7

75.873.575.073.573.573.572.781.670.374.3

73.579.570.476.572.777.284.375.076.570.4

procmeansdata=xueqingdanbainmeanvarstdmediancvmaxmincssussrangeskewkurtq1q3qrangep1p5p10p90p95p99;

varx;

run;

proccapabilitydata=xueqingdanbaigraphicsnoprint;

histogramx/midpoints=61.5to85.5by3vscale=countnormal;

cdfplotx/normal;

qqplotx/normal;

运行结果分析:

procmeans给出了相应的统计量,结果如下:

Proccapability过程给出了相应的直方图、经验分布函数拟合曲线及正态QQ图:

从这三个图形可看出这组数据近似服从正态分布。

例2(数据见教材例题1.11)

dataexample_1;

inputx@@;

254550545561646872757578798183848484

8586868687898989809192100

procunivariate

data=example_1

plotnormal;

运行结果。

6.[本次实验]

下列数据记录了人体的胸部、腹部、手臂部分皮肤的数据。

试求:

(1)它们的数字特征;

(2)对人体的三项指标分布做正态性检验;

(3)计算Pearson相关矩阵和Spearman相关矩阵及对应P值,并作相关统计分析。

9123

8.5153

13193

1074

7132.5

15.528.55

22.5204.5

5.58.53

25356.5

15194

12.5203

1719.55

1617.56

20207.5

1217422206

17285.5161832127.5613144

211392163.513.56.53.557.53.5

16205.514.514.541023611136

10.5123.51515.53912.5523246.5

14216.51611316.517416153

1215.53.594212655143

17154.51611317.518311.5153

43217.5154.59.511.52.526384

15134.519123

7.课后练习

教材《数据分析》习题一中的1.1、1.2、1.4、1.8。

8.参考文献

[1]范金城,梅长林.数据分析[M].北京:

科学出版社.2005P20-30.

参考答案:

本次实验下列数据记录了人体的胸部,腹部。

手臂部分皮肤的数据。

(1)它们的数字特征;

(2)计算Pearson相关矩阵和Spearman相关矩阵及对应P值,并作相关统计分析。

解:

dataa1;

inputx1x2x3@@;

91238.5153131931074

7132.515.528.5522.5204.55.58.53

25356.51519412.52031719.55

1617.5620207.51217422206

proccorrdata=a1pearsonspearmancov;

varx1x2x3;

程序运行结果如下:

第一个图为pearson相关矩阵,第二个图为spearman相关矩阵,由矩阵中数据可看出x1、x2、x3三者之间的关系是显著的。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 动物植物

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1