第一讲数据的描述性分析.docx

资源描述

第一讲数据的描述性分析.docx

《第一讲数据的描述性分析.docx》由会员分享，可在线阅读，更多相关《第一讲数据的描述性分析.docx（13页珍藏版）》请在冰豆网上搜索。

第一讲数据的描述性分析.docx

第一讲数据的描述性分析

数据分析

实验教案

朱宁编

2014.8.25

SAS系统简介

　SAS（StatisticalAnalysisSystem）系统是国际著名的数据分析软件系统。

该系统1966年开始研制，1976年由美国SAS公司实现商业化，1985年推出SAS/PC版本，1987年推出6.03版，目前已推出Windows系统支持的8.2和9.0版，是目前国际上公认的著名的数据统计分析软件系统之一。

从1976年SAS开发成功至今，SAS的用户遍及119个国家，它已经成为同类产品中的领导者。

在财富500强中，有90%的公司使用SAS。

而在财富500强的前100家企业中，有98%的公司使用SAS。

如此广泛的应用源于SAS系统的强大的分析功能、可组合的模块式软件系统和简单易学。

SAS系统是集数据分析、生成报表于一体的一种集成软件系统。

它由基本部分和外加模块组成，其中基本部分包含的功能如下：

–基本部分:

BASESAS部分;–统计分析计算部分:

SAS/STAT;

–绘图部分:

SAS/GRAPH;–矩阵运算部分:

SAS/IML;

–运筹学和线性规划:

SAS/OR;–经济预测和时间序列分析:

SAS/ETS;

1.1.SAS的启动

1.2.SAS8.0　软件界面

SAS界面包括三个部分，即程序窗口

、日志窗口

和输出窗口

。

EDITOR（程序窗口）编辑窗口用于编辑SAS源程序文件。

编辑窗口支持全窗口编辑功能，即光标可以在整个窗口内随意移动，支持Windows系统常规编辑操作，如复制、剪切、粘贴等功能操作。

SASV8提供了智能编辑功能，它可根据用户输入的SAS关键字、语句选项、变量名、数据、标记等不同内容显示不同的颜色，当用户输入的字串不正确时，对应颜色不对，警告使用者有错误发生。

LOG（日志窗口）运行记录窗口用于显示和记录SAS程序的运行情况，说明程序运行成功或存在错误，当程序出现错误时，LOG记录窗口中以红色字符显示错误信息，以绿色显示一些警告信息。

提示使用者修改程序中的错误。

OUTPUT（输出窗口）分页显示SAS程序运行所产生的文本输出结果（图形输出通过GRAPHICS窗口显示）。

对于文本结果的输出，可以使用主界面的菜单File|SaveAs将结果文档保存在磁盘中，保存的文件扩展名为.lst，但实际上是一种文本文件格式，可以使用文字处理软件，如Word或写字板、记事本等打开并进行编辑修改。

对于输出到GRAPHICS窗口的图形，可以使用菜单File|ExportasImage将图形导出保存在磁盘中，图形文件格式可以在“保存类型”下拉列表中选择。

1.3.

1.1SAS程序结构

SAS程序采用模块化结构，模块之间相互独立，每个模块完成一个任务。

模块分为两种类型：

一种类型是数据模块，数据模块以英文单词data作为开始语句。

另一种类型是程序模块，程序模块以proc作为开始语句。

模块中的语句之间用“；”分隔，同一个语句的不同项之间必须用一个以上的空格分隔。

在一个程序中可以包含多个数据模块和程序模块，模块的位置是任意的。

程序按照语句出现的先后顺序执行。

（1）SAS程序的语法

编写程序时必须遵循所使用的软件的语法规则，SAS程序的语法规则可以归纳为以下几条：

①标识符或数据之间至少用一个以上的空格分隔；

②每个语句用分号作为结束标志；

③变量名或其他名称最多包含8个字符，并且第一个字符为英文字母，名称中不能有空格，或SAS系统的保留符号，如：

“-”、“.”、“，”、“…”、“$”等；

④SAS程序可以处理带有缺失数据的文件，数据缺失值用“.”表示；

⑤SAS程序只处理数值和字符串两种类型的变量，为了和数值变量相区别，输入语句中字符串变量名使用“$”作为后缀；

⑥程序中可以包含注释语句，注释语句以“/*”开始，以“*/”结束；

⑦除数据外，SAS程序不区分英文字母的大小写。

（2）SAS数据集

SAS的核心是SAS数据集是SAS文件的一种，一般又以下两部分组成：

（1）描述部分

包含该数据集的一般信息，包括：

数据集的名字及其成员类型、数据集建立的日期和时间、观测的数目以及数据集中每一个变量的特征信息，包括：

Name（变量名）、Type（类型）、Length（长度）、Format（输出格式）、Informat（输入格式）、Label（标签）。

（2）数据部分

包含数据集中收集的数据的值，可以看作是一个矩形的表格。

表格的列（columns）称为变量（variables）,对应于原始数据文件或其他一些外部数据库所称的字段（fields）；表格的行称为观测（observations），对应于原始数据文件或其他一些外部数据库所称的记录（records）或数据行（datalines）

（3）逻辑库

SAS的逻辑库分为临时逻辑库和永久逻辑库两种。

临时库只有一个，名为work，其他的库均为永久库。

SAS每次启动时会自动指定4个库标记：

work、Sasuser、Sashelp、Sasmap。

存放在work中的SAS文件叫临时文件，当退出SAS系统时这些文件会被自动删除。

永久文件保存在永久库中，在退出SAS系统时不会被自动删除。

所以，通常把作为中间结果或练习使用的数据集保存为临时数据集，而需要以后再用的数据集则可以保存为永久数据集；如果需要备份，最好在退出前把临时文件复制到其他的库中。

在Explorer窗口中单击鼠标右键，在右键菜单中选择New，打开NewLibrary对话框，可以建立新库（如把一个库名为Mylib）。

如果选中Enableatstartup复选框，则每次打开SAS时所建逻辑库都有效。

（4）数据集的导入

建立数据集的方法很多，但是，无论是在Explorer窗口中使用VIEWTABLE程序，或是使用INSIGHT模块和“分析家”，还是使用编程操作中专门的数据读入方法来建立数据集，都需要将数据现场输入，费时费力。

较为简便的方法是：

利用Excel录入数据，并做简单处理，然后将Excel数据表导入到SAS数据集中。

导入Excel数据表的步骤如下：

①在SAS应用工作间中，选择菜单File下的Importdata……，打开导入向导ImportWizard第一步：

选择导入类型（Selectimporttype），默认的类型为Excel数据表，单击Next按钮进入下一步。

②在第二步的Selectfile对话框中，单击Browse按钮，在“打开”对话框中选择所需要的Excel文件，返回。

然后，单击Option按钮，选择所需工作表，单击OK按钮返回。

单击Next按钮进入下一步。

③在第三步的Selectlibraryandmember对话框中，选择导入数据集所存放的逻辑库以及数据集的名称，单击Next按钮进入下一步。

④在第四步的CreateSASStatements对话框中，可以选择将系统生成的程序代码存放的位置，也可不做选择，直接单击Finish按钮，完成数据集的导入。

第一讲数据的描述性分析

1.实验目的

1.了解SAS程序结构及使用方法；

2.掌握使用DATA步建立SAS数据集的方法；

3.会用PROC步调用Means、Capability、Univariate、Corr等进行描述性统计分析和解决实际问题。

2.实验要求

1.会用SAS软件处理数据对建立的数据集进行统计分析；

2.掌握PROC步调用Means、Capability、Univariate、Corr等的基本步骤。

3.实验原理及常用统计量

对于样本容量为n的一个样本：

。

有如下概念：

均值（Mean）：

方差：

标准差：

变异系数：

偏度：

峰度：

中位数：

分位数：

上四分位数：

下四分位数：

三均值：

4.实验相关SAS知识

Proc步具有大致相同的程序结构：

PROC过程名;

Varvariables;

;

Run;

其中：

option（s）：

Data=要分析的数据集（缺省为最新建立的数据集）；variables：

要进行统计分析的变量列表（缺省为数据集中的全部变量）

（1）Procmeans过程

statistic-keyword（s）：

要输出的统计量关键字，说明如下：

N：

样本容量Mean：

均值Var：

方差

STD：

标准差CV：

变异系数Skewness：

偏度

Kurtosis：

峰度Midian：

中位数Q3：

上四分位数

Q1：

下四分位数Qrange：

四分位极差P1：

第一百分位数

P5：

第五百分位数P10：

第十百分为数P90：

第九十百分为数

P95：

第九十五百分位数P99：

第九十九百分位数

（2）ProcUnivariate过程

主要语句形式如下：

ProcUnivariateoptions；

Varvariables；

Outputout=SASdatasetkeyword=name……；

语句中“options”部分可以是下列内容的部分或全部：

①data=数据集名：

指明所要分析的数据集，若省略则表示分析最新生成的数据集。

②plot：

要求对所分析的各变量的观测值产生一个茎叶图（或水平直方图）、一个箱线图和一个正态QQ图。

若某区间的观测值超过48，则不绘制茎叶图，而改绘制直方图。

在正态QQ图中，以“*”标示正态QQ图上的点，以“+”标示相应的参考直线。

③freq：

要求生成包括变量值、频数、百分数和累计百分数的表。

④normal：

要求对分析的各变量的观测值进行正态性检验，并输出相应的p值。

若样本容量不超过2000则使用W统计量进行检验；若样本容量大于2000则使用D统计量进行检验。

正态分布的均值和方差分别取样本均值和样本方差。

（3）ProcCorr过程

主要语句形式如下：

Proccorroptions；

Varvariables；

Withvariables；

其中“options”部分可以是下列内容的部分或全部：

①data=数据集名：

指明所要分析的数据集，若省略则表示分析最新生成的数据集。

②pearson：

要求输出pearson相关系数矩阵。

③spearman：

要求输出spearman秩相关系数矩阵。

④cov：

要求计算协方差矩阵。

⑤nosimple：

指明不输出每个变量的简单描述性统计量。

Varvariables中的“variables”则指出了要计算相关系数矩阵或协方差阵的变量名称，它可以是原数据中数值变量的一部分；若省略此句则SAS系统计算关于数据集中所有数值的相关系数矩阵。

5.实例

例1（数据见教材P5例题1.2）

goptionsvsize=12cmhsize=15cm;

dataxueqingdanbai;

inputx@@;

cards;

74.378.868.878.070.480.580.569.771.273.5

79.575.675.078.872.072.072.074.371.272.0

75.073.578.874.375.865.074.371.269.768.0

73.575.072.064.375.880.369.774.373.573.5

75.875.868.876.570.471.281.275.070.468.0

70.472.076.574.376.577.667.372.075.074.3

73.579.573.574.765.076.581.675.472.772.7

67.276.572.770.477.268.867.367.367.372.7

75.873.575.073.573.573.572.781.670.374.3

73.579.570.476.572.777.284.375.076.570.4

;

procmeansdata=xueqingdanbainmeanvarstdmediancvmaxmincssussrangeskewkurtq1q3qrangep1p5p10p90p95p99;

varx;

run;

proccapabilitydata=xueqingdanbaigraphicsnoprint;

histogramx/midpoints=61.5to85.5by3vscale=countnormal;

cdfplotx/normal;

qqplotx/normal;

run;

运行结果分析：

procmeans给出了相应的统计量，结果如下：

Proccapability过程给出了相应的直方图、经验分布函数拟合曲线及正态QQ图：

从这三个图形可看出这组数据近似服从正态分布。

例2（数据见教材例题1.11）

dataexample_1;

inputx@@;

cards;

254550545561646872757578798183848484

8586868687898989809192100

;

procunivariate

data=example_1

plotnormal;

run;

运行结果。

6.[本次实验]

下列数据记录了人体的胸部、腹部、手臂部分皮肤的数据。

试求：

（1）它们的数字特征；

（2）对人体的三项指标分布做正态性检验；

（3）计算Pearson相关矩阵和Spearman相关矩阵及对应P值，并作相关统计分析。

9123

8.5153

13193

1074

7132.5

15.528.55

22.5204.5

5.58.53

25356.5

15194

12.5203

1719.55

1617.56

20207.5

1217422206

17285.5161832127.5613144

211392163.513.56.53.557.53.5

16205.514.514.541023611136

10.5123.51515.53912.5523246.5

14216.51611316.517416153

1215.53.594212655143

17154.51611317.518311.5153

43217.5154.59.511.52.526384

15134.519123

7.课后练习

教材《数据分析》习题一中的1.1、1.2、1.4、1.8。

8.参考文献

[1]范金城，梅长林.数据分析[M].北京：

科学出版社.2005P20-30.

参考答案:

本次实验下列数据记录了人体的胸部，腹部。

手臂部分皮肤的数据。

试求：

（1）它们的数字特征；

（2）计算Pearson相关矩阵和Spearman相关矩阵及对应P值，并作相关统计分析。

解：

dataa1;

inputx1x2x3@@;

cards;

91238.5153131931074

7132.515.528.5522.5204.55.58.53

25356.51519412.52031719.55

1617.5620207.51217422206

17285.5161832127.5613144

211392163.513.56.53.557.53.5

16205.514.514.541023611136

10.5123.51515.53912.5523246.5

14216.51611316.517416153

1215.53.594212655143

17154.51611317.518311.5153

43217.5154.59.511.52.526384

15134.519123

;

proccorrdata=a1pearsonspearmancov;

varx1x2x3;

run;

程序运行结果如下：

第一个图为pearson相关矩阵，第二个图为spearman相关矩阵，由矩阵中数据可看出x1、x2、x3三者之间的关系是显著的。

展开阅读全文

第一讲 数据的描述性分析.docx

第一讲数据的描述性分析.docx