实验二数据描述性分析.docx

资源描述

实验二数据描述性分析.docx

《实验二数据描述性分析.docx》由会员分享，可在线阅读，更多相关《实验二数据描述性分析.docx（45页珍藏版）》请在冰豆网上搜索。

实验二数据描述性分析.docx

实验二数据描述性分析

课　时　授　课　计　划

课次序号：

一、课　　题：

实验二一维数据描述性分析

二、课　　型：

上机实验

三、目的要求：

1.掌握运用SAS软件几种描述性分析过程—PMEANS、Univariate、Capablity过程求一维样本的数据特征、数据的分布及其拟合检验法，理解所求各统计值的实际意义及作用；

2.了解SAS软件作图的Plot、Gplot过程，会绘制简单图形．

四、教学重点：

SAS软件的Univariate、Capablity过程.

教学难点：

SAS软件过程结果分析.

五、教学方法及手段：

传统教学与上机实验相结合．

六、参考资料：

1.《实用统计方法》，梅长林，周家良编，科学出版社；

2.《SAS统计分析应用》，董大钧主编，电子工业出版社．

七、作业：

1.11.3

八、授课记录：

授课日期

班　　次

信息071

九、授课效果分析：

课　时　授　课　计　划

课次序号：

一、课　　题：

实验三多维数据描述性分析（1课时）

SAS基本内容（1课时）

二、课　　型：

上机实验

三、目的要求：

1.掌握运用SAS软件ProcCorr等过程计算多维数据的数字特征

进行相关分析，理解所求各统计值的实际意义及作用．

四、教学重点：

运用SAS软件计算多维数据的数字特征及相关分析.

教学难点：

多维元数据的数字特征及相关分析.

五、教学方法及手段：

传统教学与上机实验相结合．

六、参考资料：

1.《实用统计方法》，梅长林，周家良编，科学出版社；

2.《SAS统计分析应用》，董大钧主编，电子工业出版社．

七、作业：

1.41.7

八、授课记录：

授课日期

班　　次

信息071

九、授课效果分析：

实验二、三数据描述性分析（4学时）

一、实验目的和要求

掌握利用统计软件求样本的数据特征、数据的分布，并理解所求各统计值的实际意义及作用，能把数据特征及数据分布用以解决实际问题．

掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法．

理解相关的本质含义，并会判断几个变量的相关性，掌握几种不同相关性的差别方法；能利用软件输出的结果判断变量的相关．

二、实验内容

1．PROCMEANS过程

PROCMEANS过程用以计算SAS数据集中的基本的描述性统计量的值．这些统计量包括变量的观测值个数、样本数据的均值、方差、标准差、最大值、最小值、极差、偏度、峰度等等．

主要语句形式：

PROCMEANS<关键词>；

VARvariables;

OUTPUTOUT=SASdatasetkeyword=name;

（1）PROCMEANSoptions

此语句是利用PROCMEANS过程作描述性统计分析必需的语句，options部分可包含以下内容的部分或全部：

①DATA=SASdataset:

在等号后面指明要分析的SAS数据集名称．若省略此项，则SAS系统对最新建立的数据集作分析．

②MAXDEC=k:

其中k为介于0与8之间的一个正整数，指明在输出结果中小数位的最大位数．SAS默认值为k=2．

③关键词：

逐个列出关于各变量要计算其值的统计量名称的关键词，最常用的有N（变量的观测值个数）、MEAN（均值）、STD（标准差）、VAR（方差）、MIN（最小值）、MAX（最大值）、RANGE（极差）、SUM（总和）、USSR（平方和）、CSS（中心化平方和）、SKEWNESS（偏度）、KURTOSIS（峰度）、T（对每个变量的均值是否为零进行双边t检验的统计量的值）、PRT（双边t检验的p值，Pr>|T|）．

（2）VARvariables

指出数据集中要计算简单描述性统计分量的变量名称（应是数值变量）．若省略此句，则SAS系统对数据集中所以数值变量均计算各自的在前面指定的描述性统计量的值．

（3）OUTPUTOUT=SASdatasetkeyword=name;

此句要建立一个由PROCMEANS过程的分析结果构成的SAS数据集，以备进一步分析用．在OUT后命名要建立的数据集名称，如“RUSULT”（临时集）或“RESULT.OUT”（永久集）．Keyword可以是前面关键词的任何一个，后面的name此关键词对各变量的取值重新赋予一个名称．若省略，则以原变量的名称命名．

如，原数据集中有X1，X2，X3三个数值变量，要输出一个名称为RESULT的新数据集，其中包括这三个变量的均值和方差．

若用OUTPUTOUT=RESULTMEAM=VAR=；则各变量的均值和方差仍用X1，X2，X3命名；

若用OUTPUTOUT=RESULTMEAM=MX1MX2MX3VAR=VX1VX2VX3；

则三个变量的均值分别命名为MX1，MX2，MX3，而它们的方差分别为VX1，VX2，VX3．

例1100名女学生测定血清蛋白含量，数据见书

（1）利用PROCMEANS过程用求基本统计量．

计算程序：

dataexamp1;

inputx@@;

cards;

74.378.868.878.070.480.580.569.771.273.5

79.575.675.078.872.072.072.074.371.272.0

75.073.578.874.375.865.074.371.269.768.0

73.575.072.064.375.880.369.774.373.573.5

75.875.868.876.570.471.281.275.070.468.0

70.472.076.574.376.577.667.372.075.074.3

73.579.573.574.765.076.581.675.472.772.7

67.276.572.770.477.268.867.367.367.372.7

75.873.575.072.773.573.572.781.670.374.3

73.579.570.476.572.777.284.375.076.570.4

;

procmeansdata=examp1;/*进行PROCMEANS过程分析，系统默认格式输出*/

varx;

run;

结果输出：

MEANS过程

分析变量：

N均值标准偏差最小值最大值

-------------------------------------------------------------------

10073.66000003.940081564.300000084.3000000

-------------------------------------------------------------------

注意10：

如果程序语句“procmeansdata=examp1;”中加上可选项如下：

┄┄

procmeansdata=examp1nmeanvarminmaxsumusscssRangeskewnesskurtosistprt;

结果输出：

MEANS过程

分析变量：

N均值方差最小值最大值总和未校平方和

--------------------------------------------------------------------------------------------

10073.660000015.524242464.300000084.30000007366.00544116.46

--------------------------------------------------------------------------------------------

分析变量：

校正平方和极差偏度峰度t值Pr>|t|-----------------------------------------------------------------------------------

1536.9020.00000000.06007520.0338686186.95<.0001

注意20：

要建立一个由PROCMEANS过程的分析结果构成的SAS数据集，放在E:

\a文件夹下，逻辑库名为sas程序修改如下：

Libnamesas‘E:

\a’;

datasas.examp1;/*也可建立临时集*/

inputx@@;

cards;

74.370.4

;

procmeansdata=sas.examp1;

varx;

outputout=sas.examp2mean=mxvar=vx;

run;

在E：

\a下生成examp1.sas7bdat集和examp2.sas7bdat,调用刚才输出的数据集：

datanew;/*或在第一行加入逻辑库引用名Libnamesas‘E:

\a’;*/

setsas.examp2;

procprintdata=new;

run;

结果如下：

Obs_TYPE__FREQ_mxvx

1010073.6615.5242

2．PROCUNIVARITE过程

此过程除可完成PROCMEANS过程类似的一些描述性统计分析外，还具有计算数据的分位数、绘制简单的描述性分析图（如茎叶图、箱线图、QQ图等）以及对数据进行正态性检验等功能．

过程的主要语句形式：

PROCUNIVARITEoptions；

VARvariables;

OUTPUTOUT=SASdatasetkeyword=name;

（1）PROCUNIVARITEoptions

options部分可包含以下内容：

①DATA=SASdataset:

指明要分析是数据集名称．

②PLOT:

要求对所分析的变量的观测值产生一个茎叶图（若某区间的观测值超过48，则改为绘制水平直方图）、箱线图和正态QQ图．在正态QQ图中，以“*”号标示正态QQ图上的点，以“+”号标志相应的参考直线．

③FREQ：

要求生成包括变量值、频数、百分数和累计百分数的表．

④NORMAL：

要求对分析变量的观测值是否来自正态分布总体作检验，并输出检验p值．若样本容量n≤2000,使用Shapiro-Wilk统计量W进行检验；

若样本容量n＞2000,使用Kolmogorov统计量D进行检验,其中正态分布均值和方差分别取为样本均值和方差．

除以上选项外，此过程默认输出结果是N（数据集中数值变量的观测值个数）、MEAN（均值）、Sum（观测值总和）、StdDev（Std样本标准差）、Variance（Var样本方差）、Skewness（偏度）、Kurtosis（峰度）、Ussr（平方和）、Css（中心化平方和）、T：

Means（对每个变量的均值是否为零进行双边t检验的统计量的值）、Prt（双边检验的p值，Pr＞|T|）；另外还有各变量观测值的各种分位数、中位数、Range（极差）、Modern（众数）等．

（2）VARvariables

指出数据集中要计算简单描述性统计分量的变量名称（应是数值变量）．若省略此句，则SAS系统对数据集中所以数值变量进行分析．若选用下面的OUTPUT指令，此语句不可省略．

（3）OUTPUTOUT=SASdatasetkeyword=name;

此语句跟PROCMEANS过程相应语句功能相同．不过，统计量的关键词除了PROCMEANS过程所列出的以外，还有下列选项：

Q3：

上四分位数（75%分位数）、Q1：

下四分位数（25%分位数）、QRANGE：

四分位极差Q3-Q1、P1：

1%分位数、P5：

5%分位数、P10：

10%分位数、P90：

90%分位数、P95：

95%分位数、P99：

99%分位数、NORMAL：

数据的正态性检验统计量的值、PROBN：

正态性检验的p值、

注意：

与MEANS过程稍有不同，必须在“keyword”等号后给出具体命名，不可省略．如语句：

VARX1X2；

OUTPUTOUT=RESULTMEAM=AVEX1AVEX2STD=SYDX1STDX2；

表示对变量X1X2输出一个名为“RESULT”的SAS数据集，包括X1X2的样本均值（用AVEX1和AVEX2命名）和样本标准差（STDX1、STDX2）．

例2100名女学生测定血清蛋白含量，数据见书例1.1，利用PROCUNIVARITE过程

（1）求数据均值、方差、标准差、变异系数、极差、四分位极差、四分位标准差，分析是否有异常值；

（2）做茎叶图、正态QQ图；

（3）做正态性检验.

解：

（1）求基本统计量，程序如下：

dataexamp2;

inputx@@;

cards;

74.378.868.878.070.480.580.569.771.273.5

79.575.675.078.872.072.072.074.371.272.0

75.073.578.874.375.865.074.371.269.768.0

73.575.072.064.375.880.369.774.373.573.5

75.875.868.876.570.471.281.275.070.468.0

70.472.076.574.376.577.667.372.075.074.3

73.579.573.574.765.076.581.675.472.772.7

67.276.572.770.477.268.867.367.367.372.7

75.873.575.072.773.573.572.781.670.374.3

73.579.570.476.572.777.284.375.076.570.4

;

procunivariatedata=examp2;/*无选项，表示按此过程的默认输出结果*/

varx;

run;

注意：

此过程是按procunivariate的默认结果输出的，含有：

N、MEAN、Sum、StdDev、Variance、Skewness、Kurtosis、Ussr、Css、T（t检验的值）、Prt（p值）、各种分位数、中位数、Range、Modern等．

结果输出：

UNIVARIATE过程

变量:

矩

N100权重总和100

均值73.66观测总和7366

标准偏差3.94008153方差15.5242424

偏度0.06007521峰度0.03386864

未校平方和USSR544116.46校正平方和CSS1536.9

变异系数5.34901103标准误差均值0.39400815

基本统计测度

位置变异性

均值73.66000标准偏差3.94008

中位数73.50000方差15.52424

众数73.50000极差20.00000

四分位极差4.60000

位置检验:

Mu0=0

检验--统计量----------P值-------

学生tt186.9504Pr>|t|<.0001

符号M50Pr>=|M|<.0001

符号秩S2525Pr>=|S|<.0001

分位数（定义5）

分位数估计值

100%最大值84.30

99%82.95

95%80.50

90%79.15

75%Q375.80

50%中位数73.50

25%Q171.20

10%68.40

5%67.30

1%64.65

0%最小值64.30

极值观测

----最小值--------最大值----

值观测值观测

64.33480.57

65.06581.247

65.02681.667

67.27181.688

67.37984.397

均值=73.66,方差s2=15.52424,标准偏差s=3.94008,变异系数CV=5.34901103,极差R=20,四分位极差R1=4.6,四分位标准差=3.41．又下、上截断点Q1±1.5R1为64.3和82.7，84.3为异常值，可将其剔除，再分析

（2）作茎叶图、正态QQ图

过程命令换为如下即可

procunivariatedata=examp2plot;

除了

（1）中输出的统计量之外，还给出了茎叶图和QQ图结果输出：

TheUNIVARIATEProcedure（UNIVARIATE过程）

Variable:

x（变量:

x）

StemLeaf#Boxplot

茎叶#盒形图

84310异常值84.3

812663|上截断点82.7

803553|

795553|

7808884|

772263|

7655555557|盒长Q3-Q1=R

750000000468888814+-----+上四分位数75.8

743333333379||

735555555555511*--+--*+均值73.552

720000000777777714||中间横虚线M=73

7122224+-----+下四分位数71.2

70344444448|

697773|

68008885|

67233335|

66|

65002|下截断点64.3

64310

----+----+----+----+数据大致对称．

NormalProbabilityPlot（正态概率图）

84.5+*异常值84.3

|++

82.5+++

|**++

80.5+**++

|**++

78.5+**+

|+**

76.5++***

|*****

74.5+***

|****

72.5+*****+描记参考线

|**+*实际数据点重合表示数据服从正态分布

70.5+***+

|**

68.5+***

|**+*

66.5++++

|*+*

64.5+*+++

+----+----+----+----+----+----+----+----+----+----+

-2-10+1+2

（2）正态性检验

程序修改为：

procunivariatedata=examp2normal;

除

（1）中统计量外，还给出正态性W检验，经验分布拟合的D、W2、A2检验，结果如下：

TestsforNormality（正态性检验）

Test--Statistic--------pValue------

检验方法统计量及观测值检验p值

Shapiro-WilkW0.990367Pr

Kolmogorov-SmirnovD0.065517Pr>D>0.1500

Cramer-vonMisesW-Sq0.061361Pr>W-Sq>0.2500

Anderson-DarlingA-Sq0.362469Pr>A-Sq>0.2500

四种检验p值分别为0.6943、>0.15、>0.25、>0.25，均有p>0.05，故认为总体服从正态分布．

练习1（可略）从1952-2001年我国国民生产总值、第一、二、三产业产值数据（见书例1.3）．计算总值、第一、二、三产业产值的主要数字特征，并考察异常情况．

解：

程序如下：

dataexamp1_3;

inputyearxx1x2x3;

cards;

1952679.0342.9141.8194.3

1953824.0378.0192.5253.5

1954859.0392.0211.7255.3

1955910.0421.0222.2266.8

19561028.0443.9280.7303.4

19571068.0430.0317.0321.0

19581307.0445.9483.5377.6

19591439.0383.8615.5439.7

19601457.0340.7648.2468.1

19611220.0441.1388.9390.0

19621149.3453.1359.3336.9

19631233.3497.5407.6328.2

19641454.0559.0513.5381.5

19651716.1651.1602.2462.8

19661868.0702.2709.5456.3

19671773.9714.2602.8456.9

19681723.1726.3537.3459.5

19691937.9736.2689.1512.6

19702252.7793.3912.2547.2

19712426.4826.31022.8577.3

19722518.1827.41084.2606.5

19732720.9907.51173.0640.4

19742789.9945.21192.0652.7

19752997.3971.11370.5655.7

19762943.7967.01337.2639.5

19773201.9942.11509.1750.7

19783624.11018.41745.2860.5

19794038.21258.91913.5865.8

19804517.81359.42192.0966.4

19814862.41545.62255.51061.3

19825294.71761.62383.01150.1

19835934.51960.82646.21327.5

19847171.02295.53105.71769.8

19858664.42541.63866.62256.2

198610202.22763.94492.72945.6

198711962.53204.35251.6

展开阅读全文

实验二 数据描述性分析.docx

实验二数据描述性分析.docx