第6章 描述性统计分析.docx

上传人:b****5 文档编号:29452270 上传时间:2023-07-23 格式:DOCX 页数:36 大小:35.26KB
下载 相关 举报
第6章 描述性统计分析.docx_第1页
第1页 / 共36页
第6章 描述性统计分析.docx_第2页
第2页 / 共36页
第6章 描述性统计分析.docx_第3页
第3页 / 共36页
第6章 描述性统计分析.docx_第4页
第4页 / 共36页
第6章 描述性统计分析.docx_第5页
第5页 / 共36页
点击查看更多>>
下载资源
资源描述

第6章 描述性统计分析.docx

《第6章 描述性统计分析.docx》由会员分享,可在线阅读,更多相关《第6章 描述性统计分析.docx(36页珍藏版)》请在冰豆网上搜索。

第6章 描述性统计分析.docx

第6章描述性统计分析

第6章描述性统计与t、u检验

摘要:

在SAS系统中,有多个过程可以进行描述性统计量的计算,常用的有:

MEANS、SUMMARY、TABULATE和UNIVARIATE等。

这些过程用来计算简单的描述统计量,可计算均值、标准差、方差、变异系数、标准误等。

TTEST用于进行t、u检验。

从科研试验和生产实践中获得的数据往往是杂乱无章的,而实际上变量的分布多具有一定的规律性,表现出数据的集中趋势和离散特性。

反映集中特性的统计量有平均数、众位数和中位数等,反映离散特性的统计量有极差、标准差、变异系数和方差等,对分布形状的度量一般采用峰度系数和偏度系数等。

对这些统计量的计算是描述数据的较好方法。

MEANS提供单个或多个变量的简单描述(单个变量、成对数据平均数显著性检验)。

SUMMARY提供单个或多个变量的简单描述,产生输出文件。

TABULATE提供单个变量的详细描述。

UNIVARIATE提供单个变量的详细描述和对其分布类型的检验。

TTEST用于进行t、u检验(不成对数据平均数检验)。

在SAS系统中,有多个过程可以进行描述性统计量的计算,表6.1给出了几个常用过程可以分析的各种统计量和一些其他重要特点。

这些过程大同小异,有些功能可以彼此取代。

§6.1MEANS过程

一、过程格式

PROCMEANS[选择项][统计量关键字列表]];

VAR变量表;要分析的变量名列

BY变量表;按变量名列分组统计,要求数据集已按变量名列排序

CLASS变量表;按变量名列分组统计,不要求数据集排序

FREQ变量表;表明该变量为分析变量的频数

WEIGHT变量表;表明分析变量在统计时要按该变量权重

ID变量表;输出时加上该变量作为索引

OUTPUTOUT=数据集[统计关键字=变量名…];指定统计量的输出数据集名

关键字=<新变量名列>...];指定统计量对应的新变量名

二、选择项说明

DATA=SAS数据集将计算出的统计量输出到一个数据集。

所有PROCMEANS语句中可用统计量均可在此指定。

NOPRINT说明不输出任何描述性统计值。

MAXDEC=n指出MEANS用于输出结果的最大小数位(0~8),缺省值为7。

FW=nn为输出统计量时的字段宽度,缺省值为12。

VARDEF=N|DF|WGT|WDF指定方差计算所用的分母。

N表示观察值的总数

DF表示自由度N-1

WGT表示权重和WDF表示权重和减1。

MISSING指定MEANS过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。

统计量用来指定进行计算的描述性统计量(见表6.1)。

缺省统计量选择项时,只输出N、MIN、MAX、MEAN、STD。

三、MEANS过程中常用的统计量关键字有:

●基本统计量NMEANSTDCVSUMVARRANGMINMAXUSSCSS

●与假设检验有关的统计量STDERR(标准误)TPRT(与t对应的p值)LCLM(可信区间下限)UCLM(可信区间上限)

四、PROCMEANS过程中的其他语句

●VAR语句:

列入变量表的数据集变量将被MEANS过程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。

●BY语句:

指定变量进行分组处理。

(事先必须按BY语句指定的变量将输入数据集按升序排序)

●CLASS语句:

将数据集中全体观察值按CLASS语句中变量进行分组、分析处理。

BY与CLASS语句的作用都是按指定的变量进行分组分析处理,但二者有不同:

1分组层次不同:

BY语句把全部观察按BY指定的变量分组;CLASS是在BY语句的基础上将BY分组再进一步行划分,进行分组变量的组合,产生多种凡是分组。

例如:

CLASSABC;则按指定变量A、B、C各种组合,可以有8种方式:

不分组、按变量A分组、按变量B分组、按变量C分组、按变量A和B分组、

按变量A和C分组、按变量B和C分组、按变量A、B、C分组。

2按BY语句只有按变量A、B、C分组,且使用BY语句时,事先将数据集按BY后面的变量排序。

而CLASS无此要求。

●REQ语句:

指定某一变量,表示同一观察的出现次数。

●OUTPUTOUT=数据集:

将MEANS过程的结果输出给指定的数据集中。

六、结果解释

在默认的情况时,means过程会输出绝大部分统计量,此时的输出结果如下:

Variable=变量名变量标签

Moments和矩有关的统计量Quantiles(Def=5)分位间距统计量

N样本量SumWgts权重总和100%Max最大值

Mean均数Sum总和75%Q375%百分位数

StdDev标准差Variance方差50%Med50%百分位数

Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数

USS未校正平方和CSS校正平方和0%Min最小值

CV变异系数StdMean标准化均数

T:

Mean=0变量总体均数为0的t检验Pr>|T|t检验的p值Range全距

Num^=0变量值非0的例数Num>0变量值大于0的例数

M(Sign)变量总体均数为0的符号检验Pr>=|M|符号检验的p值

表6.1SAS系统四种常用的描述性统计过程的比较

统计量

MEANS

SUMMARY

TABULATE

UNIVARIATE

1

N

无缺失值的观察值个数

2

NMISS

有缺失值的观察值个数

4

MEAN

平均数

5

SUM

总和

6

MAX

最大值

7

MIN

最小值

8

RANGE

全距(=最大值-最小值)

9

SUMWGT

权重和

10

USS

未矫正的离差平方和

11

CSS

已矫正的离差平方和

12

VAR

方差

13

STD

标准差

14

CV

变异系数

15

STDERR

平均数的标准误

16

T

学生氏t值

17

PRT

大于t值的概率

18

SKEWNSS

偏度系数

19

KURTOSIS

峰度系数

20

CLM

置信区间的上下限

21

LCLM

置信区间的下限

22

UCLM

置信区间的上限

23

PCIN

频数百分数

24

PCTSUM

和的百分数

25

Q3

上四分位数或第75百分位数

26

MEDIAN

中位数或第50百分位数

27

Q1

下四分位数或第25百分位数

28

QRANGE

上下四分位数之差,即Q3-Q2

29

P1

第一百分位数

30

P5

第五百分位数

31

P10

第十百分位数

32

P90

第九十百分位数

33

P95

第九十五百分位数

34

P99

第九十九百分位数

35

MODE

众数

36

NORMAL

正态性检验统计量

37

PROBN

正态性检验的概率

38

SIGNRANK

符号秩检验统计量

39

PROBS

符号秩检验的概率

40

MSIGN

符号检验统计量

41

PROBM

符号检验的概率

其他特性

产生报表输出

×

输出到SAS数据集

×

含CLASS语句

×

含BY语句

七、应用实例

例6.1

datanew;

inputname$ageheigweighr;

cards;

张三281.7560

李四271.7258

王五311.8065

赵六301.8162

procmeans;

procmeansmaxdec=3fw=8meanstdminmaxrangesumvaruss

cvstderrtprt;

run;

例6.2调查两个小麦品种的每穗小穗数,每品种计数10个麦穗,

A品种小穗数为:

13,14,15,17,18,18,19,21,22,23;

B品种小穗数为:

16,16,17,18,18,18,18,19,20,20。

试计算两品种的基本统计量。

●程序及说明

DATA;

DOpinzh="A","B";

DOi=1TO10;

INPUTsuishu@@;

OUTPUT;

END;

END;

CARDS;

13141517181819212223

16161718181818192020

PROCMEANSNMEANMAXMINRANGEVARSTDCVMAXDEC=4FW=8;

VARsuishu;

BYpinzh;

RUN;

●输出结果及说明

AnalysisVariable:

SUISHU

---------------------------------PINZH=A------------------------------

NMeanMaximumMinimumRangeVarianceStdDevCV

观察值平均数最大值最小值极差方差标准差变异系数

------------------------------------------------------------------------

1018.000023.000013.000010.000011.33333.366518.7028

------------------------------------------------------------------------

---------------------------------PINZH=B------------------------------

NMeanMaximumMinimumRangeVarianceStdDevCV

------------------------------------------------------------------------

1018.000020.000016.00004.00002.00001.41427.8567

------------------------------------------------------------------------

如果只对其中的一个品种进行分析,可以采用下列程序:

DATAnew;

INPUTsuishu@@;

CARDS;

13141517181819212223

PROCMEANSNMEANMAXMINRANGEVARSTDCVMAXDEC=4FW=8;

RUN;

例6.3:

DATANEW;

INPUTNA$SEX$PENJ$;

CARDS;

A1F785

A2M873

A3M904

A4F855

A5F754

PROCPRINT;

PROCMEANS;

CLASSSEXNJ;

PROCSORT;

BYSEX;

PROCMEANS;

BYSEX;

RUN;

例6.3已知某水样中含CaCO3的真值为20.70mg/L,现用某法重复测定该水样11次,得其含量(mg/L)分别为:

20.9920.4120.1020.0020.9122.6020.9920.0020.4123.0022.00。

问用该法测得CaCO3含量所得的总体均数与真值之间的差别是否有显著性。

DATAnew;

INPUTx@@;

y=(x-20.7);

cards;

20.9920.4120.1020.0020.9122.60

20.9920.0020.4123.0022.00

;

PROCMEANSmeanstderrtprt;

vary;

run;

结果如下:

AnalysisVariable:

Y

MeanStdErrorTProb>|T|

--------------------------------------------------

0.33727270.31707781.06369070.3125

--------------------------------------------------

八、缺失数据处理

1.VAR变量:

MEANS过程再开始计算某一变量的描述性统计之前,先将那些在变量上有缺失的数据的观察删除。

被删除的观察若在其它变量上没有缺失数据,则会纳入其它变量的计算过程中。

2.变量:

若观察在BY变量上有缺失数据,则MEANS过程会为这些观察另形成一个分组,同样进行计算分析。

3.FREQ变量:

若观察在FREQ变量上含有缺失数据,则观察将被删除。

4.WEIGHT变量:

若观察在WEIGHTQ变量上含有缺失数据,则MEANS以0处理。

§6.2TABULATE过程

TABULATE过程以表格的形式完成描述性统计。

表格可达三维:

页、行和列,表格形式可由用户自由安排,因此,该过程既是一个统计分析过程又是一个报表过程。

一、过程格式

PROCTABULATE[选择项];

CLASS分类变量表;

VAR分类变量表;

FREQ变量;

WEIGHT变量;

FORMAT变量格式;

LABEL变量=标记;

KEYLABEL关键字="文本";

TABLE表达式[,表达式][,表达式][/选择项];

二、语句说明

PROCTABULATE语句、TABLE语句、VAR语句和CLASS语句是必需的。

●PROCTABULATE语句选择项

DATA=数据集指定所使用的数据集,缺省则使用最新建立的数据集。

MISSING要求将分类变量的缺失值作为有效水平,否则,分析中将不包含分类变量有缺失值的观察值。

FORMAT=格式名规定表格输出的宽度,缺省值为12.2。

ORDER=FREQ|INTERNAL|DATA|FORMATED规定分类变量下各类别的输出次序。

FREQ依各类别次数排序,INTERNAL按英文字母先后排序,DATA按在数据集内出现的顺序排序,FORMATED按规定的格式排序。

FORMCHAR="11个依次排列的画表格的符号"缺省值是:

"|----|+|---"。

●TABLE语句

TABLE语句是整个TABULATE过程的核心。

一个TABLE语句最多可定义三个表格表达式。

这三个表达式分别表达了输出表格的页、行和列的有关规定。

当缺省一个表达式时,表示TABLE语句定义了一个二维表格,当缺省两个表达式时,表示TABLE语句定义了一个一维表格。

TABLE语句中所使用的表达式中,页行列的定义用到的操作符有:

星号“*”表示包含关系;空格“”表示并列关系;圆括号“()”表示分组或说明运算次序。

这些操作符的运算顺序为圆括号、星号和空格。

其他常用的符号还有:

逗号“,”表示相邻两个向量的分界;不等号“<>”用于规定分母项;等号“=”用于解释变量统计值或输出格式。

在TABLE语句中可使用的操作数有:

①分类变量或ALL。

分类变量在CLASS语句中定义,在TABLE语句的表达式中引用,ALL用在表达式中表示在输出表格时给出分类的小计和总计值。

②分析变量。

分析变量在VAR语句中定义,在TABLE语句表达式中引用,指定用于作统计计算的变量。

③统计量。

统计量是指在统计学中使用的统计量,如平均值、最小值等,在TABULATE过程中常用的统计量见表6.1。

在TABLE语句中可使用的选择项有:

①MISSTEXT="20个字符以内的字符串",指定用引号内的字符串注明缺失值;②RTS=n,规定行标题的输出宽度,缺省时为行长的四分之一;③BOX=_PAGE_|变量名|"字符串",规定放在行标题上方的框中的文字。

●CLASS语句

CLASS语句用来说明在TABLE语句中引用的分类变量,任何在TABLE语句中出现的分类变量必须事先在CLASS语句中说明。

●KEYLABEL语句

用于注明TABLE语句中各统计参数的标签。

它对所有TABLE语句有效。

在默认的情况时,means过程会输出绝大部分统计量,此时的输出结果如下:

三、应用实例

例6.4已知学生两门课score1和score2的考试成绩,若按性别进行分类,统计出各类学生人数、score1成绩、score1的最高分、最低分和平均值,可用以下程序进行计算:

DATAnew;

INPUTname$sex$score1score2@@;

CARDS;

zhangsanM8099LiuliuF6775pingguoM8998hongshuM5072

liangsiF8889wangdiF4367fangwuF8779mangguoF5656

jianshiF7778liulinM7683

PROCTABULATEFORMCHAR="|-+-+|||+-+";

CLASSsex;

VARscore1;

TABLEsexscore1*(NMEANSTD);

RUN;

输出结果为:

上例中,分类变量为sex,故输出时sex的两个值各占一列。

分析变量score1与统计量N、MEAN和STD是包含关系。

§6.3UNIVARIATE过程

UNIVARIATE过程与MEANS、SUMMARY、TABULATE的功能大同小异,他们都可以可对数值变量进行一般性的统计描述,但UNIVARIATE过程还给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号秩检验等。

一、过程格式

PROCUNIVARIATE选择项;

VAR变量表;指定要分析的变量名列

BY变量表;按变量名列分组统计,要求数据集已按该变量名列排序

FREQ变量;表明该变量为分析变量的频数

WEIGHT变量;表明分析变量在统计时要按该变量权重

ID变量表;输出时加上该变量作为索引

OUTPUTOUT=SAS数据集关键字=名称;指定统计量的输出数据集名

关键字=<新变量名列>...指定统计量对应的新变量名

PCTLPTS=<百分位数,...指定需要的百分位数>

PCTLPRE=<新变量名列>];指定所需百分位数对应的输出变量名

二、选择项说明

DATA=数据集该选择项指定PROCUNIVARIATE使用的SAS数据集。

缺省值为最新建立的数据集。

NOPRINT指定抑制产生报表。

PLOT指定给出三幅数据图:

茎叶图(或水平棒图)、盒状图和正态概率图。

FREQ该选择项给出变量值、频数、百分数、累计百分数组成的频数表。

NORMAL指定假设输入数据来自正态分布总体,然后给出统计检验量,并输出统计检验量的端值。

PCDLDEF=1|2|3|4|5指定计算百分位数的方法。

缺省此项,则PCDLDEF=4。

VARDEF=DF|N|WEIGHT或WGT|WDF指定计算方差时的分母。

DF是以自由度N-1做分母;N是以观察值数N做分母;WGT是以权重和做分母;WDF是以权重和减1做分母。

缺省值为VARDEF=DF。

ROUND=舍入单位。

三、过程中常用的统计量关键字

SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有:

●基本统计量NMEANSTD(标准误)CVSUMVAR(方差)RANG等(见P57)

●百分位数描述MINP1P5P10Q1MEDIANQ3P90P95P99MAX

●与假设检验有关的统计量STDMEAN(标准误)T

四、过程中的其他语句

OUTPUT语句将UNIVARIATE过程计算的统计量输出到SAS数据集中,并指定其所包含的变量名。

在输出数据集中,OUTPUT语句中关键字后第一个变量的内容是VAR语句中第一个变量的统计量,第二个变量对应VAR语句中第二个变量的统计量等等。

等号后的变量表可较VAR语句中的变量表短。

有效关键字所表示的统计量见表6.1。

VAR语句、BY语句、CLASS语句、WEIGHT语句、FREQ语句和ID语句的用法见MEANS过程。

五、结果解释

Variable=变量名变量标签

Moments和矩有关的统计量Quantiles(Def=5)分位间距统计量

N样本量SumWgts权重总和100%Max最大值99%99%百分位数

Mean均数Sum总和75%Q375%百分位数95%95%百分位数

StdDev标准差Variance方差50%Med50%百分位数90%90%百分位数

Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数10%10%百分位数

USS未校正平方和CSS校正平方和0%Min最小值5%5%百分位数

CV变异系数StdMean标准化均数1%1%百分位数

T:

Mean=0变量总体均数为0的t检验Pr>|T|t检验的p值Range全距

Num^=0变量值非0的例数Num>0变量值大于0的例数Q3-Q1四分位间距

M(Sign)变量总体均数为0的符号检验Pr>=|M|符号检验的p值Mode众数

SgnRank变量总体均数为0的秩和检验Pr>=|S|秩和检验的p值

六、UNIVARIATE过程进行统计检验的计算方法

1.正态检验

若在过程中指定NORMAL选择项时,过程将数据视作取自正态分布的随机样本并给出一个统计检验。

当样本量小于2000时,计算Shapiro-Wilk统计量W,W值在0与1之间,W值越小越拒绝H0假设;当样本容量n大于6时,W的显著水平

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 外语学习 > 日语学习

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1