第六章 描述性统计分析数值法2.docx

上传人:b****6 文档编号:6031197 上传时间:2023-01-03 格式:DOCX 页数:16 大小:63.63KB
下载 相关 举报
第六章 描述性统计分析数值法2.docx_第1页
第1页 / 共16页
第六章 描述性统计分析数值法2.docx_第2页
第2页 / 共16页
第六章 描述性统计分析数值法2.docx_第3页
第3页 / 共16页
第六章 描述性统计分析数值法2.docx_第4页
第4页 / 共16页
第六章 描述性统计分析数值法2.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

第六章 描述性统计分析数值法2.docx

《第六章 描述性统计分析数值法2.docx》由会员分享,可在线阅读,更多相关《第六章 描述性统计分析数值法2.docx(16页珍藏版)》请在冰豆网上搜索。

第六章 描述性统计分析数值法2.docx

第六章描述性统计分析数值法2

第6章数值法

1、描述统计量的UNIVARIATE计算

前面我们叙述了平均数、中位数、众数、偏度系数、方差、标准差等代表分布集中趋势和离散趋势的标志值和箱线图及茎叶图等探索性资料分析。

下面将介绍利用SASforWindows,计算和分析描述性统计量)的基本方法(SAS程序),SASforWindows统计分析的基本形式如下:

①PROCUNIVARIATEOPTION1;

②VAR变量名1变量名2…变量名n;

③BY变量名1变量名2…变量名n;

4FREQ变量名;

5WEIGHT变量名;

6OUTPUTOUT=dsnoption2;

□PROGRAM解释

①PROCUNIVARIATE;

SASforWindows统计分析PROCUNIVARIATE命令是最常用的命令,也是最重要的命令之一,用来分析各种各样的描述性统计量。

PROCUNIVARIATE命令不仅具有统计量分析功能,还具有打印功能等。

option1

-DATA=dsn:

指定分析资料名dsn。

-PLOT:

探索性分析,作茎叶图和箱线图。

箱线图(Boxplot)

 

箱线图是把第一四分位数,第二四分位数(中位数),第三四分位数,四分位数范围,最大值及最小值画成一个箱子和一条线。

将箱子两侧超过四分位数差1.5倍范围内的值用点线(--)连接起来,超出四分位数差1.5倍至3倍范围的值为零,超过3倍的特别大或特别小的异常值用*表示。

如果我们所研究的统计资料的分布是对称的,那么Q2垂直线将落在箱子的正中央。

如果Q2垂直线落在靠近Q3的位置,那么分布的长尾拖向左边;相反Q2垂直线落在靠近Q1的位置,那么分布的长尾拖向右边。

因此不同的箱线形状就反映出不同的分布特征(见图5-6)。

 

在SASforWindows,根据观测值个数的多少,茎叶图和箱线图的形状有所不同。

下面的图(a)是观测值个数n=30的情况,图(b)是观测值个数n=32的情况。

由此可知,当观测值的个数n

30时,茎叶图的同一个级别的树茎不分杈,当n>30时,茎叶图的同一个水准的树茎分杈,比如70级别的树茎,分成70~74和75~79级别的两个树茎,这等于把原来的茎叶图和箱线图拉长了一倍。

图(a)观测值n≤30图(b)观测值n>30

StemLeaf#BoxplotStemLeaf#Boxplot

951|95673|(右)

802334567+-----+9|

71223455678811*-----*8562|

6352|+|8223345+-----+

513694+-----+75567886||

40463|7122345*--+--*

391|651||

221|631||

----+----+----+----+5692+-----+

MultiplyStem.Leafby10**+15132|

461|

4042|

391|

3|

2|

221|(左)

----+----+----+----+

MultiplyStem.Leafby10**+1

(图5-7)茎叶图和箱线图与观测值

-FREQ:

作频数分析表(频数也称作次数)。

-NORMAL:

正态分布分析。

计算有关检验正态分布的统计量p-值。

-NOPRINT:

不打印分析结果。

以上的Option,可以在一个PROCUNIVARIATE命令中重复使用。

比如,

…………;

PROCUNIVARIATEDATA=onePLOTFREQ;

RUN;

②VAR变量名1变量名2……;

指定描述性统计分析的变量。

SAS程序中只有一个变量时不需要指定VAR变量。

但在SAS程序中有两个以上变量时,需要指定VAR变量。

如果不指定,则对所有的变量都作统计分析。

比如,

INPUTxyz;←SAS程序中有3个变量。

…………;

PROCUNIVARIATEPLOT;←作描述性统计分析。

VARxy;←只作xy变量的探索性统计分析。

③BY变量1变量2…;

以BY指定的变量为基准,对VAR变量进行统计分析。

④FREQ变量名:

该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。

⑤WEIGHT变量名:

该语句规定一个变量,它的值表示相应观测的权数。

⑥OUTPUTOUT=dsnoption2;

OUTPUT语句要求把计算的描述性统计量输出到新的SAS数据集中。

新数据集名字的定义用OUT=DSN来命名,OPTION2是对输出的描述性统计量进行选择和规定统计量在输出列表中的变量名。

一般格式为:

OUTPUTOUT=新dsn统计量代号=新变量名1新变量名2…;

例如,OUTPUTOUT=EXAMPLEMEAN=MEANXMEANYSTD=STDXSTDY;

option2

-N:

资料个数-MEDIAN:

中位数

-VAR:

样本方差-SUM:

观测值的总和(

-Q1:

第一四分位数(上位四分位数)(25%)-Q3:

第三四分位数(75%)

-P1:

第一百分位数(1%)-P10:

第十百分位数(10%)

-P90:

第九十百分位数(90%)-P95:

第九十五百分位数(95%)

-P99:

第九十九百分位数(99%)-USS:

观测值的平方之和(

-STDERR:

平均数的标准误差(

)-KURTOSIS:

峰度(系数)

-PRT:

T-统计量的p-值-NMISS:

缺省值的个数

-MODE:

众数-MIN:

最小值

-RANGE:

范围(MAX-MIN)-QRANGE:

四分位数范围

-CSS:

离差的平方之和

-T:

T-统计量

-MEAN:

平均数-MAX:

最大值

-CV:

离散系数(变动系数)-SKEWNESS:

偏度系数

例5-11:

在A,B两个会社的男女营业员中各抽出4名,对他们的去年和今年的营业(销售)额进行了调查。

去年和今年的营业额分别用slast和snow表示。

利用此调查资料作PROCUNIVARIATE统计分析。

(把资料直接编入SAS程序)

SASPROGRAM:

OPTIONPS=60NODATE;

DATAexample;

INPUTcompany$gender$slastsnew@@;

CARDS;

AM7072AM6567AF5754AF6063AM6465AM5051AF3040AF3534

BM3335BM4244BF3130BF5552BM6668BM4751BF6670BF5452

RUN;

PROCUNIVARIATEDATA=examplePLOTNORMAL;

VARslastsnew;←②

TITLE'RESULTSOFPROCEDURESUNIVARIATE';

RUN;

□PROGRAM解释

①不打印日期(NODATE),每页打印60行(PS=60)。

②对两个变量slast和snow分别进行UNIVARIATE分析,并利用PLOT和NORMAL两个选择事项。

□运行结果及解释

RESULTSOFPROCEDURESUNIVARIATE

UnivariateProcedure

Variable=SLAST

①Moments

ⅠN16SumWgts16

ⅡMean51.5625Sum825

ⅢStdDev13.7403Variance188.7958

ⅣSkewness-0.38707Kurtosis-1.29697

ⅤUSS45371CSS2831.938

ⅥCV26.64785StdMean3.435075

ⅦT:

Mean=015.01059Pr>|T|0.0001

ⅧNum^=016Num>016

ⅨSgnRank68Pr>=|S|0.0001

ⅩW:

Normal0.913294Pr

①因为slast变量分布的情报和snow变量分布的情报可以作相同的解释,因此,在此省略有关snow变量分布情报的解释。

Ⅰ.N是观测值的个数,SumWgts是观测值个数的权重之和(16个)。

Ⅱ.Mean是算术平均数,Sum是观测值的总和。

Ⅲ.StdDev(standarddeviation)是标准差,Variance是方差。

Ⅳ.Skewness是分布的偏度系数,Kurtosis是峰度系数。

因为偏度系数=-0.38707<0,所以分布左偏,又因为峰度系数=-1.29697<3,所以该分布属于平顶分布。

Ⅴ.USS是观测值(未校正)的平方和(

),CSS是观测值减去平均数的平方和(校正的平方和(

)。

Ⅵ.CV是偏离系数(变异系数或变动系数),它一般用标准差系数和平均差系数来表示。

StdMean样本平均数的标准误差。

Ⅶ.T:

Mean=0:

是为了检验平均数为零的假设,计算其分布的T值。

“Pr>|T|0.0001”是T值所对应的概率p(pr)值=0.0001,并且Pr>|T|成立。

本题中,因为T=15.101,p值(0.0001)>|T(15.101)|的假设不成立,所以,平均数为零的假设不成立。

Ⅷ.“Num^=016Num>016”:

表示观测值不是零个,而是16个。

ⅨSgnRank是对平均数为零的假设,检验其分布的符号秩(SignedRankTest)。

Ⅶ是检验总体服从正态分布的假设,符号秩次检验是对总体不作任何假设。

所以,资料不服从正态分布时,要作符号秩次检验。

本题的符号秩次检验结果,平均数为零的假设不成立。

因为Pr(0.0001)

|S(68)|不成立。

Ⅹ.“W:

Normal表示W统计量,Pr

因为Shapiro-Wilk的p值比通常使用的显著性水准0.05大,因此,采用服从正态分布的假设(和Ⅶ矛盾)。

即Pr(0.1332)

②Quantiles(Def=5)

ⅠⅡ

100%Max7099%70

75%Q364.595%70

50%Med54.590%66

25%Q138.510%31

0%Min305%30

ⅢRange40

ⅣQ3-Q126

ⅤMode66

②分析资料的百分率,范围,频数等情报。

Ⅰ.Max-最大值,Q3-第3四分位数,Med-中位数,Q1-上位四分位数,Min-最小值。

Ⅱ.表示百分位数。

Ⅲ.Range-范围:

最大值-最小值。

Ⅳ.Q3-Q1:

第3四分位数-第1四分位数。

Ⅴ.Mode:

频数(出现次数最多的观测值)。

③提供极值情报。

左侧的30,31,33,35,42是DATAset中的5个极小值,7,11,9,8,10代表这些极小值在DATAset中的位置(序号)。

右侧的64,65,66,66,67是DATAset中的5个极大值。

③Extremes

LowestObsHighestObs

30(7)64(5)

31(11)65

(2)

33(9)66(13)

35(8)66(15)

42(10)70

(1)

④StemLeaf#⑤Boxplot

701|

65663|

6042+-----+←Q3

5572||

5042*--+--*

471||

421||

351+-----+←Q1

30133|

----+----+----+----+

MultiplyStem。

Leafby10**+1

⑥NormalProbabilityPlot

72.5+++++*

|**+++

|**+++

|**++++

52.5+**+++

|*++

|++*+

|++++*

32.5+*++**

+----+----+----+----+----+----+----+----+----+----+

-2-10+1+2

图④⑤⑥是检验变量slast是否服从正态分布的结果。

④茎叶图(Stem-Leaf):

它是利用实际观测值来表示分布的形态。

⑤箱线图(Boxplot):

在箱线图中,由第1四分位数和第3四分位数来决定其箱子两端,中位数所在的位置用水平线“---”表示。

以“+”符号表示其平均数的位置。

箱子两端的垂直中心线的范围(长度)等于1.5*四分位数。

在1.5*四分位数~3*四分位数范围是观测值用“0”表示,超过该范围(超过3*四分位数范围)的观测值用“*”表示。

⑥正态概率散点图(NormalProbabilityPlot):

正态概率散点图的基准线由“+”表示,观测值(点)由“*”表示。

如果基准线“+”和观测值“*”越一致(在同一条水平线上),则越接近正态分布。

本例中的基准线“+”和观测值“*”基本一致,所以分布近似正态分布。

例5-13:

天津市某机关拟从30名科级干部中选拔40%提拔为处级干部,为了选拔处级干部,对30名科级干部进行了业务考试。

其业务考核成绩资料如表5-8。

(表5-8)考核成绩资料

22

39

40

44

46

51

53

56

59

63

65

71

72

72

73

74

75

75

76

77

78

78

80

82

83

83

84

85

86

95

试求:

1)资料的平均数,中位数,众数及四分位数;2)方差和标准差;3)分析分布的偏度和对称性;4)箱线图;5)考核成绩属于前40%的成绩是多少。

SASPROGRAM:

DATAONE;

INPUTX@@;

CARDS;

………资料省略………;

RUN;

PROCUNIVARIATEPLOTNORMAL;VARX;RUN;

□运行结果及解释:

TheSASSystemUnivariateProcedure

Variable=X

RESULTSOFPROCEDURESUNIVARIATE

UnivariateProcedure

Variable=X

①MomentsQuantiles(Def=5)

N30SumWgts30100%Max9599%95

Mean67.9Sum203775%Q38095%86

StdDev17.12701Variance293.334550%Med73.590%84.5

Skewness-0.92899Kurtosis0.34058225%Q15610%42

USS146819CSS8506.70%Min225%39

CV25.22387StdMean3.126951%22

T:

Mean=021.71445Pr>|T|0.0001Range73

Num^=030Num>030Q3-Q124

M(Sign)15Pr>=|M|0.0001Mode72

SgnRank232.5Pr>=|S|0.0001

W:

Normal0.918571Pr

Extremes

LowestObsHighestObs

22

(1)83(26)

39

(2)84(27)

40(3)85(28)

44(4)86(29)

46(5)95(30)

②StemLeaf#③Boxplot

951|

802334567+-----+

71223455678811*-----*

6352|+|

513694+-----+

40463|

391|

221|

----+----+----+----+

MultiplyStem.Leafby10**+1

NormalProbabilityPlot

95+++++++*

|***++***

|****+***++

|**+++++

|+****+

|++*+*+*

|++++++*

25++++*

+----+----+----+----+----+----+----+----+----+----+

-2-10+1+2

①有关考核资料的主要统计数值如下:

平均数(Mean)=67.9;中位数(Med)=73.5;众数(Mode)=72;方差(Variance)=293.3;标准差(StdDev)=17.12701;偏度系数(Skewness)=-0.92899;最大值=95;最小值=22;范围(Range)=95-22=73;第一四分位数(Q1)=56;第三四分位数(Q3)=80;四分位数(Q3-Q1)=24;第90百分位数=84.5;第95百分位数=86;因为偏度系数SK<0,所以平均数小于中位数。

又因为偏度系数SK=-0.92899小于零,所以资料的分布偏向左侧。

②在茎叶图(StemLeaf)中可以看到,最高分数为95分,最低分数为22分。

从茎叶图树页中可以知道,答90分以上的只有1人,答80~89分的有7人,答70~79分的人最多,有11人。

③由箱线图(Boxplot)可知,观测值中不存在异常值。

由于中央线略偏向第2四分位数Q3,所以分布左偏。

④Shapiro-Wilk(观测值数小于50)检验结果。

检验统计量W:

Normal=0.91857。

p-值(Pr

假设属于前40%的考核成绩为

,则可按下面方法近似(当作正态分布计算)。

=67.5+(0.25×17.09756)=72.2

因此,业务考核至少打72.2分,才有可能被提拔为处级干部。

2、描述统计量的MEANS计算

利用SASforWindowsPROCUNIVARIATE命令,可以计算和分析分布的平均数,标准偏差,离散系数,茎叶图,箱线图,百分位数,四分位数等描述性统计量和探索性统计量,但是PROCUNIVARIATE命令所分析的统计量项目过多,在实际统计分析工作中往往有些统计量不需要分析,这就要求我们有选择性的统计分析。

下面介绍PROCMEANS命令。

PROCMEANS命令,主要是以提供分布的平均数,

-值和显著型概率为核心的,最基本的描述性统计量计算和分析方法。

PROCUNIVARIATE命令所提供的统计量和PROCMEANS命令所分析的统计量有许多重复的地方,PROCMEANS命令相对来说比较简单。

PROCMEANS命令的基本形式为:

 

①PROCMEANSDATA=dsn1option;

②VAR变量名1变量名2…;

③FREQ变量名;

④WEIGHT变量名;

⑤OUTPUTOUT=新dsn关键词=新变量名1新变量名2…;

⑥BY变量名1变量名2…;

□PROGRAM解释

①PROCMEANSDATA=dsn1option;分析option所指定的统计量。

DATA=dsn1中,dsn1表示需要分析的SASDATAset名。

如果把DATAset直接编入到程序,则可以省略此命令。

Option是统计分析的选择事项,可以指定如下的SAS命令)

-MAXDEC=n:

n=0~8之间的整数。

n是对计算结果(数字)允许的最大小数点后位数。

比如MAXDEC=3,则小数点后只能保留3位数。

-ALPHA=n:

设置计算置信区间的置信水平。

若缺省,系统默认ALPHA=0.05。

-NOPRINT:

不打印其分析结果。

-N:

打印观测值数,如果在DATAset中有缺省值,则只打印没有缺省值的观测值数。

-NMISS:

打印各变量的缺省值数(missingvalue)。

-MEAN:

计算分布的平均数。

-VAR:

计算方差(variance)。

-STD:

计算标准差(Standarddeviation)。

-MAX:

计算最大值。

-MIN:

计算最小值。

-RANGE:

范围(max-min)。

-SUM:

计算观测值(Observation)的总和。

-USS(UncorrectedSumofSquares):

观测值的平方之和(

-CSS(CorrectedSumofSquares):

观测值减去平均数的平方之和(

-STDERR:

标准误差(Standarderror)是关于平均的标准偏差)

=(

-CV(CoefficientofVariation):

计算分布的离散系数(或称为变动系数)。

(标准差/平均数)*100

-T:

计算T-统计量(T-值)。

计算检验平均数为零的统计量。

-PRT:

p-值。

这是SAS提供的显著性概率,p-值的大小将决定原假设的成立与否。

-SKEWNESS:

分布的偏度。

如果偏度=0,则对称分布;若偏度<0,则左偏分布;若偏度>0,则右偏分布。

-KURTOSIS:

峰度。

若峰度=3,则正态分布,若峰度>3,则尖顶分布;若峰度<3,则平顶分布。

-CLM:

计算置信上限和下限。

-LCLM:

置信下限。

-UCLM:

置信上限。

②VAR变量名1变量名2…;指定分析对象的变量名,如果不指定分析对象变量,则对所有的变量进行分析。

③FREQ变量名:

该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。

④WEIGHT变量名:

该语句规定一个变量,它的值表示相应观测的权数。

⑤OUTPUTOUT=新dsn关键词=新变量名1新变量名2…;把PROCMEANS的分析结果储存到新的DATAset「新dsn」名下。

PROCMEANSDATA=example;

VARheightweight;

OUTPUTOUT=example1mean=mean1mean2std=std1std2;

对变量heightweight进行PROCMEANS分析的结果,以example1的新资料名储存起来。

并且把分析的heightweight变量的平均数mean和标准差std分别储存到mean1,mean2和std1,std2新变量下。

⑥BY变量名1变量名2…;指定基准变量。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机软件及应用

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1