1、PROGRAM 解释PROC UNIVARIATE;SAS for Windows统计分析PROC UNIVARIATE命令是最常用的命令,也是最重要的命令之一,用来分析各种各样的描述性统计量。PROC UNIVARIATE命令不仅具有统计量分析功能,还具有打印功能等。option1- DATA=dsn:指定分析资料名dsn。- PLOT:探索性分析,作茎叶图和箱线图。在SAS for Windows,根据观测值个数的多少,茎叶图和箱线图的形状有所不同。下面的图(a)是观测值个数n=30的情况,图(b)是观测值个数n=32的情况。由此可知,当观测值的个数n30时,茎叶图的同一个级别的树茎不分杈
2、,当n30时,茎叶图的同一个水准的树茎分杈,比如70级别的树茎,分成7074和7579级别的两个树茎,这等于把原来的茎叶图和箱线图拉长了一倍。 图(a) 观测值n30 图(b) 观测值n30Stem Leaf # Boxplot Stem Leaf # Boxplot 9 5 1 | 9 567 3 | (右) 8 0233456 7 +-+ 9 | 7 12234556788 11 *-* 8 56 2 | 6 35 2 | + | 8 22334 5 +-+ 5 1369 4 +-+ 7 556788 6 | | 4 046 3 | 7 12234 5 *-+-* 3 9 1 | 6 5
3、1 | | 2 2 1 | 6 3 1 | | -+-+-+-+ 5 69 2 +-+ Multiply Stem.Leaf by 10*+1 5 13 2 | 4 6 1 | 4 04 2 | 3 9 1 | 3 | 2 | 2 2 1 | (左)(图5-7) 茎叶图和箱线图与观测值- FREQ:作频数分析表(频数也称作次数)。- NORMAL:正态分布分析。计算有关检验正态分布的统计量p-值。- NOPRINT:不打印分析结果。以上的Option,可以在一个PROC UNIVARIATE命令中重复使用。比如, ;PROC UNIVARIATE DATA=one PLOT FREQ;RUN;
4、 VAR 变量名1 变量名2;指定描述性统计分析的变量。SAS程序中只有一个变量时不需要指定VAR变量。但在SAS程序中有两个以上变量时,需要指定VAR变量。如果不指定,则对所有的变量都作统计分析。比如,INPUT x y z; SAS程序中有3个变量。PROC UNIVARIATE PLOT; 作描述性统计分析。VAR x y; 只作x y变量的探索性统计分析。 BY 变量1 变量2;以BY指定的变量为基准,对VAR变量进行统计分析。 FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权数。
5、OUTPUT OUT= dsn option2;OUTPUT语句要求把计算的描述性统计量输出到新的SAS数据集中。新数据集名字的定义用OUT=DSN来命名,OPTION2是对输出的描述性统计量进行选择和规定统计量在输出列表中的变量名。一般格式为:OUTPUT OUT= 新dsn 统计量代号=新变量名1 新变量名2;例如,OUTPUT OUT=EXAMPLE MEAN=MEANX MEANY STD=STDX STDY;option2 - N:资料个数 - MEDIAN:中位数- VAR:样本方差 - SUM:观测值的总和()- Q1:第一四分位数(上位四分位数)(25%) - Q3:第三四分位
6、数(75%)- P1:第一百分位数(1%) - P10:第十百分位数(10%)- P90:第九十百分位数(90%) - P95:第九十五百分位数(95%)- P99:第九十九百分位数(99%) - USS:观测值的平方之和(- STDERR:平均数的标准误差() - KURTOSIS:峰度(系数)- PRT:T-统计量的p-值 - NMISS:缺省值的个数- MODE:众数 - MIN:最小值- RANGE:范围(MAX-MIN) - QRANGE:四分位数范围- CSS:离差的平方之和 - T:T-统计量- MEAN:平均数 - MAX:最大值- CV:离散系数(变动系数) - SKEWNE
7、SS:偏度系数例5-11: 在A,B两个会社的男女营业员中各抽出4名,对他们的去年和今年的营业(销售)额进行了调查。去年和今年的营业额分别用slast和snow表示。利用此调查资料作PROC UNIVARIATE 统计分析。(把资料直接编入SAS程序)SAS PROGRAM:OPTION PS=60 NODATE;DATA example;INPUT company $ gender $ slast snew ;CARDS;A M 70 72 A M 65 67 A F 57 54 A F 60 63 A M 64 65 A M 50 51 A F 30 40 A F 35 34B M 33
8、35 B M 42 44 B F 31 30 B F 55 52 B M 66 68 B M 47 51 B F 66 70 B F 54 52PROC UNIVARIATE DATA=example PLOT NORMAL;VAR slast snew; TITLE RESULTS OF PROCEDURES UNIVARIATE;PROGRAM解释不打印日期(NODATE),每页打印60行(PS=60)。对两个变量slast和snow分别进行UNIVARIATE分析,并利用PLOT和NORMAL两个选择事项。运行结果及解释RESULTS OF PROCEDURES UNIVARIATEUn
9、ivariate Procedure Variable=SLAST Moments N 16 Sum Wgts 16 Mean 51.5625 Sum 825 Std Dev 13.7403 Variance 188.7958 Skewness -0.38707 Kurtosis -1.29697 USS 45371 CSS 2831.938 CV 26.64785 Std Mean 3.435075 T:Mean=0 15.01059 Pr|T| 0.0001 Num = 0 16 Num 0 16 Sgn Rank 68 Pr=|S| 0.0001 W:Normal 0.913294 Pr
10、W 0.1332 因为slast变量分布的情报和snow变量分布的情报可以作相同的解释,因此,在此省略有关snow变量分布情报的解释。. N是观测值的个数,Sum Wgts是观测值个数的权重之和(16个)。. Mean是算术平均数,Sum是观测值的总和。. Std Dev(standard deviation)是标准差,Variance是方差。. Skewness是分布的偏度系数,Kurtosis是峰度系数。因为偏度系数= -0.387070,所以分布左偏,又因为峰度系数=-1.29697|T| 0.0001”是T值所对应的概率p(pr)值=0.0001,并且Pr|T|成立。本题中,因为T=1
11、5.101,p值(0.0001)|T(15.101)|的假设不成立,所以,平均数为零的假设不成立。.“Num =0 16 Num0 16”:表示观测值不是零个,而是16个。 Sgn Rank是对平均数为零的假设,检验其分布的符号秩(Signed Rank Test)。是检验总体服从正态分布的假设,符号秩次检验是对总体不作任何假设。所以,资料不服从正态分布时,要作符号秩次检验。本题的符号秩次检验结果,平均数为零的假设不成立。因为Pr(0.0001) |S(68)|不成立。.“W:Normal表示W统计量,PrW 0.1332”表示正态性检验概率;因为观测值数小于50,所以,作了Shapiro-W
12、ilk检验。因为Shapiro-Wilk的p值比通常使用的显著性水准0.05大,因此,采用服从正态分布的假设(和矛盾)。即Pr(0.1332)|T| 0.0001 Range 73 Num = 0 30 Num 0 30 Q3-Q1 24 M(Sign) 15 Pr=|M| 0.0001 Mode 72 Sgn Rank 232.5 Pr W:Normal 0.918571 PrW 0.0277 Extremes Lowest Obs Highest Obs 22( 1) 83( 26) 39( 2) 84( 27) 40( 3) 85( 28) 44( 4) 86( 29) 46( 5) 9
13、5( 30) Stem Leaf # Boxplot 9 5 1 | 8 0233456 7 +-+ 7 12234556788 11 *-* 6 35 2 | + | 5 1369 4 +-+ 4 046 3 | 2 2 1 | Normal Probability Plot 95+ + * | *+* * * | * *+*+ | *+ | +*+ | +*+*+* | +* 25+ * 有关考核资料的主要统计数值如下:平均数(Mean)=67.9;中位数(Med)=73.5;众数(Mode)=72;方差(Variance)=293.3;标准差(Std Dev)=17.12701;偏度系数
14、(Skewness)=-0.92899;最大值=95;最小值=22;范围(Range)=95-22=73;第一四分位数(Q1)=56;第三四分位数(Q3)=80;四分位数(Q3-Q1)=24;第90百分位数=84.5;第95百分位数=86;因为偏度系数SK0,所以平均数小于中位数。又因为偏度系数SK=-0.92899小于零,所以资料的分布偏向左侧。 在茎叶图(Stem Leaf)中可以看到,最高分数为95分,最低分数为22分。从茎叶图树页中可以知道,答90分以上的只有1人,答8089分的有7人,答7079分的人最多,有11人。由箱线图(Boxplot)可知,观测值中不存在异常值。由于中央线略偏
15、向第2四分位数Q3,所以分布左偏。Shapiro-Wilk(观测值数小于50)检验结果。检验统计量W:Normal=0.91857。p-值(PrW)=0.0227,比显著性水准0.05小,所以分布服从正态分布的假设不成立,也就是说考核成绩分布不服从正态分布。假设属于前40%的考核成绩为,则可按下面方法近似(当作正态分布计算)。=67.5+(0.2517.09756)=72.2因此,业务考核至少打72.2分,才有可能被提拔为处级干部。5.4.2 PROC MEANS 利用SAS for Windows PROC UNIVARIATE命令,可以计算和分析分布的平均数,标准偏差,离散系数,茎叶图,箱
16、线图,百分位数,四分位数等描述性统计量和探索性统计量,但是PROC UNIVARIATE命令所分析的统计量项目过多,在实际统计分析工作中往往有些统计量不需要分析,这就要求我们有选择性的统计分析。下面介绍PROC MEANS命令。PROC MEANS命令,主要是以提供分布的平均数, -值和显著型概率为核心的,最基本的描述性统计量计算和分析方法。PROC UNIVARIATE命令所提供的统计量和PROC MEANS命令所分析的统计量有许多重复的地方,PROC MEANS命令相对来说比较简单。PROC MEANS命令的基本形式为: PROC MEANS DATA=dsn1 option; VAR 变
17、量名1 变量名2; FREQ 变量名; WEIGHT 变量名; OUTPUT OUT= 新dsn 关键词=新变量名1 新变量名2; BY 变量名1 变量名2; PROC MEANS DATA=dsn1 option; 分析option 所指定的统计量。DATA=dsn1中,dsn1表示需要分析的SAS DATA set名。如果把DATA set直接编入到程序,则可以省略此命令。Option是统计分析的选择事项,可以指定如下的SAS命令)MAXDEC=n:n=08之间的整数。n是对计算结果(数字)允许的最大小数点后位数。比如MAXDEC=3,则小数点后只能保留3位数。ALPHA=n:设置计算置信
18、区间的置信水平。若缺省,系统默认ALPHA=0.05。NOPRINT:不打印其分析结果。N:打印观测值数,如果在DATA set中有缺省值,则只打印没有缺省值的观测值数。NMISS:打印各变量的缺省值数(missing value)。MEAN:计算分布的平均数。VAR:计算方差(variance)。STD:计算标准差(Standard deviation)。MAX:计算最大值。MIN:计算最小值。RANGE:范围(max-min)。SUM:计算观测值(Observation)的总和。USS(Uncorrected Sum of Squares):CSS(Corrected Sum of Squares):观测值减去平均数的平方之和(STDERR:标准误差(Standard error)是关于平均的标准偏差)=(CV(Co
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1