ImageVerifierCode 换一换
格式:DOCX , 页数:16 ,大小:63.63KB ,
资源ID:6031197      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6031197.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第六章 描述性统计分析数值法2.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第六章 描述性统计分析数值法2.docx

1、第六章 描述性统计分析数值法2第6章 数值法1、 描述统计量的UNIVARIATE计算 前面我们叙述了平均数、中位数、众数、偏度系数、方差、标准差等代表分布集中趋势和离散趋势的标志值和箱线图及茎叶图等探索性资料分析。下面将介绍利用SAS for Windows,计算和分析描述性统计量)的基本方法(SAS程序),SAS for Windows统计分析的基本形式如下: PROC UNIVARIATE OPTION1; VAR 变量名1 变量名2 变量名n; BY 变量名1 变量名2 变量名n;4 FREQ 变量名;5 WEIGHT 变量名;6 OUTPUT OUT=dsn option2;PROG

2、RAM 解释PROC UNIVARIATE;SAS for Windows统计分析PROC UNIVARIATE命令是最常用的命令,也是最重要的命令之一,用来分析各种各样的描述性统计量。PROC UNIVARIATE命令不仅具有统计量分析功能,还具有打印功能等。option1- DATA=dsn:指定分析资料名dsn。- PLOT:探索性分析,作茎叶图和箱线图。箱线图(Boxplot)箱线图是把第一四分位数,第二四分位数(中位数),第三四分位数,四分位数范围,最大值及最小值画成一个箱子和一条线。将箱子两侧超过四分位数差1.5倍范围内的值用点线(-)连接起来,超出四分位数差1.5倍至3倍范围的值

3、为零,超过3倍的特别大或特别小的异常值用*表示。如果我们所研究的统计资料的分布是对称的,那么Q2垂直线将落在箱子的正中央。如果Q2垂直线落在靠近Q3的位置,那么分布的长尾拖向左边;相反Q2垂直线落在靠近Q1的位置,那么分布的长尾拖向右边。因此不同的箱线形状就反映出不同的分布特征(见图5-6)。 在SAS for Windows,根据观测值个数的多少,茎叶图和箱线图的形状有所不同。下面的图(a)是观测值个数n=30的情况,图(b)是观测值个数n=32的情况。由此可知,当观测值的个数n30时,茎叶图的同一个级别的树茎不分杈,当n30时,茎叶图的同一个水准的树茎分杈,比如70级别的树茎,分成7074

4、和7579级别的两个树茎,这等于把原来的茎叶图和箱线图拉长了一倍。 图(a) 观测值n30 图(b) 观测值n30 Stem Leaf # Boxplot Stem Leaf # Boxplot 9 5 1 | 9 567 3 | (右) 8 0233456 7 +-+ 9 | 7 12234556788 11 *-* 8 56 2 | 6 35 2 | + | 8 22334 5 +-+ 5 1369 4 +-+ 7 556788 6 | | 4 046 3 | 7 12234 5 *-+-* 3 9 1 | 6 5 1 | | 2 2 1 | 6 3 1 | | -+-+-+-+ 5 69

5、 2 +-+ Multiply Stem.Leaf by 10*+1 5 13 2 | 4 6 1 | 4 04 2 | 3 9 1 | 3 | 2 | 2 2 1 | (左) -+-+-+-+ Multiply Stem.Leaf by 10*+1(图5-7) 茎叶图和箱线图与观测值- FREQ:作频数分析表(频数也称作次数)。- NORMAL:正态分布分析。计算有关检验正态分布的统计量p-值。- NOPRINT:不打印分析结果。以上的Option,可以在一个PROC UNIVARIATE命令中重复使用。比如, ;PROC UNIVARIATE DATA=one PLOT FREQ;RUN;

6、 VAR 变量名1 变量名2;指定描述性统计分析的变量。SAS程序中只有一个变量时不需要指定VAR变量。但在SAS程序中有两个以上变量时,需要指定VAR变量。如果不指定,则对所有的变量都作统计分析。比如,INPUT x y z; SAS程序中有3个变量。 ;PROC UNIVARIATE PLOT; 作描述性统计分析。VAR x y; 只作x y变量的探索性统计分析。 BY 变量1 变量2;以BY指定的变量为基准,对VAR变量进行统计分析。 FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权

7、数。OUTPUT OUT= dsn option2;OUTPUT语句要求把计算的描述性统计量输出到新的SAS数据集中。新数据集名字的定义用OUT=DSN来命名,OPTION2是对输出的描述性统计量进行选择和规定统计量在输出列表中的变量名。一般格式为: OUTPUT OUT= 新dsn 统计量代号=新变量名1 新变量名2;例如,OUTPUT OUT=EXAMPLE MEAN=MEANX MEANY STD=STDX STDY;option2 - N:资料个数 - MEDIAN:中位数- VAR:样本方差 - SUM:观测值的总和()- Q1:第一四分位数(上位四分位数)(25%) - Q3:第三

8、四分位数(75%)- P1:第一百分位数(1%) - P10:第十百分位数(10%)- P90:第九十百分位数(90%) - P95:第九十五百分位数(95%)- P99:第九十九百分位数(99%) - USS:观测值的平方之和()- STDERR:平均数的标准误差() - KURTOSIS:峰度(系数)- PRT:T-统计量的p-值 - NMISS:缺省值的个数- MODE:众数 - MIN:最小值- RANGE:范围(MAX-MIN) - QRANGE:四分位数范围- CSS:离差的平方之和 - T:T-统计量- MEAN:平均数 - MAX:最大值- CV:离散系数(变动系数) - SK

9、EWNESS:偏度系数例5-11: 在A,B两个会社的男女营业员中各抽出4名,对他们的去年和今年的营业(销售)额进行了调查。去年和今年的营业额分别用slast和snow表示。利用此调查资料作PROC UNIVARIATE 统计分析。(把资料直接编入SAS程序)SAS PROGRAM:OPTION PS=60 NODATE; DATA example;INPUT company $ gender $ slast snew ;CARDS;A M 70 72 A M 65 67 A F 57 54 A F 60 63 A M 64 65 A M 50 51 A F 30 40 A F 35 34B

10、M 33 35 B M 42 44 B F 31 30 B F 55 52 B M 66 68 B M 47 51 B F 66 70 B F 54 52RUN;PROC UNIVARIATE DATA=example PLOT NORMAL;VAR slast snew; TITLE RESULTS OF PROCEDURES UNIVARIATE;RUN;PROGRAM解释不打印日期(NODATE),每页打印60行(PS=60)。对两个变量slast和snow分别进行UNIVARIATE分析,并利用PLOT和NORMAL两个选择事项。运行结果及解释RESULTS OF PROCEDURES

11、 UNIVARIATEUnivariate Procedure Variable=SLAST Moments N 16 Sum Wgts 16 Mean 51.5625 Sum 825 Std Dev 13.7403 Variance 188.7958 Skewness -0.38707 Kurtosis -1.29697 USS 45371 CSS 2831.938 CV 26.64785 Std Mean 3.435075 T:Mean=0 15.01059 Pr|T| 0.0001 Num = 0 16 Num 0 16 Sgn Rank 68 Pr=|S| 0.0001 W:Norma

12、l 0.913294 PrW 0.1332 因为slast变量分布的情报和snow变量分布的情报可以作相同的解释,因此,在此省略有关snow变量分布情报的解释。. N是观测值的个数,Sum Wgts是观测值个数的权重之和(16个)。. Mean是算术平均数,Sum是观测值的总和。. Std Dev(standard deviation)是标准差,Variance是方差。. Skewness是分布的偏度系数,Kurtosis是峰度系数。因为偏度系数= -0.387070,所以分布左偏,又因为峰度系数=-1.29697|T| 0.0001”是T值所对应的概率p(pr)值=0.0001,并且Pr|T

13、|成立。本题中,因为T=15.101,p值(0.0001)|T(15.101)|的假设不成立,所以,平均数为零的假设不成立。.“Num =0 16 Num0 16”:表示观测值不是零个,而是16个。 Sgn Rank是对平均数为零的假设,检验其分布的符号秩(Signed Rank Test)。是检验总体服从正态分布的假设,符号秩次检验是对总体不作任何假设。所以,资料不服从正态分布时,要作符号秩次检验。本题的符号秩次检验结果,平均数为零的假设不成立。因为Pr(0.0001) |S(68)|不成立。.“W:Normal表示W统计量,PrW 0.1332”表示正态性检验概率;因为观测值数小于50,所

14、以,作了Shapiro-Wilk检验。因为Shapiro-Wilk的p值比通常使用的显著性水准0.05大,因此,采用服从正态分布的假设(和矛盾)。即Pr(0.1332)|T| 0.0001 Range 73 Num = 0 30 Num 0 30 Q3-Q1 24 M(Sign) 15 Pr=|M| 0.0001 Mode 72 Sgn Rank 232.5 Pr=|S| 0.0001 W:Normal 0.918571 PrW 0.0277 Extremes Lowest Obs Highest Obs 22( 1) 83( 26) 39( 2) 84( 27) 40( 3) 85( 28)

15、 44( 4) 86( 29) 46( 5) 95( 30) Stem Leaf # Boxplot 9 5 1 | 8 0233456 7 +-+ 7 12234556788 11 *-* 6 35 2 | + | 5 1369 4 +-+ 4 046 3 | 3 9 1 | 2 2 1 | -+-+-+-+ Multiply Stem.Leaf by 10*+1 Normal Probability Plot 95+ + * | *+* * * | * *+*+ | *+ | +*+ | +*+*+* | +* 25+ * +-+-+-+-+-+-+-+-+-+-+ -2 -1 0 +1

16、+2 有关考核资料的主要统计数值如下:平均数(Mean)=67.9;中位数(Med)=73.5;众数(Mode)=72;方差(Variance)=293.3;标准差(Std Dev)=17.12701;偏度系数(Skewness)=-0.92899;最大值=95;最小值=22;范围(Range)=95-22=73;第一四分位数(Q1)=56;第三四分位数(Q3)=80;四分位数(Q3-Q1)=24;第90百分位数=84.5;第95百分位数=86;因为偏度系数SK0,所以平均数小于中位数。又因为偏度系数SK=-0.92899小于零,所以资料的分布偏向左侧。 在茎叶图(Stem Leaf)中可以看

17、到,最高分数为95分,最低分数为22分。从茎叶图树页中可以知道,答90分以上的只有1人,答8089分的有7人,答7079分的人最多,有11人。由箱线图(Boxplot)可知,观测值中不存在异常值。由于中央线略偏向第2四分位数Q3,所以分布左偏。Shapiro-Wilk(观测值数小于50)检验结果。检验统计量W:Normal=0.91857。p-值(PrW)=0.0227,比显著性水准0.05小,所以分布服从正态分布的假设不成立,也就是说考核成绩分布不服从正态分布。假设属于前40%的考核成绩为,则可按下面方法近似(当作正态分布计算)。=67.5+(0.2517.09756)=72.2因此,业务考

18、核至少打72.2分,才有可能被提拔为处级干部。2、描述统计量的MEANS计算利用SAS for Windows PROC UNIVARIATE命令,可以计算和分析分布的平均数,标准偏差,离散系数,茎叶图,箱线图,百分位数,四分位数等描述性统计量和探索性统计量,但是PROC UNIVARIATE命令所分析的统计量项目过多,在实际统计分析工作中往往有些统计量不需要分析,这就要求我们有选择性的统计分析。下面介绍PROC MEANS命令。PROC MEANS命令,主要是以提供分布的平均数, -值和显著型概率为核心的,最基本的描述性统计量计算和分析方法。PROC UNIVARIATE命令所提供的统计量和

19、PROC MEANS命令所分析的统计量有许多重复的地方,PROC MEANS命令相对来说比较简单。PROC MEANS命令的基本形式为: PROC MEANS DATA=dsn1 option; VAR 变量名1 变量名2; FREQ 变量名; WEIGHT 变量名; OUTPUT OUT= 新dsn 关键词=新变量名1 新变量名2; BY 变量名1 变量名2;PROGRAM 解释 PROC MEANS DATA=dsn1 option; 分析option 所指定的统计量。DATA=dsn1中,dsn1表示需要分析的SAS DATA set名。如果把DATA set直接编入到程序,则可以省略此

20、命令。Option是统计分析的选择事项,可以指定如下的SAS命令)MAXDEC=n:n=08之间的整数。n是对计算结果(数字)允许的最大小数点后位数。比如MAXDEC=3,则小数点后只能保留3位数。ALPHA=n:设置计算置信区间的置信水平。若缺省,系统默认ALPHA=0.05。NOPRINT:不打印其分析结果。N:打印观测值数,如果在DATA set中有缺省值,则只打印没有缺省值的观测值数。NMISS:打印各变量的缺省值数(missing value)。MEAN:计算分布的平均数。VAR:计算方差(variance)。STD:计算标准差(Standard deviation)。MAX:计算最

21、大值。MIN:计算最小值。RANGE:范围(max-min)。SUM:计算观测值(Observation)的总和。USS(Uncorrected Sum of Squares):观测值的平方之和()CSS(Corrected Sum of Squares):观测值减去平均数的平方之和()STDERR:标准误差(Standard error)是关于平均的标准偏差)=()CV(Coefficient of Variation):计算分布的离散系数(或称为变动系数)。(标准差/平均数)*100T:计算T-统计量(T-值)。计算检验平均数为零的统计量。PRT:p-值。这是SAS提供的显著性概率,p-值

22、的大小将决定原假设的成立与否。SKEWNESS:分布的偏度。如果偏度=0,则对称分布;若偏度0,则右偏分布。KURTOSIS:峰度。若峰度=3,则正态分布,若峰度3,则尖顶分布;若峰度3,则平顶分布。CLM:计算置信上限和下限。LCLM:置信下限。UCLM:置信上限。VAR 变量名1 变量名2;指定分析对象的变量名,如果不指定分析对象变量,则对所有的变量进行分析。 FREQ 变量名:该语句指定一个数值型的变量,它的值表示输入数据集中相应的观测出现的频数。 WEIGHT 变量名:该语句规定一个变量,它的值表示相应观测的权数。OUTPUT OUT=新dsn 关键词=新变量名1 新变量名2; 把PROC MEANS的分析结果储存到新的DATA set新dsn名下。PROC MEANS DATA=example;VAR height weight;OUTPUT OUT= example1 mean=mean1 mean2 std=std1 std2; 对变量height weight进行PROC MEANS分析的结果,以example1的新资料名储存起来。并且把分析的height weight变量的平均数mean和标准差std分别储存到mean1,mean2和std1,std2新变量下。BY 变量名1 变量名2;指定基准变量。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1