第6章 描述性统计分析.docx
《第6章 描述性统计分析.docx》由会员分享,可在线阅读,更多相关《第6章 描述性统计分析.docx(36页珍藏版)》请在冰豆网上搜索。
第6章描述性统计分析
第6章描述性统计与t、u检验
摘要:
在SAS系统中,有多个过程可以进行描述性统计量的计算,常用的有:
MEANS、SUMMARY、TABULATE和UNIVARIATE等。
这些过程用来计算简单的描述统计量,可计算均值、标准差、方差、变异系数、标准误等。
TTEST用于进行t、u检验。
从科研试验和生产实践中获得的数据往往是杂乱无章的,而实际上变量的分布多具有一定的规律性,表现出数据的集中趋势和离散特性。
反映集中特性的统计量有平均数、众位数和中位数等,反映离散特性的统计量有极差、标准差、变异系数和方差等,对分布形状的度量一般采用峰度系数和偏度系数等。
对这些统计量的计算是描述数据的较好方法。
MEANS提供单个或多个变量的简单描述(单个变量、成对数据平均数显著性检验)。
SUMMARY提供单个或多个变量的简单描述,产生输出文件。
TABULATE提供单个变量的详细描述。
UNIVARIATE提供单个变量的详细描述和对其分布类型的检验。
TTEST用于进行t、u检验(不成对数据平均数检验)。
在SAS系统中,有多个过程可以进行描述性统计量的计算,表6.1给出了几个常用过程可以分析的各种统计量和一些其他重要特点。
这些过程大同小异,有些功能可以彼此取代。
§6.1MEANS过程
一、过程格式
PROCMEANS[选择项][统计量关键字列表]];
VAR变量表;要分析的变量名列
BY变量表;按变量名列分组统计,要求数据集已按变量名列排序
CLASS变量表;按变量名列分组统计,不要求数据集排序
FREQ变量表;表明该变量为分析变量的频数
WEIGHT变量表;表明分析变量在统计时要按该变量权重
ID变量表;输出时加上该变量作为索引
OUTPUTOUT=数据集[统计关键字=变量名…];指定统计量的输出数据集名
关键字=<新变量名列>...];指定统计量对应的新变量名
二、选择项说明
DATA=SAS数据集将计算出的统计量输出到一个数据集。
所有PROCMEANS语句中可用统计量均可在此指定。
NOPRINT说明不输出任何描述性统计值。
MAXDEC=n指出MEANS用于输出结果的最大小数位(0~8),缺省值为7。
FW=nn为输出统计量时的字段宽度,缺省值为12。
VARDEF=N|DF|WGT|WDF指定方差计算所用的分母。
N表示观察值的总数
DF表示自由度N-1
WGT表示权重和WDF表示权重和减1。
MISSING指定MEANS过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。
统计量用来指定进行计算的描述性统计量(见表6.1)。
缺省统计量选择项时,只输出N、MIN、MAX、MEAN、STD。
三、MEANS过程中常用的统计量关键字有:
●基本统计量NMEANSTDCVSUMVARRANGMINMAXUSSCSS
●与假设检验有关的统计量STDERR(标准误)TPRT(与t对应的p值)LCLM(可信区间下限)UCLM(可信区间上限)
四、PROCMEANS过程中的其他语句
●VAR语句:
列入变量表的数据集变量将被MEANS过程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。
●BY语句:
指定变量进行分组处理。
(事先必须按BY语句指定的变量将输入数据集按升序排序)
●CLASS语句:
将数据集中全体观察值按CLASS语句中变量进行分组、分析处理。
BY与CLASS语句的作用都是按指定的变量进行分组分析处理,但二者有不同:
1分组层次不同:
BY语句把全部观察按BY指定的变量分组;CLASS是在BY语句的基础上将BY分组再进一步行划分,进行分组变量的组合,产生多种凡是分组。
例如:
CLASSABC;则按指定变量A、B、C各种组合,可以有8种方式:
不分组、按变量A分组、按变量B分组、按变量C分组、按变量A和B分组、
按变量A和C分组、按变量B和C分组、按变量A、B、C分组。
2按BY语句只有按变量A、B、C分组,且使用BY语句时,事先将数据集按BY后面的变量排序。
而CLASS无此要求。
●REQ语句:
指定某一变量,表示同一观察的出现次数。
●OUTPUTOUT=数据集:
将MEANS过程的结果输出给指定的数据集中。
六、结果解释
在默认的情况时,means过程会输出绝大部分统计量,此时的输出结果如下:
Variable=变量名变量标签
Moments和矩有关的统计量Quantiles(Def=5)分位间距统计量
N样本量SumWgts权重总和100%Max最大值
Mean均数Sum总和75%Q375%百分位数
StdDev标准差Variance方差50%Med50%百分位数
Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数
USS未校正平方和CSS校正平方和0%Min最小值
CV变异系数StdMean标准化均数
T:
Mean=0变量总体均数为0的t检验Pr>|T|t检验的p值Range全距
Num^=0变量值非0的例数Num>0变量值大于0的例数
M(Sign)变量总体均数为0的符号检验Pr>=|M|符号检验的p值
表6.1SAS系统四种常用的描述性统计过程的比较
统计量
MEANS
SUMMARY
TABULATE
UNIVARIATE
1
N
无缺失值的观察值个数
√
√
√
√
2
NMISS
有缺失值的观察值个数
√
√
√
√
4
MEAN
平均数
√
√
√
√
5
SUM
总和
√
√
√
√
6
MAX
最大值
√
√
√
√
7
MIN
最小值
√
√
√
√
8
RANGE
全距(=最大值-最小值)
√
√
√
√
9
SUMWGT
权重和
√
√
√
√
10
USS
未矫正的离差平方和
√
√
√
√
11
CSS
已矫正的离差平方和
√
√
√
√
12
VAR
方差
√
√
√
√
13
STD
标准差
√
√
√
√
14
CV
变异系数
√
√
√
√
15
STDERR
平均数的标准误
√
√
√
√
16
T
学生氏t值
√
√
√
√
17
PRT
大于t值的概率
√
√
√
√
18
SKEWNSS
偏度系数
√
√
√
19
KURTOSIS
峰度系数
√
√
√
20
CLM
置信区间的上下限
√
√
21
LCLM
置信区间的下限
√
√
22
UCLM
置信区间的上限
√
√
23
PCIN
频数百分数
√
24
PCTSUM
和的百分数
√
25
Q3
上四分位数或第75百分位数
√
26
MEDIAN
中位数或第50百分位数
√
27
Q1
下四分位数或第25百分位数
√
28
QRANGE
上下四分位数之差,即Q3-Q2
√
29
P1
第一百分位数
√
30
P5
第五百分位数
√
31
P10
第十百分位数
√
32
P90
第九十百分位数
√
33
P95
第九十五百分位数
√
34
P99
第九十九百分位数
√
35
MODE
众数
√
36
NORMAL
正态性检验统计量
√
37
PROBN
正态性检验的概率
√
38
SIGNRANK
符号秩检验统计量
√
39
PROBS
符号秩检验的概率
√
40
MSIGN
符号检验统计量
√
41
PROBM
符号检验的概率
√
其他特性
产生报表输出
√
×
√
√
输出到SAS数据集
√
√
×
√
含CLASS语句
√
√
√
×
含BY语句
√
√
√
√
七、应用实例
例6.1
datanew;
inputname$ageheigweighr;
cards;
张三281.7560
李四271.7258
王五311.8065
赵六301.8162
procmeans;
procmeansmaxdec=3fw=8meanstdminmaxrangesumvaruss
cvstderrtprt;
run;
例6.2调查两个小麦品种的每穗小穗数,每品种计数10个麦穗,
A品种小穗数为:
13,14,15,17,18,18,19,21,22,23;
B品种小穗数为:
16,16,17,18,18,18,18,19,20,20。
试计算两品种的基本统计量。
●程序及说明
DATA;
DOpinzh="A","B";
DOi=1TO10;
INPUTsuishu@@;
OUTPUT;
END;
END;
CARDS;
13141517181819212223
16161718181818192020
PROCMEANSNMEANMAXMINRANGEVARSTDCVMAXDEC=4FW=8;
VARsuishu;
BYpinzh;
RUN;
●输出结果及说明
AnalysisVariable:
SUISHU
---------------------------------PINZH=A------------------------------
NMeanMaximumMinimumRangeVarianceStdDevCV
观察值平均数最大值最小值极差方差标准差变异系数
------------------------------------------------------------------------
1018.000023.000013.000010.000011.33333.366518.7028
------------------------------------------------------------------------
---------------------------------PINZH=B------------------------------
NMeanMaximumMinimumRangeVarianceStdDevCV
------------------------------------------------------------------------
1018.000020.000016.00004.00002.00001.41427.8567
------------------------------------------------------------------------
如果只对其中的一个品种进行分析,可以采用下列程序:
DATAnew;
INPUTsuishu@@;
CARDS;
13141517181819212223
PROCMEANSNMEANMAXMINRANGEVARSTDCVMAXDEC=4FW=8;
RUN;
例6.3:
DATANEW;
INPUTNA$SEX$PENJ$;
CARDS;
A1F785
A2M873
A3M904
A4F855
A5F754
PROCPRINT;
PROCMEANS;
CLASSSEXNJ;
PROCSORT;
BYSEX;
PROCMEANS;
BYSEX;
RUN;
例6.3已知某水样中含CaCO3的真值为20.70mg/L,现用某法重复测定该水样11次,得其含量(mg/L)分别为:
20.9920.4120.1020.0020.9122.6020.9920.0020.4123.0022.00。
问用该法测得CaCO3含量所得的总体均数与真值之间的差别是否有显著性。
DATAnew;
INPUTx@@;
y=(x-20.7);
cards;
20.9920.4120.1020.0020.9122.60
20.9920.0020.4123.0022.00
;
PROCMEANSmeanstderrtprt;
vary;
run;
结果如下:
AnalysisVariable:
Y
MeanStdErrorTProb>|T|
--------------------------------------------------
0.33727270.31707781.06369070.3125
--------------------------------------------------
八、缺失数据处理
1.VAR变量:
MEANS过程再开始计算某一变量的描述性统计之前,先将那些在变量上有缺失的数据的观察删除。
被删除的观察若在其它变量上没有缺失数据,则会纳入其它变量的计算过程中。
2.变量:
若观察在BY变量上有缺失数据,则MEANS过程会为这些观察另形成一个分组,同样进行计算分析。
3.FREQ变量:
若观察在FREQ变量上含有缺失数据,则观察将被删除。
4.WEIGHT变量:
若观察在WEIGHTQ变量上含有缺失数据,则MEANS以0处理。
§6.2TABULATE过程
TABULATE过程以表格的形式完成描述性统计。
表格可达三维:
页、行和列,表格形式可由用户自由安排,因此,该过程既是一个统计分析过程又是一个报表过程。
一、过程格式
PROCTABULATE[选择项];
CLASS分类变量表;
VAR分类变量表;
FREQ变量;
WEIGHT变量;
FORMAT变量格式;
LABEL变量=标记;
KEYLABEL关键字="文本";
TABLE表达式[,表达式][,表达式][/选择项];
二、语句说明
PROCTABULATE语句、TABLE语句、VAR语句和CLASS语句是必需的。
●PROCTABULATE语句选择项
DATA=数据集指定所使用的数据集,缺省则使用最新建立的数据集。
MISSING要求将分类变量的缺失值作为有效水平,否则,分析中将不包含分类变量有缺失值的观察值。
FORMAT=格式名规定表格输出的宽度,缺省值为12.2。
ORDER=FREQ|INTERNAL|DATA|FORMATED规定分类变量下各类别的输出次序。
FREQ依各类别次数排序,INTERNAL按英文字母先后排序,DATA按在数据集内出现的顺序排序,FORMATED按规定的格式排序。
FORMCHAR="11个依次排列的画表格的符号"缺省值是:
"|----|+|---"。
●TABLE语句
TABLE语句是整个TABULATE过程的核心。
一个TABLE语句最多可定义三个表格表达式。
这三个表达式分别表达了输出表格的页、行和列的有关规定。
当缺省一个表达式时,表示TABLE语句定义了一个二维表格,当缺省两个表达式时,表示TABLE语句定义了一个一维表格。
TABLE语句中所使用的表达式中,页行列的定义用到的操作符有:
星号“*”表示包含关系;空格“”表示并列关系;圆括号“()”表示分组或说明运算次序。
这些操作符的运算顺序为圆括号、星号和空格。
其他常用的符号还有:
逗号“,”表示相邻两个向量的分界;不等号“<>”用于规定分母项;等号“=”用于解释变量统计值或输出格式。
在TABLE语句中可使用的操作数有:
①分类变量或ALL。
分类变量在CLASS语句中定义,在TABLE语句的表达式中引用,ALL用在表达式中表示在输出表格时给出分类的小计和总计值。
②分析变量。
分析变量在VAR语句中定义,在TABLE语句表达式中引用,指定用于作统计计算的变量。
③统计量。
统计量是指在统计学中使用的统计量,如平均值、最小值等,在TABULATE过程中常用的统计量见表6.1。
在TABLE语句中可使用的选择项有:
①MISSTEXT="20个字符以内的字符串",指定用引号内的字符串注明缺失值;②RTS=n,规定行标题的输出宽度,缺省时为行长的四分之一;③BOX=_PAGE_|变量名|"字符串",规定放在行标题上方的框中的文字。
●CLASS语句
CLASS语句用来说明在TABLE语句中引用的分类变量,任何在TABLE语句中出现的分类变量必须事先在CLASS语句中说明。
●KEYLABEL语句
用于注明TABLE语句中各统计参数的标签。
它对所有TABLE语句有效。
在默认的情况时,means过程会输出绝大部分统计量,此时的输出结果如下:
三、应用实例
例6.4已知学生两门课score1和score2的考试成绩,若按性别进行分类,统计出各类学生人数、score1成绩、score1的最高分、最低分和平均值,可用以下程序进行计算:
DATAnew;
INPUTname$sex$score1score2@@;
CARDS;
zhangsanM8099LiuliuF6775pingguoM8998hongshuM5072
liangsiF8889wangdiF4367fangwuF8779mangguoF5656
jianshiF7778liulinM7683
PROCTABULATEFORMCHAR="|-+-+|||+-+";
CLASSsex;
VARscore1;
TABLEsexscore1*(NMEANSTD);
RUN;
输出结果为:
上例中,分类变量为sex,故输出时sex的两个值各占一列。
分析变量score1与统计量N、MEAN和STD是包含关系。
§6.3UNIVARIATE过程
UNIVARIATE过程与MEANS、SUMMARY、TABULATE的功能大同小异,他们都可以可对数值变量进行一般性的统计描述,但UNIVARIATE过程还给出变量的峰度、偏度、众数、中位数、四分位数、数据分布的正态性检验、符号秩检验等。
一、过程格式
PROCUNIVARIATE选择项;
VAR变量表;指定要分析的变量名列
BY变量表;按变量名列分组统计,要求数据集已按该变量名列排序
FREQ变量;表明该变量为分析变量的频数
WEIGHT变量;表明分析变量在统计时要按该变量权重
ID变量表;输出时加上该变量作为索引
OUTPUTOUT=SAS数据集关键字=名称;指定统计量的输出数据集名
关键字=<新变量名列>...指定统计量对应的新变量名
PCTLPTS=<百分位数,...指定需要的百分位数>
PCTLPRE=<新变量名列>];指定所需百分位数对应的输出变量名
二、选择项说明
DATA=数据集该选择项指定PROCUNIVARIATE使用的SAS数据集。
缺省值为最新建立的数据集。
NOPRINT指定抑制产生报表。
PLOT指定给出三幅数据图:
茎叶图(或水平棒图)、盒状图和正态概率图。
FREQ该选择项给出变量值、频数、百分数、累计百分数组成的频数表。
NORMAL指定假设输入数据来自正态分布总体,然后给出统计检验量,并输出统计检验量的端值。
PCDLDEF=1|2|3|4|5指定计算百分位数的方法。
缺省此项,则PCDLDEF=4。
VARDEF=DF|N|WEIGHT或WGT|WDF指定计算方差时的分母。
DF是以自由度N-1做分母;N是以观察值数N做分母;WGT是以权重和做分母;WDF是以权重和减1做分母。
缺省值为VARDEF=DF。
ROUND=舍入单位。
三、过程中常用的统计量关键字
SAS中用关键字来指定所需要的统计量,事实上结果输出中用的就是各种关键字,常用的关键字有:
●基本统计量NMEANSTD(标准误)CVSUMVAR(方差)RANG等(见P57)
●百分位数描述MINP1P5P10Q1MEDIANQ3P90P95P99MAX
●与假设检验有关的统计量STDMEAN(标准误)T
四、过程中的其他语句
OUTPUT语句将UNIVARIATE过程计算的统计量输出到SAS数据集中,并指定其所包含的变量名。
在输出数据集中,OUTPUT语句中关键字后第一个变量的内容是VAR语句中第一个变量的统计量,第二个变量对应VAR语句中第二个变量的统计量等等。
等号后的变量表可较VAR语句中的变量表短。
有效关键字所表示的统计量见表6.1。
VAR语句、BY语句、CLASS语句、WEIGHT语句、FREQ语句和ID语句的用法见MEANS过程。
五、结果解释
Variable=变量名变量标签
Moments和矩有关的统计量Quantiles(Def=5)分位间距统计量
N样本量SumWgts权重总和100%Max最大值99%99%百分位数
Mean均数Sum总和75%Q375%百分位数95%95%百分位数
StdDev标准差Variance方差50%Med50%百分位数90%90%百分位数
Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数10%10%百分位数
USS未校正平方和CSS校正平方和0%Min最小值5%5%百分位数
CV变异系数StdMean标准化均数1%1%百分位数
T:
Mean=0变量总体均数为0的t检验Pr>|T|t检验的p值Range全距
Num^=0变量值非0的例数Num>0变量值大于0的例数Q3-Q1四分位间距
M(Sign)变量总体均数为0的符号检验Pr>=|M|符号检验的p值Mode众数
SgnRank变量总体均数为0的秩和检验Pr>=|S|秩和检验的p值
六、UNIVARIATE过程进行统计检验的计算方法
1.正态检验
若在过程中指定NORMAL选择项时,过程将数据视作取自正态分布的随机样本并给出一个统计检验。
当样本量小于2000时,计算Shapiro-Wilk统计量W,W值在0与1之间,W值越小越拒绝H0假设;当样本容量n大于6时,W的显著水平