SAS备课笔记非参数检验.docx

资源描述

SAS备课笔记非参数检验.docx

《SAS备课笔记非参数检验.docx》由会员分享，可在线阅读，更多相关《SAS备课笔记非参数检验.docx（16页珍藏版）》请在冰豆网上搜索。

SAS备课笔记非参数检验.docx

SAS备课笔记非参数检验

非参数检验

非参数统计分析方法（Non-parametricstatistics）是相对参数统计分析方法而言的，又称为不拘分布（distribution-freestatistics）的统计分析方法或无分布形式假定（assumptionfreestatistics）的统计分析方法。

其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等，它们分别对应不同设计类型的资料。

SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成，从过程名字就可以看出，在此过程的处理进程中，只能一次指定一个因素进行分析。

下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。

一、npar1way过程语句格式简介

npar1way过程属于SAS的STAT模块，对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。

Npar1way过程的基本语句格式如下。

PROCNPAR1WAY<选项>;

BY变量名;

CLASS变量名;

EXACT统计量选项;

FREQ变量名;

OUTPUT<选项>;

VAR变量名;

RUN;

QUIT;

Procnpar1way语句标志npar1way过程的开始，默认情况下（不列举任何选项）：

npar1way过程对最新创建的数据集进行分析，将缺失数据排除在分析过程之外；执行方差分析过程（等同于ANOVA选项），对样本分布位置的差异进行检验（与选项WILCOXON,MEDIAN,SAVAGE以及VW等效），并进行经验分布函数检验（等同于EDF选项）。

此语句后可用的选项见下表。

Procnpar1way语句选项及其含义

选项名称

选项功能或含义

运用Ansari-Bradley评分进行分析

DATA=数据集名

指定要进行分析的数据集

MEDIAN

运用中位数评分进行分析，即进行中位数检验

NOPRINT

禁止所有的输出，用在仅需要创建输出数据集时

运用Siegel-Tukey评分进行分析

ANOVA

对原始数据进行方差分析

EDF

要求计算基于经验分布的统计量

MISSING

指定分组变量的缺失值为一有效的分组水平

SAVAGE

运用Savage评分进行分析

运用VanderWaerden评分进行分析计算

CORRECT=NO

在两样本时，禁止Wilcoxon和Siegel-Tukey检验的连续性校正过程

KLOTZ

运用Klotz评分进行分析

MOOD

运用Mood评分进行分析

SCORES=DATA

以原始数据为评分值进行分析

WILCOXON

对两样本进行Wilcoxon秩和检验，对多样本进行Kruskal-Wallis检验

1.exact语句

exact语句要求SAS对指定的统计量（选项）进行精确概率的计算。

其后的统计量选项可为以下项目，分别对应相应的统计计算方式（可参见上表）。

AB，KLOTZ，KS，MEDIAN，MOOD，SAVAGE，SCORES=DATA，ST，WILCOXON，VW等。

运算选项为精确概率的计算过程指定一些控制项目，如选项“mc”要求以MonteCarlo方法计算精确概率。

2.output语句

output语句与其它过程中相应的语句大同小异，不同之处在于语句最后的选项。

此处的选项绝大多数包括在上表中，指定在输出数据集中包含所指定项目所对应的统计量。

3.var语句

var语句用以指定要进行分析的变量，变量必须为数值型。

若省略此语句，SAS将对除by语句、class语句以及freq语句中指定的变量之外的所有数值型变量进行分析。

二、不同类型资料的非参数检验方法

1.两独立样本差别的秩和检验

两独立样本的非参数检验是在对总体分布不了解的情况下，通过分析样本数据，推断样本来自的两个独立总体的分布是否存在显着差异，一般来说是推断两个独立总体的均值或中位数是否存在显着差异。

关于样本是否为独立的，主要看在一个总体中抽取样本对在另一个总体中抽取样本有无影响。

如果没有影响，则可以认为这两个总体是独立的。

零假设

：

样本来自的两独立总体的分布没有显着差异

检验方法有多种：

（1）两独立样本的威克逊等级和检验（Wilcoxon秩和检验），也被称为Mann-WhitneyU检验。

曼-惠特尼U检验（Mann-WhitneyU），该检验主要是通过对平均秩的研究来实现推断的。

其基本思路是：

首先，将两组样本数据

和

混合并按升序排序（m和n分别为两组样本的样本容量，求出每个数据各自的秩

；然后，分别对

和

的秩求平均，得到两个平均秩

和

，如果这两个平均秩相差甚远，则倾向于拒绝零假设。

（2）两独立样本的K-S检验（Kolmogorov—SmirnovZ），该检验首先将两组样本混合并按升序排序；然后，分别计算两组样本秩的累计频数和每个点上的累计频率；最后，将两个累计频率相减，得到差值序列数据。

（3）沃尔德—沃尔福威茨游程检验（Wlad-Wolfwitzruns），该检验将两组样本混合并按升序排序，在数据排序的同时，两组样本的每个观察值对应的样本组标志值序列也随之重新排列；然后，对这个标志值序列求游程。

如果样本所属的两总体的分布形态存在较大差距，那么计算出的游程数会相对比较小。

如果游程数比较大，则应该是由于两样本数据充分混合的结果，那么它们的分布应该不存在显着差异。

【例1】下表为来自两个样本A、B的测量数据，经检验知两样本方差不齐，试做非参数检验比较两组数据的差别。

两独立样本A、B测量数据

A组

B组

【程序】对该资料，应选用Wilcoxon秩和检验（ranksumtest）方法，编制SAS程序如下：

datasasuser.data10_01;

dog=1to2;

inputx@@;

output;

end;

datalines;

731452263610

4017481863209839

;

procnpar1waywilcoxon;

classg;

varx;

run;

程序中因素“g”分组因素，“1”代表A组，“2”代表B组，“x”为待分析的变量。

Procnpar1way语句后的选项“Wilcoxon”指定SAS进行Wilcoxon秩和检验。

【结果】

SAS给出两组数据的基本信息（样本量、秩和等）；给出在零假设下各组统计量（Sumofscores项）的期望值（ExpectedUnderH0项）及标准差（StdDevUnderH0项），最后还给出以近似z检验以及近似t检验所得的统计量和所对应的单、双侧概率值。

另外，默认状态下，SAS同时给出Kruskal-Wallis检验的结果。

所不同的是，在两样本量相同时，SAS以秩和较大者作为对象统计量进行概率值的计算，而非医学统计学教材上所说的以较小秩和为对象统计量。

在两样本量不同时，SAS以样本量较小组的秩和为对象统计量，这一点则与教材上的相同。

如果去掉“wilcoxon”：

datasasuser.data10_01;

dog=1to2;

inputx@@;

output;

end;

datalines;

731452263610

4017481863209839

;

procnpar1way;

classg;

varx;

run;

则SAS给出所以方法的执行结果：

【例2】为了鉴别新旧两种生产方法对生产效率的影响，随机抽取了22人用旧生产方法生产，25人用新生产方法生产，每人平均日产量（件）资料如下：

旧方法：

20312718102639454124222314113237404649555419

新方法：

36393125262820212421585556413749444012161524232811

问两种方法对日产量影响有无显着差异（

）?

【数据摆放】

【程序】

procnpar1waydata=sasuser.data10_02wilcoxom;

classg;

varx;

run;

【运行结果】

【例3】用某药治疗不同病情的老年慢性支气管炎病人,疗效见下表，比较该药对两种病情的疗效。

某药对两种不同病情的支气管炎疗效

疗效

单纯型

单纯型合并肺气肿

控制

显效

有效

近控

【程序】对于此例，将疗效看成待分析的变量x，从“控制”到“近控”分别对其赋值1、2、3、4，病情则作为分组因素，同时需引入一个频度因素f，以代表不同取值状态下x的频数。

编制程序如下：

datasasuser.data10_03;

dox=1to4;

dog=1to2;

inputf@@;

output;

end;

datalines;

654218630231311

;

procnpar1waywilcoxon;

classg;

varx;

freqf;

run;

【结果】程序和前例的基本相同，只根据资料特点增加了freq语句。

提交程序，运行结果如下。

2.配对设计资料的秩检验

配对设计资料一般采用配对t检验方法进行分析，但若配对数据差数的分布非正态分布，但其总体分布基本对称，则可采用Wilcoxon符号秩检验（signedranktest）作为配对t检验的替代方法。

Wilcoxon符号秩检验功效很高，在数据满足配对t检验的要求时，符号秩检验的功效可达配对t检验功效的95%。

SAS中符号检验（signtest）和符号秩检验的功能不是在npar1way过程中实现，而是通过univariate过程来实现的。

可能因为这两项功能涉及的是关于单变量分析的缘故。

【例4】采用配对设计，用某种放射线的A，B两种方式分别局部照射家兔的两个部位，观察放射性急性皮肤损伤程度，结果见下表。

试用符号秩检验比较A，B的损伤程度是否不同。

家兔皮肤损伤程度

编号

方式A

方式B

【程序】

datasasuser.data10_4;

inputx1x2;

d=x1-x2;

datalines;

3955

4254

5155

4347

5553

4563

2252

4844

4048

4555

4032

4957

;

procunivariateloccount;

vard;

run;

此例中，我们须对两次测得数据的差值进行单变量分析，所以数据步中用到赋值语句“d=x1-x2；”。

Univariate过程在默认状态下即给出关于待分析变量的符号检验以及符号秩检验结果，“procunivariate”语句后的“loccount”选项指定SAS给出样本数据在系统指定位置参数（默认值为0）两侧的分布情况，即相当于对符号检验结果的进一步描述。

提交执行以上程序，结果如下。

此结果大家应当比较熟悉（删去了其余关于参数检验的部分），注意标有“TestsforLocation:

Mu0=0”的部分，即为我们所要的结果，其中第一行为参数检验的t检验结果，后两行则分别为符号检验以及符号秩检验的分析结果。

标有“LocationCounts:

Mu0=0.00”的部分是关于样本分布情况的描述，本例为3个受试对象的差值大于零，9个小于零。

大家需要注意，这里的符号秩检验计算所得的秩和与我们在教科书上看到的结果不同（教科书上计算的统计量即秩和T=10），应是所依据的算法不同所致，但所得的P值是相同的，不会影响分析的结果。

【例5】有两家公司设计了他们自已的智商测验方法，一位心理学家随机地选取13个人同时接受这两种测验方法，结果如下表所示。

试在0.05的显着水平下，检验是否可宣称这两种方法无显着差异。

序号

方法一

111

102

108

105

100

125

117

方法二

105

103

113

112

109

107

103

104

106

【数据摆放】

【程序】

【结果】

检验方法简介：

1.符号检验（Sign），该方法利用正、负符号的个数多少来进行检验。

首先，将第二组样本的各个观察值减去第一组样本对应的观察值，如果得到差值是一个正数，则记为正号；差值为负数，则记为负号；然后计算正号的个数和负号的个数，通过比较正号的个数和负号的个数来判断两组样本的分布。

如果正号的个数和负号的个数大致相当，则可以认为两相关样本数据分布差距较小；正号的个数和负号的个数相差较多，可以分为两相关样本数据分布差距较大。

符号检验得名于其资料是用加减号而不是用定量度量。

它对于那些不能或不适宜用定量测量而能将每一对的两个成员分出等级的问题研究特别有用。

2.符号平均秩检验（Wilcoxon），该检验首先按照符号检验的方法，将第二组样本的各个观察值减去第一组样本对应的观察值，如果得到差值是一个正数，则记为正号；差值为负数，则记为负号，同时保存差值的绝对值数据；然后将绝对差值数据按升序排序，并求出相应秩；最后分别计算正号秩总和、负号秩总和以及正号平均秩和负号平均秩。

如果正号平均秩和负号平均秩大致相当，则可以认为两相关样本数据正负变化程度基本相当，分布差距较小。

Wilcoxon检验在行为科学的研究中应用极为广泛。

3.完全随机设计多组数据分布位置差别的秩和检验

这一部分的内容相当于参数检验中的方差分析，依据的方法是Kruskal-Wallis秩和检验，此方法的基本思想与Wilcoxon秩和检验基本相同，都是基于各组混合编秩后，各组秩和应相等的假设。

两者的不同点就在于Kruskal-Wallis秩和检验是针对多组（大于2）数据的分析，而Wilcoxon秩和检验则只用于对两组数据的比较。

【例6】为研究精氨酸对小鼠截肢后淋巴细胞转化功能的影响，将21只小鼠分等分成3组：

A组为对照，B组为截肢组，C组为截肢加精氨酸治疗组。

观测脾淋巴细胞对HPA刺激的增值反应，测量指标是3H吸收量（cpm），数据如下表所示，试分析各组测量值是否不同。

脾淋巴细胞对HPA刺激的增值反应（测量指标3H吸收量cpm）

A组

B组

C组

3012

2532

8138

9458

4682

2073

8419

2025

1867

9580

2268

885

13590

2775

6490

12787

2884

9003

6600

1717

医学统计学教科书上对于此类资料分析方法的介绍虽与两组数据比较的方法有所区别，统计量的计算方法和结果也各不相同，但在SAS中，对这两类资料进行分析的操作过程却是基本相同的，大家可以从相应的SAS程序中看到这一点。

【SAS程序】

datasasuser.data10_06;

don=1to7;

dog=1to3;

inputx@@;

output;

end;

datalines;

301225328138

945846822073

841920251867

95802268885

1359027756490

1278728849003

660017170

;

procnpar1waywilcoxon;

classg;

varx;

run;

【结果】

第一部分是“WilcoxonScores（RankSums）forVariablex”，第二部分是“Kruskal-WallisTest”秩和检验分析结果，而P值的计算这里所依据的是卡方分布。

【例7】假设有个地区的领导想要比较该地区四个村的各户的人均年收入水平，于是在这四个村中随机抽取样本，计算各户的人均收入，得到下表中的24个数据。

分析这四个村的年收入是否存在显着差异。

（α=0.05）

四个村六户人家的年收入水平

村1

768

952

870

940

1003

500

村2

996

896

785

875

936

1200

村3

789

759

752

658

635

800

村4

892

698

651

678

895

925

【程序】

procnpar1waydata=sasuser.data10_07wilcoxon;

classg;

varincome;

run;

【结果】

三、几条重要提示

1.Npar1way过程对于缺失值（missingvalue）的处理

如果缺失值出现在反应变量（var语句指定的变量），npar1way过程会将该条记录排除在分析之外。

默认情况下，npar1way过程也会将分类变量中出现缺失值的记录排除出分析过程。

如果指定选项“missing”，npar1way过程则将分类变量中出现的缺失值当作一个单独的水平进行处理。

对于by语句中指定的变量，缺失值将被默认地当作一个独立水平进行处理。

对于freq语句中指定的变量，出现缺失值的记录一定会被排除出分析过程。

2.npar1way过程对于同秩（ties）问题的处理方式

Npar1way过程处理同秩问题的方式在任何一种非参数检验方法中均相同，即无论相同秩次的记录出现在同一组或不同的组中，均给它们分配相应的平均秩次，再根据这些平均秩次进行各种计算，跟教科书上介绍的方法一样。

npar1way过程对于此问题的处理到此为止，不像教科书上介绍的那样对计算所得的统计量再进行某种校正。

对于相同秩次出现较少的数据，这一点对分析的结果影响不大，但对于同秩现象较多的数据，分析结果的偏差就不容忽视，尤其是对于那些近似检验来说更是如此。

处理这一问题的理想办法就是计算精确概率，npar1way过程提供了实现这一功能的途径，即exact语句。

均值比较的方法与程序

检验法

独立组

配对组

参数检验

独立样本t检验

对应程序：

Procttest（data=数据集）；

Class分组变量名；

Var因变量名；

Run；

配对差值t检验

对应程序：

Dif=m-f

Procunivariate（data=数据集）；

Var因变量名（Dif）；

Run；

非参数检验

Wilxonxon秩和检验

对应程序：

Procnpar1way（data=数据集）Wilcoxon；

Class分组变量名；

Var因变量名；

Run；

Wilxonxon秩和检验

对应程序：

Dif=m-f

Procunivariate（data=数据集）；

Var因变量名（Dif）；

Run；

某瓶装纯净水厂商生产的产品标称净含量为600ml，现质量监督管理部门对该产品是否合格进行抽检，得到表5-1所示的抽检数据（详见Water.sas7bdat）。

试根据抽检结果对该产品质量进行评价。

procunivariatedata=sasuser.watermu0=600;

varNet;

run;

某调查公司在某项调查中收集到76个观测值的样本数据（详见KS.sas7bdat）。

试分析该数据的总体分布是何种分布。

procunivariatedata=sasuser.KSnoprint;

varObserved;

histogram/noplot

nornal（mu=estsigma=est）

lognormal（zeta=estsigma=esttheta=est）

exponential（sigma=esttheta=est）

weibull（sigma=estc=esttheta=est）;

run;

【练习1】某个厂家在生产过程中需要使用某种原材料，有两个供货商所报价格有差异，但都称其提供的原材料能够达到生产厂家的技术指标。

随机抽取这两个供货商的产品，实验得到其技术参数，数据如下表所示。

问这两个供货商提供的产品是否有显着差异（α=0.05）？

两个供应商提供原料的技术指标

供应商1

供应商2

（两独立样本的非参数检验）

【程序】

procnpar1waydata=sasuser.data10_08wilcoxon;

classg;

varx;

run;

【结果】

【练习2】某省的跳高队采用一种新的训练方法训练运动员，训练前后的成绩如下表，问这种新的训练方法能否显着提高运动员的跳高水平（α=0.05）？

运动员训练前后的成绩

训练前

1.78

1.92

1.89

1.96

1.85

1.79

1.85

1.89

1.90

训练后

1.80

1.92

1.95

1.99

1.89

1.97

1.95

1.90

2.00

（两配对样本的非参数检验）

【程序】

procunivariatedata=sasuser.data10_09loccount;

vard;

run;

【结果】

【练习3】问三个不同厂家生产的灯泡使用寿命是否存在显着差异（α=0.05）。

随机抽取三个厂家生产的灯泡若干，实验得到使用寿命，数据如下表所示。

灯泡寿命

厂家

灯泡寿命

厂家

灯泡寿命

厂家

675

649

689

682

680

682

691

630

634

670

650

655

650

646

666

693

651

667

650

620

656

展开阅读全文