sas第九章t检验和方差分析.docx

资源描述

sas第九章t检验和方差分析.docx

《sas第九章t检验和方差分析.docx》由会员分享，可在线阅读，更多相关《sas第九章t检验和方差分析.docx（24页珍藏版）》请在冰豆网上搜索。

sas第九章t检验和方差分析.docx

sas第九章t检验和方差分析

第九章t检验和方差分析

在科研中，我们往往是根据样本之间的差异，去推断其总体之间是否有差异。

样本差异可能是由抽样误差所致，也可能是由本质的不同所致。

应用统计学方法来处理这类问题，称为“差异的显著性检验”。

若已知总体为正态分布，进行差异的显著性检验，称为“参数性检验”，SAS中MEANS、TTEST、ANOVA、GLM等均属此类检验；若未知总体分布，进行差异的显著性检验，称为“非参数性检验”，SAS中采用NPAR1WAY过程。

第一节t检验

9.1.1简介

t检验是用于两组数据均值间差异的显著性检验。

它常用于以下场合：

1．样本均值与总体（理论）均值差别的显著性检验

检验所测得的一组连续资料是否抽样于均值已知的总体

根据大量调查的结果或以往的经验，可得到某事物的平均数（例如生理生化的正常值），以此作总体均值看待。

SAS中采用MEANS过程，计算出观察与总体均值的差值，再对该差值的均值进行t检验。

2.同一批对象实验前后差异的显著性检验（自身对照比较）或配对资料差异的显著性检验（配对比较检验）

比如，在医学研究中，我们常常对同一批病人治疗前后的某些生理生化指标（如血压、体温等）进行测量，以观察疗效；或对同一批人群进行预防接种，以观察预防效果；或把实验对象配成对进行测定，比较其实验结果。

SAS中采用MEANS过程，计算出两样本观察的差值（如治疗前、后实验数据的差值），再对该差值的均值进行t检验。

3．两样本均值差异的显著性检验

作两样本均值差异比较的两组原始资料各自独立，没有成对关系。

两组样本所包含的个数可以相等，也可以不相等。

每组观测值都是来自正态总体的样本。

设

与

为两样本的均值，

与

为两样本数，

，

为两样本方差，分两种情形，其数学模型为：

（1）方差齐（相等）时：

（2）方差不齐时：

SAS中采用TTEST过程，先作方差齐性检验（F检验），然后根据方差齐（EQUAL）和方差不齐（UNEQUAL）输出t值和P值以及基本统计量。

在作方差齐性检验时，用F检验。

F值计算公式为：

9.1.2用MEANS过程作t检验

1．过程格式

PROCMEANSMEANSTDSTDERRTPRT；

VAR变量表；

2．说明

（1）PROCMEANS语句中，选择了5个统计量：

均值、标准差、标准误差、t值、P值。

（2）VAR语句中的变量是分析变量。

缺省时，计算所有数值型变量。

3．举例

例1:

样本均值与总体均值差别的显著性检验。

已知某水样中含CaCO3的真值为20.7mg／L，现用某方法重复测定该水样11次，CaCO3的含量为：

20.99，20.41，20.10，20.00，20.91，22.60，20.99，20.41，20，23，22。

问用该法测CaCO3的含量所得的均值与真值有无显著差别?

程序：

（yp111.sas）

编程说明：

在数据步中，变量x读取测定值，产生一个差值变量y（y=x-20.7），在过程步中，计算出Y的均值、标准差、标准误差、t值、P值。

结果说明：

因t＝1.0636907，0.05

此法可信。

例2：

配对比较的t检验。

研究食物中维生素E与肝脏中维生素A含量的关系。

将大白鼠按性别、体重配对。

每对随机分配，一个用正常饲料，一个用缺乏维生素E的饲料。

经过一个时期饲养，杀死动物测定肝中维生素A的含量，结果如下表：

大白鼠肝脏中维生素A含量（IU/g）

配对号

正常饲料

3550

2000

3000

3950

3800

3750

3450

3050

缺乏E饲料

2450

2400

1800

3200

3250

2700

2500

1750

程序：

（yp112.sas）

编程说明：

数据步中，把每对数据中的一个作为x，另一个作为y，计算出差数d（d=x-y），在过程步中，计算差数d的均值、标准差、标准误差、t值、P值。

结果说明：

因t=4.21p=0.0040<0.05，故有非常显著差异，即正常饲料组鼠肝维生素A含量比维生素E缺乏组的含量大。

例3自身对照比较的t检验。

应用克矽平治疗矽肺患者10名，治疗前后血红蛋白的含量如下表，问该药是否会引起血红蛋白的变化?

治疗前后血红蛋白的含量（mg%）

治疗前

11.3

15.0

13.5

12.8

10.0

11.0

12.0

13.0

12.3

治疗后

14.0

13.8

14.0

13.5

12.0

14.7

11.4

13.8

12.0

程序：

（yp113.sas）

编程说明：

数据步中，把每对数据中的一个作为x，另一个作为y，计算出差数d（d=x-y），在过程步中，计算差数d的均值、标准差、标准误差、t值、P值。

结果说明：

因t=1.1989377，O.05

9.1.3用TTEST过程作t检验

1．过程格式

PROCTTEST[DATA=数据集]；

CLASS变量；

VAR变量表；

2．说明

（1）CLASS语句中的变量是分类变量，其水平值只能有两个，并对应两组观察。

是必选语句。

（2）VAR语句中的变量是被分析的变量，如果缺省，则对所有的数值型变量进行分析。

3．举例

观察某药物对大白鼠肉瘤的影响。

数据如下表，试作差异性检验。

对照组

实验组

程序：

（yp114.sas）

编程说明：

数据步中，用循环控制变量a作分类变量，其水平值为1（对照组）和2（实验组），变量n表示样本数，分别为10和12，用变量x读取原始数据，在过程步中，用CLASS语句标识分类变量，用VAR语句标识分析变量。

结果说明：

输出的最后：

H0：

Variancesareequal（方差相等）表示给出的是对方差相等假设的结果。

先看方差齐性检验（F检验），然后根据F检验的结果，选择方差齐（Equal）或不齐（Unequal）的t值和p值，以及两组观察的均值、标准差、标准误差、最大值、最小值。

找Prob>F’=右边的值，即方差相等假设检验的P值，如果此值大于0.01则在方差相等假设下继续进行，否则只能使用近似T检验。

因P=0.0074，说明方差差异显著，即方差不齐。

当方差不齐时，T=2.0000，0.05

第二节方差分析

当试验结果受到多个因素的影响，而且也受到每个因素的各水平的影响，为从数量上反映各因素以至各因素诸水平对试验结果的影响时使用方差分析的方法。

方差分析的基本思想是把全部数据关于总均值的离差平方和分解成几个部分，每一部分表示某因素交互作用所产生的效应，将各部分均方与误差均方相比较，从而确认或否认某些因素或交互作用的重要性。

用公式概括为：

总变异＝组间变异+组内变异

其中：

组间变异由各因素所引起，组内变异由个体差异所引起的，或者说由误差引起的。

常用的方差分析法有以下4种：

（1）完全随机设计资料的方差分析（单因素方差分析）

（2）随机区组设计资料的方差分析（二因素方差分析）

（3）拉丁方设计资料的方差分析（三因素方差分析）

（4）R*C析因设计资料的方差分析（有交互因素的方差分析）

SAS系统中，ANOVA过程可以处理以上情形的方差分析，但它要求每个分类因子的组合观察数相等，即数据是均衡的。

若不均衡，就要求用GLM过程进行处理。

在只考虑组间变异和误差变异时，称为单向方差分析。

此时ANOVA会自动处理均衡和非均衡数据。

在方差分析中，每次只研究1个指标时，称之为一元方差分析（简称ANOVA），同时考虑多个指标时，称之为多元方差分析（MANOVA）。

在这一节里，我们还将讨论协方差分析。

9.2.1均衡数据的方差分析（ANOVA过程）

1．过程格式

PROCANOVA选项

CLASS变量表；

MODEL因变量表=效应；

MEANS效应[／选择项]；

2．使用说明

（1）程序中，CLASS语句和MODEL语句是必需的，而且，CLASS语句必须出现在MODEL语句之前。

（2）CLASS语句中的变量是分类变量，可以是数值型，也可以是字符型。

（3）MODEL语句指明因变量和自变量（因子变量）效应。

效应是分类变量的各种组合，效应可以是主效应、交互效应、嵌套效应和混合效应。

对应的效应模型如下：

·主效应模型MODELy=abc；

模型中，a，b，c是主效应，y是因变量。

下同。

·交互模型MODELy=abca*ba*cb*ca*b*c；

模型中，a*b，a*c,b*c，a*b*c是交互效应。

·嵌套效应模型MODELy=abc（ab）；

模型中，c（ab）是嵌套效应。

·混合效应模型MODELy=ab（a）c（a）b*c（a）；

（4）MEANS语句是选择语句，计算并输出所列的效应对应的因变量均值，若指明了选择项，则将进行主效应均值间的检验。

常用的选择项如下：

BON、DUNCAN、LSD、REGWF、REGWO、SNK（Q检验）、SCHEFFE、SIDAK、SMM（GT2）、TUKEY、WALLER。

以上选择项在实际

应用中，一般选择一种或两种方法即可。

ALPHA=p确定检验的显著性水平。

缺省值是0.05。

3．举例

（1）完全随机设计资料的方差分析（单因素方差分析）

某劳动卫生研究所研究棉布、府绸、的确凉、尼龙四种衣料吸附十硼氢量。

每种衣料各做五次测量，所得数据如下表。

试检验各种衣料吸附十硼氢量有没有显著差别?

各种衣料间棉花吸附十硼氢量

棉布

府绸

的确凉

尼龙

2.33

2.48

3.06

4.00

2.00

2.34

3.06

5.13

2.93

2.68

3.00

4.61

2.73

2.34

2.66

2.80

2.33

2.22

3.06

3.60

程序：

（yp115.sas）

编程说明：

数据步中，用循环控制变量a做分类变量，其水平数是4，分别代表不同的衣料。

过程步中，用CLASS语句指明一个因素a，用MODEL语句反映出该因素的效果模型。

结果说明：

在输出中，找CLASS语句指出的变量的P值。

此例中，P≤0.0003，可得出各衣料组间有非常显著差异。

说明各种衣料间吸附十硼氢量是不同的。

R-Square（R平方）对单向方差分析时，描述组间变异占总变异的比例，它越接近1，说明变异越归因于组间变异。

（2）随机区组设计资料的方差分析（两因素方差分析）

用4种不同方法治疗8名患者，其血浆凝固时间的资料如下表，试分析影响血浆凝固的因素。

表：

4种方法8名患者血浆凝固时间（分）资料

受试者编号（区组）

处理组

8.4

9.4

9.8

12.2

12.8

15.2

12.9

14.4

9.6

9.1

11.2

9.8

8.8

9.9

12.0

8.4

8.2

8.5

8.6

9.9

9.8

10.9

8.9

9.0

9.2

10.4

7.9

8.1

8.2

10.0

程序：

（yp116.sas）

编程说明：

数据步中，变量a代表不同治疗方法，其水平数是4，变量b代表区组因素不同患者，其水平数是8。

过程步中，用CLASS语句指明两个因素a和b，用MODEL语句指明二因素的效果模型。

结果说明：

总处理间：

F＝14.03，P≤O.0001，故总体有非常显著差异。

A因素：

F=6.62，P≤O.0025，故认为因素A（治疗方法）对血浆凝固时间影响很大。

B因素：

F=17.20，P≤0.0001，故认为因素B（不同患者）对血浆凝固时间影响很大。

如果想对4种治疗方法进行两两比较，可在MODEL语句后增加一MEANS语句。

例如，用SNK法比较，语句为：

MEANSA／SNK；（yp117.sas）

（3）拉丁方设计资料的方差分析（三因素方差分析）

若试验中涉及到3个因素，各因素间不存在交互作用，或交互作用很小可忽略不计，同时各因素的水平数又都相同，此种资料称拉丁方设计资料。

例：

五种防护服，由五人各在不同的五天中穿着测定脉博数，如下表所示。

试比较五种防护服对脉搏数有无不同。

表：

五人穿着五种防护服的脉搏数

试验日期

受试者

甲

乙

丙

丁

戊

A12.98

B116.2

C114.8

D104.0

E100.6

B144.4

C119.2

D113.2

E132.8

A115.2

C143.0

D118.0

E115.8

A123.0

B103.8

D133.4

E110.8

A114.0

B98.0

C110.6

E142.8

A110.6

B105.8

C120.0

D109.8

程序：

（yp118.sas）

编程说明：

数据步中，变量a代表试验时间因素，变量b代表受试者因素，变量C代表防护服因素。

过程步中，用CLASS指明三个因素，MODEL语句反映三个因素的效果模型。

结果说明：

因F=6.80P≤0.0011，故总体有非常显著差异，其中只有一个区组B因素（受试者）影响极大（F=16.27P≤0.001），而区组A因素（试验时间）和处理因素（防护服）都无显著差异。

（4）R*C析因设计资料的方差分析（有交互因素的方差分析）

治疗缺铁性贫血病人12例，分为4组给予不同治疗，一个月后观察红细胞增加数（百万／mm），资料如下表。

试分析两种药物对红细胞增加的影响。

表：

贫血病人治疗后红细胞增加数

甲药（A）

不用（A0）

用（A1）

乙药（B）

不用（B0）

0.8

0.9

0.7

1.3

1.2

1.1

用（B1）

0.9

1.1

1.0

2.1

2.2

2.0

程序：

（yp119.sas）

编程说明：

数据步中。

变量a代表甲药因素．变量b代表乙药因素。

过程步中，用CLASS语句指明两个因素，用MODEL语句反映主效应（ab）和交互效应（a*b）模型。

结果说明：

因F=98.75，P=0.0001<0.01，故总体有非常显著差异，其中A因素（甲药）、B因素（乙药）、a*b因素（a和b的交互作用）都对红细胞增加数有非常大的影响。

为进一步分析其影响的强弱，可用MEANS语句：

MEANSaba*b：

（yp120.sas）

（5）用Dunnet法进行均值间的比较（对照组与多个实验组的比较检验）。

Dunnett方法在比较若干“实验水平”与“对照水平”时使用一个临界差距（T）：

，其中ms为将方差分析表中交互效应归入残差平方和后的均方，即：

n为样本大小,q为来自Dunnett分布的分位数，可根据样本组个数r，自由度df（交互效应df+残差df），以及比较的显著水平

，查表确定。

Dunnett多重比较仅适用各“实验水平”与“对照水平”之间差异的比较，不适用于各“实验水平”间的相互差异比较。

例：

有资料如下表，试比较白血病鼠与正常鼠脾中DNA平均含量（mg／g）差别有无显著意义?

表；白血病鼠与正常鼠脾中DNA平均含量（mg／g）

脾中DNA平均含量（mg／g）

A正常鼠（对照组）

12.3

13.2

13.7

15.2

15.4

15.8

16.9

B1自发性白血病鼠

10.8

11.6

12.3

12.7

13.5

14.8

B2移植性白血病鼠

9.8

10.3

11.1

11.7

12.0

12.3

程序：

（yp121.sas）

编程说明：

数据步中，变量a代表因素。

过程步中，用MODEL语句指明一因素的效果模型，用MEANS语句进行a因素水平间的Dunnett法比较。

结果说明：

因F=11.42，P≤0.0006，故总体或A因素各水平间有非常显著差异。

当A因素有意义时，可进一步分析组间的差异。

Dunnet法检验时，用“***”指明有显著性，由此可以看出，两组均值（A=2，A=3）与对照组（A=1）相比较，差别有显著意义。

若改换对照组，假设是第2组（A=2）。

应修改选择项DUNNETT（‘2’）。

输出中给出DUNNETt的临界值为2.399、A3与A1均值之差为-1.9，其95％置信限的下限和上限分别为-3.597和-O.203。

（6）用SNK法（Q检验）作均值间的两两比较。

为研究酵解作用对血糖浓度的影响，从8名健康人中抽取了血液并制备成血滤液。

每一个受试者的血滤液又分成4份，然后随机地把各份血滤液分别放置0、45、90、135分钟后测定其中血糖浓度（资料见下表）。

试比较放置时间对血糖浓度有无影响。

表：

放置时间对血糖浓度的影响

受试者编号（区组号）

放置时间（分）

135

106

105

102

112

101

105

103

程序：

（yp122.sas）

编程说明：

数据步中，变量a代表受试者因素，变量b代表放置时间因素。

过程步中，作二因素的方差分析，用CLASS指明二个因素a和b，用MODEL语句指明二因素的效果模型，用MEANS语句对因素b作SNK检验（Q检验）。

结果说明：

因F=43.66,P≤0.0001，故总体有非常显著差异。

因F=28.74,P≤O.0001，说明因素A（受试者）对血糖浓度有很大影响。

因F=78.49,P≤0.000l，说明因素B（放置时间）对血糖浓度有很大影响。

对B因素各组均值作SNK法比较检验:

经SNK检验，可以看出：

由于O和45分钟的均值间用同一字母A分组，故无显著差别（Meanswiththesameletterarenotsignificantlydifferent），其余都有显著差别。

9.2.2.非平衡数据的方差分析（GLM过程）

在SAS／STAT中GLM（GeneralLinearModels）过程分析功能最多。

它包括：

Ø简单回归（一元回归）

Ø加权回归

Ø多重回归及多元回归

Ø多项式回归

Ø方差分析（尤其对不平衡设计资料更为有效）

Ø偏相关分析

Ø协方差分析

Ø多元方差分析

Ø反应面模型分析

Ø重复测量方差分析

这里，我们先介绍有关GLM过程在方差分析中的应用。

GLM过程里，采用MODEL语句反映因变量与自变量（即效应）的模型，其形式是：

模型说明

模型类型

MODELY=ABC

主效应

MODELY=ABA*B

交互效应

MODELY=ABA（B）

嵌套效应

MODELY1Y2=AB

多元方差分析

MODELY=AX

协方差分析

其中A，B，C是分类变量；X，Y是连续型变量。

前面介绍的ANOVA过程只能用于平衡设计资料（每个分类因子的组合观察数相等）的方差分析，当不平衡时，只能用GLM过程。

1．过程格式

PROCGLM；

CLASS变量表；

MOIDEL因变量一效应；

MEANS效应／[选择项]；

RUN；

2．使用说明

（1）程序中，CLASS语句和MODEL语句是必需的，而且CLASS语句必须出现在MODEL语句之前。

（2）CLASS语句中的变量是分类变量，可以是数值型，也可以是字符型。

（3）MODEL语句指明因变量和自变量（因子变量）效应，其效应可以是主效应、交互效应、嵌套效应和混合效应。

对应的效应模型同ANOVA过程中效应模式相同。

（4）MEANS语句是选择语句，计算所列的效应对应的因变量均值，若指明了选择项，则将进行主效应均值间的检验。

常用的选择项如下：

BON、DUNCAN、LSD、REGWF、REGWQ、SNK（Q检验）、SCHEF、SIDAK、SMM

（GT2）、TUKEY、WALLER、DUNNETT（1-n检验）

以上选择项在实际应用中，一般选择一种或两种方法即可。

ALPHA=p给出检验的显著性水平。

缺省值是0.05。

3．举例

（1）单因素方差分析

健康男子各年龄组淋巴细胞转化率（％）如下表，问各组淋巴细胞转化率的均值之间的差异是否显著?

表：

健康男子各年龄组淋巴细胞转化率（％）

11～20岁

58616162636870707478

41～50岁

545757586060636466

61～75岁

4352555660

程序：

（yp123.sas）

编程说明：

变量a代表年龄组因子，有3个水平值；变量n代表各组例数。

过程步中，用CLASS语句指明因素为分类变量a，用MODEL语句指明单因素的效果模型。

结果说明：

因F=9.77,P=0.001<0.05，故总体或A因素各水平间有非常显著差异。

即说明各年龄组的淋巴细胞转化率有显著差异。

（2）二因素方差方析

对下表中的假设数据作二因素方差分析。

因素B

因素A

3.3

2.6

1.5

3.6

3.1

1.9

0.8

1.6

3.2

2.6

5.2

4.7

2.2

1.3

4.2

4.3

5.3

2.8

2.0

2.9

4.4

3.8

4.4

5.1

3.9

2.9

3.1

2.9

3.5

4.9

2.5

4.8

4.6

5.6

3.9

3.0

程序：

（yp124.sas）

编程说明：

数据步中，变量a代表因素a，其水平数是2，变量b代表因素b，其水平数是3，变量n是每组的重复次数。

过程步中，用CLASS语句指明两个因素a和b，用MODEL语句指明带有交互影响二因素的效果模型。

结果说明：

通常GLM过程按两种方法输出各因素所引起的离差平方和（TypeISS，TypeⅢSS）。

TypeISS按累积效应（有交

展开阅读全文