SAS学习系列32 协方差分析.docx

资源描述

SAS学习系列32 协方差分析.docx

《SAS学习系列32 协方差分析.docx》由会员分享，可在线阅读，更多相关《SAS学习系列32 协方差分析.docx（19页珍藏版）》请在冰豆网上搜索。

SAS学习系列32 协方差分析.docx

SAS学习系列32协方差分析

32.协方差分析

（一）原理

一、基本思想

在实际问题中，有些随机因素是很难人为控制的，但它们又会对结果产生显著影响。

如果忽略这些因素的影响，则有可能得到不正确的结论。

这种影响的变量称为协变量（一般是连续变量）。

例如，研究3种不同的教学方法的教学效果的好坏。

检查教学效果是通过学生的考试成绩来反映的，而学生现在考试成绩是受到他们自身知识基础的影响，在考察的时候必须排除这种影响。

协方差分析回归分析与方差分析的结合，在做两组和多组均值之间的比较前，用直线回归的方法找出各组因变量Y与协变量X之间的数量关系，求得在假定X相等时的修正均均值，然后用方差分析比较修正均值之间的差别。

简单来说，协方差分析就是扣除协变量的影响，或者将这些协变量处理成相等，再对修正的Y的均值作方差分析。

根据协变量的个数的不同，协方差分析分为一元协方差分析和多元协方差分析。

二、协方差分析需要满足的条件

（1）自变量是分类变量，协变量是定距变量，因变量是连续变量；对连续变量或定距变量的协变量的测量不能有误差；

（2）协变量与因变量之间的关系是线性关系，可以用协变量和因变量的散点图来检验是否违背这一假设；协变量的回归系数（即各回归线的斜率）是相同的，且不等于0，即各组的回归线是非水平的平行线。

否则，就有可能犯第一类错误，即错误地接受虚无假设；

（3）自变量与协变量相互独立，若协方差受自变量的影响，那么协方差分析在检验自变量的效应之前对因变量所作的控制调整将是偏倚的，自变量对因变量的间接效应就会被排除；

（4）各样本来自具有相同方差σ2的正态分布总体，即要求各组方差齐性。

三、基本理论

1.观测值=均值+分组变量影响+协变量影响+随机误差.即

（1）

其中，

为所有协变量的平均值。

注：

在方差分析中，协变量影响是包含在随机误差中的，在协方差分析中需要分离出来。

用协变量进行修正，得到修正后的yij（adj）为

就可以对yij（adj）做方差分析了。

关键问题是求出回归系数β.

2.总离差=分组变量离差+协变量离差+随机误差，

（1）计算总离差平方和时，记

总离差平方和：

最终要检验分组自变量对因变量有无显著作用。

原假设H0：

无显著作用。

假设检验是在H0为真条件下进行，可认为ti=0，则

按最小二乘法原理线性回归可得到β的估计值

记修正的总离差平方和（残差平方和）为Tyy（adj），则

，自由度为n-2

注：

为回归平方和，若

（回归线为水平线），表示协变量x对y无作用，用方差分析就可以解决了。

（2）计算组内离差平方和时，记

组内总离差平方和：

根据协方差分析的基本假设：

各组内回归系数相等（做协方差分析时需要检验这一点），得到组内回归系数βw的估计值

记修正的组内总离差平方和（组内残差平方和）为Eyy（adj）,则

，自由度为n-k-1

其中，

为组内回归平方和，当

时，组内总离差平方和认为完全是由随机因素引起的，Eyy（adj）就是随机为误差。

这里的

是

的加权平均值。

（3）计算分组变量离差平方和Byy（adj），它反映的是各个水平之间的差异。

即，分组变量离差=总离差-协变量离差-随机误差。

于是，就可以进行组间无差异检验了：

3.因此，在做协方差分析前，需要依次做两个假设检验：

（1）协变量对因变量的影响对与各组来说都是相同的，即各组回归系数相等：

;

步骤：

①先按回归系数相等和不相等分别表示模型

并计算出误差平方和

其中，

②计算F值

若F值小于临界值Fα，则说明各组回归系数无显著差异（相等）。

（2）这些相等的回归系数

即采用一元线性回归的显著性检验，

4.协方差分析的步骤

（1）检验数据是否满足假设条件：

正态分布性、方差齐性、线性相关性、平行性；

（2）检验效应因子的显著性；

（3）估计校正的组均值；

（4）检验校正的组均值之间的差异。

（二）PROCGLM过程步

用PROCGLM过程步进行协方差分析，需要注意是不同试验设计时class语句和model语句的写法。

设分类变量为A、B，协变量为X，因变量为Y，则有：

（1）单因素k水平设计的协方差分析模型

classA;

modelAX;

（2）随机区组设计的协方差分析模型

classAB;

modelABX;

（3）两因素析因设计的协方差分析模型

classAB;

modelABA*BX;

例1为了研究两种药物对癫疯病菌的治疗效果，将30名病人随机分成3组，一组使用抗生素A，一组使用抗生素D，另一组作为对照组使用安慰剂。

治疗前和治疗后分别对病人身体的癫疯病菌数量进行了检测，病菌的数量是由每一个病人身体上六个部位病菌感染的程度而定的。

试对该试验研究进行统计分析。

这是完全随机设计资料。

用x表示治疗前病菌数；y表示治疗后病菌数；drug表示用药方式，取值为’A’，’D’，’F’（安慰剂）.

代码：

dataTreatments;

doid=1to10;

dodrug='A','D','F';

inputxy@@;

output;

end;

dropid;

datalines;

116601613

80621310

52731118

1488195

191118182123

64841612

10131914125

61891216

1185171

301591220

;

run;

procsortdata=Treatments;

bydrug;

run;

procprintdata=Treatments;

run;

procunivariatedata=Treatmentsnormal;*检验正态性;

vary;

bydrug;

run;

procdiscrimdata=Treatmentspool=test;*检验方差齐性;

classdrug;

vary;

run;

procregdata=Treatments;*检验线性相关性;

modely=x;

bydrug;

run;

procglmdata=Treatments;*用glm过程，选项drug*x检验平行性;

classdrug;

modely=drugxdrug*x;

run;

procglmdata=Treatmentsplot=meanplot（cl）;

classdrug;

modely=drugx/solution;*选项solution输出回归系数的估计值及其标准误差和假设检验等;

lsmeansdrug/stderrpdiffcovout=adjmeans;

run;

procprintdata=adjmeans;

run;

运行结果及说明（部分）：

Obs

drug

部分原始数据

drug=A

正态性检验

检验

统计量

p值

Shapiro-Wilk

0.924307

0.3943

drug=D

正态性检验

检验

统计量

p值

Shapiro-Wilk

0.869627

0.0990

drug=F

正态性检验

检验

统计量

p值

Shapiro-Wilk

0.96944

0.8856

正态性检验，样本量<2000，SAS建议采用W检验，三个P值都大于α=0.05，故接受原假设H0，即都满足正态性。

DISCRIM过程

分类内协方差矩阵的齐性检验

卡方

自由度

Pr > 卡方

1.551005

0.4605

用DISCRIM过程步进行方差齐性检验，P值=0.4605>α=0.05,故接受原假设H0（方差相等），即满足方差齐性。

drug=A

方差分析

源

自由度

平方和

均方

F值

Pr > F

模型

113.34841

11.23

0.0101

drug=D

方差分析

源

自由度

平方和

均方

F值

Pr > F

模型

283.16532

39.24

0.0002

drug=F

方差分析

源

自由度

平方和

均方

F值

Pr > F

模型

201.02832

6.21

0.0374

用REG过程步（线性回归），检验线性相关性，三个P值都小于α=0.05，故拒绝原假设H0（线性无关），即都线性相关。

源

自由度

I型SS

均方

F值

Pr > F

drug

293.6000000

146.8000000

8.86

0.0013

577.8974030

34.89

<.0001

x*drug

19.6446451

9.8223226

0.59

0.5606

源

自由度

III型SS

均方

F值

Pr > F

drug

8.5025845

4.2512923

0.26

0.7757

564.5675283

34.08

<.0001

x*drug

19.6446451

9.8223226

0.59

0.5606

在GLM过程步的MODEL语句自变量位置加上drug*x,检验平行性（注意前面要有classdrug;否则会报错）。

P值=0.5606>α=0.05,故接受原假设H0（斜率相等）。

GLM过程（因变量:

y）

源

自由度

平方和

均方

F值

Pr > F

模型

871.497403

290.499134

18.10

<.0001

误差

417.202597

16.046254

校正合计

1288.700000

R方

变异系数

根MSE

y 均值

0.676261

50.70604

4.005778

7.900000

模型的总体检验P值<0.0001<α=0.05，R2=0.676261，说明模型有统计学意义，即x和drug对y的联合作用是显著的。

源

自由度

I型SS

均方

F值

Pr > F

drug

293.6000000

146.8000000

9.15

0.0010

577.8974030

36.01

<.0001

I型检验结果（只考虑排第一位的drug对y的影响效应，而没有用x进行修正）P值=0.0010<α=0.05,表明不考虑用药前后的病情情况，三种治疗方法是有显著区别的。

源

自由度

III型SS

均方

F值

Pr > F

drug

68.5537106

34.2768553

2.14

0.1384

577.8974030

36.01

<.0001

III型检验结果（检验drug对y的影响效应时，考虑其它变量x对y的影响，即用x对y做修正）P值=0.1384>α=0.05,表明校正了治疗前的病情状况后，这三种治疗方法是没有显著性区别。

参数

估计值

标准误差

t 值

Pr > |t|

Intercept

-0.434671164

2.47135356

-0.18

0.8617

drugA

-3.446138280

1.88678065

-1.83

0.0793

drugD

-3.337166948

1.85386642

-1.80

0.0835

drugF

0.000000000

0.987183811

0.16449757

6.00

<.0001

参数估计表给出了广义回归模型（GLM）的系数，得到回归方程如下：

最小二乘均值

drug

yLSMEAN

标准误差

Pr > |t|

LSMEAN号

6.7149635

1.2884943

<.0001

6.8239348

1.2724690

<.0001

10.1611017

1.3159234

<.0001

经过协变量x修正的均值及标准误，以及T检验（H0:

LSMEANS=0）的P值。

效应“drug”的最小二乘均值

Pr>|t|（针对H0）:

LSMean（i）=LSMean（j）

因变量:

i/j

0.9521

0.0793

0.9521

0.0835

0.0793

0.0835

PDIFF选项，输出LSMEANS均值比较的P值。

Obs

_NAME_

drug

LSMEAN

STDERR

NUMBER

COV1

COV2

COV3

6.7150

1.28849

1.66022

0.02844

-0.08403

6.8239

1.27247

0.02844

1.61918

-0.04299

10.1611

1.31592

-0.08403

-0.04299

1.73165

输出LSMEANS均值的估计、标准误、方差、协方差到数据集。

例2（多元协方差分析）研究男女儿童的体表面积是否相同。

考虑到儿童的身高和体重对表面积可能有影响，在某地测量了男女各15名初生至3周岁儿童的身高、体重和体表面积，得到测量数据如下：

表26.33周岁男女儿童的身高、体重和体表面积

男（male）

女（female）

身高（x1）

体重（x2）

表面积（y）

身高（x1）

体重（x2）

表面积（y）

54.0

3.00

2446.2

54.0

3.00

2117.3

50.5

2.25

1928.4

53.0

2.25

2200.2

51.0

2.50

2094.5

51.5

2.50

1906.2

56.5

3.50

2506.7

51.0

3.00

1850.3

52.0

3.00

2121.0

51.0

3.00

1632.5

76.0

9.50

3845.9

77.0

7.50

3934.0

80.0

9.00

4380.8

77.0

10.0

4180.4

74.0

9.50

4314.2

77.0

9.50

4246.1

80.0

9.00

4078.4

74.0

9.00

3358.8

76.0

8.00

4134.5

73.0

7.50

3809.7

96.0

13.5

5830.2

91.0

12.0

5358.4

97.0

14.0

6013.6

91.0

13.0

5601.7

99.0

16.0

6410.6

94.0

15.0

6074.9

92.0

11.0

5283.3

92.0

12.0

5299.4

94.0

15.0

6101.6

91.0

12.5

5291.5

代码：

procformat;

valuesexname1='male'

2='female';

datachild;

doi=1to15;

dosex=1to2;

inputx1x2y@@;

formatsexsexname.;

output;

end;

datalines;

54.03.002446.254.03.002117.3

50.52.251928.453.02.252200.2

51.02.502094.551.52.501906.2

56.53.502506.751.03.001850.3

52.03.002121.051.03.001632.5

76.09.503845.977.07.503934.0

80.09.004380.877.010.04180.4

74.09.504314.277.09.504246.1

80.09.004078.474.09.003358.8

76.08.004134.573.07.503809.7

96.013.55830.291.012.05358.4

97.014.06013.691.013.05601.7

99.016.06410.694.015.06074.9

92.011.05283.392.012.05299.4

94.015.06101.691.012.55291.5

;

procglmdata=child;

classsex;

modely=sexx1x2/solution;

lsmeanssex/stderrtdiff;

run;

运行结果及说明（部分）：

源

自由度

平方和

均方

F值

Pr > F

模型

68523072.11

22841024.04

557.41

<.0001

误差

1065399.76

40976.91

校正合计

69588471.87

R方

变异系数

根MSE

y 均值

0.984690

5.131187

202.4276

3945.043

源

自由度

I型SS

均方

F值

Pr > F

sex

714100.41

17.43

0.0003

67440016.92

1645.81

<.0001

368954.79

9.00

0.0059

源

自由度

III型SS

均方

F值

Pr > F

sex

139769.3397

3.41

0.0762

938153.7036

22.89

<.0001

368954.7895

9.00

0.0059

两个协变量x1，x2和一个分组变量sex的完全随机化设计。

P值和R2值表明模型总体显著。

III型检验结果表明，身高、体重对体表面积都有非常显著性的影响（0.0001<0.05，0.0059<0.05），而男、女两性之间无显著性差别（0.0762>0.05）。

参数

估计值

标准误差

t 值

Pr > |t|

Intercept

-1118.730592

497.2296650

-2.25

0.0331

sex’female’

-136.828607

74.0867551

-1.85

0.0762

sex’male’

0.000000

54.477217

11.3853803

4.78

<.0001

130.645108

43.5387744

3.00

0.0059

最小二乘均值

sex

yLSMEAN

标准误差

H0:

LSMEAN=0

H0:

LSMean1=LSMean2

Pr > |t|

t 值

Pr > |t|

’female’

3876.62903

52.32694

<.0001

-1.85

0.0762

’male’

4013.45764

52.32694

<.0001

选项tdiff输出修正后的均值，及其比较的t值和P值。

展开阅读全文