SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx

上传人:b****5 文档编号:20281141 上传时间:2023-01-21 格式:DOCX 页数:26 大小:696.97KB
下载 相关 举报
SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx_第1页
第1页 / 共26页
SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx_第2页
第2页 / 共26页
SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx_第3页
第3页 / 共26页
SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx_第4页
第4页 / 共26页
SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx_第5页
第5页 / 共26页
点击查看更多>>
下载资源
资源描述

SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx

《SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx》由会员分享,可在线阅读,更多相关《SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx(26页珍藏版)》请在冰豆网上搜索。

SAS学习系列29 方差分析ⅡANOVAGLM过程步Word文档格式.docx

waller——对所有主效应均值进行Waller-Duncan的k比率检验;

……

alpha=p——设置显著水平;

clm——对变量的每个水平的均值按置信区间形式输出;

e=效应变量——指定在多重对比检验中所使用的误差均方。

默认使用残差均方。

指定的效应变量必须是在model语句中出现过的;

kratio=值——给出Waller-Duncan检验的类型1/类型2的误差限制比例。

Kratio的合理值为50、100(默认)、500,大约相当于两水平时alpha值为0.1、0.05、0.01.

hovtest——要求输出组间方差齐性的Levene检验;

(5)TEST语句指定效应变量(H=)和误差变量(E=)做F检验,误差变量必须要指定且只能指定1个效应变量。

默认是用残差均方作为误差项对所有平方和(SS)计算F值。

例1来自四个地区少女篮球队队员身高的数据,变量包括地区、身高(C:

\MyRawData\GirlHeights.dat):

读入数据,做单因素(身高)方差分析,判断她们的身高是否存在显著性地区差异。

代码:

dataheights;

infile'

c:

\MyRawData\GirlHeights.dat'

inputRegion$Height@@;

run;

*UseANOVAtorunone-wayanalysisofvariance;

procanovadata=heights;

classRegion;

modelHeight=Region;

meansRegion/SCHEFFE;

title"

Girls'

HeightsfromFourRegions"

运行结果及说明:

CLASS语句中分类变量有4个不同的水平值,共64个观测值;

因变量Height的方差分析表,因变量的总平方和(1030.000)、属于模型部分的平方和(196.625)、属于误差部分的平方和(833.375),自由度为(3,60,63),模型的均方MS(65.541667),误差的均方MSE(13.889583),F值=MS/MSE=4.72,P值=0.0051<

α=0.05,否定原假设,即不同地区Height的均值不全相等(至少有两个不相等)。

R2=196.625/1030.000=0.90898,

变异系数CV=6.134771=100×

根MSE/Height均值(%),

因变量的标准差(根MSE)为3.726873

效应变量Region的方差分析表,同因变量的方差分析表中“模型”行。

下面是默认输出的盒形图:

Levene的方差齐性检验结果(0.4514>

0.05)表明:

不能拒绝不同地区身高的方差是相等的原假设。

MEANS语句中的SCHEFFE选项,比较不同区域的平均身高,Scheffe分组A、B,在显著水平α=0.05下,认为同组内身高没有差异。

例2接例1四个地区的Height均值不同,但可能存在某2个或某3个或地区的身高均值相同。

除了用SCHEFFE选项,还可以对均值做多重比较和置信区间分析。

代码(部分):

meansRegion/DUNCAN;

meansRegion/LSDCLMCLDIFF;

DUNCAN选项,输出组间均值比较的多重极差检验,各组均值按从小到大排列,3个均值间的比较,就看3个地区最大和最小均值之差是否大于临界值2.773,North、East、West均值之差60.750-58.688=2.062<

2.773,故这三个地区均值没有显著差异(α=0.05)

各地区Height均值t检验的置信区间:

均值±

1.863714.

LSD最小显著差检验,0.05显著水平下,两两比较的最小显著差为2.6357,若显著则被标上“***”,例如,South与North均值之差为2.750>

2.6357,故有显著差异。

(二)PROCGLM过程步

GLM过程步分析符合一般线性模型(GeneralLinearModels)的数据,因此取名GLM。

可用在简单回归、多元回归、方差分析、协方差分析、加权回归、多项式回归、偏相关分析、多元方差分析等。

GLM过程步的语法与ANOVA过程步基本相同。

区别是GLM过程多了些MODEL模型,并可以多三条语句:

contrast、estimate和lsmeans.

1.MODEL模型(a、b、c表示分类变量;

y1、y2、x1、x2代表连续变量):

Modely=x1;

——线性回归

Modely=x1x2;

——多元线性回归

Modely=x1x1*x1;

——多项式回归

Modely1y2=x1x2;

——多元回归

Modely=a;

——单因素方差分析

Modely=abc;

——主效应模型

Modely=aba*b;

——交叉因素模型

Modely=ab(a)c(ba);

——嵌套模型

Modely1y2=ab;

——多元方差分析模型

Modely=ax1——协方差分析模型

e1/e2/e3/e4——输出模型中每一效应的类型1/类型2/类型3/类型4的可估函数,并计算相应的平方和;

ss1/ss2/ss3/ss4——对每个效应,输出与类型1/类型2/类型3/类型4的可估函数相关的平方和;

cli/clm——打印每一观察的预测值/预测均值的置信限,两者不能同时使用;

p——打印自变量没有缺失值的每一观察值、预测值、残差值,以及Durbin-Waston统计量;

2.contrast语句

用来检验均值的线性组合关系的原假设。

有三个基本参数,一是标签,二是分类变量名,三是效应均值线性组合的系数表(系数的次序是匹配分类变量按字母数字次序的水平值)。

示例:

contrast'

USvsNON-U.S.'

brand222-3-3;

检验H0:

2μ1+2μ2+2μ3-3μ4-3μ5=0

3.estimate语句

用来估计效应均值的线性组合的值,格式同contrast语句。

(分数系数的表示)

estimate'

1/3(a+b)-2/3c'

Man11-2/divisor=3;

4.lsmeans语句

用来计算效应变量修正后的均值,最小二乘均值(LSM),这是针对非均衡数据设计的。

可选参数:

stderr——输出LSM的标准差和H0:

LSM=0的概率值;

tdiff——输出假设检验H0:

LSM(i)=LSM(j)的t值和相应的概率值;

slice=效应变量——通过规定的这个效应来分开交叉的LSM效应。

例如,假定交叉项A*B是显著的,如果想对B的每个效应检验A的效应,使用下面语句:

lsmeansA*B/slice=B;

例3考虑在5种不同品牌的人工合成胶合板材料上进行磨损时间测试,每种品牌的材料做四次试验,且都是采用的同一种磨损措施,所有的试验都是在完全随机的顺序下在相同的机器上完成的。

品牌ACMX、AXAX和CHAMP来自美国制造商,而品牌TUFFY和XTRA来自非美国制造商。

我们想要比较美国品牌的均值与非美国品牌的均值是否有差异。

dataveneer;

inputbrand$wear@@;

datalines;

ACME2.3ACME2.1ACME2.4ACME2.5

CHAMP2.2CHAMP2.3CHAMP2.4CHAMP2.6

AJAX2.2AJAX2.0AJAX1.9AJAX2.1

TUFFY2.4TUFFY2.7TUFFY2.6TUFFY2.7

XTRA2.3XTRA2.5XTRA2.3XTRA2.4

procglmdata=veneer;

classbrand;

modelwear=brand;

title'

WearTestsforfivebrands'

运行结果:

程序说明:

(1)根据题意,原假设

H0:

(μACME+μAJAX+μCHAMP)/3=(μTUFFY+μXTRA)/2

等价于H0:

2(μACME+μAJAX+μCHAMP)-3(μTUFFY+μXTRA)=0,故contrast语句的系数表为2,2,2,-3,-3.(注意到均值对应关系是按字母顺序排列);

(2)美国品牌均值与非美国品牌均值比较的平方和为0.27075,F值为13=0.27075/0.020833,P值=0.0026<

α=0.05,拒绝原假设H0,说明美国品牌均值与非美国品牌均值是不同的;

(3)效应线性组合的参数估计为

-1.425=3×

(2.325+2.050+2.375)-2×

(2.600+2.375)

对于原假设H0参数是否为0的t检验,t值=-3.60,P值=0.0026<

α=0.05,拒绝原假设(注意到t检验的p值与F检验的p值相同,这是因为两种检验是相同的,F值等于t值的平方)。

例4(随机单位组试验设计的方差分析)

某食品公司对一种食品设计了四种包装。

为了考察哪种包装最受欢迎,选了10个有近似相同销售量的商店作试验,其中两种包装各指定两个商店,另两种包装各指定三个商店销售。

在试验期间各商店的货架排放位置、空间都尽量一致,营业员的促销方法也基本相同。

观察在一定时期的销售量(数据见下表)。

试比较四种包装的销售量是否一致。

表四种包装在10个商店中的销售量

包装类型

(treat)

商店(block)

商店数

n

1

2

3

A1

12

18

A2

14

13

A3

19

17

21

A4

24

30

注意,包装类型A1和A4在商店3里没有进行试验,所以这是有不平衡数据集的随机区组设计。

datapack;

inputtreat$n;

doblock=1ton;

inputy@@;

output;

end;

A12

1218

A23

141213

A33

191721

A42

2430

procprintdata=pack;

SalesforFourDifferentPack'

procglmdata=pack;

classblocktreat;

modely=blocktreat;

meansblocktreat/SNK;

meansblocktreat/DUNNETT('

1'

);

meansblocktreat;

读入数据,用n商店数控制每次读入数据数目(output不能缺),并输出原始数据集。

有两个分组变量,一是包装类型treat,包含四个水平A1、A2、A3、A4;

二是商店名block,包含三个水平1、2、3.共10个观测。

CLASS语句,指定分组变量:

包装类型treat,商店名block.

总模型方差分析结果:

P值=0.0515,基本上有显著意义;

R2=0.884868=269/304,模型变异基本反映了总变异。

对于单因素不平衡数据的方差分析,类型Ⅰ和类型Ⅲ的平方和就不相同了,分组变量的变异计算应该采用类型Ⅲ的平方和。

分组变量block的方差分析结果p=0.5789>

α=0.05,不具有显著意义,说明食品在3家不同商店进行销售时,销售量的均值没有显著差异;

分组变量treat的方差分析结果p=0.0256<

α=0.05,具有显著意义,说明4种不同包装食品的销售量的均值具有显著差异,但没有指出具体哪几种包装之间有显著差异。

MEANS语句的snk选项,指定采用多极差检验法对均值进行多级比较。

3个组比较时,大均值与小均值之差的临界值为8.607705,而2个组比较时,临界值为6.7057385.“SNK”分组结果表明:

3个商店(2,1,3)标有相同字母“A”,说明了3个商店的销售量均值没有显著差异。

对treat组进行snk多极差检验,“SNK”分组结果显示,包装A3,A1,A2出现了标有相同的字母“B”,没有显著差异,它们与包装A4有显著差异。

若看任意两种包装的差异,例如,A4与A2为27-13=14>

10.992537,有显著差异。

结论:

A4包装的销售量均值最高,其他三种包装销售量基本相同。

另外,区组观察数的调和均数为2.4=4/(1/2+1/3+1/3+1/2)。

DUNNETT(‘1’)选项,要求所有分组均值分别与对照组均值进行比较,采用dunnett的双尾t检验;

也可用dunnetl(单尾t检验,分组的均值是否显著地小于对照组的均值)或dunnetu(单尾t检验,分组的均值是否显著地大于对照组的均值)。

对照组在括号内规定为‘1’,即分组变量的第1个水平分组,第1家商店和A1包装。

用Dunnett双侧检验的t临界值为3.33563,A2组与A1组均值之差为2<

3.33563,无显著意义;

A3组与A1组均值之差为-0.25<

另外也输出了均值之差的置信限。

第三个MEANS语句,用来输出各个分组的均值和标准差。

例5(双因素实验设计的方差分析)

研究饮食和健美操对减肥的作用。

饮食对减肥肯定有一定作用,适当的健美操对减肥也有效果。

那么哪一种饮食配上哪一样健美操最为有效呢?

因为饮食与饮食这两种减肥手段之间存在着交互作用,会加强减肥的效果。

现有三套饮食方案称为a、b、c,五种不同的健美操标记为1、2、3、4、5。

构成成了3×

5=15种水平组合,选择了情况基本相同的90个肥胖人进行试验,将他们随机地指派到这15个组中且每组6人。

经过一段时间后,体重的下降结果如下表所示:

表3×

5双因素设计的试验结果

饮食方案

food

健美操train

4

5

 

a

22.1

24.1

19.1

25.1

18.1

27.1

15.1

20.6

28.6

24.6

22.3

25.8

22.8

28.3

21.3

18.3

19.8

26.8

27.3

20.0

17.0

24.0

22.5

28.0

b

13.5

14.5

11.5

6.0

27.0

18.0

16.9

17.4

10.4

19.4

11.9

15.4

15.7

10.2

16.7

19.7

18.2

12.2

6.5

17.1

7.6

13.6

21.1

21.8

18.8

16.3

14.3

c

19.0

22.0

16.0

25.5

16.5

17.5

16.4

14.4

21.4

19.9

24.5

11.0

7.5

15.5

11.8

6.3

7.8

13.8

datafatness;

doi=1to3;

Inputfood$;

dotrain=1to5;

doj=1to6;

inputy@@;

output;

end;

22.124.119.122.125.118.1

27.115.120.628.615.124.6

22.325.822.828.321.318.3

19.828.326.827.326.826.8

20.017.024.022.528.022.5

13.514.511.56.027.018.0

16.917.410.419.411.915.4

15.710.216.719.718.212.2

15.16.517.17.613.621.1

21.822.818.821.316.314.3

19.022.020.014.519.016.0

20.022.025.516.518.017.5

16.414.421.419.910.421.4

24.516.011.07.514.515.5

11.814.321.36.37.813.8

procprintdata=fatness;

Weight-lossProgramsBasedonFoodandTrain'

procglmdata=fatness;

classfoodtrain;

modely=foodtrainfood*train;

lsmeansfoodtrainfood*train;

lsmeansfood*train/SLICE=foodSLICE=train;

Contrast'

t1vst4inf1'

train100-10food*train100-10;

t2vst4inf1'

train010-10food*train010-10;

t3vst4inf1'

train001-10food*train001-10;

t4vst5inf1'

train0001-1food*train0001-1;

t2vst5inf3'

train0100-1food*train00000000000100-1;

原始数据集(部分)如下

共有两个因素food和train,故CLASS语句有这两个分组变量名。

除了要考察这两个因素的主效应外,还要考察这两个因素的交互效应,表示为food*train,所以需要在MODEL语句的后面加上这个交互效应。

用LSMEANS语句替代MEANS语句的主要原因是,对于非均衡的试验数据需要计算最小二乘均值,它是一种调整后的均值。

第二个LSMEAN语句的作用,考虑到交叉项food*train是显著情况时,通过SLICE选项规定的food效应和train效应来分开交叉的food*train效应。

CONTRAST语句是作更进一步的对比,前四个CONTRAST语句是把因素food固定在第一个水平a上,然后对food因素有显著交互作用的train因素的某两个水平之间进行比较;

最后一个CONTRAST语句是把因素food固定在第三个水平c上,对train因素的第二个水平均值和第五个水平均值进行比较。

要注意food*train交叉效应的参数化形式的规则为:

先变右下标,即f1*t1,f1*t2,……,f1*t5,f2*t1、……,f3*t5.

总的模型方差分析结果:

F值=4.87,P值=0.0001,模型效应是显著的。

模型中有两个主效应food和train及一个交互效应food*train,其中主效应food和交互效应food*train是显著的,而主效应train,F值=0.14,P值=0.9648,是不显著的。

基本结论:

饮食控制和健美操对减肥是有作用的,3种不同的饮食控制方案对减肥效果是有区别的,而5种不同的健美操对减肥效果是没有区别的,同时饮食方案和健美操的不同组合对减肥效果也是有区别的。

由于主效应food是显著的,说明三种饮食方案对减肥的效果是不同的,再通过查看三种饮食方案减肥体重的最小二乘均值均值,可以得出a方案最好,c方案最差,且a方案和c方案的差异应该是显著的,至于a与b的比较及b与c比较,可以采用多重比较的方法进一步分析。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1