SAS学习系列29 方差分析ⅡANOVAGLM过程步.docx-资源下载

SAS学习系列29 方差分析ⅡANOVAGLM过程步.docx

1、SAS学习系列29 方差分析ANOVAGLM过程步28. 方差分析ANOVA,GLM过程步SAS提供了ANOVA和GLM过程步进行方差分析。ANOVA过程步主要处理均衡数据（分类变量的每个水平的观察数是相等），该过程考虑到均衡设计的特殊构造，处理起来速度更快更省内存，也可以处理拉丁方设计、若干不完全的均衡区组设计数据等。若试验设计不均衡，也不是前面几种实验设计数据，则应该使用GLM过程。（一）PROC ANOVA过程步一、基本语法PROC ANOVA data=数据集 ;CLASS 分类变量列表;MODEL 因变量=效应变量列表 ;MEANS 效应变量列表 ;TEST E=效应变量列表;说明：

2、（1）CLASS语句是必不可少的，必须放在MODEL语句之前，用来指定分类、区组变量（单因素方差分析只有一个变量）；（2）MODEL语句也是必不可少的，该语句用来规定因变量和自变量效应（单因素方差分析的自变量就是分类变量）。若没有规定自变量的效应，则只拟合截距，假设检验为因变量的均值是否为0. Model语句的主要形式有4种：主效应模型model y=a b c; 含有交叉因素的模型model y=a b c a*b a*c b*c a*b*c; 嵌套模型model y=a b c(a b); 包含嵌套、交叉和主效应的模型model y=a b(a) c(a) b*c(a);（3）MEANS

3、语句必须出现在MODEL语句之后，用来计算在效应变量所对应的因变量均值，但这些均值没有针对模型中的效应进行修正。若要计算修正的均值需要用GLM过程步的LSMEANS语句；（4）MEANS语句的可选项主要有两个内容，一是选择多重比较的检验方法，二是设定这些检验的参数（只能用于主效应）；bon对所有主效应均值之差进行Bonferroni的t检验；duncan对所有主效应均值进行Duncan的多重极差检验；smm|gt2当样本量不等时，基于学生化最大模和Sidak不相关t不等式，等到Hochberg的GT2方法，对主效应均值进行两两对比检验；snk对所有主效应均值进行Student-Newman-K

4、euls的多重极差检验；t|lsd对所有主效应均值进行两两t检验，它相当于在单元观察数相等时Fisher的最小显著差检验；tukey对所有主效应均值进行Tukey的学生化极差检验；waller对所有主效应均值进行Waller-Duncan的k比率检验；alpha=p设置显著水平；clm对变量的每个水平的均值按置信区间形式输出；e=效应变量指定在多重对比检验中所使用的误差均方。默认使用残差均方。指定的效应变量必须是在model语句中出现过的；kratio=值给出Waller-Duncan检验的类型1/类型2的误差限制比例。Kratio的合理值为50、100（默认）、500，大约相当于两水平时al

5、pha值为0.1、0.05、0.01.hovtest要求输出组间方差齐性的Levene检验；（5）TEST语句指定效应变量（H=）和误差变量（E=）做F检验，误差变量必须要指定且只能指定1个效应变量。默认是用残差均方作为误差项对所有平方和（SS）计算F值。例1 来自四个地区少女篮球队队员身高的数据，变量包括地区、身高（C:MyRawDataGirlHeights.dat）：读入数据，做单因素（身高）方差分析，判断她们的身高是否存在显著性地区差异。代码：data heights;infile c:MyRawDataGirlHeights.dat;input Region $ Height ;ru

6、n;* Use ANOVA to run one-way analysis of variance;proc anova data = heights;class Region;model Height = Region;means Region / SCHEFFE;title Girls Heights from Four Regions;run;运行结果及说明： CLASS语句中分类变量有4个不同的水平值，共64个观测值；因变量Height的方差分析表，因变量的总平方和（1030.000）、属于模型部分的平方和（196.625）、属于误差部分的平方和（833.375），自由度为（3,60,

7、63），模型的均方MS（65.541667），误差的均方MSE（13.889583），F值=MS/MSE=4.72, P值=0.00510.05）表明：不能拒绝不同地区身高的方差是相等的原假设。MEANS语句中的SCHEFFE选项，比较不同区域的平均身高，Scheffe分组A、B，在显著水平=0.05下，认为同组内身高没有差异。例2 接例1 四个地区的Height均值不同，但可能存在某2个或某3个或地区的身高均值相同。除了用SCHEFFE选项，还可以对均值做多重比较和置信区间分析。代码（部分）：proc anova data = heights;class Region;model Heig

8、ht = Region;means Region / DUNCAN;means Region / LSD CLM CLDIFF;运行结果及说明： DUNCAN选项，输出组间均值比较的多重极差检验，各组均值按从小到大排列，3个均值间的比较，就看3个地区最大和最小均值之差是否大于临界值2.773，North、East、West均值之差60.750-58.688=2.0622.6357，故有显著差异。（二）PROC GLM过程步 GLM过程步分析符合一般线性模型（General Linear Models）的数据，因此取名GLM。可用在简单回归、多元回归、方差分析、协方差分析、加权回归、多项式回归、

9、偏相关分析、多元方差分析等。GLM过程步的语法与ANOVA过程步基本相同。区别是GLM过程多了些MODEL模型，并可以多三条语句：contrast、estimate和lsmeans.1. MODEL模型（a、b、c表示分类变量；y1、y2、x1、x2代表连续变量）：Model y=x1; 线性回归Model y=x1 x2; 多元线性回归Model y=x1 x1*x1; 多项式回归Model y1 y2=x1 x2; 多元回归Model y=a; 单因素方差分析Model y=a b c; 主效应模型Model y=a b a*b; 交叉因素模型Model y=a b(a) c(b a);

10、嵌套模型Model y1 y2=a b; 多元方差分析模型Model y=a x1协方差分析模型e1/e2/e3/e4输出模型中每一效应的类型1/类型2/类型3/类型4的可估函数，并计算相应的平方和；ss1/ss2/ss3/ss4对每个效应，输出与类型1/类型2/类型3/类型4的可估函数相关的平方和；cli/clm打印每一观察的预测值/预测均值的置信限，两者不能同时使用；p打印自变量没有缺失值的每一观察值、预测值、残差值，以及Durbin-Waston统计量；2. contrast语句用来检验均值的线性组合关系的原假设。有三个基本参数，一是标签，二是分类变量名，三是效应均值线性组合的系数表（系

11、数的次序是匹配分类变量按字母数字次序的水平值）。示例：contrast US vs NON-U.S. brand 2 2 2 -3 -3;检验H0：21+22+23-34-35=03. estimate语句用来估计效应均值的线性组合的值，格式同contrast语句。示例：（分数系数的表示）estimate 1/3(a+b)2/3c Man 1 1 -2 /divisor=3;4. lsmeans语句用来计算效应变量修正后的均值，最小二乘均值（LSM），这是针对非均衡数据设计的。可选参数：stderr输出LSM的标准差和H0：LSM=0的概率值；tdiff输出假设检验H0：LSM(i)=LSM(

12、j) 的t值和相应的概率值；slice=效应变量通过规定的这个效应来分开交叉的LSM效应。例如，假定交叉项A*B是显著的，如果想对B的每个效应检验A的效应，使用下面语句：lsmeans A*B /slice=B;例3考虑在5种不同品牌的人工合成胶合板材料上进行磨损时间测试，每种品牌的材料做四次试验，且都是采用的同一种磨损措施，所有的试验都是在完全随机的顺序下在相同的机器上完成的。品牌ACMX、AXAX和CHAMP来自美国制造商，而品牌TUFFY和XTRA来自非美国制造商。我们想要比较美国品牌的均值与非美国品牌的均值是否有差异。代码：data veneer;input brand $ wear

13、;datalines;ACME 2.3 ACME 2.1 ACME 2.4 ACME 2.5CHAMP 2.2 CHAMP 2.3 CHAMP 2.4 CHAMP 2.6AJAX 2.2 AJAX 2.0 AJAX 1.9 AJAX 2.1TUFFY 2.4 TUFFY 2.7 TUFFY 2.6 TUFFY 2.7XTRA 2.3 XTRA 2.5 XTRA 2.3 XTRA 2.4;run;proc glm data = veneer;class brand;model wear=brand;contrast US vs NON-U.S. brand 2 2 2 -3 -3;estimat

14、e US vs NON-U.S. brand 2 2 2 -3 -3;title Wear Tests for five brands;run;运行结果：程序说明：（1）根据题意，原假设H0: (ACME+AJAX+CHAMP)/3=(TUFFY+XTRA)/2等价于H0: 2(ACME+AJAX+CHAMP)-3(TUFFY+XTRA)=0, 故contrast语句的系数表为2,2,2,-3,-3. （注意到均值对应关系是按字母顺序排列）；（2）美国品牌均值与非美国品牌均值比较的平方和为0.27075，F值为13=0.27075/0.020833，P值=0.0026=0.05，拒绝原假设H

15、0，说明美国品牌均值与非美国品牌均值是不同的；（3）效应线性组合的参数估计为-1.425=3(2.325+2.050+2.375)-2(2.600+2.375)对于原假设H0参数是否为0的t检验，t值=-3.60，P值=0.0026=0.05，不具有显著意义，说明食品在3家不同商店进行销售时，销售量的均值没有显著差异；分组变量treat的方差分析结果p=0.025610.992537，有显著差异。结论： A4包装的销售量均值最高，其他三种包装销售量基本相同。另外，区组观察数的调和均数为2.4=4/(1/2+1/3+1/3+1/2)。DUNNETT (1) 选项，要求所有分组均值分别与对照组均值

16、进行比较，采用dunnett的双尾t检验；也可用dunnetl（单尾t检验，分组的均值是否显著地小于对照组的均值）或dunnetu（单尾t检验，分组的均值是否显著地大于对照组的均值）。对照组在括号内规定为1，即分组变量的第1个水平分组，第1家商店和A1包装。用 Dunnett双侧检验的t临界值为3.33563，A2组与A1组均值之差为223.33563，无显著意义；A3组与A1组均值之差为-0.2523.33563，无显著意义；另外也输出了均值之差的置信限。第三个MEANS语句，用来输出各个分组的均值和标准差。例5 （双因素实验设计的方差分析）研究饮食和健美操对减肥的作用。饮食对减肥肯定有一定

17、作用，适当的健美操对减肥也有效果。那么哪一种饮食配上哪一样健美操最为有效呢？因为饮食与饮食这两种减肥手段之间存在着交互作用，会加强减肥的效果。现有三套饮食方案称为a、b、c，五种不同的健美操标记为1、2、3、4、5。构成成了35=15种水平组合，选择了情况基本相同的90个肥胖人进行试验，将他们随机地指派到这15个组中且每组6人。经过一段时间后，体重的下降结果如下表所示：表 35双因素设计的试验结果饮食方案food健美操train12345a22.124.119.122.125.118.127.115.120.628.615.124.622.325.822.828.321.318.319.828

18、.326.827.326.826.820.017.024.022.528.022.5b13.514.511.56.027.018.016.917.410.419.411.915.415.710.216.719.718.212.215.16.517.17.613.621.121.822.818.821.316.314.3c19.022.020.014.519.016.020.022.025.516.518.017.516.414.421.419.910.421.424.516.011.07.514.515.511.814.321.36.37.813.8代码：data fatness;do i=1

19、 to 3; Input food $ ; do train=1 to 5; do j=1 to 6; input y ; output; end; end;end;datalines;a22.1 24.1 19.1 22.1 25.1 18.1 27.1 15.1 20.6 28.6 15.1 24.6 22.3 25.8 22.8 28.3 21.3 18.319.8 28.3 26.8 27.3 26.8 26.820.0 17.0 24.0 22.5 28.0 22.5b13.5 14.5 11.5 6.0 27.0 18.016.9 17.4 10.4 19.4 11.9 15.41

20、5.7 10.2 16.7 19.7 18.2 12.215.1 6.5 17.1 7.6 13.6 21.121.8 22.8 18.8 21.3 16.3 14.3c19.0 22.0 20.0 14.5 19.0 16.0 20.0 22.0 25.5 16.5 18.0 17.516.4 14.4 21.4 19.9 10.4 21.424.5 16.0 11.0 7.5 14.5 15.511.8 14.3 21.3 6.3 7.8 13.8;run;proc print data = fatness;title Weight-loss Programs Based on Food

21、and Train;run;proc glm data = fatness;class food train;model y = food train food*train;lsmeans food train food*train;lsmeans food*train / SLICE = food SLICE = train;Contrast t1 vs t4 in f1 train 1 0 0 -1 0 food*train 1 0 0 -1 0;Contrast t2 vs t4 in f1 train 0 1 0 -1 0 food*train 0 1 0 -1 0;Contrast

22、t3 vs t4 in f1 train 0 0 1 -1 0 food*train 0 0 1 -1 0;Contrast t4 vs t5 in f1 train 0 0 0 1 -1 food*train 0 0 0 1 -1;Contrast t2 vs t5 in f3 train 0 1 0 0 -1 food*train 0 0 0 0 0 0 0 0 0 0 0 1 0 0 -1 ;run;运行结果及说明：原始数据集（部分）如下共有两个因素food和train，故CLASS语句有这两个分组变量名。除了要考察这两个因素的主效应外，还要考察这两个因素的交互效应，表示为food*tr

23、ain，所以需要在MODEL语句的后面加上这个交互效应。用LSMEANS语句替代MEANS语句的主要原因是，对于非均衡的试验数据需要计算最小二乘均值，它是一种调整后的均值。第二个LSMEAN语句的作用，考虑到交叉项food*train是显著情况时，通过SLICE选项规定的food效应和train效应来分开交叉的food*train效应。CONTRAST语句是作更进一步的对比，前四个CONTRAST语句是把因素food固定在第一个水平a上，然后对food因素有显著交互作用的train因素的某两个水平之间进行比较；最后一个CONTRAST语句是把因素food固定在第三个水平c上，对train因素的

24、第二个水平均值和第五个水平均值进行比较。要注意food*train交叉效应的参数化形式的规则为：先变右下标，即f1*t1, f1*t2, , f1*t5, f2*t1、, f3*t5.总的模型方差分析结果：F值=4.87，P值=0.0001，模型效应是显著的。模型中有两个主效应food和train及一个交互效应food*train，其中主效应food和交互效应food*train是显著的，而主效应train，F值=0.14，P值=0.9648，是不显著的。基本结论：饮食控制和健美操对减肥是有作用的，3种不同的饮食控制方案对减肥效果是有区别的，而5种不同的健美操对减肥效果是没有区别的，同时饮食方案和健美操的不同组合对减肥效果也是有区别的。由于主效应food是显著的，说明三种饮食方案对减肥的效果是不同的，再通过查看三种饮食方案减肥体重的最小二乘均值均值，可以得出a方案最好，c方案最差，且a方案和c方案的差异应该是显著的，至于a与b的比较及b与c比较，可以采用多重比较的方法进一步分析。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？