整理第7章 方差分析Word格式.docx
《整理第7章 方差分析Word格式.docx》由会员分享,可在线阅读,更多相关《整理第7章 方差分析Word格式.docx(69页珍藏版)》请在冰豆网上搜索。
【分析与解答】
①关于正态性检验:
H。
:
三组资料分别取自正态分布的总体;
H1:
三组资料并非取自正态分布的总体;
α=0.05。
②关于方差齐性检验:
三组资料所取自的总体的方差相等;
三组资料所取自的总体的方差不相等或不全相等;
【SAS程序】
DATAaa;
DOg=1TO3;
INPUTX@@;
OUTPUT;
END;
CARDS;
234509851318518562402555918
382758631621845653408712843
24358565914144884942753762
98896901
PROCSORTDATA=aa;
BYg;
PROCPRINT;
RUN;
二、方差分析数据集的建立技巧
1.方差分析的数据集格式
统计分析所用的数据格式和我们在分析整理资料时所用的格式是不同的。
一般来说,数据集中应至少有一个结果变量,用于记录不同处理因素水平下观察值的大小;
至少有一个处理因素变量,用于记录处理因素的类型及其水平数。
以单因素方差分析为例,就应有一个结果变量和一个处理因素变量;
而两因素的方差分析应有一个结果变量和两个处理因素变量。
例A某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量测定,请给出数据集的结构。
解:
数据集中应有两个变量,x和group。
x记录肺活量的大小;
group取值为1、2或3,分别代表石棉肺患者、可疑患者及非患者。
例B某厂医务室测定了10名氟作业工人工前、工中及工后4小时的尿氟浓度,请给出数据集的结构。
数据集中应有三个变量,x、group和worker。
x记录尿氟浓度;
group取值为1、2或3,分别代表工前、工中及工后;
worker取值为1到10,分别代表10名工人。
2.方差分析数据集的建立方法
可见方差分析的数据集其变量取值有一定的规律,因此可以利用循环语句和判断语句来简化输入。
例7.2请建立例B的数据集。
此例中数据较有规律,各组的例数均相等,这可正是循环语句大显身手的时候。
dataNEW;
dogroup=1to3;
doworker=1to10;
inputX@@;
output;
end;
cards;
90.5388.4347.37......105.2758.95
procprint;
run;
7.2ANOVA(AnalysisofVariance)过程
如果实验的每种组合安排相同数目的实验单位,则这种实验设计称为平衡设计。
由于数据是平衡的,则平方和的计算可以简化。
这样的方差分析可用ANOVA过程,不必用占机时更多的GLM过程。
ANOVA过程可进行单向分组资料的方差分析、随机区组试验及拉丁方试验的统计分析等。
一、过程格式
PROCANOVA选择项;
CLASS变量表;
必需,指定要分析的处理因素
MODEL依变量表=效应表/选择项;
必需,给出分析用的方差分析模型
MEANS效应表/选择项;
指定要两两比较的因素及比较方法
FREQ变量名;
TESTH=效果名称E=效果名称;
指定多元方差分析的选项
MANOVAH=效果名称E=效果名称M=变量的转换式
PREFIX=新变量的名称代号MNAMES=新变量名表/选择项;
REPEATED重复变量的名称组名变量转换/选择项;
BY变量表;
二、语句说明
程序中CLASS语句和MODEL语句是必需的,而且CLASS语句必须出现在MODEL语句之前。
如果选用TEST和MANOVA语句,则必须放在MODEL语句之后。
MEANS、TEST和MANOVA语句可以重复使用,其他语句只能使用一次。
1.PROCANOVA语句选择项
DATA=数据集指定用来分析的数据集名,若缺省,则使用最新建立的数据集。
MANOVA要求PROCANOVA语句将含一个或一个以上依变量缺失值的观察值剔除。
当使用交互式进行方差分析时,最好指定此选择项。
OUTSTAT=数据集输出结果中包括离差平方和(SS)、F值以及各试验效果的显著程度。
2.CLASS语句
声明方差分析中因素的分类水平处理变量,也称为分类变量,指明数据集中的自变量,可以是数值型,也可以是字符型。
若为字符变量,其长度不超过16个字母。
3.MODEL语句
指明依变量(因子变量)效应。
效应是分类变量的各种组合,效应可以是主效应、交互效应、嵌套效应和混合效应。
MODEL语句的选择项有两个:
NOUNI抑制单变量方差分析结果的输出;
INTERCEPT或INT要求SAS将线性模型内的截距(也称为数据的总平均数)当作一个参数,同时对该参数作是否为零的测验。
4.MEANS语句
计算并输出所列的效应对应的依变量均数。
其主要选择项可分三类:
①多重比较选择项若指明了该选择项,则将进行主效应平均数间的测验,即多重比较。
常用的多重比较方法选择项如DUNCAN(Duncan新复极差法)、T或LSD(配对t测验或Fisher氏最小显著差数法)、SNK(Q测验)、TUKEY(Tukey固定极差测验)、DUNNETT和DUNNETU(Dunnett氏最小显著差数两尾和单尾测验法)、BON、CABRIEL、REGWF、REGWQ、SCHEFFE、SIDAK、SMM(GT2)、WALLER等。
②统计显著水平以ALPHA=P设定,如ALPHA=0.01设定显著水平为0.01,缺省值为0.05。
③E=效应名称规定F测验的分母,若缺省则试验设计的误差的均方将自动成为分母。
5.FREQ语句
指定频次变量。
其用法与第5章用法相同。
6.TEST语句
一般情况下,SAS默认采用误差的均方(MSResidual)作为F测验的分母。
但也可自定F测验的分子和分母以进行不同的F测验,该语句中H=分子,E=分母。
如:
“TESTH=ABE=A*B;
”表示F=A/(A*B),F=B/(A*B)。
7.MANOVA语句
当MODEL中有一个以上依变量时,要求进行多变量的方差分析。
8.REPEATED语句
指定在一个或多个独立变量上对分析单位进行重复测量设计的分析。
在某些情况下采用此语句可以精简程序代码。
9.BY语句
要求按其指定变量分别进行方差分析。
三、使用说明:
设有三个因素A、B及C,一个观测变量Y。
(1)如果只考虑主效应,则需下列语句:
PROCANOVA:
CLASSABC;
MODELY=ABC;
(2)如果具有交叉因素,则需下列语句:
PROCANOVA;
MODELABCA*BA*CB*CA*B*C;
(3)如果A和B是主效应,C嵌套于A和B中(对A和B的每一组合,观测到C的水平是不同的),则需下列语句:
MODELY=ABC(AB)
其中C(AB)表示C嵌套于A和B中。
再如C(A)表示C嵌套于A中。
(4)如果既有嵌套又有交叉效应,则在MODEL语句中可同时使用*和()。
例如:
MOOELY=AB(A)C(A)B*C(A);
四、输出说明
(1)CLASSLEVELINFORMATION分类水平信息。
其中包括:
CLASSCLASS语句中列出的效应名。
LEVELS因素效应的水平数。
VALUES因素效应中各水平的值或标记。
(2)SOURCE变异来源。
(3)SUMOFSOUARES(SS)平方和。
(4)MEANSQUARE(MS)均方。
(5)FVALUEF值。
其中MODEL(模型)的下值为MODEL(模型)的均方除以ERROR(误差)的均方。
用于检验模型中所有效应均为零的假设,以便说明模型的重要程度。
(6)Pr>F显著水平。
(7)MODEL模型。
它的平方和等于各因素效应的平方和之和,其均方等于它的平方和除以自由度。
(8)ERROR误差。
(9)CORRECTEDTOTAL校正总变异。
(10)R-SQUANER2,其值为模型的平方和除以校正总平方和。
一般来说,R2值越大,模型拟合数据越好。
(11)C.V变异系数。
样本的变异系数为该样本的标准差除以均值,表示单位量的变异。
(12)ROOTMSE误差均方根,是观测变量的标准差的估计值。
(13)TTESTFORVARIABLE各处理平均数的多重比较T检验,凡有一个相同标记字母的即为差异不显著,凡具有不同标记字母的即为差异显著。
7.3GLM(GeneralLinearModel)过程
GLM是GeneralLinearModel(一般线性模型)的缩写,用于非均衡数据方差分析。
在SAS/STAT中,GLM过程的分析功能最多,回归分析、方差分析、偏相关分析、协方差分析、多元方差分析等比较复杂的分析过程均可采用GLM过程。
这里只介绍GLM过程在方差分析中的应用。
前面介绍的ANOVA过程只能用于均衡设计资料的方差分析,当不均衡时,只能用采用GLM过程进行分析。
PROCGLM选择项;
MODEL依变量=效应表/选择项;
MEANS效应表/选择项;
MANOVAH=效果名称E=效果名称M=变量的转换式
PREFIX=新变量的名称代号
MNAMES=新变量名表/选择项;
RANDOM效应表/选择项;
CONTRAST“对比说明”各组效应系数/选择项;
ID变量表;
CLASS语句和MODEL语句是必需的,且CLASS语必须出现在MODEL语句之前。
1.PROCGLM语句选择项
ORDER=FREQ|DATA|INTERNAL|FORMATTED指定某一变量下各类别的输出次序。
FREQ按递减计数次序排列;
DATA按首先出现在输入数据集中的顺序放置;
INTERNAL按值的内部表示排列;
FORMATTED按外部的格式排列。
缺省值为ORDER=INTERNAL。
OUTSTAT=数据集输出结果中含离差平方和(SS)、F值以及各试验效果的显著程度。
NOPRINT要求PROCGLM抑制分析结果在报表上的输出。
2.RANDOM语句
用于指定模型中的随机效应。
在MODEL语句后可多次应用RANDOM语句,若缺省则GLM过程将MODEL语句中的所有的效应为固定效应。
其选择项有两个:
Q要求输出固定效应的二次式函数值。
TEST要求对RANDOM语句中所指定的各项随机效应执行适当的F测验,并且F测验的分母完全根据各效应的期望均方而定。
需要注意的是:
若某两个主效应被RANDOM指定为随机效应,其交互项并没有被相应指定为随机效应,需要特别指定。
3.CONTRAST语句
用于对比测验。
比较式的名字必须放在引号内,其长度最多为20个字符,命名方式可随意,但在其中不能出现“;
”。
各组效应系数前必须注明所要比较的效应,这些效应必须是MODEL语句中出现过的,这些系数的总和必须为0,而且只能是整数或小数,各系数间以空格隔开。
该语句的选择项有:
E规定输出线性函数的向量;
E=效应名称指定以E的效应为CONTRAST中F测验的分母,系统默认值是误差的均方(MSError);
ETYPE=1|2|3|4用于指定计算E=效应名称中效应的离差均方的类型。
4.PROCGLM过程中其他语句
CLASS语句、MODEL语句、MEANS语句等参见PROCANOVA过程。
三、ANOVA过程和GLM过程中常用的数学模型
在使用ANOVA和GLM过程进行方差分析时,关键在于定义线性数学模型。
同一试验资料选用不同的数学模型,结果将不同。
因而需要依据试验设计选定正确的线性数学模型。
①模型定义语句的一般格式是:
依变量=线性模型效应。
线性模型效应主要有三类:
主效应直接写出效应变量,如:
a。
交互效应以一个或多个以“*”号连接的变量表表示,如:
a*b*c。
嵌套效应假定自变量b嵌套在主效应a中,则写作:
b(a)。
②常用的模型定义语句有:
MODELy=a;
单因素模型。
MODELy=ab;
两因素主效模型。
MODELy=aba*b;
两因素主效带互作的模型。
MODELy=ab(a);
嵌套(NESTED)模型,用于系统分组资料。
③在模型定义中,可以用“|”和“@n”简化模型效应的表达。
“|”等价于将模型效应从左到右展开,“@n”表示互作效应和嵌套效应作用的最高元次。
常用模型简化表示法及其等价形式为:
a|b等价于aba*b
a|b|c等价于aba*bca*cb*ca*b*c
a|b|c@2等价于aba*bca*cb*c
a|c(b)等价于ac(b)a*c(b)
a(b)|c(b)等价于a(b)c(b)a*c(b)
a|b(a)|c等价于ab(a)ca*cb(a)*c
a|b(a)|c@2等价于ab(a)ca*c
a(b)|b(de)等价于a(b)b(de)
四、使用说明
(1)对平衡资料的方差分析可用ANOVA过程,也可用GLM过程。
但前者效率更高。
对于非平衡资料的方差分析只能用GLM过程。
(2)设有如下数据(因素A有2个水平,因素日有2个水平):
因素
N
p
水平
N1
N2
P1
10
18
16
P2
9
24
28
例7.3程序示例如下:
datanew;
inputn$p$y@@;
n1p110n1p118n2p116n2p116
n1p29n1p2.n2p224n2p228
procglm;
classnp;
modely=npn*p;
上述程序中的数据也可用下面的方法读入:
例7.4
dop=1to2;
don=1to2;
inputy@@;
10181616
9.2428
7.4单向分组资料的方差分析
观察值仅按一个方向分组,同组各供试单位受相同处理,不同组受不同处理,也称完全随机设计实验。
7.4.1组内观察值数目相等的单向分组资料的方差分析
例7.5研究6种氮肥施用法(K=6)对小麦的效应,每种施肥法种5盆小麦(n=5),完全随机设计,最后测定它们的含氮量(mg),其结果见表10.1,试作方差分析。
表10.16种施肥法小麦植株的含氮量(mg)
1
2
3
4
5
6
12.9
14.0
12.6
10.5
14.6
12.3
13.8
3.2
10.8
13.3
12.2
13.4
10.7
14.4
13.7
12.5
13.6
13.5
12.7
13.0
由于组内观测值数目相等,故采用ANOVA过程分析。
程序如下:
1.程序及说明
/*数据来源:
南京农业大学,田间试验和统计方法,P102*/
DATAnew;
DOi=1TO5;
DOtrt=1TO6;
INPUTy@@;
DROPi;
/*删除临时变量I*/
CARDS;
12.914.012.610.514.614.0
12.313.813.210.814.613.3
12.213.813.410.714.413.7
12.513.613.410.814.413.5
12.713.613.010.514.413.7
PROCANOVA;
/*调用ANOVA过程作方差分析*/
CLASStrt;
/*规定以trt为分类变量*/
MODELy=trt;
MEANStrt/DUNCAN;
/*选用新复极差法作多重比较*/
2.输出结果及说明
AnalysisofVarianceProcedure方差分析过程
ClassLevelInformation处理水平信息
ClassLevelsValues
处理因素变量名水平数具体值
TRT6123456
Numberofobservationsindataset=30数据集中有30个观察值
DependentVariable:
Y依变量名为y
SumofMean
SourceDFSquaresSquareFValuePr>
F
变异来源自由度平方和均方F值概率值P
Model544.463000008.89260000164.170.0001
Error241.300000000.05416667
CorrectedTotal2945.76300000
R-SquareC.V.RootMSEYMean
所用模型的决定系数变异系数剩余标准差依变量均数
0.9715931.7861650.23273713.0300000
SourceDFAnovaSSMeanSquareFValuePr>
TRT544.463000008.89260000164.170.0001
AnalysisofVarianceProcedure
Duncan'
sMultipleRangeTestforvariable:
Y用DUNCAN法测验
NOTE:
ThistestcontrolsthetypeIexperimentwiseerrorrate
underthecompletenullhypothesisbutnotunder
partialnullhypotheses.
Alpha=0.05df=24MSE=0.054167
α水平为0.05,自由度为24,MS误差为0.054167
NumberofMeans23456
CriticalRange0.30380.31910.32890.33580.3410
两两比较时的界值,两平均数之差大于该界值时则两组有统计学差异
Meanswiththesameletterarenotsignificantlydifferent.
标有相同字母的两平均数间无差异
DuncanGroupingM