3.方差分析的实验设计为了确定方差分析表中各个有关效应项,需要在试验设计阶段就作出安排,再根据设计要求进行试验,得出原始观察值,按原来设计方案算出方差分析表中的各项。
在试验设计阶段通常需要考虑如下4个方面:
(1)研究的主要变量(因变量)即试验所要观察的主要指标,一次试验时可以有多个观察指标,
方差分析时也可以同时对多个因变量进行分析;
(2)因素和水平
试验的因素(factor)可以是品种、人员、方法、时间、地区等等,因素所处的状态叫水平(level)。
在每一个因素下面可以分成若干水平。
例如,某工厂的原料来自4个不同地区,那么用不同地区的原料生产的产品质量是否一致呢?
所要比较的地区就是因素,4个地区便是地区这一因素的4个水平。
当某个主要因素的各个水平间的主要因变量的均值呈现统计显著性时,必要时可作两两水平间的比较,称为
均值间的两两比较。
(3)因素间的交互影响
多因素的试验设计,有时需要分析因素间的交互影响
(interaction),2个因素间的交互影响称为一级交互影响(AxB);3个因素间的交互影响称为二级交互影响(AxBxC)。
当交互影响项呈现统计不显著时,表明各个因素独立,当呈现统
计显著时,就需要列出这个交互影响项的效应,以助于作出正确的统计推断。
1个因变量,1个影响因素:
总差异Yj=平均差异卩+因素差异a+随机差异©
例1比较4种品牌的胶合板的耐磨性,各抽取5个样品,相同
转速磨损相同时间测得磨损深度(mm),如下:
比较4个品牌胶合板的耐磨性有无差异?
总差异Yj=平均磨损卩+品牌差异a+随机差异可
量”窗口,将变量“wear磨损深度”选入【因变量】框,“brand品
牌”选入【固定因子】框;
2•点【两两比较】,打开“观测均值的两两比较”子窗口,勾选
【假定方差齐性】下的“LSD”、“S-N-K,点【继续】;
3•点【选项】,打开“选项”子窗口,勾选“描述统计”、“方差
齐性检验”,点【继续】;
点【确定】,得到
描述性统计量
因变量:
磨损深度(mm)
地板品牌
均值
标准偏差
N
A
2.4100
.11269
5
B
2.4040
.11760
5
C
2.0460
.11216
5
D
2.5720
.03271
5
总计
2.3580
.21771
20
给出每个品牌的均值、标准差、样本数。
误差方差等同性的Levene检验
因变量:
磨损深度(mm)
F
df1
df2
Sig.
1.292
3
16
.311
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+brand
方差齐性检验结果,P值=0.311>0.05,故接受原假设Ho:
方差齐
主体间效应的检验
因变量:
磨损深度(mm)
源
III型平方和
df
均方
F
Sig.
校正模型
.740a
3
.247
24.550
.000
截距
111.203
1
111.203
11070.511
.000
brand
.740
3
.247
24.550
.000
误差
.161
16
.010
总计
112.104
20
校正的总计
.901
19
a.R方=.822(调整R方=.788)
方差分析结果,“校正模型”是整个方差分析模型的检验,原假
设H。
:
所有系数(卩a弔)都=0;P值<0.001<0.05,故拒绝原假设。
“截距”检验均值卩原假设H。
:
尸0(即不考虑品牌时,平均磨
损为0);P值<0.001<0.05,故拒绝原假设。
“brand”对因素品牌的检验,原假设H。
:
按因素水平值的各分
组的因变量无差异,即品牌因素对磨损深度无影响;P值<0.001<0.05,故拒绝原假设,即不同品牌的耐磨性有差异。
参数估计
因变量:
磨损深度(mm)
参数
B
标准误差
t
Sig.
95%置信区间
下限
上限
截距
2.572
.045
57.383
.000
2.477
2.667
[brand二A]
-.162
.063
-2.556
.021
-.296
-.028
[brand=B]
-.168
.063
-2.650
.017
-.302
-.034
[brand二C]
-.526
.063
-8.298
.000
-.660
-.392
[brand二D]
0a
a.此参数为冗余参数,将被设为零。
B列为各品牌均值与均值□(截距)的差
截距
参数
对比
L1
截距
1
[brand二A]
.250
[brand=B]
.250
[brand二C]
.250
[brand二D]
.250
此矩阵的缺省显示是相应的L
矩阵的转置。
基于III型平方和。
估计常数项时使用的L矩阵,均为0.25即总样本的均值是按四种品牌等量混合的情况计算的。
brand
参数
对比
L2
L3
L4
截距
0
0
0
[brand=A]
1
0
0
[brand=B]
0
1
0
[brand二C]
0
0
1
[brand二D]
-1
-1
-1
此矩阵的缺省显示是相应的L矩阵的转置。
基于III型平方和。
对比系数矩阵,默认将最后一组“品牌D”作为对照组,故上上表的截距(均值0的估计值二品牌D的均值=2.572
L2=[0100-1T,对于L2列,令[^aiaaa]XL2=0,化简得a=a即前表对a作的假设检验。
多个比较
因变量:
磨损深度(mm)
(I)地板品牌
(J)地板品牌
均值差值(I-J)
标准误差
Sig.
95%置信区间
下限
上限
B
.0060
.06339
.926
-.1284
.1404
A
C
.3640*
.06339
.000
.2296
.4984
D
-.1620*
.06339
.021
-.2964
-.0276
A
-.0060
.06339
.926
-.1404
.1284
B
C
.3580*
.06339
.000
.2236
.4924
D
-.1680*
.06339
.017
-.3024
-.0336
LSD
A
-.3640*
.06339
.000
-.4984
-.2296
C
B
-.3580*
.06339
.000
-.4924
-.2236
D
-.5260*
.06339
.000
-.6604
-.3916
A
.1620*
.06339
.021
.0276
.2964
D
B
.1680*
.06339
.017
.0336
.3024
C
.5260*
.06339
.000
.3916
.6604
基于观测到的均值。
误差项为均值方(错误)=.010,
*.均值差值在.05级别上较显著。
LSD法给出的两两比较,将各组均和一个参照水平做比较,未指定默认,则每一个水平都作为参照比较一次。
每两个之间的差异有无统计学意义,看对应的P值判断(原假设Ho:
无差异)。
磨损深度(mm)
地板品牌
N
子集
1
2
3
Student-Newman-Keulsa,bC
5
2.0460
B
5
2.4040
A
5
2.4100
D
5
2.5720
Sig.
1.000
.926
1.000
已显示同类子集中的组均值。
基于观测到的均值。
误差项为均值方(错误)=.010。
a.使用调和均值样本大小=5.000。
b.Alpha=.05。
LSD法给出的两两比较结果,将各组的值从小到大排序,注意4个品牌共被分成了3个亚组(无差异的作为一组),品牌B和A放在一个亚组,二者的P值=0.926(无差异)。
三、两因素方差分析
1个因变量,2个影响因素:
总差异Yijk=平均差异卩+因素1差异a+因素2差异Bi
+因素1,2交互作用差异y+随机差异孙
例2分析超市某商品的销售量在不同的超市规模(小型、中型、大型)、货架位置(A、B、C、D)是否有差异?
部分数据文件如下:
size
pasinon
sales
1
1
A
45.0
?
1
A
500
3
1
B
56.0
4
1
B
63.0
:
5
1
C
65,0
6
1
C
71.0
1
1
D
48.0
8
1
D
53.0
9
2A
57.0
10
2A
65,0
11
2
B
690
12
2
变量size超市规模:
仁小型,2=中型,3=大型。
总差异Yijk=平均差异卩+超市规模差异a+货架位置差异Bi
+超市规模货架位置交互作用差异Y+随机差异永
1.【分析】一一【一般线性模型】一一【单变量】,打开“单变
量”窗口,将变量“sale销售量”选入【因变量】框,将变量“size
超市规模”、“position货架位置”选入【固定因子】框;
2•点【选项】,打开“选项”子窗口,勾选【输出】下的“描述
统计”、“方差齐性检验”,点【继续】;
点【确定】,得到
主体间因子
值标签
N
1
小型
8
超市规模2
中型
8
3
大型
8
A
6
B
6
摆放位置
C
6
D
6
因变量:
周销售量
描述性统计量
超市规模
摆放位置
均值
标准偏差
N
A
47.500
3.5355
2
B
59.500
4.9497
2
小型
C
68.000
4.2426
2
D
50.500
3.5355
2
总计
56.375
9.1329
8
A
61.000
5.6569
2
B
73.500
6.3640
2
中型
C
76.500
4.9497
2
D
58.500
2.1213
2
总计
67.375
9.1173
8
A
74.000
5.6569
2
B
78.500
4.9497
2
大型
C
85.500
4.9497
2
D
73.000
2.8284
2
总计
77.750
6.3640
8
A
60.833
12.4807
6
B
70.500
9.7724
6
总计
C
76.667
8.6410
6
D
60.667
10.4435
6
总计
67.167
11.9370
24
误差方差等同性的Levene检验
因变量:
周销售量
F
df1
df2
Sig.
11
12
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+size+position+size*position
超市规模3个水平,货架位置4个水平,共将样本分成3X4=12组,
由于有单组样本数<3个,故无法做方差齐性检验(值缺失)。
主体间效应的检验
因变量:
周销售量
源
III型平方和
df
均方
F
Sig.
校正模型
3019.333a
11
274.485
12.767
.000
截距
108272.667
1
108272.667
5035.938
.000
size
1828.083
2
914.042
42.514
.000
position
1102.333
3
367.444
17.090
.000
size*position
88.917
6
14.819
.689
.663
误差
258.000
12
21.500
总计
111550.000
24
校正的总计
3277.333
23
a.R方=.921(调整R方=.849)
整个方差分析模型的检验结果,交互作用项size*position的P值=0.689>0.05,故接受原假设Ho:
该交互作用无差异。
下面去掉交互因子继续做两因素方差分析。
3.在第1步的窗口点【模型】,打开“模型”子窗口,选择【指定模型】下的“设定”,将【构建项】下的【类型】设为“主效应”将变量“size”、“position”选入【模型】框,点【继续】;
4.原窗口点【两两比较】,打开“观测均值的两两比较”子窗口,将因子“size”、“position”选入【两两比较检验】框,勾选【假定方差齐性】下的“S-N-K,点【继续】;
注:
若已明确对照组,考察其它组与它的比较,宜采用LSD法;若要进行多个均值间的两两比较,且各组人数相等,宜采用Tukey法或S-N-K法(若比较的组数特别多,不宜用S-N-K法,宜用Scheffe法);对于不平衡设计或含有协变量的模型,应采用LSD法、Bonferroni法、Sidak法。
点【确定】得到:
误差方差等同性的Levene检验a
因变量:
周销售量
F
df1
df2
Sig.
.171
11
12
.997
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+size+position
方差齐性检验,P值=0.997>0.5,故接受原假设Ho,即方差齐
因变量:
周销售量
主体间效应的检验
源
III型平方和
df
均方
F
Sig.
校正模型
2930.417a
5
586.083
30.409
.000
截距
108272.667
1
108272.667
5617.799
.000
size
1828.083
2
914.042
47.426
.000
position
1102.333
3
367.444
19.065
.000
误差
346.917
18
19.273
总计
111550.000
24
校正的总计
3277.333
23
a.R方=.894(调整R方=.865)
整个方差模型的检验结果(解释参考例1)
Student-Newman-Keuls
周销售量
超市规模
N
子集
1
2
3
小型
8
56.375
中型
8
67.375
大型
8
77.750
Sig.
1.000
1.000
1.000
已显示同类子集中的组均值。
基于观测到的均值。
误差项为均值方
(错误)=
19.273
0
a.使用调和均值样本大小
=8.000
0
b.Alpha=.05
0
周销售量
Student-Newman-Keuls
摆放位置
N
子集
1
2
3
D
6
60.667
A
6
60.833
B
6
70.500
C
6
76.667
Sig.
.948
1.000
1.000
已显示同类子集中的组均值。
基于观测到的均值。
误差项为均值方(错误)=19.273。
a.使用调和均值样本大小=6.000。
b.Alpha=.05。
用S-N-K法进行两两比较,可见超市规模越大,销售量越大;货
架位置对销售量也有影响,位置AD在同一亚组,销售量最小,位置B
销售量居中,位置C销售量最大,三个亚组之间有统计学差异;另外,
由于交互作用被合理地剔除,故上述差异不受另一因素(超市规模)取值的影响
5.若要绘制轮廓图。
原窗口点【绘制】,打开“轮廓图”子窗口,将因子“size”、“position”分别选入【水平轴】点【添加】,点【继续】;
注:
若要得到两变量的联合轮廓图,将另一变量选入【单图】框即可。
点【确定】,得到单变量的轮廓图:
1
屮坐
EOD-
II
a
边际均值,是基于现有模型,控制了其它因素作用后,根据样本情况计算某因素各水平的均值估计值(若模型中有协变量,会按协变量均值加以修正)。
轮廓图,即以边际均值为纵轴,以考察因素为横轴的折线图。
用
以比较该因素取不同水平值时,样本均值的变化情况。
另外,轮廓图也可用来检验两因素是否存在交互作用:
对于单因
素模型或包含全部交互项的全模型,边际均值就是各分组的样本均值,其轮廓图就呈现一组平行线;若剔除某交互作用后各曲线明显不平行,则说明两因素存在交互作用。
另外,【选项】子窗口也提供了“缺乏拟合优度检验”,勾选它,运行得到
失拟检验
因变量:
周销售量
源
平方和
df
均方
F
Sig.
失拟
88.917
6
14.819
.689
.663
纯误差
258.000
12
21.500
用来检验当前模型(剔除交互项)与全模型(包括全部交互项)
的比较,原假设Ho:
两模型无差别;本例的P值=0.663>0.05,接受原
假设,即两因素超市规模、货架位置的交互作用可以忽略。
6.若要绘制残差图。
原窗口点【选项】,勾选【输出】下的“残差图”,运行得到
O
口33]
0O
o0
%°o
碼©曲
OQOQ
0°0_§心°O°Q0
0Q
0
0
a0
LS观
■?
!
I-■税涉+sirze+posiitiDn
F.硕-U-I
残差图给出了因变量的实测值、预测值、标准化残差的散点图,若预测值与实测值有明显的相关性(接近直线趋势),标准化残差在0附近随机分布,则表明拟合结果较好。
7.除两两比较外,也可以自定义比较。
下面只说明原理,具体操作需要借助代码实现。
例如,前文比较货架位置A与D时,L矩阵=[100-1]T,有
[ABCD卜[100-1]T=0等价于A=D
前面分析发现位置A与D的销售量基本无差异,现在想将A与D合并再与B比较有无差异,则可以指定L矩阵=[1-201]T,贝卩
[ABCD卜[1-201]T=0等价于(A+D)2=B
注意:
是从(A+D)2=B倒推L矩阵,该式即A-2B+0C+D=0.
四、含随机因素的方差分析随机因素设为固定因素作为分析,可能得到错误的结果。
例3研究4种广告方式(店内展示、发放传单、推销员展示、广播广告)有无差异。
该地区有几百个销售网点,经费有限只随机选取了18个网点,记录了固定时间段内使用某种