第五讲 方差分析.docx
《第五讲 方差分析.docx》由会员分享,可在线阅读,更多相关《第五讲 方差分析.docx(20页珍藏版)》请在冰豆网上搜索。
第五讲方差分析
第五讲方差分析
第五讲方差分析
本章内容
第一节方差分析概述
第二节单因素方差分析
第三节多因素方差分析
第四节协方差分析
第一节方差分析概述
一、方差分析的含义和作用
方差分析(AnalysisofVariance,ANOVA)是研究分类变量(定类和定序变量)对数值型因变量影响时所使用的统计分析方法。
方差分析是R.A.Fister发明的,广泛应用于心理学、生物学、管理学、工程和医药领域的实验数据分析。
方差分析:
是检验多个样本平均数间差异是否有统计意义的一种方法。
例:
土壤、日照、施肥等对农作物产量的影响
例:
方差分析:
分析分类型自变量对数值型因变量的影响。
三种饲料的效果相同吗:
如果不考虑喂养前体重的影响,则:
二、方差分析的基本概念
1、影响因素的分类:
控制因素和随机因素
控制因素或控制变量:
是人为可以控制的因素,如种子品种的选定,施肥量的多少;
随机因素或随机变量:
另一类因素是认为很难控制的因素,如气候和地域等影响因素。
在很多情况下随机因素指的是实验过程中的抽样误差。
2、控制变量的不同水平:
控制变量的不同取值或水平,称为控制变量的不同水平。
如甲品种、乙品种;10公斤化肥、20公斤化肥、30公斤化肥等。
3、观测变量:
受控制变量和随机变量影响的变量称为观测变量,如农作物的产量等。
8><#004699'>4、方差分析:
方差分析就是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量以及对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是如何影响观测变量的一种分析方法
三、方差分析的适用条件
1、样本来自的总体服从正态分布。
2、样本方差必须是齐次的。
3、各样本之间相互独立。
方差分析的类型
第二节单因素方差分析
一、单因素方差分析的原理
于是有:
提出原假设,H0:
备择假设,H1:
至少有一个
单因素方差分析
将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,分别表示为:
其中,SST为观测变量的总离差平方和;SSA为组间离差平方和,是由控制变量不同水平造成的观测变量的变差;SSE为组内平方和,是由抽样误差(随机变量)引起的观测变量的变差。
其中:
在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由于控制变量引起的,可以主要由控制变量来解释,即控制变量给观测变量带来了显著影响。
这里我们用F统计量来表示这种比例关系,如果控制变量的不同水平对观测变量造成了显著影响,那么观测变量总变差中控制变量所占的比例较大,则F值就比较大;
反之,如果控制变量的不同水平对观测变量没有造成显著影响,那么观测变量总变差中控制变量所占的比例较小,则F值就比较小。
二、单因素方差分析的基本步骤
三、单因素方差分析的SPSS实现
例:
某企业在制订某商品的广告策略时,对不同广告形式在不同地区的广告效果(销售额)进行了评估。
这里以商品销售额为观测变量,广告形式和地区为控制变量,通过单因素方差分析方法分别对广告形式、地区对销售额的影响进行方差分析。
文件名:
广告地区与销售额.sav
在利用SPSS进行单因素方差分析时,应注意数据的组织形式。
SPSS要求定义两个变量分别存放观测变量值和控制变量的水平值。
本例中:
X1:
广告形式
X2:
地区,18个地区
X3:
销售额
1、选择菜单Analyze-Comparemeans-One-WayANOVA,出现窗口
将观测变量选择到DependentList框。
将控制变量选择到Factor框。
控制变量有几个不同的取值表示控制变量有几个水平。
至此,SPSS便自动分解观测变量的方差,计算组间方差、组内方差、F统计量以及对应的概率p值,完成单因素方差分析的相关计算,并将结果显示到输出窗口中。
SPSS输出结果:
广告形式对销售额的单因素方差分析表
分析结果表明:
F统计量的观测值为13.<#004699'>483,对应的概率P值近似为0,
小于给定的显著性水平0.05。
因此,应该拒绝原假设,认为不同广告形式对销售额产生了显著影响。
类似上面的步骤,可以进行地区对销售额的影响:
地区对销售额的单因素方差分析结果
分析结果表明:
F统计量的观测值为<#004699'>4.062,对应的概率P值近似为0,
小于给定的显著性水平0.05。
因此,应该拒绝原假设,认为不同地区对销售额产生了显著影响。
四、单因素方差分析的进一步分析
1、方差齐性检验
由于方差分析的前提是各水平下的总体服从正态分布并且方差相等,因此有必要对方差齐性进行检验,即对控制变量不同水平下各观测变量不同总体方差是否相等进行分析。
SPSS单因素方差分析中,方差齐性检验采用了方差同质性(HomogeneityofVariance)的检验方法,其零假设是各水平下观测变量总体方差无显著性差异,实现思路同SPSS两独立样本t检验中的方差齐性检验。
2、多重比较检验
上面的基本分析可以判断控制变量是否对观测变量产生了显著影响。
如果控制变量确实对观测变量产生了显著影响,进一步还应确定,控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显大于其它水平,哪些水平的作用是不显著的。
例如已经确定不同施肥量会对农作物的产量产生显著影响,便希望进一步了解究竟是10公斤、20公斤还是30公斤施肥量最有利于提高产量,哪种施肥量对农作物产量没有显著影响。
掌握了这些信息,我们就能够制定合理的施肥方案。
多重比较检验就是分别对每个水平下的观测变量均值进行逐对比较,判断两均值之间是否存在显著差异。
其零假设是相应组的均值之间无显著差异。
SPSS提供的多重比较检验的方法比较多,有些方法适用在各总体方差相等的条件下,有些适用在方差不相等的条件下。
其中LSD方法适用于各总体方差相等的情况,特点是比较灵敏;
Tukey方法和S-N-K方法适用于各水平下观测变量个数相等的情况;
Scheffe方法比Tukey方法不灵敏。
3、其他检验
(1)先验对比检验
如果发现某些水平与另一些水平的均值差距显著,就可以进一步比较这两组总的均值是否存在显著差异。
在检验中,SPSS根据用户确定的各均值的系数,再对其线性组合进行检验,来判断各相似性子集间均值的差异程度。
(2)趋势检验
当控制变量为定序变量时,趋势检验能够分析随着控制变量水平的变化,观测变量值变化的总体趋势是怎样的。
SPSS中单因素方差分析的进一步检验
(1)”对比“选项
Contrasts选项用来实现先验对比检验和趋势检验。
如果进行趋势检验,则应选择Polynomial选项,然后在后面的下拉框中选择趋势检验的方法。
其中Linear表示线性趋势检验;Quadratic表示进行二次多项式检验;Cubic表示进行三次多项式检验,<#004699'>4th和5th表示进行四次和五次多项式检验。
如果进行先验对比检验,则应在Coefficients后依次输入系数ci,并确保∑ci=0。
应注意系数输入的顺序,它将分别与控制变量的水平值相对应。
(2)两两比较选项:
用来实现多重比较检验。
提供了18种多重比较检验的方法。
其中:
EqualVariancesAssumed框中的方法适用于各水平方差齐性的情况。
在方差分析中,由于其前提所限,应用中多采用EqualVariancesAssumed框中的方法。
多重比较检验中,SPSS默认的显著性水平为0.05,可以根据实际情况修改Significancelevel后面的数值以进行调整。
(3)Option选项
Option选项用来对方差分析的前提条件进行检验,并可输出其他相关统计量和对缺失数据进行处理。
Homogeneityofvariancetest选项实现方差齐性检验;
Descriptive选项输出观测变量的基本描述统计量;
Brown-Forsythe、Welch选项可计算其统计量以检验各组均值的相等性,当方差齐性不成立时应选择使用这两个统计量而不是F统计量。
MeansPlot选项输出各水平下观测变量均值的折线图;
MissingValues框中提供了两种缺失数据的处理方式。
五、单因素方差分析的进一步应用举例
前面例子中已经利用单因素方差分析分别对广告形式、地区对销售额的影响进行了分析。
分析的结论是不同的广告形式、不同的地区对销售额有显著影响,下面可作进一步的分析。
1、方差齐性检验
不同广告形式、不同地区下销售额总体方差是否相同,是否满足单因素方差分析的前提要求,是应首先检验的问题。
不同广告形式下销售额基本描述统计量及95%置信区间
不同广告形式下方差齐性检验
结果表明,不同广告形式下销售额的方差齐性检验值为0.765,概率P值为0.515,
大于给定的显著性水平0.05,不能拒绝原假设,认为不同广告形式下销售额方差
无显著差异。
不同广告形式下均值折线图
2、多重比较检验
总体上讲,不同广告形式对产品的销售额有显著影响,那么究竟哪种广告形式的作用较明显哪种不明显,这些问题可通过多重比较检验实现。
同理,可对商品在不同地区的销售额情况进行分析。
(采用LSD,Bonferroni,Tukey,Scheffe,S-N-K五种方法)
输出结果:
从不同的检验结果可以看出,在显著性水平为0.05的条件下,报纸广告只与
宣传品广告有显著差异,而与体验、广播无显著差异。
广告形式多重比较检验的相似性子集
分析:
可以看到表中三种方法划分的子集结果是一致的。
在显著性水平为0.05的
情况下,首先观察S-N-K方法,宣传品组(均值为55.5556)与其他三组均值有显著
不同(其相似的可能性小于0.05),被划分出来,形成两个相似性子集。
在第一个子集中(只有宣传品),组内相似的概率为1,第二组组内相似的概率大于
0.05(为0.055)。
其他各组的分析类推。
总之,如果从获得高销售额的角度选择广告形式,不应选择宣传品的形式,可考
虑在其他三种形式中选择一种低成本或操作性强的广告。
第三节多因素方差分析
一、多因素方差分析的基本思想
定义:
多因素方差分析用来研究两个及两个以上控制变量的不同水平是否对观测变量产生了显著影响。
多因素方差分析不仅能够分析多个因素对观测变量的独立影响,还能够分析多个控制变量的交互作用能否对观测变量产生显著影响。
例如:
分析不同品种、不同施肥量是否给农作物的产量产生显著影响,并进一步研究哪种品种和哪种施肥量是提高农作物产量的最优组合。
再如:
上节应用案例中,分析发现不同广告形式对产品销售额有显著影响,不同地区的产品销售额存在显著差异,进一步还可以通过不同广告形式和不同地区的搭配是否对销售额产生影响、以及哪种搭配方式可获得最理想的销售业绩等。
二、多因素方差分析的基本思路:
认为观测变量的变动是由各控制变量独立作用、它们的交互作用、以及随机因素造成的。
基于上述原则,多因素方差分析将观测变量的总变差分解为(以两个控制变量的方差分析为例):
SST=SSA+SSB+SSAB+SSE
(maineffects)(N-way交互)(Residual)
(explained)
式中:
SST为观测变量的总离差平方和;
SSA、SSB分别为控制变量A、B独立作用引起的变差,又称主效应(Maineffects);
SSAB为两个控制变量各个水平两两相互组合对观测变量的影响,又称多向交互影响效应(N-WAY);
SSE为随机因素引起的变差。
设A有k个水平,B有r个水平:
多因素方差分析离差平方和的分解-例题
82<#004699'>4
<#004699'>4
2
82<#004699'>4
<#004699'>4
2
82<#004699'>4
<#004699'>4
2
887
3
1
887
3
1
938
3
1
866
3
1
827
3
1
8<#004699'>48
3
1
989
2
1
859
2
2
98<#004699'>4
2
1
889
2
1
10<#004699'>4<#004699'>4
1
1
101<#004699'>4
1
1
101<#004699'>4
1
1
基本工资
职称
性别
交互作用的理解
10
7
B2
5
2
9><>B1
A2
A1
3
7
B2
5
2
<>B1
A2
A1
比较观测变量总离差平方和各部分的比例
在观测变量总离差平方和中,如果SSA所占比例较大,则说明控制变量A是引起观测变量的变动主要因素之一,观测变量的变动可以部分的由控制变量A来解释,即控制变量A给观测变量带来了显著影响。
对SSB、SSAB同理。
三、多因素方差分析的数学模型
设控制变量A有k个水平,B有r个水平,每个交叉水平下均有l个样本,那么,在控制变量A的水平Ai和控制变量B的水平Bj下的第k个样本值可以定义为:
Xijk=μ+ai+bj+(ab)ij+εijk
式中εijk为抽样误差是服从正态分布独立随机变量。
上式称为多因素方差分析的饱和模型(FullFactorial)
如果控制变量A(或B)对观测变量没有影响,则各水平的效应ai(或bj)应全部为0,否则不全为0,同理,如果控制变量A和B对观测变量有交叉影响,则各水平的效应(ab)ij就全部为0,否则不全为0。
多因素方差分析正是要分别对控制变量A、B及交互作用的所有效应是否同时为0进行推断。
四、多因素方差分析的基本步骤
1、提出原假设:
各控制变量不同水平下观测变量各总体的均值无显著差异,控制变量交互作用对观测变量无显著影响。
记为H0:
a1=a2=…=ak=0
<>b1=b2=…=br=0
(ab)11=(ab)12=…=(ab)kr=0
意味着控制变量和它们的交互作用没有对观测变量产生显著影响。
2、计算检验统计量
在多因素方差分析中,控制变量可进一步划分为固定效应和随机效应两种类型。
固定效应:
控制变量的各个水平是可以严格控制的,它们给观测变量带来的影响是固定的,如温度、品种等;
随机效应:
指控制变量的各个水平无法作严格的控制,它们给观测变量带来的影响是随机的,如城市规模、受教育水平等。
一般区分固定效应和随机效应是比较困难的。
由于这两种效应的存在,多因素方差分析也有固定效应和随机效应之分。
这两种模型分解观测变量变差的方式是完全相同的,主要差别体现在检验统计量的构造方面。
多因素方差分析采用的检验统计量仍为F统计量,如果有A、B两个控制变量,通常对应三个F统计量。
在固定效应模型中,各F检验统计量为:
在随机效应模型中,FAB统计量同上式,其他两个F统计量为:
3.计算检验统计量观测值和概率P值
<#004699'>4.给定显著性水平α,并作出统计决策。
如果p值小于显著性水平,则应该拒绝原假设,反之就不能拒绝原假设。
五、多因素方差分析的SPSS实现
在利用SPSS进行多因素方差分析时,应首先将各个控制变量以及观测变量分别定义成多个SPSS变量,并组织好数据再进行分析。
案例:
利用某企业不同广告形式在不同地区的广告效果(销售额)进行评估的数据,通过多因素方差分析方法对广告形式、地区、广告形式和地区的交互作用给销售额的影响进行分析,进而为制订广告和地区的最优宣传组合方案提供依据。
这里,以广告形式和地区为控制变量,销售额为观测变量,建立固定效应的饱和模型。
零假设为H0:
不同广告形式没有对销售额产生显著影响;
不同地区的销售额没有显著差异;
广告形式和地区对销售额没有产生显著的交互影响。
数据组织形式
操作步骤:
1.选择菜单Analyze-GeneralLinearModel-Univariate,出现主窗口。
指定观测变量
指定固定效应的控制变量
指定随机效应的控制变量
至此,SPSS将自动建立多因素方差分析的饱和模型,计算各检验统计量的观测值
和对应的概率P值。
SPSS分析结果:
变量描述
销售额多因素方差分析结果
观测变量总变差分解说明
观测变量变差分解结果
自由度
方差
F检验统计量值
概率P值
说明:
观测变量的总变差(Correctedtotal):
SST=SSA+SSB+SSAB+SSE=26169.306
由广告形式X1引起的变差SSA:
5866.083;
由地区不同X2引起的总变差SSB:
9265.306;
由广告形式和地区交互作用(X1*X2)引起的变差SSAB:
<#004699'>4962.917;
由随机因素(Error)引起的总变差SSE:
6075.000
CorrectModel:
对应于SSA+SSB+SSAB:
2009<#004699'>4.306
是线性模型整体对观测变量解释的部分
Intercept:
为观测变量与0的总离差平方和与SST的差,即6<#004699'>42936.69<#004699'>4,在实际分析中一般不引用。
R2和调整的R2
R2=2009<#004699'>4.306/26169.306=0.768;
反映的是多因素方差模型对观测数据的总体拟合程度,越接近于1说明拟合程度越高。
在该问题中有两个控制变量,应考虑调整的R2
分析结果:
Fx1,Fx2,Fx1*X2的概率P值分别为0.00,0.00,0.286。
给定显著性水平α为0.05,由于Fx1,Fx2的概率P值小于显著性水平0.05,所以应该拒绝原假设,可以认为不同广告形式、地区下的销售额总体均值存在显著差异。
该结论与单因素方差分析的结果是一致的。
由于Fx1*X2的概率P值大于显著性水平0.05,因此不能拒绝原假设,可以认为不同广告形式和地区没有对销售额产生显著的交互作用,即不同地区采用哪种形式的广告对销售额将不产生显著影响。
另外,调整的R2为0.539,可见该模型对数据的拟合程度并不很理想,从另一个角度说明销售额还受到除广告形式和地区以外的其他因素的影响。
六、多因素方差分析的进一步分析
一、多因素方差分析的非饱和模型
在饱和模型中,观测变量总的变差被分解为控制变量独立作用、控制变量交互作用及随机误差三部分(例:
SST=SSA+SSB+SSAB+SSE)。
如果研究发现,控制变量的某阶交互作用没有给观测变量产生显著影响,那么可以尝试建立非饱和模型。
区别在于将饱和模型中某些部分合并到SSE中,例如两因素非饱和模型为:
SST=SSA+SSB+SSE
非饱和模型其参数估计的方法、采用的检验统计量与饱和模型相类似。
二、多因素方差分析的其他功能
1.均值检验
在SPSS中,利用多因素方差分析功能还能够对各个控制变量不同水平下的均值是否存在显著差异进行比较,实现方式有两种:
多重比较检验(PostHoc)和对比检验(Contrast)。
多重比较检验的方法与单因素方差分析类似,不再重复。
对比检验采用的是单样本t检验的方法。
2.控制变量交互作用的图形分析
控制变量的交互作用可以通过图形直观分析。
如果控制变量之间无交互作用,各水平对应的直线是近于平行的;
如果控制变量间存在交互作用,各水平对应的直线会相互交叉。
A1
A2
<>B1
B2
A1
A2
<>B1
B2
A、B无交互作用
A、B有交互作用
3.模型分析
这里模型分析的主要任务有三个:
第一,利用多因素方差分析模型计算观测变量预测值;
第二,计算各种残差值,评价模型对数据的拟合程度;
第三,对数据中的异常点进行诊断。
七、多因素方差分析的进一步操作步骤
案例:
在前面的应用举例中对广告形式、地区对销售额的影响进行了多因素方差分析,建立了饱和模型。
分析可知,广告形式和地区的交互作用不显著,可以进一步尝试建立非饱和模型,并进行均值比较分析、交互作用图形分析。
1.建立非饱和模型的操作
SPSS多因素方差分析中默认建立的是饱和模型。
如果希望建立非饱和模型,则应在主窗口中单击Model按钮,出现窗口:
默认的选项是Fullfactorial,表示饱和模型。
此时Factors&Covariates框、Model框以及BuildTerm(s)下拉框均呈不可用状态;
如果选择Custom项,则表示建立非饱和模型,且Factors&Covariates框、Model框以及BuildTerm(s)下拉框均变为可用状态。
此时便可自定义非饱和模型中的数据项。
其中Interaction为交互作用;Maineffects为主效应;All2-way、All3-way等表示二阶、三阶或更高阶交互作用。
SPSS输出结果:
销售额多因素方差分析的非饱和模型
与前面的分析相比,
广告形式(x1)与地区(x2)交互作用引起的变差没有被分离出来,
它被并入到随机因素引起的变差(Error)中。
线性模型整体对观测变量变差解释部分(CorrectedModel)变小。
模型对数据的整体拟合程度也降低了。
2.均值比较的操作
如果通过多因素方差分析得知某控制变量的不同水平对观测变量产生显著影响,进一步可对各水平间的均值进行比较。
如果采用多重比较检验方法,则单击PostHoc按钮,选择合适的多重比较检验方法。
具体与单因素方差分析相同。
与单因素方差分析结果相同
如果采用对比检验方法,则单击Contrasts按钮,默认是不进行对比检验(显示如x1(None));
如果进行对比检验,可展开Contrast后的下拉框,指定对比检验的检验值,并单击Change按钮完成指定。
SPSS输出结果分析:
不同广告形式下销售额的均值比较结果
表中显示了广告形式前三个水平
下销售额总体的均值检验结果,
省略了第四个水平的检验结果,
检验值是各水平下的总体均值。
检验结果表明:
第一种广告形式
下的销售均值与检验值(总体均值
)间存在显著差异,其明显高于
总体水平。
第二种广告形式也显著高于总体水平
第三种广告形式显著低于总体水平
3.控制变量交互作用的图形分析
如果希望通过图形直观判断控制变量间是否存在交互作用,则应在主窗口单击Plots按钮。
首先选择一个控制变量作为交互图形中的横轴,并将其选择到HorizontalAxis框中;
其次,指定在交互图中各直线代表的是哪个控制变量的不同水平,并将其选择到SeparatedLines框中;
最后,如果控制变量有三个,由于交互作用图只能反映两控制变量的交互情况,此时第三个变量只能选入SeparatePlots框中,第三个变量有几个水平便绘制出几张交互图。
对本例做交互作用分析,图形如下所示:
由图可见,在地区从第1水平
分别变至第18水平的过程中,
各个广告形式下的销售额基本
按照相同的规律变动,各直线
在各水平基本平行。
直观结论是:
广告与地区间不存
在显著交互作用,这与前面的分析
结论是一致的。
<#004699'>4.模型分析
SPSS多因素方差模型建立完成后,可以在主窗口中单击Save按钮对模型进行分析,并将分析结果以变量的形式存入SPSS数据编辑窗口中。
其中,PredictedValues框中的选项用来计算模型的预测值;Residuals框中的各选项用来计算各种残差;Diagnostics框实现异常值的诊断