第一节方差分析原理.docx

资源描述

第一节方差分析原理.docx

《第一节方差分析原理.docx》由会员分享，可在线阅读，更多相关《第一节方差分析原理.docx（23页珍藏版）》请在冰豆网上搜索。

第一节方差分析原理.docx

第一节方差分析原理

一、方差分析基本思想

　　方差分析（analysisofvariance，或缩写ANOVA）又称变异数分析，是一种应用非常广泛的统计方法。

其主要功能是检验两个或多个样本平均数的差异是否有统计学意义，用以推断它们的总体均值是否相同。

它是真正用来进行上述“多组比较”问题的正确方法，从这个意义上说，它可看成是t检验等“两组比较法”的推广。

理解方差分析的原理，主要在于其基本思想，而不在于数学推导。

　　以单因素完全随机化实验设计为例（这是最简单的多组实验设计）介绍方差分析的原理。

注意下面列出的该种设计的数学模式，假设有k个处理，每个处理下有n个被试，一共有nk个被试。

K个处理下的数据构成比较中的k个组或k个样本。

处理

…

各组

数据

X11

X21

…

Xi1

…

Xn1

X12

X22

…

Xi2

…

Xn2

…

X1j

X2j

…

Xij

…

Xnj

…

X1k

X2k

…

Xik

…

Xnk

　　不失一般地，其对应的图示如下：

　　根据测量学中的真分数理论，观测值等于真值和误差之和；据此，对照上面的数据可得到下面的数学模型：

　　其中：

　　Xij 指第j个处理下的第i个被试的实验数据；

　　μ 指总体均值；在图中样本数据中，即红色线表示的总平均；

　　μj 指第j个处理的均值；

　　τj 称为第j个处理的效应；通常，τj =μj–μ，也即各组均值偏离总平均的离差；

　　εij 为随机误差（idd表示误差独立同分布）；在该模型中，误差就是各组中数据偏离其组均值的离差。

因为根据单因素完全随机化设计的特点，同组中的被试，其各方面条件都相同，接受的处理也相同，其观测值间的差异只能归结为随机误差。

　　首先对检验的零假设进行变换：

　　下面我们就需要构造一个统计量使得它在Ho"下无未知量且有精确的分布，以进行假设检验。

由于τ2j是每个处理的平均数与总平均之差，所以我们考虑从数据的离均差的平方入手来构造统计量：

　　对每个观测数据：

　　即：

任意一个数据与总平均数的离差=该数与所在组平均数的离差+所在组的平均数与总平均数的离差。

　　我们针对第j组中每个数据的上述分解式的平方求和得：

　　再对所有组求和得：

　　显然，上式左端的表达式就是将所有k个样本数据混在一起时所得总方差的分子部分，称总平方和，记为SSt（sumofsquare,total）；右端第一式是在各组内计算得到的各组方差的分子部分，由于它度量的实际上是所有数据与其所在组均值的离差平方和，故称之为组内平方和，记为SSw（withingroup），根据上述的模型，它的含义也就是误差平方和；右端第二式度量的是各组的效应平方和，称组间平方和（之所以有n倍，是因为每组中的效应被重复累加了n次），记为SSb（betweengroup）。

　　上式简记为：

SSt=SSb+SSw。

此公式是和上述单因素完全随机化设计的数学模型相对应的。

接下来的问题实际上是利用F检验进行方差比检验，即比较组间变异（方差或均方）和组内变异的相对大小。

因此，分别将上述平方和比各自的自由度得到组间方差（记为MSb）和组内方差（记为MSw或MSe）。

方差分析假定各处理方差相等，则各处理样本的方差S21、S22，…，S2m都是处理总体方差σ2的无偏估计量。

各处理方差合成后估计精度更高（下式）。

同时，MSb也是σ2的无偏估计量。

则有：

　　直观地看，要检验的就是F值是否显著地大于1，若大于1，说明组间变异中尚存在随机误差之外的显著变异；否则说明组间变异和随机误差差不多，也即接受无差异零假设。

　　从上面的推导过程看到，方差分析实际上是将实验数据的总变异分解成若干个不同来源的分量（对于单因素完全随机化实验设计来说是分解成组间差异所引起的变异和组内误差所引起的变异），即将总的离均差平方和分解成几个不同来源的平方和，然后比较我们研究的那些因素所引起的变异与误差变异的显著性。

其核心一是根据具体实验设计确定变异源分解模型；二是构造方差比进行F检验。

　　二、方差分析的基本条件

　　进行方差分析时有一定的条件限制，数据必须满足以下几个基本假定：

　　总体正态性。

要求样本必须来自正态分布总体，而总体是否服从正态分布可以采用卡方检验中的拟合性检验进行判断（参见第八章有关内容）。

不过在心理与教育研究领域中，大多数变量是可以假定其总体服从正态分布的，因此一般在进行方差分析时并不需要去检验总体分布的正态性；而且研究表明数据正态性对于方差分析结果的影响不是太大。

　　方差齐性。

在前面的推导过程中，将MSw作为总体组内方差的估计值，而计算MSw时相当于将各处理（组）方差合成，这种合成正如T检验一节所讲一样，显然要求一个前提就是各组的方差无显著的差异。

方差齐性检验有许多方法，如教材介绍的哈特莱（Hartley）法、Levene氏方差齐性检验等。

第二节两类单因数方差分析

作为方差分析的基础，首先要了解实验设计的有关知识。

方差分析法的复杂之处在于不同的实验设计，其方差分析过程可能是不同的。

如上所述，不同的实验设计，方差分析过程的首要区别是因变量总变异的分解方式不同，所关心的效应种类不同；而在构造方差比计算F值时总是以被检验因素或效应的均方（如上面的组间均方）作分子，以误差均方作分母（单侧检验）。

所有形式的方差分析都是如此。

有几个可能的效应，就应当进行几次F检验，每次检验的F统计量中的误差均方可能不尽相同。

　　一、实验设计基本概念

　　1、自变量、因变量、无关变量、随机误差

　　自变量（independentvariable）是研究者可以系统地改变或操纵的变量。

自变量可以是被试自身的条件，如年龄、智力，也可以是外在环境的刺激，如学习材料、光线的强度、教学方法、错觉实验中的夹角，还可以是用来预测其它行为的行为——高中的学业成绩来预测大学的成绩。

　　在方差分析中也称自变量为因素或因子（factor），通常方差分析只能处理名义型的质量因子，如性别、教学方法等；若自变量为等距或等比类型的数量因子，如光线的强度、夹角等，通常可以在具体实验中将其人为地只取几个代表值，转化成质量因子。

而对于完全连续型的数量因子则必须借助于协方差分析（analysisofcovariance，ANCOVA）。

　　因变量（dependentvariable）是实验中加以精确测量以便决定自变量效应的变量，即由自变量引起的实验体的变化。

比如成绩、遗忘量、错觉量，反应时等。

　　无关变量（irrelevantvariable）是自变量以外的其它可能引起因变量变化的变量。

　　随机误差（randomerror）在这里定义成测量或实验所得的分数与真分数之间的差异。

如以同一智力测验对同一个体测量数次或对同一个体施以不同智力测验，所测结果不尽相同，在理论上该个体的真智力只有一个分数，而测得的却有数个分数，测得分数与真分数之间的差异，即为随机误差。

　　上述四个概念之间的关系可以表示为：

因变量=F（自变量，无关变量）+随机误差。

这可看成是真分数理论的推广。

　　2、因素的水平和实验处理

　　因素的水平（level）指每一个特定取值，在实验中也就是各实验组。

注意：

因素的水平与一个实验中因素的个数之间的区别。

不能把夹角的三个水平当成实验中的三个因素。

　　实验处理（treatment）指实验中一个特定的、独特的实验条件，它一般是各个因素的所有水平的交叉组合。

一个处理就代表一个总体，每个处理下收集的数据就是该总体的一个样本。

下例是研究夹角与错觉量之间关系的实验，实验中考虑三个因素：

夹角,性别,光线的强弱，一共有3×2×2=12个处理。

夹角

男

女

强

弱

强

弱

30o

45o

60o

　　在实验中若只有一个因素，则水平也就是处理。

　　3、实验设计的分类

　　可以简单地以自变量的多少分：

单因素、二因素和多因素；也可以按照实验控制无关变量的多少分：

　　①完全随机化实验设计

　　通过随机分配被试给各个实验处理（每个处理下的被试数最好相等，至少有2名），以期实现各个处理下的被试在统计上无差异，它不能分解出无关变量对因变量的影响，只是在理论上使所有无关变量对各处理的影响相等。

　　完全随机化实验设计中的“完全”指的是将被试分配给所有处理，“随机”指的是将所有被试随机分配。

　　②随机化完全区组设计

　　将被试按某一无关变量的不同水平分成若干个组，这种组就叫做区组，区组是相对于实验组而言的，各组内各被试在该无关变量上的大小相同。

如要班主任不同对学生数学成绩的影响实验中，被试以前的数学成绩是一个无关变量，它会影响到实验的最终结果，因此我们可以把学生以前的数学成绩作为标准对学生进行分组。

假如以前的数学成绩用四级评分来表示，则可以将被试分成四个组（最好各个组内的人数相等），然后再将每个组的被试按完全随机化实验设计那样随机地分配给各个处理。

　　随机化完全区组设计中的“随机”指的每个区组内的被试随机地分配各个处理，“完全”指的是在每一个区组中的被试要分配给所有的处理，若没能分配给所有的处理，则称为不完全区组设计。

随机化完全区组设计通常要求无关变量与实验中的因素无交互作用、互不影响。

实际上一般的区组设计方差分析也无法分解出其与因素的交互作用。

　　③拉丁方设计

　　区组设计的推广，可以控制两个无关变量的的实验设计，被试在分给实验处理前要按照两个无关变量重新分组。

　　此外还可按照被试接受处理的多少来分：

　　①被试间实验设计（betweensubjectdesign）

　　指每个被试只接受一个处理，即只在一个实验条件下做实验。

前面所举的的例子都是被试间设计。

注意，完全随机化设计必然是被试间设计，而教材上所举的区组设计的例子多半为被试内设计的特殊情况，实际上，区组设计就其本质特点而言不是被试内设计，而是强调在完全随机化设计基础上，按照另一个无关变量对原先的被试重新进行排序分组。

在原先的处理组中，所有被试是不加区分的，现在则要按无关变量分组。

因此它并不能像被试内设计一样节省被试。

　　②被试内实验设计（withinsubjectdesign）

　　是一种控制误差非常严格的实验设计，指每个被试接受所有的处理，即相当于以单个被试为区组，可以排除许多与个体差异有关的无关变量的影响，这样实验组之间的差异除了被试在接受各处理时产生的随机波动外，就只能归因于处理的不同了。

被试内设计中也存在随机化，即对每个被试接受处理的顺序进行随机化。

　　这种实验设计可最大限度地控制个体差异的影响，这是其相对于被试间设计的优点。

但这种设计要求处理对被试没有长期影响，如学习和疲劳效应。

被试内设计还有一个好处就是能最大限度节省被试（处理下重复或数据个数相同的情况下）。

　　③混合设计（mixeddesign）

　　在多因素设计中，可以安排某些因素作为被试间变量，另一些因素作为被试内变量，这就是混合设计。

下表的设计中，每个被试接受了每种夹角下的实验，但是1-20号被试只接受强光线下的实验，21-40号被试只接受弱光线下的实验，他们都没有接受所有光线条件下的实验。

光线强度

被试

编号

夹角

30o

45o

60o

强

弱

　　那些每个被试接受了其下所有处理的因素就是被试内因素（夹角），每个被试只接受其下一种水平的因素即被试间因素（光线强度）。

　　混合设计可以兼顾上述两种设计的优缺点，在使用的被试数量上也介于上面两种设计之间。

　　二、单因素完全随机化实验设计方差分析的步骤

　　上述基本原理中采用的就是单因素完全随机化的例子。

这里对方差分析的步骤做一总结。

假设自变量下有k个水平，也即有k个处理，每个水平下有n个被试，一共有nk个被试被随机地分配给k个处理。

　　①平方和的分解和计算

　　其中的SSt、SSb的计算第二项叫做校正项。

　　②自由度的分解和计算

　　③计算F统计量

　　④根据显著性水平α，查单侧F分布表，得到临界值，进行统计决策（F统计量>临界值则拒绝零假设）并对方差分析结果进行解释；

　　⑤列出方差分析表，用一个表格来反映整个计算过程与结果，尤其是标出因素效应的F检验结果。

实际上，第二步后的过程都可以在方差分析表中完成。

　　【例1】某心理学家为了考察训练教程对儿童创造思维能力的影响，将20名被试随机分成四个组，每组5人，每组采用一种教程进行训练，一学期后每个被试的创造思维能力评分如下表，试检验训练教程的作用是否有显著的差异。

　　问题解决模式教程

8　20　12　14　10

　　创造性思维教程

39　26　31　45　40

　　工具丰富教程

17　21　20　17　20

　　CoRT教程

32　23　28　25　29

　　解：

　　①平方和的分解和计算，采用表格计算法，首先计算出公式中需要的一些中间结果，这里主要是每个处理下所有数据的和、平方的平均以及平方和，计算如下表所示：

原始数据

820121410

819.2

904

3926314540

181

6552.2

6783

1721201720

1805

1819

3223282529

137

3753.8

3803

求和

477

12930.2

13309

　　将表中的数据代入计算公式有：

　　 SSt=13309-4772/20=1932.55

　　 SSb=12930.2-4772/20=1553.75

　　 SSw=SSt-SSb=378.80

　　②自由度的分解和计算

　　 dft=4·5-1=19

　　 dfb=4-1=3

　　 dfw=dft-dfb=16

　　③计算F统计量

　　 F=（SSb/dfb）/（SSw/dfw）=（1553.75/3）/（378.80/16）=21.88

　　④查单侧F分布表，得到临界值F0.05（3,16）=3.24，所以F＞F0.05（3,16），因此各教程的作用有显著的差异。

至于这些教材到底哪些之间存在差异，哪一种效果最好，哪一种最差（换句话想了解具体差异），则应该进行方差分析事后检验（如多重比较）。

　　⑤列出方差分析表

变异源

平方和

自由度

均方

F值

F0.05（3,16）

组间

1553.75

517.92

21.88*

3.24

组内

378.80

23.68

总

1932.55

　　注意，表中的F值必须写在组间变异源所在行，它表示的是对该效应的度量。

此外，这里只介绍了各处理下被试人数相同的情况，请读者参照教材去比较一下各处理下样本容量不同时的计算在哪些地方不同。

另外教材还介绍了只有各组数据的一些中间结果，如均值、方差及样本容量，而不是原始数据时该如何计算，这也是应该掌握的内容。

　　三、单因素随机区组实验设计方差分析的步骤

　　假设自变量下有k个水平，将所有被试按某无关变量分成r个区组，每个区组内的被试数（设为m）应是水平数k的倍数，每个区组的被试被随机地平分给每个处理，假设每个水平下有n个被试（显然n一般应r的倍数），因此一共有nk=mr个被试。

　　①平方和的分解和计算

　　 SSt=SSb+SSr+SSe

　　与完全随机化实验设计不同的是，这里还要分解出反映区组效应的平方和。

而且，这部分平方和是从原先完全随机化设计中的SSw中分解出来的。

即SSw=SSr+SSe

　　②自由度的分解和计算

　　 dft=dfb+dfr+dfw

　　 dft=nk-1

　　 dfb=k-1

　　 dfr=r-1

　　 dfe=（nk-1）-（k-1）-（r-1）

　　③计算统计量

；

　　④根据显著性水平α，查单侧F分布表，得到临界值，做决策并对方差分析结果进行解释；

　　⑤列出方差分析表，用一个表格来反映整个计算过程与结果。

　　【例2】为研究在缪勒—莱尔错觉实验中夹角对错觉量的影响，取24名被试，由于考虑到视力可能影响实验结果，所以根据他们的视力情况分成4个区组，每个区组的6名被试被随机地分配到3种角度下进行实验，结果如下，问不同夹角对错觉量是否有显著影响。

区组

夹角

15o

45o

75o

10.510.2

9.79.7

8.88.8

10.6 9.5

9.78.9

9.08.3

9.5 9.8

8.89.5

8.49.0

11.2 9.5

10.19.0

9.48.0

　　解：

　　①平方和的分解和计算，采用表格计算法，首先计算出公式中需要的一些中间结果，这里主要是每个处理下与每个区组下所有数据的和以及平方和，计算如下表所示：

区组

15o

45o

75o

∑R

10.510.2

9.79.7

8.88.8

57.7

10.6 9.5

9.78.9

9.08.3

56.0

9.5 9.8

8.89.5

8.49.0

55.0

11.2 9.5

10.19.0

9.48.0

57.2

∑X

80.8

75.4

69.7

225.9

∑X2

818.88

712.18

608.69

2139.75

　　显然，根据题意有，k=3,n=8,r=4,m=6；将表中的数据代入计算公式有：

　　 SSt=∑∑X2-（∑∑X）2/nk=2139.75-（225.9）2/24=13.47

　　 SSb=∑k1[（∑X）2]/n-（∑∑X）2/nk

　　 =（80.82+75.42+69.72）/8-（225.9）2/24=7.7

　　 SSr=∑r1[（∑R）2]/m-（∑∑R）2/mr

　　 =（57.72+562+552+57.22）/6-（225.9）2/24=0.74

　　 SSe=SSt-SSb-SSr=5.03

　　其中的SSr的计算，相当于把区组看成另一个处理组，其符号和SSb的计算是完全对称的。

　　②自由度的分解和计算

　　 dft=3·8-1=23

　　 dfb=3-1=2

　　 dfr=4-1=3

　　 dfe=dft-dfb-dfr=18

　　③计算F统计量

　　 F处理=（SSb/dfb）/（SSe/dfe）=（7.7/2）/（5.03/18）=13.78

　　 F区组=（SSr/dfr）/（SSe/dfe）=（.74/3）/（5.03/18）=0.88

　　④查单侧F分布表，得到临界值F0.05（2,18）=3.55，F0.05（3,18）=3.16，所以F处理＞F0.05（2,18），F区组＜F0.05（3,18），因此区组之间的差异不显著，即视力对实验结果无显著影响，实验不必按视力进行区组设计。

而实验最关心的夹角对错觉量有显著的影响。

　　⑤列出方差分析表

变异来源

平方和

自由度

均方

F值

F0.05（）

组间

7.70

3.75

13.78*

3.55

区组

.74

.247

0.88

3.16

组内

5.03

.279

总

13.47

多因数分差分析

多因素设计及其方差分析的特点

　　多因素设计中，实验条件通常为各实验因素交叉组合形成的处理。

之后，可以按照处理组随机平均分配被试（多因素被试间设计），也可以设置区组。

这里我们主要介绍多因素完全随机化设计及其对应方差分析过程。

多因素设计中最独特的概念是主效应与交互效应。

　　在实验中由一个因素的不同水平单独引起的变异叫做该因素的主效应，所谓单独的效应，就是指不考虑其它因素影响时该因素的分组效应。

多个因素之间联合的作用叫交互作用，其准确定义是“若一个因素的水平在另一个因素的不同水平上变化趋势（方向和大小）不一致时，则称这两个因素有交互效应”。

例如，在一个研究不同的教学方法（A）和不同的教学氛围（B）对儿童识字教学的影响的实验中，所得的识字量数据如下，其中因素A有两个水平，集中识字与分散识字，因素B也是两水平，严肃与轻松。

集中识字

分散识字

平均

严肃

轻松

平均

　　从上表和均值图可以看出，单独看识字方法因素（不考虑教学氛围的分组，从列平均看），集中识字与分散识字这两种教学方法之间没有多大的差异（平均数分别为24与23）。

单独看教学氛围因素，严肃态度的效果比轻松态度的效果差很多（平均分别为15和32）。

这就是主效应。

但是分开来看时，在严肃的教学态度下，分散识字的效果要好于集中识字；而在轻松的教学态度下，集中识字的效果却好于分散识字，这说明①教学方法（A）之间的差异受到教学态度（B）的影响，此时称它们之间存在交互作用或交互效应；②两种教学方法之间并不是象从总体上来看时的那样没有差异，而是有差异的，因此有交互作用时单独从各因素的主效应来解释结果可能得到错误的结论。

　　实际上，均值图是判断是否存在交互作用（不考虑显著性）的直观方法，只有均值折线分段平行，才说明因素间不存在交互作用；否则都是有交互作用。

而且有交互作用时，不用看主效应（因为它的结论是错误的）。

只要因素间不存在交互作用时，主效应才有意义。

可见，多因素实验相对多个单因素实验，最大的优势和特点就是因素之间的交互作用，只有它才能准确地反映多个因素对因变量的影响。

下面以二因素为例说明方差分析的过程。

　　1、二因素设计平方和的分解

　　多因素设计与单因素设计比较，其中最主要的一个特点是要从总平方和中分解出交互作用的平方和，一般记为SSAB，A、B表示因素A与B。

　　完全随机设计：

SSt=SSb+SSw=（SSA+SSB+SSAB）+SSw

　　随机区组设计：

SSt=SSb+SSw=（SSA+SSB+SSAB）+（SSr+SSe）

　　2、二因素设计平方和的计算

　　主效应的平方和的计算方法

展开阅读全文