方差分析.docx
《方差分析.docx》由会员分享,可在线阅读,更多相关《方差分析.docx(39页珍藏版)》请在冰豆网上搜索。
方差分析
方差分析简介
(一)2011-03-0610:
01 | (分类:
默认分类)
方差分析是我们从心理统计这门课就提到一个基本的统计方法。
但或许很多人到做研究生毕业论文的时候,还没搞清楚到底方差分析是怎么一回事。
我们的老师对很多基本的地方也是含糊不清。
我就我几年学习和应用的理解,粗略讲一下方差分析是怎么回事。
什么是方差分析?
就是对方差的分析。
有人说你这不废话么?
这还真不是废话。
t检验就不是对方差的分析。
独立样本t检验是对两个样本均值的差异进行检验,而相关样本t检验是对两个样本差异的均值进行检验。
而方差分析就是对引起样本数据出现差异的若干因素影响孰强孰弱的分析。
换句话说,当样本数据差异较小的时候,t检验会认为不存在差异,但方差分析可以从这较小的差异中分析出实验处理和随机误差谁对这个差异贡献更大。
所以说在控制水平一定的情况下,方差分析更容易得到显著性水平高,但power较低的结果。
(因为虽然差异贡献大,但本身差异不大。
翻译为人话就是这个研究结果虽然显著但没什么意义。
)
既然是对方差的分析,那么研究者对数据就有一定的要求。
不是什么样的数据都适合做方差分析。
这其中最重要最重要的,违反了就无从可谈的就是至少要等距数据(intervaldata)。
因为至少等距数据才能做参数检验。
称名数据(nominaldata)和顺序数据(ordinaldata)只能做非参数检验。
既然要分析方差,就得有均值,有方差。
第二重要的是要正态分布的数据。
为什么要强调数据正态分布呢?
这要从平均数说起,平均数,从定义上来说,是一组数据中唯一对其离均差之和为0的数值。
如果数据呈正态分布,平均数就是一组数据中最具有代表性的那个值。
好比说一次考试全班的平均分为81.6分,我们大概可以知道有两个事实:
1)多数同学考试分数是七八十分,2)如果你高于82分说明你考的还算不错,低于81分就说明考得不够理想。
这个高低差距越大,这个结论的信心就越强。
这两个结论是基于考试分数是基本上的正态分布推断出来的。
如果不是正态分布怎么样呢?
拿工资说话,以我所在的圣安东尼奥市为例,这个城市适合工作年龄的人,大约有55%的“蓝领”,30%的“白领”,14%学生或自由职业者,和1%的绝对高收入者。
这个差别有多大呢?
“蓝领”的税后工资大约是年收入25,000~45,000,白领大约是50,000~80,000,而超高收入者,例如蒂姆邓肯同学,他的税后收入大约是20,000,000。
如果算个平均数,统计局说圣安东尼奥市人民平均收入高达50,000,大家过着幸福美满的生活。
那55%的蓝领和14%的学生肯定想抽这个发言人。
因为马刺队拿小头的球员收入恐怕就要把这个数字往上提5,000。
更不要说后面赚大头的各种大老板了。
所以50,000这个平均数代表性不够强。
既然在方差的计算中要计算每个数据与平均数的差异,因此平均数给力不给力也就会很大影响方差分析的结论。
当然如果是稍微有点偏态分布,统计学家也找到了校正的方法。
这个因素虽然重要,但没有等距数据这个条件那么critical。
第三叫方差齐性(homogeneityofvariance)。
意思就是所有需要进行比较的组的数据方差要在统计上没有显著差别。
而其实这个差别主要体现在误差上。
HOV想保证的就是误差等分散性。
不同组虽然进行了不同的实验处理,可由于随机误差引起的变异在各组之间并没有太大差别。
当然这个因素如果不满足也有很多校正的办法。
第一部分最后要提到的是误差(Error)。
在方差分析的模型中,凡是无法解释的变异都被统归为误差。
我之所以说误差,而不是随机误差,是因为这些变异仅仅是Undetermined,绝不等于Random。
换句话说,你不知道一件事情发生的原因,只是因为它没有纳入解释系统,或是没有被很好的测量,那是“待定”解决,而不是“天知道怎么回事”。
在心理学以及很多行为科学中,不同的实验设计,就有不同的误差系数。
而改进实验设计的目的,就是在保证实验可行性的情况下,尽可能多的把一些可以解释的变异从误差变异中剥离出来,以提高Power。
再一次提到Power,也就是结果的意义。
方差分析本身是一个power基准相对较低的统计方法,改良实验设计以及事后检验的方法,会有效提高Power,而让结论更加有意义。
这会在后文慢慢提到。
方差分析简介
(二)2011-03-0709:
17 | (分类:
默认分类)
自由度(degreeoffreedom)是统计中玩的比较多的一个概念。
什么是自由度呢?
有的老师会这么讲,当n个数据的均值确定的时候,那么有且仅有n-1的数据是不确定的,最后一个数据是被钉死的。
那么自由度就是n-1。
那么自由度就是该条件下可以活动的数据个数。
通过这个解释我们知道自由度是怎么算出来的,却不能理解自由度的本质。
所以我们会计算,但是不会设计。
在Stevens的《HandbookofExperimentalPsychology》中用了一个巧妙的比喻告诉我们什么是自由度,而且帮助我们学会在设计中确定自由度。
想象桌子上有一杯水,你要拿起这一杯水,最基本的动作是什么?
——用手拿。
那么从你开始启动动作到你手碰到杯子的全过程,你身体的哪些部位在动?
(先忽略手指的动作)大家可以试着做一下。
最简单,最基础,也再也无法省略的动作包括:
抬动大臂、弯曲小臂、活动手腕。
在这个基本动作中,我们至少使用了四个肌肉群,肩部肌肉群、大臂肌肉群、小臂肌肉群、掌部肌肉群。
肌肉群本身只能收缩或被迫拉伸,让我们手真正碰到杯子的原因,是因为关节的作用。
关节,使肌肉群能够灵活移动。
那么在这个动作中我们使用了:
肩关节、肘关节、腕关节。
启用关节的数量,就决定了肌肉能够活动范围的程度,如果我们想做更复杂的活动,就需要启用更多的关节。
这关节,就是自由度。
那自由度大是好还是小是好呢?
刚刚够用不浪费最好,这取决于实验需要。
好比有人拿杯子还要转个腰,但转腰这个动作可能会带来更多的误差。
有人拿杯子要用两只手,因为是给领导递茶。
在后面的分析中会提到通过实验设计减少自由度的利弊,总的来说在保证实验可行性的情况下,通过将一部分效应从误差中分离出来以减少误差平方和和自由度可以提高Power。
比较(Comparison)是方差分析的核心。
有人统归那叫事后检验,这是国内一些心理教育统计书的一个很大的缺陷。
事后检验(PostHoc)只是比较的一类,而且是在实际研究中最不想用到的一类。
国内书重在分析方差分析的模型,以及前期的计算。
但对Comparison讲的很少。
我们在这里放一个例1。
说研究者想知道睡眠剥夺对人数学计算及推理能力的影响。
于是他找了160个修普通心理学课程的大二学生(永远悲催的被试银行),随机排到4组,每组40人。
第一组不剥夺睡眠,第二组剥夺6小时睡眠,第三组剥夺12小时睡眠,第四组剥夺18小时睡眠。
之后让他们限时半小时完成一份GRE数学题(哎我很BT我很BT)。
结果发现各组平均分如下:
第一组750分,第二组730分,第三组720分,第四组640分。
所有被试总平均分为715分。
并且给出各组标准差和全部被试标准差。
问研究者如何评估研究结果。
拿到这个例子,如果它出现在大二心理统计考试题中,我想所有人都会毫不犹豫的写:
1. Helmert
A1
A2
A3
A4
实验组vs.对照组
-3
1
1
1
少剥夺vs.多剥夺
0
-1
1
1
12小时vs.18小时
0
0
-1
1
2.Polynomial
多项式
A1
A2
A3
A4
一次关系假设
-3
-1
1
3
二次关系假设
-1
1
1
-1
三次关系假设
-1
3
-3
1
3.Simple
A1
A2
A3
A4
实验组1vs.对照组
-1
1
0
实验组2vs.对照组
-1
0
1
0
实验组3vs.对照组
-1
0
0
1
4.Repeated
A1
A2
A3
A4
A1vs.A2
-1
1
0
0
A2vs.A3
0
-1
1
0
A3vs.A4
0
0
-1
1
5.Deviation
A1
A2
A3
A4
Mean
A1vs.总均值
1
0
0
0
-1
A2vs.总均值
0
1
0
0
-1
A3vs.总均值
0
0
1
0
-1
A4vs.总均值
0
0
0
1
-1
这五种比较方式各有千秋。
需要强调的是,这些都是所谓的事前比较(Contrast)。
事前比较是优于事后比较的(PostHoc)。
我们在SPSS里学的无论是Bonferroni还是LSD都是Power很低很低的比较。
即便一定要用事后比较,也要选择Scheffe。
Scheffe是比较所有必要的配对,而Bonferroni和LSD是比较所有可能的配对,是最白痴最没有办法的比较方法,以后不到万不得已千万不要用。
而这五种比较方法对应了五种不同的设计理念。
在后面还会提到。
方差分析简介(三)2011-03-0916:
00 | (分类:
默认分类)
今天重点讲几种比较(Comparison)。
我花了很大精力理解了实验设计和比较的关系,但因为我线性代数的基础不是很好,比较和实验设计各自与矩阵的关系只是理解了一个大概,在这里不误人子弟。
虽然说离开矩阵模型也能基本掌握比较,但我还是强烈建议大家去看有关比较和矩阵已经实验设计与矩阵的关系的教材。
比较(ComparisonorContrast),从定义上讲,就是各组均值赋予不同权重后的线性组合。
(有人打断:
尼玛能说人话么!
!
!
!
!
!
!
!
!
额,先等我把这句话说完。
。
)这个线性组合满足条件:
1)至少一个权重系数不为0;2)权重系数总和为0。
正交比较(OrthogonalComparison),是指在一组比较中,不存在任何多余的比较,即所有出现的比较都不能被写成其它出现的比较的线性组合的形式。
换句话说正交比较是一组精简到不能再精简的比较,其最大比较数量为(p-1)。
有人说我数学没那么好,我不知道如何证明一组比较为正交比较,怎么办?
没关系,有人给出了一种简便的计算方法,用文字表达就是:
把一组比较中每一列的权重系数求乘积,再把这些乘积求和,如果总和为0,则为正交比较。
我线性代数不是太好,冒昧提一句正交(Orthogonal)的数学含义:
一个单一比较是各组均值的线性组合,可以看成一个向量。
所谓正交,就是两个或多个比较所代表的向量,在空间上处于垂直关系,或是向量积为0。
还是举个例子直观些。
还是假设4个组的设计,则最多有(4-1)=3组正交比较。
以下两个例子的3组比较均为正交比较。
比较
A1
A2
A3
A4
1
1
1
-1
-1
2
1
-1
0
0
3
0
0
1
-1
我们把这组比较中每一列的权重系数求乘积,再把这些乘积求和,则有
C=
(1)
(1)(0)+
(1)(-1)(0)+(-1)(0)
(1)+(-1)(0)
(1)
=0
比较
A1
A2
A3
A4
1
-3
-1
1
3
2
1
-1
-1
1
3
-1
3
-3
1
C=(-3)
(1)(-1)+(-1)(-1)(3)+
(1)(-1)(-3)+(3)
(1)
(1)
=3+3-3-3
=0
鉴于正交比较是效率最高的一种比较方式。
我们在设计比较的时候,要尽可能的使用正交比较。
在SPSS中的GLM模块中,缺省比较有6种(SPSS里用Contrasts这个选项来指代我提到的Comparison),一般来说可以涵盖绝大多数实验设计(如果是特殊的实验设计,可以在One-wayANOVA这个模块中自定义比较次数和分别的权重系数。
)
这6种比较分别是:
Polynomial,Repeated,Helmert,Difference,Simple,Deviation.这6种比较的例子在上一篇文章中提到了5个,没有提到的Difference其实是把Helmert反过来,Helmert是逐渐往后比教,Difference是逐渐往前比较。
Polynomial、Difference和Helmert属于正交比较,另外三个不是。
先简单说一下几种比较各自的特点:
1. Polynomial
就翻译为多项式比较吧。
这个我想重点提一下,因为当我们方差分析模型为固定作用模型(fixedeffectmodel)的时候,多项式比较是最能反映自变量对因变量的关系的。
我们在这里举个例2。
说测试广告呈现时间对产品评价的影响,心理学家找了160只大二选普通心理学课的学生(又是万恶的被试银行),随机平均分到四组中,每组40人。
自变量为广告图片呈现时间,分别为3s,6s,9s,12s。
因变量为被试对该产品的偏好分数,由不喜欢到喜欢0-10分打分。
结果发现各组平均分为:
第一组4.5,第二组6.0,第三组7.5,第四组5.0。
总平均分为5.7,问广告呈现时间对产品评价有如何影响?
前面总体方差分析的过程我们略过,结果是广告呈现时间对产品评价分数有显著影响,p<0.05。
下面我们就要进行比较的工作。
试想,四个数据最多有可能呈现哪几种关系呢?
从多项式的角度,有且仅有三种:
线性关系(一次关系),二次关系,和三次关系。
我们来看这个图,系列1反映了4个均值的线性关系,系列2反映了二次关系,系列3反映了三次关系。
方差分析简介(四)2011-03-1307:
16 | (分类:
默认分类)
最基础的使用方差分析的实验设计是完全随机设计(CompletelyRandomizedDesign)。
我们从三个角度来定义完全随机设计。
第一,随机分配(randomassignment)。
所有实验对象都被随机分配到实验组中。
到底怎么个随机法呢?
第一个步骤是随机抽样,根据所定义的总体,根据研究需要,随机抽取出一部分人作为样本。
第二个步骤是随机分组,把这些随机抽取出来的人,不加任何限定和选择偏好地分配到各个实验组中。
好比说要研究某种新药对大学生拖延症的治疗作用(我现在最讨厌这个毛病)。
第一步,我们可以先从某大学的SubjectPool中(一般是选普通心理学课程的学生)随机抽取100人,当然这个随机在实际情况中并不是那么容易做到。
比如说被试实际上是招募来的,那么愿意来做实验和不愿意做实验的人很可能就分属两个总体。
比如选这个课的人与没选这个课的人可能就分属两个总体。
比如选了这个课的学生可能男女生数量差异还会比较大。
这些问题都需要考虑,这里我们只是假设可以解决。
第二步,再把这随机抽取的100人(其实是招募的100人)拉到实验室去抽签。
一个盒子里放有写有ABCD的不同卡片。
然后根据抽到卡片上的字母来分配到ABCD四个实验组。
第二,操纵自变量(manipulateindependentvariable)。
四组的自变量设置分别为5mg安慰剂,5mg新药,20mg安慰剂和20mg新药。
对,前文讲过比较(Comparison)。
当我们这个实验设计确定了以后,比较也就应该安排好了。
这里要强调的是,操纵自变量包括对比较的设计。
这样有助于提高实验的Power。
逻辑上不难,无非就是先比较药和安慰剂,再比较各自少量和多量的差别。
三对比较构成一组正交比较。
如图表所示。
5mgplacebo
20mgplacebo
5mgdrug
20mgdrug
Placebovs.drug
-1
-1
1
1
Smallvs.big
-1
1
0
0
Smallvs.big
0
0
-1
1
第三,控制无关变量,测量自变量对因变量的作用。
(measuretheeffectsofIVtoDV)。
给这100名大学生在一个月内留四次有一定难度需要做一整晚的作业,每次都在周二留作业要求截止下周一交,并要求学生尽早完成。
然后测量所有学生完成作业距离最终截止时间的小时数,作为拖延症的指标。
在以上条件下,我们可以预期,如果这种新药起作用且多吃一点儿更有效果的话,安慰剂组两个水平完成作业时间没有差别,而且都拖得比较晚,新药组20mg完成作业要显著早于5mg组,而5mg组又显著早于安慰剂组。
用一句古话说不同的方差分析模型就是:
知之为知之,不知为不知。
今天时间仓促,下次Power、样本量(SampleSize)预算、和对固定效应模型(FixedEffectModel)vs.随机效应模型(RandomEffectModel)的辨析。
所谓多项式比较,就是检验实际数据究竟更符合哪一种关系。
为什么叫多项式比较呢?
因为这种比较的模型是基于多项式模型。
大家还记得那个泰勒展开式么?
多项式比较的权重系数就是泰勒展开式的权重系数。
这里我就不多讲了,因为背景不是重点,重点是逻辑。
多项式比较是一种正交比较,那么可以肯定是,如果使用多项式比较,我们将确定这四个均值只满足唯一的关系,换句话说,假如总体的方差分析结果显著,三个比较中有且仅有一个比较结果显著,而且这个显著的结果就告诉了我们这四个均值究竟符合线性关系、一次关系还是二次关系。
我们也就描述出了因变量随自变量变化的变化趋势。
太好了,方差分析的结论要的就是这个。
那么多项式比较的权重系数是怎样的呢?
见下图表
多项式
A1
A2
A3
A4
一次关系假设
-3
-1
1
3
二次关系假设
1
-1
-1
11
三次关系假设
-1
3
-3
1
其实这个系数也很简单。
以2为变化单位,在满足比较的基本条件下,我们简单画出一次函数,二次函数和三次函数的图(只要大概趋势),然后往里填数就可以了。
需要指出的是,在多项式比较中,每一个单独比较占用1个自由度。
简单说一下计算过程。
(当然SPSS里可以直接计算)在多项式比较中,每个比较都为F检验。
由于多项式比较为正交比较,各比较相互独立。
于是则有:
应该看上去跟总体方差分析差不多吧。
这里的n是指每组的人数。
于是做多项式比较就是把组间变异分解为一次、二次、三次……N次关系的变异,然后再看那种关系解释最多的变异。
呼呼,多项式比较我觉得已经解释到吐血的,其它5个就一带而过吧。
其实就是对应不同的实验设计的优化,都是F检验。
1. Repeated
例子见前文,就是1vs.2,2vs.3,3vs.4… 一步步的配对比较。
2. Helmert
例子见前文,从后往前的递进减少比较,可以认为是StepwiseForward。
3. Difference
与Helmert相反,从前向后的递进减少比较,可以认为是StepwiseBackward。
4. Simple
例子见前文,将每个组的均值与一个特定值进行比较。
这种比较尤其适用于有对照组的实验设计。
(实验组Xvs. 对照组)
5. Deviation
例子见前文,将每组的均值与总平均值进行比较。
因素的水平可以以任意顺序排列。
需要提到的是,多项式比较虽然最好用,但它对数据的要求是最严格的。
如果我们的数据比较好,尽量选用多项式比较。
这样结果的说服力会很高。
运用适当的比较方式是提高实验Power的一个有效方法,另外一个有效的方法就是改进实验设计。
那么心理学类研究中都有哪些实验设计呢?
这些实验设计又对应着怎样的方差分析模型呢?
我在后文中会逐渐提到。
方差分析简介(四)2011-03-1307:
16 | (分类:
默认分类)
最基础的使用方差分析的实验设计是完全随机设计(CompletelyRandomizedDesign)。
我们从三个角度来定义完全随机设计。
第一,随机分配(randomassignment)。
所有实验对象都被随机分配到实验组中。
到底怎么个随机法呢?
第一个步骤是随机抽样,根据所定义的总体,根据研究需要,随机抽取出一部分人作为样本。
第二个步骤是随机分组,把这些随机抽取出来的人,不加任何限定和选择偏好地分配到各个实验组中。
好比说要研究某种新药对大学生拖延症的治疗作用(我现在最讨厌这个毛病)。
第一步,我们可以先从某大学的SubjectPool中(一般是选普通心理学课程的学生)随机抽取100人,当然这个随机在实际情况中并不是那么容易做到。
比如说被试实际上是招募来的,那么愿意来做实验和不愿意做实验的人很可能就分属两个总体。
比如选这个课的人与没选这个课的人可能就分属两个总体。
比如选了这个课的学生可能男女生数量差异还会比较大。
这些问题都需要考虑,这里我们只是假设可以解决。
第二步,再把这随机抽取的100人(其实是招募的100人)拉到实验室去抽签。
一个盒子里放有写有ABCD的不同卡片。
然后根据抽到卡片上的字母来分配到ABCD四个实验组。
第二,操纵自变量(manipulateindependentvariable)。
四组的自变量设置分别为5mg安慰剂,5mg新药,20mg安慰剂和20mg新药。
对,前文讲过比较(Comparison)。
当我们这个实验设计确定了以后,比较也就应该安排好了。
这里要强调的是,操纵自变量包括对比较的设计。
这样有助于提高实验的Power。
逻辑上不难,无非就是先比较药和安慰剂,再比较各自少量和多量的差别。
三对比较构成一组正交比较。
如图表所示。
5mgplacebo
20mgplacebo
5mgdrug
20mgdrug
Placebovs.drug
-1
-1
1
1
Smallvs.big
-1
1
0
0
Smallvs.big
0
0
-1
1
第三,控制无关变量,测量自变量对因变量的作用。
(measuretheeffectsofIVtoDV)。
给这100名大学生在一个月内留四次有一定难度需要做一整晚的作业,每次都在周二留作业要求截止下周一交,并要求学生尽早完成。
然后测量所有学生完成作业距离最终截止时间的小时数,作为拖延症的指标。
在以上条件下,我们可以预期,如果这种新药起作用且多吃一点儿更有效果的话,安慰剂组两个水平完成作业时间没有差别,而且都拖得比较晚,新药组20mg完成作业要显著早于5mg组,而5mg组又显著早于安慰剂组。
用一句古话说不同的方差分析模型就是:
知之为知之,不知为不知。
今天时间仓促,下次Power、样本量(SampleSize)预算、和对固定效应模型(FixedEffectModel)vs.随机效应模型(RandomEffectModel)的辨析。
较新一篇 / 较旧一篇
分享
方差分析简介(五)2011-03-1705:
40 | (分类:
默认分类)
衡量一个研究要同时看它的统计意义和实际意义。
统计意义在于实验处理使组间差异是否达到了显著。
实际意义在于实验处理的效果究竟有多大,是不是足够大到可以应用到实际。
事实上当样本量足够大的时候,即便是微小的实验处理的效果,也能达到显著的差异。
换句话说,p值是由实验处理效应大小和样本量大小共同决定的。
一个每组用6个被试达到显著性水平0.05的实验,很可能会比每组用70个被试达到显著性水平0.0001的实验更有说服力。
那我们怎么判断一个实验处理到底有多大效应呢?
我们应该用一些不受样本量大小影响的参数来衡量。
事实上这已经