连续型变量的推断性分析方差分析1Word文档下载推荐.docx
《连续型变量的推断性分析方差分析1Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《连续型变量的推断性分析方差分析1Word文档下载推荐.docx(16页珍藏版)》请在冰豆网上搜索。
其中
总差异分解为组间差异和组内差异,那么相应的自由度也要分解
总自由度(dft)=组间自由度(dfw)+组内自由度(dfb)
由于组间差异和组内差异均和自由度有关,因此二者不能直接比较,需要各自除以相应的自由度,得到均方差MS(meansuqare)
组内SSW、组间SSB除以各自的自由度(组内dfw=n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSW和MSB。
构造的F统计量为:
F=MSB/MSW=(随机因素造成的差异+处理因素造成的差异)/随机因素造成的差异
由此可见,如果处理因素没有造成差异,那么组间差异应该接近组内差异,F值应该无限接近1,如果处理因素有造成差异,F值将大于1,且差异性越强,F值越大。
=======================================================
很多分析模型都是在一定的假设条件下推导出来的,方差分析也是如此,它也有一些适用条件:
1.独立性
样本中的各个元素、各个测量水平之间必须相互独立,来自真正的随机抽样,这样才能保证所产生的的差异可以分解,如果样本之间存在关联,那么会造成样本间的差异除了研究因素导致之外,还有其他原因混入,不利于差异分解。
2.正态性
这里的正态性不是指样本数据本身,而是指残差要服从正态分布。
3.方差齐性
方差齐性要求各水平下的总体要有相同的方差,也就是说它们的分布是否一致。
和要求独立性原因一样,如果方差齐性,那么差异原因必然来自研究因素导致,如果方差不齐,那么差异原因除了研究因素之外,还有一部分要被归结为二者总体分布不同所导致,这样我们就无法判断造成差异的具体原因是什么。
以上条件看似苛刻,但实际并非如此,首先独立性只要我们注意抽样的随机性通常都可以满足,其次正态性只要残差不是严重的偏态,结果都比较稳健,但对于方差齐性,现在大多数教材都认为这点对结果影响比较大,是一个不能忽略的问题,而实际上方差齐性是根据最小二乘设定的,广义最小二乘并没有要求方差齐性,我们还记得在两样本t检验的时候,分别给出了方差相等和不相等两种情况下的t值,那么方差检验也是如此,在SPSS中的两两比较中,同样给出了假定方差相等和未假定方差相等两组方法,但是关于方差不等时方差分析结果的准确程度如何,我没有查到相关证明资料,而且绝大多数教材都提到为了确保结果准确,建议将方差不齐的数据进行转化至相等时再继续分析。
=====================================================
我们在判断方差是否相等时,通常有以下几种检验方法
1.Bartlett检验
Bartlett检验用于检验多个样本之间的方差差异的显著性,通过构造卡方统计量来进行检验,基本思路是将各组的样本方差的加权算数平均值除以其几何平均值,由于几何平均值不会超出算数平均值,因此如果各组总体方差相等,那么样本方差之间不会相差很大,该比值接近1,反之则意味着总体方差差异较大,
由于其判断依据是不同样本分布的“拖尾”大小。
因此,该方法对分布的非正态性也十分敏感。
这就是说,只要总体方差有显著差别或者总体分布的偏斜程度有所不同,Bartlett检验的结果都可能显著。
因此我们在使用Bartlett检验之前,首先要判断样本间的分布是否一致,如果不一致,则不适合使用Bartlett检验。
Bartlett检验具体为
H0:
m个样本所代表的各总体方差相同
H1:
m个样本所代表的各总体方差不同
2.修正的Bartlett检验
Bartlett检验在样本量小于5的情况下误差较大,因此有人提出了一种修正的Bartlett检验,具体为
模拟验证表明,修正的Bartlett检验无论在大样本和小样本情况下均能更好的服从卡方分布,可以显著提高检验精度,但是常用统计软件如SPSS没有提供修正的Bartlett检验。
3.Hartley检验
该检验只适用于每组样本量相同的实验设计,且样本来自正态分布总体。
其基本思想是通过计算样本中最大方差和最小方差的比值来构建统计量,将此统计量和抽样分布中的临界值进行比较,具体为
设每组样本量为m
r组样本所代表的各总体方差相同
r组样本所代表的各总体方差不同
当个样本方差相等时,H统计量应该接近1,H越大表明样本间方差差异越大,需要拒绝H0。
其拒绝域为:
可通过随机模拟方法得到H统计量分布的分位数,该分布依赖于样本组数(或水平数)r和样本方差的自由度f=m-1,因此该分布可记做H(r,f)
4.Cochran检验(Cochran'
sCtest)
这里的Cochran检验指的是Cochran'
sC检验,而不是Cochran'
sQ检验,注意二者不要混淆。
Cochran'
sC检验是单侧方差异常值检验,同Hartley检验一样,Cochran'
sC检验也需要每组样本量相同和每组样本都是正态分布。
Hartley检验只使用了最大方差和最小方差计算统计量,而Cochran'
sC检验则使用了全部样本方差,因此Cochran'
sC检验比Hartley检验更为全面。
sC检验的统计量为:
其中Sj为最大样本方差
5.Levene方差齐性检验
以上方法都要求样本呈正态分布,但是Levene对此并无要求,因为Levene检验被广泛应用,还有一种Brown–Forsythe检验和它类似,也有说是Levene检验的拓展,在SPSS中也有Brown–Forsythe检验的选项
Levene检验的具体实现是通过将变量值转化之后,利用F检验来检验各组的方差的差别
各处理组方差相等
各处理组方差不等
Levene检验构建的W统计量为
Zij有三种转换方法
1.
2.
3.
得出的统计量和F分布的分位数
进行比较
对原始数据转换不同,计算的W统计量也不同。
SAS和SPSS都默认采用第1种转换方法。
三种转换方法可适用于不同的数据类型
第1种方法针对正态分布和对称分布的数据
第2种方法针对偏态分布数据
第3种方法针对有极端值或离群值的数据
总结以上几种方差齐性的检验方法,我们发现
1.各种检验方法都要求样本为随机样本且相互独立,其实这在实际操作中并不难实现。
2.Bartlett检验和修正Bartlett检验对样本分布很敏感,正态分布时效果较好,稍微呈偏态效果就会不精确。
3.Hartley检验和Cochran检验处理要求样本为正态分布之外,还要求每个分组的样本量相同。
4.Levene检验对于样本分布和样本量均无要求,因此被认为是标准的方差齐性检验方法,SAS和SPSS都默认采用此方法。
============================================
当样本数据无法通过方差齐性检验或者本身为非正态分布时,我们可以通过数据转换使其达到方差分析的要求,一般来讲,通过转换达到方差齐性时,其本身正态性也会得到改善,但是数据转换过程中会损失数据信息,所以不能滥用,而且大多数参数性分析方法具有一定的稳健性,正态性或方差齐性的稍许偏离所造成的检验效力下降对其影响有限,特别是在大样本情况下更是如此,因此我们不能过分依赖数据转换所带来的便捷,此外,当观察数据为率且取值在30%-70%之间时,一般不考虑变量变换。
常用的数据变换方法有以下几种:
1.对数转换
将原始数据的对数值作为分析数据,有以下几种形式
y=lg(X)
y=lg(x+k)
y=lg(k-x)
当原始数据中有0时,可用y=lg(x+k)进行转化,其中k为一个很小的值,对数转换适用于服从对数正态分布、正偏态数据,等比资料
2.平方根转换
取原始数据的平方根作为分析数据
适用于泊松分布、轻度偏态资料、样本方差与均值呈正相关资料以及观察值为率且取值范围在0%-20%或80&
-100%范围内的资料
3.平方根反正弦转换
取原始数据的平方根反正弦值作为分析数据
适用于原始数据为率且取值广泛的资料
4.平方变换
取原始数据的平方作为分析数据,适用于方差与均数成反比或资料呈左偏的资料
5.倒数变换
取原始数据的倒数作为分析数据
适用于方差与均数平方成正比的情况,并且往往要求资料中没有接近或小于0的数据
6.Box-cox变换
Box-cox变换是一种很常用的数据变换方法,经过Box-cox变换的数据可以同时满足线性、独立性、方差齐性、正态性,而数据信息损失又很少,因此一经提出立刻得到了广泛推广
Box-cox变换公式为
可见Box-cox变换实际上是一个变换族,参数λ决定具体的变换形式,当λ取值为-1、0、0.5、2时,Box-cox变换分别等价于倒数变换、对数变换、平方根变换和平方变换。
==========================================================
当我们计算出了F统计量并且做出了统计检验之后,实际上分析并没有结束,因为这个阶段的检验只能说明每个样本间的均值是有差异的,而只有知道具体哪些样本之间有差异,这样的分析才有实际意义,因此还要进一步分析。
需要说明的是,进一步分析是在拒绝H0,也就是样本间均值确实存在差异的基础上进行的,如果最开始的检验结果没有拒绝H0,除非在研究设计中事先有计划,否则就不存在进一步分析的必要。
要进一步分析具体哪些样本之间存在差异,就又回到了两两比较的问题上,前面说过多样本均值检验之所以不能用多次两样本t检验的原因就是会增大犯I类错误的概率,那么现在又要进行两两比较,该如何做呢?
最常用的做法就是控制I类错误的概率,无论怎样比较,只要将其控制在我们想要的范围内,比如0.05,即可认为结果可信。
那么如何控制呢?
首先我们来看一下两两比较中的都有哪些可能发生的I类错误
1.CER:
比较误差,即每进行一次比较所犯I类错误的概率
2.EERC:
试验误差率,即H0成立时做完全部比较所犯I类错误的概率
3.MEER:
最大实验误差率,在全部或部分H0成立时做完全部比较所犯I类错误的最大概率。
我们知道多次t检验的误差实际上就是EERC,控制I类错误的概率,实际上就是对这三种I类错误进行控制,分为两种
1.Sidak校正
在H0全部成立时,做完全部k组两两比较的次数c=k(