第7章ANCOVA协方差分析非参数和随机方法精.docx

上传人:b****4 文档编号:4453705 上传时间:2022-12-01 格式:DOCX 页数:16 大小:294.35KB
下载 相关 举报
第7章ANCOVA协方差分析非参数和随机方法精.docx_第1页
第1页 / 共16页
第7章ANCOVA协方差分析非参数和随机方法精.docx_第2页
第2页 / 共16页
第7章ANCOVA协方差分析非参数和随机方法精.docx_第3页
第3页 / 共16页
第7章ANCOVA协方差分析非参数和随机方法精.docx_第4页
第4页 / 共16页
第7章ANCOVA协方差分析非参数和随机方法精.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

第7章ANCOVA协方差分析非参数和随机方法精.docx

《第7章ANCOVA协方差分析非参数和随机方法精.docx》由会员分享,可在线阅读,更多相关《第7章ANCOVA协方差分析非参数和随机方法精.docx(16页珍藏版)》请在冰豆网上搜索。

第7章ANCOVA协方差分析非参数和随机方法精.docx

第7章ANCOVA协方差分析非参数和随机方法精

第7章ANCOVA(协方差分析):

非参数和随机方法

PeterS.Petraitis

StevenJ.Beaupre

ArthurE.Dunham

7.1生态学问题

生态学参数往往不能满足参数假定的要求。

当这种情况发生时,随机方法是更常用的参数方法,比如协方差分析(ANCOVA)和回归分析的一个很好的替代选择,。

使用随机方法很简单,并且由于标准参数ANCOVA为生态学家所熟知,我们用它来激发对非参数和随机方法的优点和存在问题的讨论。

我们通过对检验随机和非参数方法分析性别和生境影响响尾蛇种群的个体大小来进行讨论,年龄在这里被作为一个混淆(confounding)因素考虑。

个体大小的变异常见于许多动物中(即,无脊椎动物:

Paine1976;Lynch1977;Sebens1982;Holomuzki1989;两栖动物:

Nevo1973;Berven1982;Bruce和Hairson1990;有鳞的爬行动物:

Tinkle1972;Dunham1982;Schwaner1985;Dunham等1989;哺乳动物:

Boyce1978;Melton1982;Ralls和Harvey1985),并且由于其与许多繁殖特征,比如成熟年龄,子代个体的数量和大小,和亲代对子代的投入,有协变关系,从而引起进化生态学家的极大兴趣,(Stearns1992;Roff180,1992)。

对个体大小变异的解释包括资源的季节性,质量和可利用性(如,Case1978;Palmer1984;Schwaner和Sarre1988),基于个体大小的捕食性(Paine1976),种群密度(Sigurjonsdottir1984),特性替代(Huey和Pianka1974;Huey等1974)和生长速率的渐变变异(Roff1980)。

然而个体大小的地理变异可能常由于个体大小决定的生长速率和种群年龄结构的相互作用所致。

比如,King(1989)建议种群不同的年龄结构是水蛇(Nerodiasipedoninsularm)个体大小变异的一个重要方面。

因此,懂得个体大小时间和地理格局和最终生长率需要对动物年龄的了解和修正以便同龄动物间的比较。

爬行动物的生长和性别个体二态性的格局传统上是利用非线性生长模型技术来分析的(Andrews1982;Stamps1995)。

对非线性模型精确的拟合需要大量的观察样本,这些样本要求很好地分布在所有体态大小范围内,这在野外研究中常是难以实现的要求(第10章)。

此外,由于每一条线都有不同的模型拟合,最佳拟合模型形式(如,vonBertalanffy比之于用长度,或其它,拟合的逻辑斯蒂模型)会发生变化,而比较工作复杂化。

同样的,当拟合参数在几个组间进行比较时,第I类错误的概率增加,就如同多元成对t检验的情形。

对于多组小到中等用于比较的数据集,用年龄作协变量的ANCOVA看来对于比较多组个体大小是最佳替代方法。

然而个体大小和年龄的野外数据常常杂乱。

分析常需对一个或多个协变量进行校正,拟合模型的残值也很少符合独立,同正态分布的假定(Sokal和Rohlf1995;Zar1996)。

传统的基于秩(rank)或其它随机类型检验的非参数统计能为参数分析提供好的替代选择。

参数分析假定误差呈正态分布,该假定在基于秩或其它随机类型检验的非参数检验中被放松。

另一方面,参数过程,随机过程,和基于秩的非参数检验都要求误差独立同分布。

随机方法和传统的非参数检验对方差的非奇性(heterogeneity-异质性)敏感,并常有这样的误解:

方差的非奇性问题可以通过使用非参数检验来解决(Hayes1996)。

典型的非参数检验用原始数据的秩;零假设要求秩在处理水平上是随机分配的。

对于小样本,由于所有可能的排列都能列出,因而可以计算出观测秩排列的准确概率。

因此,一个常规的非参数检验是对原始观测数据秩的随机检验。

对于大样本,计算大多数常用非参数检验的显著水平是通过χ2分布来估计。

检验统计量的χ2分布判定是以假定每个处理水平的取样秩数据之间区别只在分布位置(如,均值和中值)为基础做出的,且假定基本分布形态相同(即所有其它分布动差-方差,偏斜度等都相同)。

这些关于非参数检验的假定常常不能满足,并且,生态学家常常假定这样的检验是不要求数据有任何分布的。

其它类型的随机检验是以重洗原始数据排列为基础的(第14章)。

这些检验也要求关于总体分布的假定。

人们常混淆哪些过程构成随机检验和哪些过程构成置换排列(permutation)检验。

Kempthorne和Doerfler(1969)利用“置换排列”(permutation)这个词来称呼那些以数据所有可能的顺序为基础的检验。

随机检验一般只用在所有可能排列中一个随机选取的子集。

在严格意义上,常规非参数检验就是置换排列检验。

下一部分,我们探讨用参数,非参数和随机方法解决常用ANCOVA解决的问题时的优点和缺点。

我们利用斑纹石响尾蛇(Crotaluslepidus)的个体大小在性别和地理上差别的数据来说明这个问题。

蛇的性别二态性的数据很少。

Beaupre(1995)研究了在德克萨斯两个地点的斑纹石响尾蛇的性别二态性问题。

在调整了年龄参数以后,他发现在两个地点,雌性个体都明显小于雄性个体,并且低海拔的蛇的个体大小明显小于高海拔较的蛇(Beaupre1995)。

他还发现性别和海拔的相互作用。

他用非参数方法是因为他发现了与正态分布的显著偏差。

7.2统计学问题

7.2.1数据

标记-重捕法观察得到的雄性和雌性响尾蛇年龄和大小的数据序列来自于6年来收集的德克萨斯州BigBend国家公园不同海拔的两个种群。

我们的数据和Beaupre(1995)使用的数据不完全一致,我们的数据包括87个雄性和雌性个体,其中重捕的33个。

Beaupre(1995)有99个雌雄个体,其中重捕的31个。

对数据更详细的描述可见Beaupre(1995)。

每个捕到的蛇的相对年龄根据蛇尾鸣响部分形态估算(即用鸣响节段的数目调整为蜕皮频数;见Beaupre1995),并且,头体长度(SVL)用来估计个体大小。

有四个变量分别是生境(Boquillas和GrapevineHill),性别,相对年龄和个体大小(SVL)。

生境和性别为固定影响,年龄为协变量。

生境作为固定影响是因为我们对这两个特殊地点不同海拔对微气候的影响感兴趣(Dunhametal.1989)。

7.2.2常规协方差分析

对于主要影响(此例中,性别,生境)和他们之间相互作用的显著性可由双因子ANCOVA检验,个体大小作为因变量,年龄作为协变量。

在用ANCOVA前,进行对斜率奇性(homogeneity-同质性)假定的检验。

这是个体大小对年龄在处理水平上的线性依赖的相似性检验。

如果达到了斜率奇性的标准,ANCOVA过程有效。

ANCOVA在数据对模型假定小有违反时的稳健性众所周知,尤其在对固定因子显著性的检验。

在多数情况下,ANCOVA是喜用的参数方法。

然而,严重违反假定常见于野外捕获的动物数据中。

首先,因变量,个体大小,可能不符合参数统计的假定。

爬行动物种群中个体大小分布常呈很高的偏峰态。

并且,雌雄个体大小的分布方差可有很大差异(如Beaupreetal.1998)。

因此,误差极不可能符合参数分析的要求呈正态分布。

第二,协变量每条蛇的年龄并不准确,然而采用ANCOVA,就像其它回归模型I方法一样,假定协变量量测误差很小。

对于野外捕获动物的年龄估计,即使在最好的条件下,也是有问题的。

在多数情况下,生态学家采用年龄的替代,并假设它与年龄成线性,或至少是单调的关系。

回归模型I,甚至当自变量(或在ANCOVA中的协变量)有量测误差时也可以使用,只要自变量误差分布大大窄于因变量的误差分布(LaBarbara1989)。

这是常有的,然而野外捕获的动物的年龄的估计可能与个体大小的不确定性相当或更大,因此,我们予期年龄的测量误差比个体大小的测量误差更大。

第三,有野外捕获动物的析因(factorial)设计极少平衡。

在每一点,几乎不可能捕获到相同数量的雄性和雌性个体。

非平衡的ANOVA和ANCOVA对方差非奇性很敏感,这在比较雄性和雌性时可能是个问题。

实验生态学家常试图修正这些难题,这包括修正参数模型本身的假定。

最常用的方法是转换因变量使误差方差奇性并将类型III平方和用于非平衡设计。

大多数人希望协变量的误差分布变得足够窄。

一些例子中,为减低方差,协变量自身被错误转换;然而,这种协变量的转换应该只在有线性关系时应用。

尽管它修正了一个问题,转换因变量却能产生另一个问题。

比如,个体大小可能通过转换,减小不同处理水平上的误差方差的非奇性,但转换可能使误差呈非正态分布。

转换也会改变自变量和因变量的关系。

个体大小的对数转换可减小误差非奇性,使误差分布正态,但转换使模型的累加效应变为乘数效应。

这可能是个严重问题,特别是当生态学家在实验中用ANOVA和ANCOVA检验相互作用来推论非累加生态效应,如高阶相互作用时(Wootton1994)。

非平衡设计的难点可以通过剔除数据的方法得以解决。

平衡设计降低非奇性方差的影响。

然而,多数生态学家不喜欢放弃辛苦得到的数据。

放弃数据的一个潜在缺陷是缩减了的数据可能导致统计效力的显著丧失。

通过剔除数据得到的平衡设计的优点极少会超过缺点。

7.2.3非参数方法

有两种非参数协方差分析的一般方法。

第一种方法称作“配对”,包括将数据限制于与协变量值匹配的数据对和产生基于数据对之差的转换数据(Quade1982)。

配对方法在判定由哪些数据值构成配对子集时存有某种随意性,并且显然,它还没有超出单元分析。

第二种由Shirley(1981)正规化的方法,是一种基于因变量秩化的非参数ANCOVA方法。

Shirley的方法是在Benette(1968)工作的基础上完成的,Benette开发了对秩化后数据的一般线性假设的非参数检验。

对双因子ANOVA,Bennett检验最熟悉的例子是Scheirer-Ray-Hare检验(Scheireretal.1976),这是Kruskal-Wallis检验的扩展。

秩化后数据的常规非参数检验对数据的正态分布假定是不严格的。

还没有多少人认识到类似Kruskal-Wallis检验的非参数检验当比较中的各组在尺度(如,方差)或形状不同时,可能不会发现位置间的真正差异(如,不同组均秩间的差异)(Lehmann1975)。

极端例子中,协变量也可能需要秩化(Shirley1981)。

除了将秩化观测数据用于因变量,非参数ANCOVA与其它ANCOVA没什么两样。

如同往常,数值相同的观测数据被赋予所占秩距的平均秩值。

与标准ANCOVA(第五章)一样,使用两个模型:

(1)包括协变量和处理影响相互作用的完整模型,用于斜率奇性检验(在SAS中成为斜率奇性模式,见公式5.2)和

(2)不包括上述相互作用的模型,用于检验这种调整后的平均数(SAS中称协方差分析模型,见公式5.3)。

固定影响模型检验统计量由适当主要效应或相互作用效应的平方和除以总均方得到(即,总平方和SS除以总自由度)。

检验值与临界值进行比较,该临界值来自于给定α水平和所考虑影响因素自由度的χ2分布。

基于以中心极限定理应用于秩化数据的假定,用χ2分布判断显著性水平给出理论近似值(Lehmann1975)。

而这个假定仅当样本很大,且几乎没有具相同秩值的数据时才安全。

描述了调整后均秩追溯比较过程见Shirley(1981,1987)。

检验统计量服从χ2分布而不是F分布,因为参数方差已知是来自秩化数据(Mood和Graybill1963;Lehmann1975;Sokal和Rohlf1995)。

参数方差的公式是N(N+1)/12,其中N是实验观察总数。

如果没有同秩值数据,秩化数据ANCOVA的总SS除以总自由度等于参数方差(见SokalandRohlf1995对Scheirer-Ray-Hare检验的讨论)。

如果有同秩值数据,参数方差一定要修正;修正后的参数方差是[N(N+1)/12]-C,其中,C=(ti3-ti)/12(N-1),其中i是指从1到s的所有数,s是同秩值数据的组数,ti是第i同秩值数据组的同秩数据数目。

总SS/总df=[N(N+1)/12]-C。

注意:

C与SokalandRohlf(1995,box13.6)的修正值D不同,但显然,DN(N+1)/12=[N(N+1)/12]-C。

这两个公式的结果一致。

7.2.4随机方法

随机检验是对观察结果多次随机化并重新计算适当检验统计量,从而产生所有可能结果的分布。

如果所有可能结果可数,随机检验就是一个排列检验。

假设检验可从以观察数据所计算出分布的概率直接估计(Manly1997)。

如果数据符合参数模型的假定,参数检验和随机检验的结果是渐进等式。

其他随机检验的例子见14,16章。

用于随机检验的统计量不必需是类似t或F统计量的常规统计量(Manly1997),例如,在ANOVA和ANCOVA中,处理均方,或平方和可能与F统计量一样适用。

在单元ANOVA中,F统计量的分布和以随机化后的平方和之间有一个常量差。

但在更复杂的设计中这是不对的。

Edgington(1995)倾向于采用平方和,而Manly(1997)喜欢用F比值,因为他所进行的模拟显示基于平方和的随机化倾向于低效力。

我们下面要表明的是平方和和F比值常给出不同的结果,因为他们检验不同的假设。

这不是简单效力差异的问题了。

一个比选择统计量更难的问题是如何随机化观察数据。

依零假设的不同,有两个不同的析因设计方法(Manly1997)。

一方面,假设关于由于性别和生境不同形成差异的零假设是以一个假定为基础的,该假定是:

对于任何性别x生境组合,对任何一条蛇个体大小的观察都是从一个种群中得到的。

若该假定为真,我们期望任何观测都取自于性别x生境的任意组合,因而对观测数据的随机化可在所有单元进行。

这种方法为Manly(1997)所倡导,因为计算简便,而且其模拟结果显示与方法二相似。

另一方面,我们假定性别和生境应该受到独立检验。

因此,我们控制生境不变检验雌雄个体大小的差异。

在每个生境的两个性别中随机取观测值,但是生境不混淆。

这种方法称作限制随机化,由Edgington(1995)提倡。

可以用两种方法对残值而不是对原始数据随机化。

TerBraak(1992)建议计算整个模型所有观测值的残值并将其随机化。

在我们的例子中,体重残值将依性别,生境,性别x生境相互作用和协变量年龄的影响进行整理。

完全或有限随机方法都可以用。

Still和Write(1981)建议可以采用综合方法:

用完全随机化检验主要效应,而相互作用影响用TerBraak的方法检验,即将全部主因子模型残值随机化的方法。

7.3统计精度:

多种方法比较

7.3.1参数协方差

回到德克萨斯州两个生境得到的雌雄响尾蛇的SVL(头体长度)数据,协变量是年龄,是从响尾蛇的鸣响节数估计而来,零假设如下:

1.调整过的个体大小(即依鸣响节数调整的SVL)不依性别,生境的差异而存在差异,

2.没有性别x生境相互作用,性别和生境被认为是固定影响。

全部数据包括87个观测值,其中33个是重捕得到的,所以为了避免非独立性,每个动物的数据在分析中只用一次。

对每一个体的单独观测值在全部数据中随机抽取。

这给出一个54条响尾蛇的非平衡设计。

(图7.1)

初步的研究分析表明不同生境具显著的坡度异质性(表7.1).ANCOVA显示性别,生境,年龄的显著影响。

性别,生境间没有发现有相互作用。

这些结果由于一些原因必须看作是偶然现象。

首先,斜率非奇性违反ANCOVA的假定,并隐示两个不同生境-Boquillas和GrapevineHill-间的个体大小差异依赖于蛇的年龄。

第二,协变量,鸣响节段的数目作为年龄的替代,可能存在很大误差。

第三,残值表现出一些方差非奇性和非正态性的迹象。

随着SVL的增加,残值图表现出系统性增长(图7.2A),表明方差非奇性。

对残值方差非奇性的检验不显著(Levene’s检验,P=0.201;Bartlettt’s检验,P=0.087),但缺乏显著性可能是由于检验的低效力。

更重要的是残值分布相对于协变量的值呈峰状(图7.2B),说明残值不符合正态假设。

SVL的log10转换也没有改善残值图的形状。

这些观察表明数据不符合参数ANCOVA的假定,显然,有必要采用另一种方法分析这些数据。

7.3.2非参数协方差

我们重复了Beaupre’s(1995)的分析,并应用Shirley的技术对秩化SVL序列进行非参数ANCOVA。

首先,我们注意到有3组同秩值数据,每个同秩值数据有两个观测值。

参数方差的修正值等于0.028(见表7.2)。

显然,修正值非常小,对于分析结果几乎没有影响,同秩值数据的重要性在同秩值数据的数目多和小样本时加大。

非参数分析检验出不同组的斜率非奇性(表7.2)。

ANCOVA揭示了年龄和性别的显著影响。

并没有检测到生境的影响。

生境x性别间没有相互作用(表7.2)。

值得注意的是,Beaupre(1995)用Shirley的方法进行的原始分析(Beaupre1995)检测到年龄,生境,性别,生境x性别的相互作用的显著影响。

结果的差异最有可能是因为用了原数据的两个不同的再抽样数据;我们没有用与Beaupre(1995)用过的相同数据。

这样,差异问题还是没有解决,还提出这样一个问题:

我们和Beaupre(1995)采用的数据子集是否对种群整体具有代表性。

我们将在本章后面说明怎样采用随机过程来解决这个问题。

图7.1以性别和生境不同划分的几组响尾蛇头体长和年龄的关系,括号中的值指取样的大小

表7.1斜率均匀性和协方差分析的检验结果。

检验

df

SS

MS

F

P

斜率同质性

年龄×性别

1

13.07

13.07

0.77

0.384

年龄×生境

1

109.79

109.79

6.48

0.014

年龄×性别×生境

1

<0.01

<0.01

<0.01

0.989

误差

46

779.46

16.94

协方差分析

性别

1

218.13

218.13

11.53

0.001

生境

1

87.61

87.61

4.63

0.036

性别×生境

1

48.98

48.98

2.59

0.114

年龄

1

2101.08

2101.08

111.06

<0.001

误差

49

927.01

18.19

图7.2参数协方差分析的残差点分布图,上面的图表(A)明随头体长的增加,模型残差的变异发生系统性改变。

下图(B)显示,超过协变量的值的残差分析呈现清晰的非正态分布。

表7.2头体长序列的非参数协方差分析的结果a。

检验

df

SS

MSb

x2

Pc

斜率同质性

年龄×性别

1

72.79

72.79

0.294

0.588

年龄×生境

1

293.4

293.41

1.186

0.276

年龄×性别×生境

1

0.6

0.6

0.002

0.961

误差

53

13116

247.47

协方差分析

性别

1

1070.21

1070.21

4.325

0.038

生境

1

525.62

525.62

2.124

0.145

生境×T\性别

1

95.86

95.86

0.387

0.534

年龄

1

4852.34

4852.34

19.608

<0.001

总计

53

13116

247.47

aTest的值等于一个影响因子的标准差除以总的MS。

比如检验年龄的性别相互作用的共同影响的异质性,就是72.79/247.47=0.294.

b总的MS等于未经修正的参数方差减去修正值。

未经修正的参数方差等于[N(N+1)/12]=54(55)/12=247.500。

有三种双向的关联,所以C=18/12(54-1)=0.028。

因此。

247.5-0.028=247.475,就是总的MS。

c概率水平在SAS中用PROBCHI函数计算(如P=1-PROBCHI(0.294,1))得到P=0.587。

7.3.3随机检验

随机化检验在SAS软件中十分容易执行。

完整的SAS程序可以使随机检验一次运行完成(也见第14章),但为了阐述清楚,我们把这个分析过程分成四个不同步骤。

首先,执行常规分析以获得检验统计量的观测值。

表7.1给出了常规ANCOVA的SS值和F-比值用于以年龄为协变量时响尾蛇头体长检验和斜率齐性检验。

其次,数据必须被多次随机化并存储成SAS软件能识别的格式。

第三,使用随机数据集,多次运行合适的SAS程序(在这里,用GLM程序)。

最后,总结多次的迭代过程。

如何写SAS代码请看附录和网站[http:

//www.oup-usa.org/sc/0195131878/]。

第二步的数据随机化可以有多种实现方式。

我们将观测值随机分配到4个生境×性别单元中,这是在使设计保持与原始数据集一样的不平衡态条件下进行的。

许多程序语言都可以非常快速地生成成千上万的随机数据集。

随机数据集也能在SAS中创建,但比用BASIC或其它程序语言创建并导入到SAS中速度慢。

在网站上,我们展示了一个在SAS中实现随机化的方法,它容易编写和理解,但完全在SAS内执行随机化最大的问题是大数据文件的排序。

在整个排序过程中,程序SORT操作两个完整的文件,如果数据文件巨大和整个分析是在个人计算机上执行,非常容易超出内存限制。

更详细的看网站。

斜率的齐性检验,协变量检验和性别与生境的影响检验,分别做不同的随机化。

当调整年龄时,我们关注检验不同处理水平的性别,生境以及生境x性别相互作用对体长(SVL)的影响。

这里我们保留每个蛇观测到的年龄和对应的头体长,但我们随机分配蛇到不同的处理中。

我们这样做是因为我们假定每个蛇都具有其独特的头体长和年龄组合,这是一组感兴趣的单位。

检验性别、生境、生境×性别相互作用因而控制年龄效应恒定。

相反,对协变量和斜率的齐性检验,我们对头体长将年龄随机化,而不是根据处理的类别随机化头体长。

这种有限制的随机化检验了当性别和生境恒定时年龄对头体长没有影响这一假设。

对不同的性别和生境×性别,斜率的齐性检验是不显著的,但在不同的生境间该检验是显著的(表7.3)。

F-比值随机化的概率倾向于吻合参数分析的概率,而SS随机化的概率总是比较高。

所以,对不同生境间的斜率进行的检验,根据SS随机化就是齐性的,而根据F-比值随机化就是非齐性的。

参数和随机化ANCOVA对性别的影响(总是显著)和对生境×性别相互作用的影响(总不显著)给出相似的结果,但对生境的影响则得出不同的结果(表7.3)。

当P<0.05检验生境的影响时,F-比值随机化是显著的,但SS随机化是不显著的。

图7.3显示了检验生境影响时F-比值的分布和误差均方。

尽管参数分析的均方(18.19)位于随机化生成的分布的低尾部分,但这不是造成F-比值和SS随机化过程分歧的原因。

F-比值随机化倾向给出接近参数分析的概率水平。

就像图7.4所显示的,基于SS随机化的概率水平是较高的。

在所有分析中,年龄都是显著的。

无论是F-比值还是SS随机化过程都没有得出一个大于或等于观测到的检验统计的情况;即然参数分析的概率小于0.0001,所以这是不惊奇的。

随着迭代次数增加(>10,000),F-比值和S

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 解决方案

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1