生态学试验设计.docx
《生态学试验设计.docx》由会员分享,可在线阅读,更多相关《生态学试验设计.docx(22页珍藏版)》请在冰豆网上搜索。
生态学试验设计
第十三章生态学实验设计
生态学测量不仅必须具备足够的精度和准确性,而且应该在一个好的一般性实验设计框架下进行。
因为随着野外实验的增加,工作中的困难和陷井也开始出现。
第一节、生态学实验与实验设计
1、生态学实验的3个阶段
●实验设计
●实验的实施
●实验结果分析
2、概念:
实验与实验设计
2.1实验:
实验是对一个假设的检验。
2.2假设:
就生态学来讲,假设是对生态格局与过程的一种解释。
2.3实验设计
实验设计是对实验的逻辑结构的描述。
以概率论与数理统计为基础,经济、科学地安排实验的一项技术,主要内容是讨论如何合理地安排实验和正确地分析数据,从而尽快获得优化方案。
2.4实验单元:
实验单元是生态学实验设计中的基本操作单元。
它是实验材料的最小划分,因而不同的单元可能采取不同的处理,但实验单元不同于研究单元。
下列研究实例中实验单元是什么?
●在一个火生态研究中,一块10ha的草地将被火烧,而另一块10ha的草地不加处理。
生态学家将在两块草地中分别测量50个1m2的样方。
因此在该实验中,实验单元是?
●在一个植物种植实验中,要在上述两块草地中对50个1m2的小样方随机进行4种施肥处理(无,N,N+P,N+P+K)。
●为了检验树木的生长速度是否随海拔而降低,生态学家设计了一项沿海拔高度监测树木生长的实验。
2.5重复
重复即指在每一种处理中的实验单元数。
实验统计中出现的假重复是指实验测量之间不独立,往往就是没有正确地确定实验单元所至。
2.6实验指标
一组被测量用来反映实验单元状态特征的等级或定量指标。
2.7实验因素——对实验指标值可能有影响的因素,包括以下几类:
●可控因素:
实验研究主要的调查对象;
●标示因素:
一般不能轻易改变或选择的因素,即维持环境与使用条件的水平,但不能选择水平的因素。
对这些因素的研究主要着眼于它们与可控因素交互作用的关系。
包括不同的时间、品种、设备、人员等;
●区组因素:
影响实验结果的几个方面,每个方面都可设置几个水平的因素;
●信号因素:
对实验目标的取值具有控制作用的可调整水平的关键因素;
●误差因素:
包括系统误差和随机误差
2.8水平
实验中采用对实验因素变化采用的各种状态和条件,各水平之间通常是等间隔的。
3、生态学实验的两种基本类型
3.1测量性实验(Measurativeexperiments):
涉及对生态学单元的一些测量。
无需对有机体或样方进行任何处理,而只是测量现存的事实。
∙优点在于:
1)取样在空间尺度和对象的选择上有较大余地,减轻了管理和实验成本的限制;
2)实验时间的约束较小,可避免因实验和观测时间不足而得出错误结论;
3)实验条件受人为操控影响小,对自然状况有最好的代表性和普遍性。
4)对于一些大尺度、的频率现象和过程来说,对比观测实验也许是目前唯一可行的研究途径,如森林火烧干扰状况(disturbanceregime)的景观生态效应
∙致命缺陷是:
1)缺乏处理前观测和空间上可靠的对照;
2)由于受空间异质性的影响而难以重复;
3)非观测因子的影响及多因子之间的交互作用难以排除。
这些不足降低了基于野外观测实验结果的统计推断的可靠性。
3.2操作性实验(Manipulativeexperiments):
涉及对实验单元或样方的一些处理;并且至少需要两个以上的处理。
∙优点在于:
1)要求实验单元的均质性和一致性,实验结果的差异可直接归因于处理的效果;
2)不同实验单元接受不同处理;每一种处理的实验单元有足够重复;
3)安排时、空对照来排除外来因素的干扰;
4)处理对实验单元的操作是随机或分散安排的;
5)实验设计的景观大小适合研究对象的时空尺度;
6)处理后的取样时间足够长,以确保观测到实验的滞后效应。
∙野外实验操作的限制:
1)实验单元内部和彼此之间的空间异质性难以保证真正的重复;
2)在野外很难控制多个独立的变量;
3)研究对象的大尺度可能给实验操作带来难以克服的困难。
4、实验设计的意义
●科学合理地安排实验,减少实验次数,缩短实验周期,提高工作效率和经济效益;
●通过选择合适的设计模型,达到分清影响因素的主次、了解因素间交互作用的目的;
●可以帮助选择优化的实验方案;
5、实验设计与分析的几个常用统计量
●和与平均值:
S、x
●偏差(或离差):
x-x0或x-x
●偏差平方和与自由度:
ST=∑(xi-x)2;f=n-1
●方差与标准差:
V=ST/f;√V
●极差:
R=xmax-xmin
●变异系数:
CV=√V/x
6、实验设计的发展简史
●问世于1920年代,由英国生物物理学家R.A.Fisher首创,发展成为统计数学的一个重要分支
●早期应用于农业、生物学和遗传学研究中
●30~40年代在英美各国发展推广,并广泛应用于工业生产中的技术革新,产生了巨大的经济效益和社会效益。
●1949年,日本研究人员进一步发展创造了正交实验设计法。
●50年代后期,信噪比设计法和三次设计法的提出使得实验设计理论方法走向成熟。
第二节、实验设计的一般原理
通常存在至少6种变化的来源会干扰实验的解释,这些混乱可以通过3种统计途径加以澄清:
随机化、重复和实验控制。
表1、实验误差的来源及其消除方法
混淆的来源
减少或消除混淆的实验设计的特点
1、时间变化
控制处理
2、程序影响
控制处理
3、实验偏差
不同处理之间实验单元的随机分配;
其它程序操作的随机化;盲程序
4、实验者造成的可变性
处理的重复
5、实验单元之间的内在或内禀变异
重复处理;分散处理;同步观察
6、偶然事故对实验的侵扰
重复处理;分散处理
所有科学实验的一个基本要求:
每一个实验都必须有一个控制对比。
如果没有控制,从实验中将得不到任何确定性的结论。
对于生态学实验,由于系统年际的变化,必须采用更为严格的规则:
每一个生态学野外实验必须有一个同时的控制对比。
因此,野外实验必须有至少两个控制或实验单元,而且多多益善;前后比较在统计学上是非常有力的,因为每一个实验单元都可以作为自己的控制。
生态学中问题重重的自然均衡模型时时被证明是无效的。
生态学过程在时空维度同时发生变化,需要复杂的控制,大多数实验都推荐这一途径(表1)。
生态学实验的BACI设计包括时间控制和空间控制两方面,即时间上的控制可以检验实验操作前后同一实验单元的变化;空间上的控制点与实验点并存可以检验不同地点的条件对操作前后系统状态的影响,从而得以排除系统自生的时变和空间差异的影响,提取单纯实验操作的效应。
这一方法在资料上仅以上述图解体现。
图中的小桶代表实验操作的作用,Flow代表时间的流逝。
方框中的小点代表系统的状态。
1、随机化
即对实验的顺序、步骤和对象的分配等按照随机性原则来安排。
绝大多数统计检验假设观察之间是相互独立的,但这如同绝大多数统计假设一样只是一种理想状况。
观察之间不相互独立,则不能得到真实的α值,即I类统计误差的概率(I类误差即应当接受的假设检验遭到拒绝;II类误差表示应当拒绝的假设检验没有被排除)。
达到独立观察的方法之一是尽可能的随机取样。
随机化还能降低因疏忽造成的实验偏差,从而提高估计的准确性。
尽管生态学实验不可能达到绝对的随机化,但应“尽可能随机化”。
系统取样通常是一种替代性选择。
尽管在思想上并不倾向,大多数生态学家仍然采取这种方法。
为了避免统计学上的问题,最可取的是一种半系统化的取样。
2、重复和假重复
重复的必要性在于可以估计“实验误差”,这是评价统计显著性和确定置信区间的基本要素。
重复是增加统计学估计精度的一个办法。
因此它成为研究的一个信条:
“尽可能多地取样”。
重复是生态学实验中防止机会事件的一种安全措施,机会事件是外来干扰或“噪声”的一个主要来源。
如样地中的昆虫爆发或失火。
重复是对付这类事件的唯一方法。
各种处理在时空中如何分散(或摆放)是比随机化更重要的问题。
对于一个两种处理的野外实验,比较6种分散模式:
1)完全随机设计(Completelyrandomized):
许多统计检验推荐的最简单设计。
但生态学的统计研究表明,在重复次数不太多时,这种设计可能较多地导致实验单元之间的随机空间聚集。
这对于反映空间梯度效应不利,因此,在此情况下不被推荐。
2)随机区组设计(Randmizedblock):
实验单元在区组中聚集成群,块可能是生境面积、时间段或空间位置。
块内相对均值,块间差异或大或小,对于绝大多数野外实验而言是一个很好的设计。
既自动形成了不同处理之间的分散,又能较好地防止机会事件。
一个另外的好处是,这种设计中,即使一个组出了问题,也不会危及整个实验。
3)系统设计(Systematic):
达到了对各处理的最大分散,但存在来自周期性环境的统计误差的危险。
空间周期性的环境在自然生态系统中并不多见,对于绝大多数生态学工作问题不大;但时间上的周期性是常见的,当采用的处理包含时间成分时,必须注意避免系统设计。
4)隔离设计(Segregated):
简单隔离设计在生态学野外研究中罕用,而在实验室实验中常见。
如果各个处理彼此隔绝,即使实验的初始条件相同,随后的机会事件也可能产生不同的效果。
在另一种隔离实验设计中,重复在物理上是相互依赖的。
如不同处理在空间上可能是彼此分离的,但可能共用一个加热、供水或其它的系统。
5)假重复设计
由于随机化和分散在野外实验中经常产生抵触。
Hurlbert(1984)引进一个有用的概念“假重复”(pseudoreplication)来描述一种统计误差,采用违反了分散原则的重复实验。
在这些实例中,基本的统计学问题是重复不是相互独立的。
因此统计推断的第一项假设就被违反了。
调查统计表明这种假重复带来的统计偏差存在于26~48%的已发表研究中。
因此,生态学研究中的实验设计有待改进。
有3种假重复:
●最简单常见的假重复:
是每一种处理只有一次重复。
例如:
在两大块烧过或未被烧过的样地中分别取几个1m2的样方,这些样方不是重复而是亚样方,它们不能用于比较烧与未烧的t-检验中。
●牺牲的假重复:
指有一个合理地重复的实验设计,但在统计分析之前,重复的数据就被汇集在一起。
●时间上的假重复:
在一个时间系列中积累的数据,如我们在2个月内每周测量一次。
在一个实验单元中时序上的连续样本显然不是彼此独立的样本。
6)无重复设计:
即两种处理或处理与对照各只有一次。
3、平衡和区组
●平衡设计是指对每一处理采用相同数量的重复;
●区组设计将处理的水平分成区组,来分配实验单元。
使得组间差异大,组内差异小。
4、改良实验的途径
1)随机化
2)使用更均质的实验单元:
在实验室中适用,而在野外实验中可行性查差。
3)使用从每个实验单元可以测量的相关变量提供的信息,如协方差分析
4)使用更多的重复。
只要你有足够的钱、时间和空间,它总是管用的。
5)局部控制:
更多的区组;区组中有相同数量的重复。
在野外实验中应努力追求。
第三节、实验设计类型
实验设计类型多样并且仍在不断增加,但其中适用于生态学研究的并不多。
在讨论实验设计之前,决定方差分析中的一个处理是固定的还是随机的对于所有的假设检验非常关键。
因为对于两种因子设计的统计检验细节差别很大。
固定因子:
分三类
1)分类的所有等级都在实验中;
2)实验只包括实验者感兴趣的等级;
3)实验中的等级是特意而非随机选定。
随机因子:
实验中的所有等级是所有可能等级中的一个随机样本。
例如:
性别:
固定因子,因为两种性别都会被研究;
温度(19℃,16℃,27℃):
可能是固定因子,如果这些温度是感兴趣的等级;也可能是随机因子,如果它们是全部等级中的随机样本。
1、线性添加模型
方差分析中所有的复杂设计都可以用线性添加模型简单地加以描述。
所有这些模型潜在的基本假设是添加性。
即:
1)对于一个实验单元施加特定的处理所得到的测量假设为:
{一个仅取决于特定实验单元的量}+{一个取决于所用处理的量}
基本特点是处理效应是增加在单元效应而非乘以单元效应。
2)处理效应对于所有的实验单元是恒定不变的。
3)所有实验单元的操作是相互独立的,因此,处理效应不会从一个单元溢出到另一个单元。
这些线性添加模型的基本特征,构成了现代参数统计学的核心。
例如:
在一系列的6个被烧和未被烧的样地中测量栎树幼苗的密度,其线性添加模型如下:
=++
亦即:
Yij=μ+Ti+eij
其中:
Y:
观测变量;μ:
变量Y的均值;T:
处理效应;e:
实验误差;
样方
未烧样方
样方
火烧样方
1
6
7
1
2
9
8
2
3
5
9
2
4
8
10
1
5
11
11
4
6
9
12
2
N=6
n=6
均值
8
均值
2
合计:
n=12;总平均=5.0
i:
处理数(1=火烧;2=不烧);
j:
重复次数(1、2、……)
故有:
Yij-μ=Ti+eij
实验的兴趣即在于可以从观测均值中估计出的处理效应。
故有:
{火烧效应}={火烧样方中的平均值}-{全部样方中的平均值}
=2.0-5.0=-3.0
{不烧效应}={不烧样方中的平均值}-{全部样方中的平均值}
=5.0-2.0=3.0
{处理之间的差异}={烧与不烧的差异}=-3.0-3.0=6.0株/m2
实验误差e在生态学中代表不同样方之间内在生物学变异,而不是统计学意义上的错误。
线性添加模型是描述许多实验设计的基本逻辑结构。
2、实验设计的类型分析
2.1完全随机化实验设计-只考虑一个因素的影响
完全随机化实验设计是一种最基本、最简单的实验设计方法。
它只考虑一个因素的的影响。
将实验单元完全随机地分配于一个因素的各个水平组。
若一个实验中共有m个水平(或处理),每个水平重复r次,则可将整个实验划分为mr个实验单元。
其中,随机决定r个实验单元采用第1种处理,再随机选取另r个实验单元采用第2种处理,依此类推,直到所有处理都完全随机地配置在所有的实验单元上。
实例:
欲测定6个品种(处理)的小麦的产量高低,选定30块土地(实验单元),其土地肥力没有明显差别。
把6种小麦完全随机地分配到30块土地上去,每种肥料占五块土地。
设计方法:
1)把6种处理编号为m1、m2、m3、m4、m5、m6;
2)将30个实验单元编号为:
1,2,3,……,30;
3)从随机数表中随机查得30个3位数,按大小排成编号;
4)依次对应地将编号配置给6种小麦。
2.2随机区组设计-有两个因素产生影响时,只考虑一个因素的效应
随机区组设计总是从区组识别开始,即实验单元构成的相对均质的组群。
如一窝麝鼠、南坡的草地等。
区组可以围绕已知或未知的变异来构建。
在野外生态学中,样方中的生境是最明显类型的区组。
另外,如温室中的一室、一周中的一天、动物中体重相当的一群、由实验员Y测得的一组数据等。
组与组之间的差异是一种已知或未知的变异来源。
区组设计的重要特征是,组间差异被从方差分析中的实验误差项中分离出来,因而增加了实验的精度。
随机区组设计有很多种,其中最常见的是完全随机区组设计。
即在每一区组中每一种处理出现一次,因此每一组包含t个实验单元(t=处理数)。
实例:
在一块土地上比较6种不同品种的小麦的产量。
若土地被划分为30个实验单元,则每个品种获得5个实验单元。
但已知土地肥力不均匀,自南向北肥力逐渐下降。
要消除土地肥力差异对小麦不同品种产量影响的差异,并比较6个品种间的差异。
设计方法:
先把土地划成5大条带,从南到北肥力降低;每一条中再划分出6个小样方,小样方之间肥力均匀。
再把6个小麦品种随机分配给每大条内的6块样地上实验。
1)先把各大区组中的小区编号,编号不一定随机,可依次为:
1、2、3、4、5、6;
2)同样对6种小麦编号,随机依次编为m1、m2、m3、m4、m5、m6。
3)在随机数表中随机选取2~3组3位随机数,去掉>6的数,从中得到一个6位数,其各位数字代表m1~m6在每组的排列位置。
(在此可以选择不同的随机方法)
4)把小区按依次标号排列;把处理(m1~m6)按随机次序排列。
就得到5个区组6个小区的随机区组实验设计。
2.3因子设计
生态学经常需要同时考虑多重因子的影响。
如对沉积物的分解在2种pH值和3种温度下测定。
对于多因子问题,需要处理两个新的概念:
因子和相互作用
对于这种情况,实验设计必须建立一个因子乘积表,在表中的每一格,即每一组因子组合中都应安排有实验。
理想状况下所有组合中的样本量相等,即为一个平衡的设计;而在现实中,往往只能得到一个不平衡的设计。
PH值
酸
中
碱
温度
高
低
理想状况下,各因子是彼此独立地影响实验结果的,但在现实中,因子之间存在交互作用。
从下图直观地看:
理解交互作用的另外一种方式是,对于实验中考虑的因子,可以问,因子i对实验结果有什么影响?
如果没有交互作用,则答案是直截了当的;而如果交互作用存在,则其答案还将牵涉其它问题。
一个两因子的实验模型可表达为:
Yijk-μ=Ai+Bj+ABij+eijk
其中:
Yijk-μ为观测值对总体平均的偏离;Ai:
因子A在水平i的主效应;Bj:
因子B在水平j的主效应;ABij:
A、B间的交互作用项;eijk:
实验误差。
在方差分析中,上述每一项都可以给出估计,其显著性也可确定。
注意对于因子设计有一个先期检验。
必须先考察交互作用在统计上是否显著。
如果是,必须搞清楚问题所在。
当交互作用显著时,提供并分析对一个因子主效应的显著性检验是误导的,重要的是解释交互作用。
要完整地计算一个因子设计中的方差分析,每一组因子组合必须有2个以上的重复。
重复可让我们计算其交互作用项,并判断其统计显著性。
但这意味着,如果设计中有较多因子并且每个因子有多个水平时,总的重复数量就会增加很快。
这一点带来的现实困难将生态学实验通常局限在2~3个因子的4~5个水平之内。
由于因子设计对复杂性没有理论上的限制,因此,生态学野外和实验室实验中只能采用实际的限制。
4、巢状设计
所有的变化分析都在考虑一个或更多的分类因子或变量。
这些因子有两类:
1)主效应:
每一水平可以被独立区别于其它水平(因子设计或正交设计);
2)巢状效应:
如果主效应的每一水平能被进一步划分为随机选择的亚群组,则对这些组群的划分是巢状的。
巢状设计至少含有一个主效应,它可以是一个固定效应或随机效应;而巢状效应总是随机效应。
巢状设计很容易被误作因子设计,因此在方差分析中搞清所用因子的类型很重要。
例如:
窝在繁殖实验中是一种典型的巢状效应。
在一个营养研究中:
食谱1
食谱2
食谱3
A窝
B窝
C窝
D窝
E窝
F窝
同窝
1
幼仔
2
数目
3
这一例中,窝在食谱之下细分,我们感兴趣的是对食谱之间的比较而不是窝。
每一窝是随机分配给其中某一种食谱的,而当一窝分配给一种食谱,其中所有的幼仔就必须采用同一食谱(幼仔不是独立的实验单元)。
*注:
对本实例应该这样理解:
在此营养实验中,食谱、同窝的幼仔数量是两个不同的因子,窝是实验单元,显然诸窝是不一样的。
幼仔数目是一种主效应,食谱是另一种主效应,窝是其中的巢状效应。
在考察食谱与同窝幼仔数目对幼仔的营养效应时,实验是从窝内幼仔中随机选取的,不管是1只、2只还是3只。
在这种意义上,每个幼仔样品(1只或2、3只)就不是独立的实验单元,而是作为一窝幼仔的代表。
其它例子还包括地理省中的湖泊,或不同成因的湖泊的深度。
最简单的巢状设计的线性添加模型如下:
[Yijk-μ=Ai+Bj(i)+eijk]应有误,应该是:
Yijk-μ=Ai+Bj(k)+eijk
其中:
Yijk:
在主因子的i水平上巢状因子第j水平的第k次重复的取值;μ:
所有数据的总体平均;Ai:
因子A水平i上的主体效应;Bj(i):
[因子A在水平i上的巢状因子j水平的效应]有误,应为:
因子B在水平j上的巢状因子k水平的效应;eijk:
误差项。
生态学中的许多巢状设计都是为亚采样而设计的。
巢状设计的一个重要的用途是分析测量中变异的来源,以便应用一个收支分析来优化取样工作的分配。
其中一个有代表性的问题是,为了估计海洋无脊椎动物的产卵,需要3个等级的采样:
重复的动物、每一个体重复的产卵管幻灯片、每一张幻灯片上重复的片断。
如何在片断、产卵管和动物3个水平的取样上分配劳动的投入?
巢状的方差分析为分层取样提供一条投入分配的优化途径。
5、拉丁方设计
当实验进行之前已知变化的一个来源时,随机化区组设计很有用。
而当存在两种变化的来源,并希望在一个实验中检验可控因子(处理)与两种来源的变化的关系,就可以采用拉丁方设计。
拉丁方设计是随机化完全区组设计的一个简单的延伸,其优点是在不增加实验次数的前提下,比随机化区组设计可多加入一类区组因子,进一步缩小偶然性的偏差。
但拉丁方设计是一种限制较多的设计,因为每个因子的水平数必须相等。
例如:
利用分布于不同生境中的4个样方,比较不同种类的草地上,4种蚜虫的种群增加速率。
此时,样方生境是一个区组因子(变异来源),草种是另一个区组因子(变异来源),蚜虫则是实验的处理(第三因子),而我们想知道种间的生长速率是否存在显著差异。
由于有4个种,因此必须采用4×4拉丁方设计。
其中:
样方数=季节数=物种数=4。
拉丁方随机化设计程序:
在随机数表随机选出4组数字627548319、279351684、754329681、536471892,去处各数中4以上的数字,得到2413、2314、4321、3412。
去掉第1个数中的后三位,得到2,即从全部4×4阶拉丁方中选取第2种:
样方
1
2
3
4
I
II
III
IV
2
3
4
1
季节
春
A
D
C
B
3
4
1
2
夏
B
A
D
C
4
1
2
3
秋
C
C
B
A
冬
D
B
A
D
然后将原拉丁方的行按第2个数2314自上而下排列,再将列按第3个数4321自左而右排列。
最后按第4个数将蚜虫的种类按1-C、2-D、3-A、4-B配置起来,从而实现拉丁方的随机化。
拉丁方具有对称性,即每一种处理在每一行和每一列中都只出现一次。
因此,每一行和每一列都是一个完全的区组。
如果不具备这种对称性,就不能使用拉丁方设计,而必须使用因子设计。
拉丁方设计的最关键假设是因子A、B、C之间不存在相互作用,因此其线性添加模型非常简单,即:
Yijk-μ=Ai+Bj+Ck+eijk
其中:
Yijk:
因子A在i水平、B在j水平、C在k水平时的观测值;μ:
所有观测的总体平均;Ai:
区组因子A水平i上的效应;Bj:
区组因子B在水平j上的效应;Ck:
处理因子C的主效应;eijk:
误差项。
i=j=k=每个因子的水平数。
最小的可能拉丁方是3×3,而实践中大于5×5。
分析本身也很简单。
如果对于问题的了解尚不足以作出此假设,应该利用重复作一个全因子设计,以便对相互作用进行估计。
拉丁方设计在野外生态学实验中不常见,但当它的严格假设能够满足时,它是一个非常有效的实验设计,特别在实验室和园地实验中如此。
6、重复测量设计
生态学实验设计经常涉及随