生物统计学教案12.docx
《生物统计学教案12.docx》由会员分享,可在线阅读,更多相关《生物统计学教案12.docx(24页珍藏版)》请在冰豆网上搜索。
生物统计学教案12
生物统计学教案
第十二章实验设计
教学时间:
2学时
教学方法:
课堂板书讲授
教学目的:
试验设计的原理、意义、原则;常用试验设计方法。
讲授难点:
正交实验设计、随机化完全区组设计
12.1实验设计的基本原则
实验设计的两个基本原则是重复(replication)和随机化(randomization)、局部控制。
12.1.1重复
所谓重复就是将一基本实验重做一次或几次。
例如,测定不同年龄组正常人血红蛋白含量实验,在每—年龄组内测一人,即为一基本实验。
若将这一基本实验验重做5次,即每一年龄组,抽取5人测血红蛋白含量.则称该实验有5次重复。
我们这里所讲的重复,是指将“基本实验”重做一次或几次,而不是指一次基本实验的结果重复测量多次。
例如,我们想分析大豆籽粒中VD的含量。
这一基本实验包括以下过程:
随机选取若干大豆,磨成豆粉,取一定数量的豆粉,乙醇回流抽提脂肪,提取液皂化,萃取,层析分离、纯化,在265nm下测吸光度,最后计算出VD的含量。
重复实验必须是上述过程的完整重复。
设置重复的意义:
①只有设置重复才能得到实验误差的估计。
标准差是通过重复得到的,有了标准差才能得到标准误差。
②只有设置重复才能推断出处理效应。
如两种药物实验,A药物一人10天痊愈,B药物12天痊愈,并不能说明A比B就好。
12.1.2随机化
随机化是指实验材料的配置和实验处理的顺序都是随机确定的。
假设药效受年龄的影响,服用A药的年青,服用B药的年长,这时药效与年龄的效应混杂,即使两种药物不同,也不能判断是否是药物的差异。
12.1.3局部控制——试验条件的局部一致性(增加)
局部控制是指在试验时采取一定的技术措施或方法来控制或降低非试验因素对试验结果的影响。
在试验中,当试验环境或试验单位差异较大时,仅根据重复和随机化两原则进行设计不能将试验环境或试验单位差异所引起的变异从试验误差中分离出来,因而试验误差大,试验的精确性与检验的灵敏度低。
为解决这一问题,在试验环境或试验单位差异大的情况下,根据局部控制的原则,可将整个试验环境或试验单位分成若干个小环境或小组,在小环境或小组内使非处理因素尽量一致。
每个比较一致的小环境或小组,称为单位组(或区组)。
因为单位组之间的差异可在方差分析时从试验误差中分离出来,所以局部控制原则能较好地降低试验误差。
以上所述重复、随机化、局部控制三个基本原则称为费雪(R.A.Fisher)三原则,是试验设计中必须遵循的原则,再采用相应的统计分析方法,就能够最大程度地降低并无偏估计试验误差,无偏估计处理的效应,从而对于各处理间的比较作出可靠的结论。
试验设计三原则的关系和作用见图12-1所示。
重复
三
原
则
随机化
局部控制
无偏估计误差
降低误差
估计误差
作
用
统计推断
提高精确性
图12-1试验设计三原则的关系
12.2实验计划书的编制(自习)
12.2.1实验计划书的格式
一般来说,一个实验计划书应包括以下几部分:
(1)封面:
写明实验名称,计划书编制者或编制小组名称以及设计时间等
(2)国内外研究动态。
(3)实验目的。
(4)预期结果。
(5)实验设计的选择。
(6)实验方法的确定。
(7)田间规划。
(8)实验记录表。
12.2.2国内外研究动态。
12.2.3实验目的。
12.2.4预期结果。
12.2.5实验设计的选择。
因素和水平的选择;响应变量(实验所观察的指标)的选择;实验设计的选择。
12.2.6实验方法的确定。
(1)实验材料的来源。
列出实验材料的用量和备用量,对实验材料的要求。
(2)实验仪器和设备。
种类、数量、规格、型号
(3)试剂。
所需试剂的种类、数量、生产厂家、等级。
试剂的配制方案。
(4)实验流程。
参考文献资料或本实验室的前期工作,写出每一实验的流程。
(5)经费核算。
核算开支,若经费不足,重新调整方案,以便实验顺利完成。
12.2.7田间规划。
对于田间试验,除前而讲过的一些要点以外,还有以下一些应注意的问题。
(1)试验地的选择:
应当选择地力均匀、地势平坦的地块作为试验地。
应有方便的排灌条件,周围没有大树遮阴,远离人口聚集区,防止实验遭人为破坏。
(2)土壤肥力勘测:
如果没有地力情况的记录,试验开始前,还需对地力进行勘测。
最好采用生物勘测法。
方法是,把全部试验地分成若干小区,均匀地播种纯度很高的某一作物,待作物长出后,按小区记录作物生长情况,结合收获后的考种记录,标记上土壤肥力分布情况。
(3)隔离区的设置:
如果在试验地的周围还种有和试验材料相同的作物,特别是当研究材料为异花授粉和常异花授粉作物时,一定要设置隔离带,以防止生物混杂。
(4)保护行的设置:
在试验地的周围至少应种植3—5行其他作物,把全部试验地围起来,保护试验材料不致受到外来因素的破坏。
(5)水源:
根据试验的要求,可采用地表漫灌、喷灌、滴灌等灌溉方式,不论采取哪种灌溉方式,都应配套相应的设施。
(6)小区规划:
根据种植作物的不同和试验的要求,确定小区面积并划分小区,在适当的地方应留出通道,以便于进行田问调查。
小区多规划为矩形,走向应视试验地的条件而定,以东西或南北走向为佳。
(7)小区编号:
根据试验设计的方式,是随机区组设计还是裂区设计亦或对比设计等,来决定小区的编号。
编号完成后,应在每个小区的一端钉上有标号的木牌或塑料牌作为标记。
(8)田间规划图:
在以上工作都完成后,应绘制一份详细的田间规划图,标明试验地坐落位置,小区的划分,小区编号,以防田间小区标记丢失后,造成试验混乱。
(9)播种计划:
在试验规模比较大.小区比较多时,播种前一定要周密计划。
按小区编号分装种子,在种子袋上标上小区号,播种时对号入座。
一旦发现错误,应及时纠正,实在无法纠正时,一定要做详细记录。
12.2.8实验记录表。
(1)实验室日志
(2)仪器使用登记表
(3)借物登记表物品名称、借用日期、归还日期、借用人等。
(4)实验原始记录
(5)田间记录
12.3简单实验设计
12.3.1成组比较实验设计
将实验材料随机分成两组,每组各接受一种处理,通过分析处理效应之差异是否由随机误差造成的,来判断是不是存在效应。
例1:
动物药物实验,动物分两组,一组A药物,一组B药物,实验只有药物一个因素,类似这样的因素为类别因素。
例2:
动物分两组,一组每天补加10mg复合维生素,一组每天补加20mg复合维生素,实验只有维生素一个因素,水平是用数量表示的,这类因素为数量因素。
成组比较实验设计应注意的几个问题:
(1)一定要用随机化方法划分两组实验材料。
抽签、随机数字、计算机随机数字分组
(2)在成组比较实验中,往往一组设计为实验组,一组为处理组。
N1=n2时,
最小,这时最容易检出显著性。
(3)样本含量。
样本含量即重复次数。
有重复才能够得到标准差s,进而得到标准误差
,样本含量越大,标准误差
越小。
(4)对照的设置。
原则是除去所要比较的因素之外其他各方面的因素都应与处理一致。
(5)实验误差。
来源于各个观测值之间的变差。
一是实验材料本身内在变差;二是实验重复之间所处的环境条件及实验操作的不均一性等原因造成的变差。
12.3.2成组比较实验设计所需的样本含量
最简单的一种情况:
σi已知且相等(σ1=σ2=σ)及n1=n2=n。
在这种情况下,以α和β的风险,分辨出零假设μl-μ2=μ和备择假设μl-μ2=Δμ,问需多大的样本?
Σi未知,可用si代替,并假设s1=s2=s及n1=n2=n。
单侧检验
双侧检验:
12.3.3配对比较实验设计
在成组比较实验设计中,动物个体间内在变差,或者说,由于遗传素质的差异所引起的变差很难消除,在这种情况下,可以采用配对比较法设计实验。
动物,为了比较两种不同的处理效应,选出n窝动物,每窝抽出两只条件一致的个体(如相同体重、相同性别等),分别接受不同的处理,从而构成样本含量为n的配对比较实验。
使用范围很广。
医学中,检测受试者在接受处理前后某些生理指标的差异(自身对照设计);植物同一植株的不同部位做不同的处理,两片叶子、两个枝条、两个分蘖等。
在设计配对实验时,配对的双方一定要有内在的联系,否则不能配成对子。
如从社会角度,一对夫妻是配成的一对,但从生物学角度看,他们是姻亲,不是血亲,没有任何血缘关系,因此不能配对。
12.3.4配对设计与成组设计检验效率的比较
一般来说,配对设计比成组设计更容易检验出两组数据平均数之间的差异。
由5.1.4可知,在平均数和样本含量均相同的情况下,t值越大,拒绝H0的可能性越大。
影响t值的因素,除两个平均数之差以外,另一个重要因素是s,s越小则t越大。
在做配对比较实验时,如果两组数据平均数之间存在显著差异,这两数据之间一般存在正相关,这时配对设计的方差要小于成组设计。
用配对设计可排除数据之间可能存在的相关,提高检验效率。
12.4单因素实验设计
12.4.1完全随机化设计
完全随机化设计实际上是成组比较实验设计的扩展。
在成组比较实验中,实验因素只有两个水平,若水平增加到3个或3个以上,则成组比较实验设计即变为完全随机化设计。
完全随机化的含义是,作为实验用的个体(或田间试验用的小区)被分配到处理的哪一个水平完全是用随机化方法确定的。
这就要求实验个体(或试验小区)必须具备同质性。
实验个体(试验小区)间虽不能做到完全同质,但个体间的变差也应控制到最小。
完全随机化设计是单因素的多个水平之间的比较。
例如,研究服用4种不同化疗药物对动物白细胞含量的影响。
该实验只有“化疗药物”1个因素,该因素的4种药物是实验的4个水平,4个水平也可以称为4个处理。
实验可以如下设计:
从具有同质性(如,同性别、同年龄、同体重、白细胞含量相同、身体健康等)的实验动物群体中,随机抽取20只(或其他数量)动物,用随机化的方法、将它们均等地分配到4个处理中。
随机化分配的方法很多,在这里重点介绍如何用随机数字表进行随机分配。
首先将抽到的20只动物编号,从0l编到20,如下表的第一行。
从随机数字表的任何一点开始,两位两位数字读下去,将读到的结果填到表的第二行。
因为实验要求分为4组,则用4除各随机数字、并将余数填到表的第三行。
与余数为1的随机数字相应的动物分到第一组,与余数为2的随机数字相应的动物分到第二组,…,与余数为0的随机数字相应的动物分到第四组。
分配的结果为:
第一组和第四组每组只有4只,而第二组和第四组每组都有6只,所以需要调整。
调整的力法是,接着上面的最后一个随机数字继续读下去,最先出现的是42,42除以4,余数为2,先从第二组调剂。
如果余数是1或0,则继续读下去,直到余数最先出现2或3时为止。
42再除以6(因为第二组有6个数),余数为0,则把与第二组的第6个随机数字54所相应的19号动物调出。
把调出的19号动物放在哪—组呢?
继续读随机数字,出现的是09,被4除,余数为l,于是将第19号动物放在第一组,如果余数是2或3,则继续读随机数字,直到余数最先出现1或0时为止。
用类似的方法调剂第三组,继续读下去的随机数字是43,被6陈,余数是1,于是将与第二组的第1个随机数字91所相应的02号动物调剂到第四组。
到此,随机分组的过程全部完成,分配的最终结果如下表。
下一步决定药物的分配。
将4种药物编上号,并从随机数字表中连续读出4个两位数,根据随机数字从小到大的顺序,对应出相应的组别。
完全随机化设计设计特点:
©完全随机设计应用了试验设计的重复和随机两个原则,其优点是设计容易,处理数与重复次数都不受限制,统计分析也比较简单。
©完全随机设计的主要缺点是没有应用局部控制的原则,试验环境条件差异较大时试验误差较大,试验的精确度较低。
©完全随机设计常用于土壤肥力均匀一致的田间试验和在实验室、温室、网室中进行的试验。
成组比较实验设计、配对比较实验设计和完全随机化设计的统计分析方法,已分别在5.2.3、5.2.5和第八章单因素方差分析中讲过,这里不再重复。
12.4.2随机化完全区组设计
这种设计的特点是根据“局部控制”的原则,将试验地按肥力程度或将动物按窝划分为等于重复次数的区组,一区组亦即一重复,区组内各处理都独立地随机排列。
这是随机排列设计中最常用而最基本的设计。
(1)随机化完全区组设计的原理
上例将20只动物放在一起进行随机化,对动物的同质性的要求是很严格的。
但一次抽到20只同质的实验动物是很困难的。
在设计实验时,若不能得到20只同质的实验动物,可以选择前后出生的5窝动物,每窝选出4只条件相似的个体,如性别相同、出生重相同等,这4只动物称为一个区组,分别接受4种不同的药物,在区组内哪一只动物接受哪一种药物完全是随机的。
共有5窝动物,所以区组数为5。
这样的设计方法称为随机化完全区组设计。
“完全”的含义是,在每一区组内都包含全部处理(4种药物)。
区组的含义很广泛,一般的提法是:
将性质相似的实验材料或大致相同的环境条件安排在同一组群中,该组群称为区组。
在田间试验中,进行品种比较试验,品种是一个因素,不同品种是该因素的不同水平。
设共有r个品种,每一品种重复n次。
可以用完全随机化设计构成本试验。
按完全随机化设计要求,应该把全部试验地分成nr个小区、nr个小区必须具备同质性,哪一个品种放在哪一个小区完全是随机的。
在r个品种之间比较并做n次重复,需要较多的试验地,试验地面积过大,则很难保证在各个小区间土壤肥力、含水量、日照、土质、小气候等条件的一致性。
如果按完全随机化试验设计安排试验,由土壤之间差异所带来的效应,将与随机误差混杂,从而加大了试验误差。
严重时,甚至于检验不出品种间本来存在的差异。
为了解决试验地面积较大、地力等条件的不一致性,可以采用随机化完全区组设计。
做法是:
将全部试验地分成n个相等的部分,要求每一部分内的条件,如土壤肥力、土质、含水量、田间小气候等必须是一致的。
由于每一部分的土地面积小了,条件一致的要求容易满足。
将每一部分等分为r个小区,每个小区种—个品种,从而构成一个区组,全部试验包括n个这样的区组。
这就是品种比较试验的随机化完全区组设计。
构成区组的方式很多,下面再举一个以“天”为区组的例子。
一个具有5个处理、3次重复的设计,完成全部工作需做l5次实验。
但是一天内最多只能完成5次实验,考虑到气象条件对该实验的影响很大,同一天内的温度、湿度等气象条件比较一致,而不同“天”之间的环境条件可能存在较大的差异,如果采用完全随机化设计,在3天内完成全部实验,则不同“天”所带来的效应会扩大实验误差。
于是,可以把“天”设计为区组.每一天各完成5个处理,3天完成全部实验。
有时不同“人”也可以设计为区组。
例如,为了检测用3种不同工艺生产的产品质量之间是否存在差异,需要设计—个实验,实验要求重复5次。
如果用完全随机化设计,则需要15名实验员,出于不同实验员操作时,可能存在操作误差,该误差会加大实验误差,对检测是不利的。
如果采用随机化完全区组设计,则可以避免这个问题的出现。
选出5名实验员,同一名实验员的操作前后是一致的,所以每名实验员可作为一个区组。
每人用3种工艺各生产一遍,从而构成随机化完全区组设计。
(2)随机化的方法
小区或试验动物的随机可借助于附表1随机数字表、抽签或计算机(器)随机数字发生法。
以品种比较试验的随机化完全区组设计为例,说明随机化的方法。
设试验共有5个品种“a、b、c、d、e。
根据试验地的条件,可以安排3个区组.每一区组内除5个品种不同外,其他条件都一致,包括自然条件及田间管理条件。
如土壤肥力、含水量、土质、日照、试验地走向、播种行向、田间小气候等都是一致的,另外,田间管理措施,如耕耙、灌水、施肥、除草、除虫、中耕次数、收获等都应在同一时间内完成。
每一区组的田间记录应由专人在一天内调查完,若一人不能完成则应规定严格的标准,由几人在尽量短的时间内完成。
在决定了处理数和划分好区组以后,就要决定每一小区接受哪一个品种。
最简单的方法是由拈阄或抽签决定每一品种在每一区组中的位置。
随机化过程最好用随机数字表来完成。
以12.4.1的动物实验为例,说明如果把该实验设计为随机化完全区组,应如何设计。
在这个实验中实验动物共有20只,根据年龄可分为4个区组,每一区组内的5只动物年龄一致,分别接受5种处理。
根据年龄的顺序,将动物从0l号编到20号。
5个连续的序号作为一个年龄组,分在一个区组中。
如区组I的动物号为1-5,区组II的动物号为6-10,…。
下一步,从随机数字表中连续读出5个三位数,根据这5个随机数字的秩次,决定该年龄组的动物在区组内的排列顺序。
(3)数据处理
可以将随机化完全区组设计中的处理,作为一个因素A,区组作为另一个因素B,实验结果按两因素方差分析处理。
处理一般都属固定型,区组为随机型或固定型。
(4)随机化完全区组设计的优缺点
随机化完全区组设计有以下优点:
(1)设计简单,容易掌握;
(2)富于伸缩性,单因素、多因素以及综合性的试验都可应用,结果的统计分析也简单易行;(3)把实验材料分成n个区组,从误差平方和中分解出区组平方和,比完全随机化设计的灵敏度高。
(4)假若在一完整的实验中,需要取消某些处理时,并不影响对实验结果的分析。
或者意外地丢失了一两个数据,也可以通过适当的方法来补救。
(5)对试验地的地形要求不严,必要时,不同区组亦可分散设置在不同地段上。
缺点:
必须保证区组内的条件一致。
这种设计不允许处理数太多,一般不超过20个在田间试验中,最好为10个左右。
因为处理多,区组必然增大,局部控制的效率降低,就会产生较大误差,试验精度低于拉丁方设计。
12.4.3拉丁方设计
随机化完全区组设计比完全随机化设计精密,它可以从完全随机化设计的误差平方和中分离出区组平方和,提高了实验的灵敏度。
但它要求区组内的条件必须完全一致,这个要求在有些实验中是很难满足的。
为了解决这个问题,可以采用拉丁方设计(Latinsquaredesign)。
拉丁方设计的原理与随机化完全区组类似,下面仍以设计一个品种比较试验为例,说明拉丁方设计的基本原理。
(1)设计方法
©拉丁方设计是从横行和直列两个方向对试验环境条件进行局部控制,使每个横行和直列都成为一个区组,在每一区组内随机安排全部处理的试验设计。
©在拉丁方设计中,同一处理在每一横行区组和每一直列区组出现且只出现一次,所以拉丁方设计的处理数、重复数、横行区组数和直列区组数均相同。
©拉丁方是一个由n个拉丁字母构成的n×n阶方阵,各字母在每一横行和每一直列出现且只出现一次。
例:
在田间试验开始之前,一般都需要对地力进行勘测,假设勘测的结果是,试验地的东部和北部肥沃,西部和南部贫瘠。
若在这块试验地上采用随机化完全区组设计,那么区组的划分不论是东西向还是南北向,都不能保证区组内各小区的肥力一致。
为了消除两个方向上土壤差异给试验带来的干扰,应当设计成两个方向上的区组。
具体做法是:
安排每一品种在每一行上出现一次,同时在每一列上也出现一次,而且每行和每列只能出现一次。
于是,每行相当于一个区组,每列也相当于一个区组。
这样安排的结果,行小区数与列小区数完全相等,全部试验小区构成一个方阵,由于构成上述方阵的各个小区,最初是用拉丁字母表示的,所以称为拉丁方(Latinsquare)。
用来排拉丁方的字母的个数,称为拉丁方的阶数,以下为一个5阶拉丁方。
一个p阶拉丁方的统计模型为:
拉丁方方差分析的基本做法仍然是将p2个观测值的总平方和分解为行、列、处理和误差平方和:
具以下自由度:
校正项
若一个拉丁方的第一行和第一列是按拉丁字母顺序排列的,则称为标准拉丁方(standardLatinsquare)。
到目前为止,只知道p<8的标准拉丁方的数目,一个标准拉丁方通过变换可以产生更多的拉丁方,包括标准拉丁方本身在内的p阶拉丁方的总数为p!
×(p—1)!
(标准拉丁方数)。
进行拉丁方设计时,首先应根据处理数确定选取哪一个标准拉丁方,然后进行直列、横行和处理的随机排列。
对于3×3和4×4标准拉丁方,随机所有直列和第二、第三、第四横行,再对处理进行随机;对于5×5及其以上标准拉丁方,随机所有直列和横行,再对处理进行随机。
拉丁方设计虽然比随机区组设计精密,但是由于行和列的小区数应该一样多,在田间试验时占用土地面积较大或因实验处理较多,负担过重。
因此,拉丁方设计不宜过大,一般以5×5到9×9拉丁方为宜。
补充内容:
进行拉丁方设计时,首先应根据处理数k从拉丁方的标准方表中选定一个p×p的标准方。
但在实际应用上,为了获得所需的拉丁方,可简捷地在一些选择的标准方(表2.1)的基础上进行横行、直行及处理的随机。
表2.1 (4×4)~(8×8)的选择标准方
4×4
1
2
3
4
ABCD
BADC
CDBA
DCAB
ABCD
BCDA
CDAB
DABC
ABCD
BDAC
CADB
DCBA
ABCD
BADC
CDAB
DCBA
5×5
6×6
A
B
C
D
E
A
B
C
D
E
F
B
A
E
C
D
B
F
D
C
A
E
C
D
A
E
B
C
D
E
F
B
A
D
E
B
A
C
D
A
F
E
C
B
E
C
D
B
A
E
C
A
B
F
D
F
E
B
A
D
C
7×7
8×8
A
B
C
D
E
F
G
A
B
C
D
E
F
G
H
B
C
D
E
F
G
A
B
C
D
E
F
G
H
A
C
D
E
F
G
A
B
C
D
E
F
G
H
A
B
D
E
F
G
A
B
C
D
E
F
G
H
A
B
C
E
F
G
A
B
C
D
E
F
G
H
A
B
C
D
F
G
A
B
C
D
E
F
G
H
A
B
C
D
E
G
A
B
C
D
E
F
G
H
A
B
C
D
E
F
H
A
B
C
D
E
F
G
不同处理数的拉丁方的随机略有不同,一般按以下所示步骤进行:
(4×4)拉丁方:
随机取4个标准方中的一个,随机所有直行及第2、3、4横行,也可以随机所有横行和直行,再随机处理。
(5×5)及更高级拉丁方:
随机所有直行、横行和处理。
设有5个品种分别以1、2、3、4、5代表,拟用拉丁方排列进行比较试验。
首先取上面所列的(5×5)选择标准方。
再从随机数字表中,以铅笔尖任意落于一行,查随机数字,将0和大于5的数字去掉,得1、4、5、3、2,即为直行的随机。
再点一行,如得5、1、2、4、3,即为横行的随机。
再点一行,得2、5、4、1、3,即为品种随机。
将(5×5)选择标准方按上面三个随机步骤,就得到所需的拉丁方排列(图2.11)。
图2.11 (5×5)拉丁方的随机
1.选择标准方