浙大生物统计实验报告3Word格式.docx
《浙大生物统计实验报告3Word格式.docx》由会员分享,可在线阅读,更多相关《浙大生物统计实验报告3Word格式.docx(13页珍藏版)》请在冰豆网上搜索。
朱军、徐海明
2016年6月6日
专业:
应用生物科学
姓名:
赵应
学号:
3140100080
日期:
2016年4月11日
地点:
紫金港西1-106(多)
实验报告
生物统计与实验设计指导老师:
徐海明成绩:
_______________
实验名称:
协方差分析和混合线性模型分析实验类型:
综合实验
一、实验目的和要求
1.掌握协方差分析、混合线性模型的原理。
2.学会用协方差分析和混合线性模型对大数据进行分析。
3.了解协方差分析与二因素析因分析的差异。
4.比较SAS软件和QTModel软件的分析效益。
5.QTLNetwork软件分析控制仿真群体表现型值的QTL定位数据。
6.比较回归分析、相关分析、方差分析、MCIM的定位分析的优缺点。
二、实验内容和原理
1.协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。
方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。
一般说来,质量因子是可以人为控制的。
回归分析是从数量因子的角度出发,通过建立回归方程来研究实验指标与一个(或几个)因子之间的数量关系。
但大多数情况下,数量因子是不可以人为加以控制的。
2.混合线性模型(mixedlinearmodel)一种方差分量模型。
在方差分量模型中,把既含有固定效应,又含有随机效应的模型,称为混合线性模型。
三、主要仪器设备
SAS软件、QTModel软件、QTLNetwork软件
四、操作方法和实验步骤
1.二因素协方差分析
以2个品种2个水分水平的鲜花产量为依变量,重复6次:
a)以小区面积为x变量,进行二因素协方差分析,分析品种、水分对鲜花产量的影响,对显著的效应进行适当的比较;
b)比较协方差分析与二因素析因分析结果之间的差异。
2.水稻品种区域试验分析
水稻五个品种在二年和四个试点三个区组的品种区域试验数据(删除了二个异常值)储存在数据文件(RiceTrial-2.txt)中。
a)采用SAS软件的ProcGLM,ProcMixed和ProcVarCom分析该数据,并对品种的表现作适宜的推断;
b)采用QTModel软件分析该数据,对品种的表现作适宜的推断;
比较SAS软件和QTModel软件的分析效益。
3.QTL定位分析
采用QTLNetwork软件分析控制仿真群体表现型值的QTL定位数据(DHSim.map和DHSim.txt)。
a)估算QTL的位置和遗传效应,对群体的QTL位置和遗传效应作统计推断;
b)把QTL定位结果和实验一的分析结果都与仿真的参数真值作比较,比较所采用的四种分析方法(回归分析、相关分析、方差分析、MCIM的定位分析)用于推断群体基因定位的可靠性及统计方法的优缺点。
五、实验数据记录和处理
1、二因素协方差分析
a)析因分析结果
b)协方差分析结果
2、水稻品种区域试验分析
a)用GLM模块分析结果
b)用MIXED模块分析结果
c)用Varcomp模块分析结果
d)用QTModel分析结果
3、QTL定位分析
用SAS做回归分析结果:
用SAS做相关分析结果:
用SAS做方差分析结果:
此处略去m3到m33标记的方差分析结果。
六、实验结果与分析
由析因分析结果可知,模型的Pr>
F值=0.2266>
0.05且R-Square=0.191113,故模型不显著;
并且,无论是主因素A、B还是两者的互做效应,对Y(鲜花产量)都没有显著性的影响。
因此,用析因分析模型来分析该实验数据不是太合适。
然后用协方差模型进行分析,模型的Pr<
0.0001,模型极显著。
由变量显著性分析可知,主因素X(小区面积)、A(品种)和B(水分)对Y(鲜花产量)具有显著性影响,而A(品种)和B(水分)的互作对Y(鲜花产量)的影响不显著,所以可以对单独的因素进行分析。
因此,可以用协方差模型分析次实验数据。
对于品种因素单一分析,LP品种产量均比WB品种产量高;
对于水分因素单一分析,Low水平产量均比High水平产量高。
两种分析方法结果的不同显示出:
协方差分析将协变量对因变量的影响从自变量中分离出去,可以进一步提高实验精确度和统计检验灵敏度。
a)GLM模块分析结果表明:
模型的Pr>
F值<
0.0001且R-Square=0.955918,故模型显著,yield与Gen、Year、Loc、Year*Loc、Gen*YearGen*Loc、Gen*Loc*Year、Block(Year*Loc)存在显著的线性关系,且各因素主效应、互做效应均显著。
各效应中只有主效应year(年份效应)、Block(区组效应)和互作效应gen*year*loc(品种*年份*地点)三互作显著,对Y(产量)有显著性影响,其余各效应均不显著。
Alpha=0.05时,只有4-1、4-2、5-1、5-2、3-2五组中,两个品种间差异显著,其余各品种间差异不显著。
Mixed模块分析结果表明:
Mixed分析结果表中列出了模型中变量的协方差参数估计,但没有给出相应的标准误和对应的Pvalue,故无法直接判断各因素的显著性情况。
固定效应Gen的第三类估计方法得到的Pvalue=0.3552>
0.05,表明品种效应对产量的影响并不显著。
对于固定效应品种(Gen),在其他条件相同时,Gen5的产量最高。
虽然不同品种的产量不同,但是各品种间无显著性差异。
VarComp模块分析结果表明:
VarComp列出了模型中变量的方差参数估计,但未给出显著性检验,故无法直接判断各因素的显著性情况。
b)QTModel分析结果表明:
Henderson方法III方差分析得到,Gen、Year、Loc、Year*Loc、Gen*Year、Gen*Loc、Gen*Year*Loc、Block(Year*Loc)的Pvalue均小于0.05,因此,Gen、Year、Loc、Year*Loc、Gen*Year、Gen*Loc、Gen*Year*Loc、Block(Year*Loc)对水稻产量的影响是显著的。
各品种均值均与零存在显著性差异,各品种间差异均不显著。
c)QTModel软件分析该实验数据Residual
比较小,分析结果较可靠,因此QTModel软件更适合分析次数据。
相较于SAS的程序编写,QTModel的命令更加简单QTModel给出的结果剔除了一些在分析中用不到的深层次的结果,从而降低了困难。
3、QTL定位分析结果表明:
a)Ch1上MK8和MK9之间的基因本身不具备效应但是与Ch3上的MK25和MK26之间的基因(本身存在效应)存在上位性效应和上位性与环境因素互作的效应。
Ch1上MK8和MK9之间的基因还与Ch1上MK3和MK4之间的基因(本身具有加性和加性与环境互作效应)存在上位性效应。
Ch1上的MK3和MK4之间的基因存在与Ch2上的MK14和MK15之间的基因(本事具有加性)存在上位性和环境因素互作的效应。
Ch3上MK28和MK29之间的基因具有加性和加性与环境互作效应。
b)基于SAS的分析表明:
用逐步回归分析筛选出的所有标记为:
m1m2m3m4m5m11m13m15m27m28。
方差分析显示m1m2m3m4m5m11m13m15m27m28对产量都是有显著影响的,环境对于产量也有显著影响。
但是只是对于m1m2m3m4m5m27m28而言,它们分别和环境的互作效应对于产量有显著影响,从方差分析表上我们不能推断m11m13m15分别和环境的互作效应对于产量有显著影响。
回归分析、相关分析、方差分析无法估计QTL效应,仅能分析哪些标记附近有基因,而无法确定基因的准确位置。
方差分析需要分别对每一个标记进行方差分析,这道题目就需要进行33次的方差分析,操作繁琐,工作量大。
七、讨论、心得
1.比较SAS软件和QTModel软件的分析效益:
SAS软件与QTModel软件数据处理分析结果大致相同,但在结果分析过程中可以发现,SAS未能给出混合模型各随机因素的方差估计值的方差和Pvalue,故较难做进一步判断。
1、回归分析和相关分析:
a.自变量是固定效应,无法分析随机效应自变量;
b.自变量非相互独立,回归系数是偏回归系数;
c.只有残差是相互独立的随机变量;
d.分析海量数据时效果较差。
2、方差分析:
a.可把总变异分解为不同的变异分量;
b.不能分析复杂的统计模型,如系数为非整数,因素间非独立、因素间相互混淆等;
c.不能有效地分析非平衡的数据;
d.可以估算随机效应的方差,但不能估算随机效应值;
e.参数分析的统计功效不高;
f.分析海量数据时效果较差。
3、MCIM定位分析:
a.同时包括固定效应和若干组随机效应的自变量;
b.随机效应因素内或因素间都可存在相关性;
c.可无偏估算回归参数和方差分量,也可无偏预测随机效应值;
d.可以有效分析各种复杂的遗传模型和非平衡数据;
e.分析海量数据时效果较差。
2.通过这些软件分析结果的对比我们可以发现,SAS并非万能的,它也有一定的局限性,我们在应用时要意识到这一点,并且可以选择其他方法和软件代替。
分析的结果与选用的模型有一定的关系,因此在进行分析数据前要确定好分析模型。