数量性状的分子标记QTL定位的原理和方法讲义.docx
《数量性状的分子标记QTL定位的原理和方法讲义.docx》由会员分享,可在线阅读,更多相关《数量性状的分子标记QTL定位的原理和方法讲义.docx(23页珍藏版)》请在冰豆网上搜索。
数量性状的分子标记QTL定位的原理和方法讲义
数量性状的分子标记(QTL定位的原理和方法讲义)
作物中大多数重要的农艺性状和经济性状如产量、品质、生育期、抗逆性等都是数量性状.与质量性状不同,数量性状受多基因控制,遗传基础复杂,且易受环境影响,表现为连续变异,表现型与基因型之间没有明确的对应关系。
因此,对数量性状的遗传研究十分困难。
长期以来,只能借助于数理统计的手段,将控制数量性状的多基因系统作为一个整体来研究,用平均值和方差来反映数量性状的遗传特征,无法了解单个基因的位置和效应。
这种状况制约了人们在育种中对数量性状的遗传操纵能力。
分子标记技术的出现,为深入研究数量性状的遗传基础提供了可能。
控制数量性状的基因在基因组中的位置称为数量性状基因座(QTL)。
利用分子标记进行遗传连锁分析,可以检测出QTL,即QTL定位(QTLmapping)。
借助与QTL连锁的分子标记,就能够在育种中对有关的QTL的遗传动态进行跟踪,从而大大增强人们对数量性状的遗传操纵能力,提高育种中对数量性状优良基因型选择的准确性和预见性。
因此,QTL定位是一项十分重要的基础研究工作。
1988年,Paterson等发表了第一篇应用RFLP连锁图在番茄中定位QTL的论文。
之后,随着分子标记技术的不断发展以及许多物种中分子连锁图谱的相继建成,全世界出现了研究QTL的热潮,每年发表有关QTL研究的论文数量几乎呈指数增长(图5.1),显示了该研究领域的勃勃生机。
目前,QTL定位研究已在许多重要作物中展开,并且进展迅速。
本章主要介绍QTL定位的原理和方法。
图5.11986~1998年期间国际上每年发表有关QTL研究的论文的数量.数据从英国BIDS信息系统检索得到
第一节数量性状基因的初级定位
QTL定位就是检测分子标记(下面将简称为标记)与QTL间的连锁关系,同时还可估计QTL的效应.QTL定位研究常用的群体有F2、BC、RI和DH。
这些群体可称为初级群体(primarypopulation)。
用初级群体进行的QTL定位的精度通常不会很高,因此只是初级定位。
由于数量性状是连续变异的,无法明确分组,因此QTL定位不能完全套用孟德尔遗传学的连锁分析方法,而必须发展特殊的统计分析方法。
80年代末以来,这方面的研究十分活跃,已经发展了不少QTL定位方法。
一、QTL定位的基本原理和方法
孟德尔遗传学分析非等位基因间连锁关系的基本方法是,首先根据个体表现型进行分组,然后根据各组间的比例,检验非等位基因间是否存在连锁,并估计重组率.QTL定位实质上就是分析分子标记与QTL之间的连锁关系,其基本原理仍然是对个体进行分组,但这种分组是不完全的。
根据个体分组依据的不同,现有的QTL定位方法可以分成两大类.一类是以标记基因型为依据进行分组的,称为基于标记的分析法(marker-basedanalysis;SollerandBeckmann1990);另一类是以数量性状表型为依据进行分组的,称为基于性状的分析法(trait-basedanalysis;KeightleyandBulfield1993).
(一)基于标记的分析法
如果某个标记与某个QTL连锁,那么在杂交后代中,该标记与QTL之间就会发生一定程度的共分离,于是,在该标记的不同基因型中,QTL的基因型频率分布(分离比例)将不同(图5。
2),因而在该标记的不同基因型之间,在数量性状的分布、均值和方差上都存在差异。
基于标记的分析法正是通过检验标记的不同基因型之间的这些差异来推知标记是否与QTL连锁的.
在分子标记技术出现之前提出的基于标记的分析法主要是针对单标记分析的,即每次只分析一个标记,这是因为当时可利用的遗传标记(主要是形态标记和生化标记)数量稀少,难以在一个试验群体中建立起完整的标记连锁图谱。
随着高密度分子标记连锁图谱的出现,单标记分析方法暴露出了不能充分利用分子标记图谱所提供的遗传信息的缺点。
为了能更好地挖掘分子标记图谱的潜力,更多、更准确地定位出QTL,科学家们相继开发出了许多新的QTL定位方法,总的趋势是朝着多标记分析(即同时用多个标记进行分析)的方向发展。
根据所采用的统计遗传模型,现有的基于标记的分析方法大体上可分成四类,即:
均值差检验法、性状-标记回归法、性状-QTL回归法及性状-QTL-标记回归法。
这些方法的原理将在后面分别介绍。
图5.2DH群体中某QTL的基因型QQ和qq在连锁标记基因型MM和mm中的频率分布(分离比例).r为标记与QTL间的重组率.仅当r=0。
5(亦即标记与QTL间没有连锁)时,QQ和qq在MM和mm中的频率分布才相同
(二)基于性状的分析法
虽然数量性状在一个分离群体(如DH群体)中是连续变异的,但如果淘汰大多数中间类型,则高值和低值两种极端表型的个体就可以明确地区分开来,分成两组.对每个QTL而言,在高值表型组中应存在较多的高值基因型(如QQ),而低值组中应存在较多的低值基因型(如qq;图5.3)。
如果某个标记与QTL有连锁,那么,该标记与QTL之间就会发生一定程度的共分离,于是其基因型分离比例(频率分布)在两组中都会偏离孟德尔规律(图5。
3).用卡平方测验方法对两组或其中一组检验这种偏离,就能推断该标记是否与QTL连锁。
图5.3基于性状的分析法和分离体分组混合分析法的原理.在DH群体中,与QTL连锁的遗传标记的两种基因型的分离比例在高值组和低值组中都会偏离1:
1的孟德尔分离规律,其电泳带型在高值组DNA和低值组DNA间也会表现出差异,且分别与高值亲本和低值亲本相似
还有一种更简单的做法,就是将高值和低值两组个体的DNA分别混合,形成两个DNA池,然后检验两池间的遗传多态性。
在两池间表现出差异的分子标记即被认为与QTL连锁(图5。
3)。
这种方法称为分离体分组混合分析法(BSA法;DarvasiandSoller1994;参见第4章)。
基于性状的分析方法(特别是BSA法)的突出优点是,可以大幅度减少需要检测的DNA样品的数量,从而降低分子标记分析的费用.它特别适合于对一些抗性(包括抗病、抗虫、抗逆)性状的基因定位,这是因为,抗性鉴定试验常常造成敏感个体(基因型)的死亡,只有具有抗性的个体才能够存活,于是只能对表现抗的极端个体进行分子标记分析,这正好符合基于性状的分析法。
基于性状的分析法的缺点是,它只能用于单个性状的QTL定位,且灵敏度和精确度都较低,一般只能检测出效应较大的QTL.因此,基于性状的分析法目前用得不多,主要还是采用基于标记的分析法。
下面着重对基于标记的分析法进行介绍。
二、均值差检验法
均值差检验法的基本思想是检验同一标记座位上不同基因型间数量性状均值的差异,若差异显著,则表明被检标记与QTL连锁。
单标记均值差检验法包括t测验法(Simpson1989)和方差分析法(Solleretal.1976;李维明等1993)。
凡是每个标记只有两种基因型的群体(包括BC、DH、RI)都可以使用t测验法。
以DH群体为例,由图5.2可知,当某个标记与一个QTL连锁时,两种标记基因型(MM和mm)的性状均值(μMM和μmm)分别为:
(5。
1)
(5.2)
式中,μQQ和μqq分别是QTL基因型QQ和qq的表型均值,r为标记与QTL间的重组率。
比较式(5.1)和(5.2)可以看出,仅当r=0.5,亦即标记与QTL没有连锁时,才有μMM=μmm(
);而只要r<0。
5,亦即标记与QTL间存在连锁,则总有μMM≠μmm。
而且,r值越小,标记与QTL间连锁越紧密,则μMM与μmm之间的差异就越大.当r=0,亦即标记与QTL之间完全连锁时,标记基因型间的均值差异达到最大,这时有μMM-μmm=μQQ-μqq。
因此,用t测验方法检验两种标记基因型间的数量性状表型均值差异是否显著,就能推断该标记是否与QTL连锁.t值越大,即显著性越高,则连锁越紧密。
如果群体中每个标记存在3种基因型(如F2群体),或者尽管群体中每个标记只有两种基因型(如DH、RI群体),但试验中设置了重复(李维明等1993),则可以采用方差分析的方法来检测标记与QTL之间的连锁关系。
以F2群体为例.假设某个标记与一个QTL连锁,采用与图5.2类似的推导方法,可以得到3种标记基因型的性状均值分别为:
(5.3)
(5。
4)
(5.5)
式中所用符号的含义与式(5。
1)和(5.2)的相似。
比较式(5。
3)~(5。
5),可以看出,与上面DH群体的情形相似,仅当标记与QTL间的重组率为
,亦即标记与QTL间没有连锁时,才有μMM=μMm=μmm(
);而只要r〈0。
5,亦即标记与QTL间存在连锁,则总有μMM≠μMm≠μmm.因此,用单因素方差分析法检验3种标记基因型间的性状均值差异是否显著,就能推知该标记是否与QTL连锁。
标记与QTL间连锁越紧密,则标记基因型间均值的差异就越大,方差分析中F测验得到的F值也越大(即显著性越高)。
单标记均值差检验法的优点是简单直观。
一般而言,标记离QTL越近,它与QTL间的重组率就越小,则其t值或F值就越大;反之,标记离QTL越远,它与QTL间的重组率就越大,则其t值或F值就越小。
因此,根据染色体上各个标记的t值或F值的大小,可以大致判断出QTL的位置。
但是,单标记均值差检验法不能估计QTL的具体位置和效应,灵敏度较低,且一般不适用于一条染色体上存在多个QTL的情形.当两个QTL呈相引连锁(即两增效基因连锁在一起或两减效基因连锁在一起)且相距不太远时,由于两QTL的效应相互累加,可能会使得位于两QTL之间的标记表现出最大的t值或F值,从而导致无法识别那两个真实QTL,却错误地认为在它们之间的某个位置上存在一个QTL。
这个推断出的QTL显然是虚假的,是一个“幻影QTL"(ghostQTL)。
相反,当两个QTL呈相斥连锁(即一个增效基因与一个减效基因连锁在一起)且相距不太远时,由于两QTL的效应相互抵消,可能会使得两QTL附近的标记表现出很小的t值或F值,从而无法检测出这两个QTL。
由于这些局限性,目前单标记均值差检验法仅用于对数据的初步分析。
对单标记均值差检验法的一种改进方法,是将同一条染色体上各标记的t测验或方差分析联合于一个回归分析之中,称为联合定位法(jointmapping;WuandLi1994,1996a,b)。
下面以DH群体为例来说明联合定位法的原理,它也适用于BC和RI群体。
至于F2群体的联合定位法,读者可参阅Wu和Li(1996b).
从式(5.1)和(5。
2)可以得到:
(5.6)
令y=μMM-μmm,x=1–2r,b=μQQ-μqq,则式(5.6)可写成
(5.7)
可以看出,式(5。
7)形式上恰好是一个截距为零的一元线性回归方程.假设Haldane作图函数成立(参见第三章),则有
(5。
8)
或
(5.9)
式中,zM和zQ分别是标记和QTL在染色体上的位置,以厘摩(cM)为单位.在完整的标记连锁图上,每个标记的位置都是已知的。
因此,在式(5.9)中,只有QTL的位置zQ是未知的.当zQ值给定时,
也就确定了。
如果一条染色体上有
个标记,那么在zQ值给定的情况下,就有
对观察值:
(yi,xi),i=1,2,…,n。
这样,就能应用最小二乘法配合方程(5.7)。
沿着整条染色体以一定步长(如1cM)改变zQ的值,必能找到某一点(
),使方程(5。
7)配合得最好(即剩余平方和RSS达到最小;图5.4)。
那么,该点(
)即为QTL位置的估计值,而得到的回归系数
即为QTL效应的估计值。
需要指出的是,由于同一条染色体上的标记互相连锁,因而不同观察值yi(i=1,2,…,n)之间不是相互独立的.因此,应使用广义最小二乘法来配合方程(5。
7),才能获得最小估计误差.
方程(5.7)可以推广到一条染色体上存在多个(如
个)QTL的情形(图5.4),这时方程的形式为:
(5。
10)
式中,bj为第j个QTL的效应值;xj取决于标记与第j个QTL的之间的图距.只要染色体上有足够多的标记,用方程(5.10)原则上可以定位任意多个QTL。
图5.4QTL联合定位的一个模拟例子。
连锁图上每隔10cM有一个标记,黑色三角形示QTL的真实位置,剩余平方和曲线最低点为QTL的估计位置,水平点线示
,它与每个QTL的剩余平方和曲线的两个交点确定了该QTL位置的95%置信区间(引自WuandLi1996a)
联合定位法的优点是综合利用了一条染色体上所有标记的遗传信息,所以提高了灵敏度和精确度,并可同时估计多个QTL的位置和效应,而且与性状分布无关,适用范围广,计算简单。
不足之处是使用矩量(均值)而非原始观察数据,因而要求有较大的实验群体。
另外,联合定位法对分子标记图谱质量的要求较高,这是它在实际应用中的主要限制因素。
三、性状-标记回归法
性状—标记回归法是将个体的数量性状表型值对单个标记(Solleretal。
1976)或多个标记(RodolpheandLefort1993)的基因型进行回归分析。
前者属于单标记分析的方法,可以看作是后者的一种特例,目前已很少使用.所以下面我们只需介绍性状对多标记回归分析的方法。
仍以DH群体为例。
这时的多标记的性状-标记回归模型为:
(5。
11)
式中,yi为第i个体的性状值;μ为模型均值;bj为第j标记的偏回归系数;xij为第i个体第j标记基因型的指示变量,依标记基因型为MM或mm而取值1或0;m为标记个数;εi为随机误差。
式(5。
11)是一个多元线性回归模型,可以用最小二乘法来配合.偏回归系数的大小反映了各个标记与数量性状的相关程度。
一般而言,如果某标记的偏回归达到显著水平,则说明在该标记附近可能存在QTL.但是,性状—标记回归法通常不能给出QTL位置和效应的估计值,除非QTL正好位于标记座位上,这时的偏回归系数就是QTL的效应值。
不过,根据各标记回归系数的显著性,能够大致判断出可能存在QTL的染色体区域。
值得提到的是,性状—标记回归有一个有趣的统计特性。
这就是,在回归中,一个QTL的效应只被其两侧相邻标记的偏回归系数所吸收,而不会影响到该标记区间之外的标记.这一特性非常重要。
后面我们将看到,这一特性对提高QTL定位的准确性很有帮助。
四、性状—QTL回归法
性状—QTL回归法是将个体的数量性状表型值对假设存在的某个或某些QTL的基因型进行回归分析.以DH群体为例,单个QTL的回归模型为:
(5。
12)
式中,yi为第i个体的表型值;μ为模型均值;b为QTL的效应;xi为第i个体的QTL基因型的指示变量,依QTL基因型为QQ或qq而取值1或0;εi为随机误差。
由于被检QTL的基因型是未知的,因而xi的值实际上是不确定的,或者说是“缺失”的。
在这种情况下,只能根据与QTL连锁的标记的基因型来推断xi为1或0的概率,并用似然比检验法来估计参数和检验回归显著性,即
(5。
13)
或
(5.14)
其中L(b=0)和L(b≠0)分别表示b=0和b≠0时的最大似然值(注:
LR与LOD之间存在转换关系:
LOD≈0。
217LR)。
当似然比统计量LR或LOD的值大于给定的显著阈值时,则认为
,即假定的QTL的效应不为零,因而可推断QTL存在.
早期的性状—QTL回归分析是利用单个连锁标记来推断xi取值概率的,亦即属于单标记分析的方法(Simpson1989),目前已很少使用.分子标记技术出现之后,Lander和Botstein(1989)提出了更为准确的方法,即用被检QTL两侧相邻的连锁标记来推断xi取值的概率(表5。
1),称为区间定位法(intervalmapping)。
由表5。
1可以看出,xi取值的概率取决于QTL与两侧相邻标记间的重组率或图距。
因此,以一定的步长(如1cM),沿整条染色体逐步改变假设存在的QTL的位置,就能得到LOD(或LR)值沿染色体变化的曲线。
大于显著临界值的LOD曲线高峰所对应的染色体位置就是存在QTL可能性最大的位置(图5.5).
表5。
1在DH群体中用两侧相邻标记推断QTL基因型概率及其指示变量的期望值
标记基因型
QQ
Qq
期望值
M1M1M2M2
M1M1m2m2
m1m1M2M2
m1m1m2m2
注:
M1—m1和M2—m2分别为QTL左侧和右侧的相邻标记;
、
和
分别为QTL与左侧标记和右侧标记之间及左、右两标记之间的重组率;
,
其中
为符合系数
图5。
5番茄第10号染色体上果实性状QTL区间定位的一个例子。
LOD曲线超过显著阈值(水平线表示)的峰顶为QTL的估计位置。
虚线为果实pH值的LOD曲线,其高峰显示了在染色体端部和中部各存在一个QTL.下方两条分别为果实重量和果实可溶固形物浓度的LOD曲线,均没显示QTL的存在(引自LynchandWalsh1998)
对模型(5.12)的最大似然估计需要进行迭代运算,所以计算上比较繁琐费时.如果让自变量xi取其期望值(表5。
1),亦即使xi有个确定值,则模型(5。
12)就可用最小二乘法进行配合(HaleyandKnott1992),从而使计算大为简化、速度大为提高。
为了便于与原来基于最大似然估计的区间定位法进行比较,在最小二乘估计中也可以用似然比来进行统计显著性检验。
这时的似然比统计量为:
(5.15)
其中n为样本大小(个体数)。
研究表明,基于最小二乘估计的区间定位法与基于最大似然估计的区间定位法所得的结果非常接近(HaleyandKnott1992).
区间定位法提出后,得到了广泛应用,对QTL定位研究的发展起到了重要的推动作用。
但区间定位法也存在明显的缺点.当一条染色体上同时存在一个以上的QTL时,区间定位法也会出现与前述单标记均值差检验法相似的问题,或者检测到“幻影QTL”(当两个QTL相引连锁时),或者检测QTL的灵敏度(统计功效)降低(当两个QTL为相斥连锁时),这是因为它无法排除被检区间之外的QTL对被检区间的影响。
为克服区间定位法的缺点,不少学者提出了改进意见。
Haley和Knott(1992)建议同时对多个可能存在的QTL(标记区间)进行回归分析,这时的回归模型形式上与(5。
11)相同,但其自变量是QTL而非标记,其基因型指示变量xij也取期望值。
该方法的缺点是,必须确定染色体上到底有多少个可能存在的QTL,这往往并不容易,因而在回归模型的选择上带有较大的任意性。
另外,配合包含多个QTL的回归模型需要进行多维搜索,这也增加了计算上的难度。
Moreno-Gonzalez(1992)提出了另一种方法,先假定所有标记区间都包含一个QTL,且位于区间的中点,然后通过逐步回归分析筛选出偏回归显著的标记区间(QTL)。
显然,仅当分子标记图谱较密且标记在染色体上分布较均匀时,这种方法才可能是有效的.
五、性状-QTL-标记回归法
对区间定位法最有效的改进方法是将它与多标记的性状-标记回归法相结合.根据性状—标记回归中每个QTL的效应只被其两侧相邻标记所吸收的统计特性,可以用被检区间以外的部分(Jansen1993;Zeng1994)或全部(Zeng1994)标记作为回归模型中的余因子(cofactor)来消除其它QTL或遗传背景对被检区间的影响.根据这一思想,Jansen(1993)和Zeng(1994)分别提出了多QTL模型(multiple-QTLmodel)和复合区间定位法(compositeintervalmapping),其中复合区间定位法由于直观性较好、计算上易于自动化而被普遍接受和广泛应用,已逐步取代区间定位法。
这里仍以DH群体为例,其复合区间定位的统计模型为:
(5。
16)
式中,
和
分别为被检QTL的效应和基因型指示变量[相当于式(5。
12)中的b和xi],其它符号的含义与式(5.11)相同。
必须注意的是,模型(5。
16)中不一定要包含全部的标记。
根据前面提到的性状—标记回归的统计特性,理论上只需将可能与QTL相邻因而拥有信息的标记纳入模型中就可以了,这样可增加回归分析的自由度,提高参数估值的准确性。
这些作为余因子的标记可以通过用模型(5。
11)进行逐步回归分析或其它方法获得的先验知识来选择。
不难看出,模型(5。
16)实际上是模型(5。
11)和(5。
12)混合而成的,所以复合区间定位的模型配合和显著性测验与区间定位是基本相似的,其似然比检验为
(5.17)
式中符号含义与(5.13)相似。
图5.6给出了一个应用复合区间定位法定位QTL的例子。
可以看出,与区间定位法相比,复合区间定位法大大提高了QTL定位的精确度,这是复合区间定位方法的突出优点.
然而,复合区间定位法对QTL定位精确度的提高是以降低灵敏度(统计功效)为代价的,这是因为与被检标记区间相邻的作为余因子的标记会部分吸收被检区间中QTL的效应。
因此,与被检区间靠得太近的标记不宜作为余因子。
为了解决这个问题,可以在被检区间的两侧各开设一个“窗口”,只有在该窗口之外的标记才能选作余因子。
由于不同的被检区间所要求的合适的窗口宽度可能是不同的,因此在实际应用中,应尝试使用多种窗口宽度,以寻找各个被检区间所适合的窗口宽度。
图5。
6老鼠X染色体上体重QTL定位的一个例子.区间定位的LOD曲线(虚线)表现为一个很宽的峰,而复合区间定位的LOD曲线(实线)则显示两个单独的峰.Bw1和Bw2表示两个可能存在的QTL,染色体上的黑点示标记的位置(引自LynchandWalsh1998)
由于复合区间定位的回归模型的参数较多,其计算量比区间定位大大增加。
为了简化复合区间定位的计算,可以采取与区间定位法相似的做法,令被检QTL的基因型指示变量
取其期望值,这样就可以应用最小二乘法来配合回归模型(Wuetal。
1996b).基于最小二乘的复合区间定位的似然比统计量为:
(5。
18)
其中m为余因子标记的数量,其它符号含义与(5.15)相似。
复合区间定位法最初是针对大样本情况提出来的。
但在实际研究中,所用的实验群体往往都不很大.在小样本(特别是个体数少于标记数)的情况下,复合区间定位所需的余因子的选择会发生困难,为了保证足够大的回归自由度,选用的余因子不能太多,而余因子选择的不同又会影响QTL定位的结果。
因此,在小样本情况下如何进行复合区间定位是一个需要解决的问题。
一种比较可行的策略是(Wuetal.1999),考虑到各条染色体在遗传上(因而在统计上)是相互独立的,因而可以对每条染色体(而非整个基因组)分别进行复合区间定位。
不过,在小样本中,由于抽样误差,不同染色体之间还是可能存在相关性的。
因此,在完成复合区间定位之后,最好再用逐步回归分析的方法对所有检测出的QTL进行重新评估,以排除假阳性(Wuetal.1999)。
复合区间定位法可以推广到多性状分析的情形(JiangandZeng1995),称为多性状复合区间定位法(multiple—traitcompositeintervalmapping)。
多性状复合区间定位法利用了不同性状间相关的遗传信息,因而具有比(单性状的)复合区间定位法更多的优点:
(1)可以提高QTL定位的灵敏度和精确度;
(2)可以用来鉴别QTL的紧密连锁和多效性;(3)可以用来分析多年多点试验数据,检测QTL与环境间的相互作用。
为了提高计算速度,与(单性状的)复合区间定位法的情况相似,多性状复合区间定位模型也可以用最小二乘法来配合(Wu