QTL定位中常见的12个问题.docx

资源描述

QTL定位中常见的12个问题.docx

《QTL定位中常见的12个问题.docx》由会员分享，可在线阅读，更多相关《QTL定位中常见的12个问题.docx（32页珍藏版）》请在冰豆网上搜索。

QTL定位中常见的12个问题.docx

QTL定位中常见的12个问题

数量性状基因定位研究中假设干常见问题的分析与解答

李慧慧张鲁燕王建康*

中国农业科学院作物科学研究所/国家农作物基因资源与基因改良重大科学工程/CIMMYT中国办事处，北京100081

摘要：

QTL作图是基因精细定位、克隆和有效开展分子育种的基础，在利用QTL作图开展数量性状基因定位研究的进程中常常会碰着一些问题，与统计方式有关的一些问题包括：

LOD的统计学意义是什么？

检测QTL的可信度和LOD临界值的关系是什么？

如何评判不同的QTL作图方式？

提高QTL检测效率的途径有哪些？

与遗传参数估量有关的一些问题包括：

QTL的奉献率是如何计算出来的？

如何确信QTL有利等位基因的来源？

选择基因型分析的有效性如何？

复合性状是不是适宜于QTL作图？

与作图群体及遗传图谱有关的一些问题包括：

QTL作图群体中表型数据是不是要求服从正态散布？

加密标记是不是能够显著提高QTL检测功效？

缺失分子标记对QTL作图有什么阻碍？

奇异分离标记对QTL作图有什么阻碍？

笔者试图结合咱们连年的研究工作对这些具有共性的12个常见问题做出分析和解答，供科研工作者参考。

关键词：

数量性状；QTL作图；完备区间作图；似然比查验；功效分析

AnalyticalAnswerstoFrequentlyAskedQuestionsinQuantitativeTraitLocusMapping

LIHui-Hui,ZHANGLu-Yan,andWANGJian-Kang*

InstituteofCropSciences/NationalKeyFacilityforCropGeneResourcesandGeneticImprovement/CIMMYTChinaOffice,ChineseAcademyofAgriculturalSciences,Beijing100081,China

Abstract:

QTLmappingisanimportantstepingenefinemapping,map-basedcloning,andtheefficientuseofgeneinformationinmolecularbreeding.QuestionsarefrequentlymetandaskedintheapplicationofQTLmappinginpracticalgeneticpopulations.QuestionsrelatedtostatisticalmethodofQTLmappingare:

whatdoesLODscoremean?

WhatistherelationshipbetweenthereliabilityofdetectedQTLandtheLODthreshold?

HowtoevaluatedifferentQTLmappingmethods?

HowtoimprovetheQTLdetectionpower?

Questionsrelatedtogeneticparameterestimationare:

howtocalculatethephenotypicvarianceexplainedbyeachdetectedQTL?

HowtodeterminethesourceoffavorableallelesatdetectedQTL?

Howefficientistheselectivegenotyping?

CancompositetraitsbeusedinQTLmapping?

Questionsrelatedtolinkagemapandmappingpopulationsare:

Doesthephenotypeofatraitofinteresthavetofollowanormaldistribution?

DoestheincreaseinmarkerdensitygreatlyimproveQTLmappingpower?

WhateffectswillmissingmarkershaveinQTLmapping?

WhateffectswillsegregationdistortionhaveinQTLmapping?

Ourobjectiveinthispaperistoprovidetheanalyticalanswersto12frequentlyaskedquestions,basedonourstudiesinpastseveralyears.

Keywords:

Quantitativetrait;QTLmapping;Inclusivecompositeintervalmapping;Likelihoodratiotest;Poweranalysis

经典数量遗传学成立在多基因假说基础之上，把操纵数量性状的基因作为一个整体，重点研究各类遗传效应与遗传方差的分解和估量，不区分个别基因在表型效应上的不同[1-3]。

分子标记连锁图谱的大量显现，使得咱们能够像研究质量性状基因一样研究数量性状基因，也能够把单个数量性状基因（quantitativetraitgeneorlocus，简称QTL）定位在染色体上，并估量其遗传效应，这一进程称为QTL作图或定位[4]。

QTL作图是基因精细定位和克隆的基础，目前已成为数量性状遗传研究的常用方式。

QTL定位结果能够帮忙育种家取得目标性状的遗传信息，借助与QTL连锁的分子标记在育种群体中跟踪和选择有利等位基因，提高选择的准确性和预见性。

可是，在利用QTL作图开展遗传研究的进程中也常常碰着一些问题，这些问题大致可分为有关作图统计方式、有关遗传参数估量、和有关作图群体及连锁图谱等三大类。

笔者试图结合咱们近些年的研究工作对具有共性的12个问题做出分析和解答，供广大科研工作者在利用QTL作图开展遗传研究时参考。

与作图统计方式有关的四个问题是：

LOD的统计学意义是什么？

检测QTL的可信度和LOD临界值的关系是什么？

如何评判不同的QTL作图方式？

提高QTL检测效率的途径有哪些？

与遗传参数估量有关的四个问题是：

QTL的奉献率是如何计算出来的？

如何确信QTL有利等位基因的来源？

选择基因型分析的有效性如何？

复合性状是不是适宜于QTL作图？

与作图群体及遗传图谱有关的四个问题是：

QTL作图群体中表型数据是不是要求服从正态散布？

加密标记是不是能够显著提高QTL检测功效？

缺失分子标记对QTL作图有什么阻碍？

奇异分离标记对QTL作图有什么阻碍？

1QTL作图中的统计学问题

LOD的统计学意义是什么？

区间作图（Intervalmapping，简称IM）[5]、复合区间作图（Compositeintervalmapping，简称CIM）[6]和完备区间作图（Inclusivecompositeintervalmapping，简称ICIM）[4,7-9]均利用极大似然估量原理，通过一维扫描在全基因组上逐点检测QTL的存在。

查验的零假设（H0）是扫描位点上不存在QTL，备择假设（HA）是扫描位点上存在一个QTL，似然比统计量（LRT）用来衡量扫描位点上存在QTL的可能性大小。

似然比统计量的一样概念是，

，

其中ln是自然对数函数，L0是H0下似然函数的极大值，LA是HA下似然函数的极大值。

似然比统计量大多数情形下有专门好的统计学性质，即渐近服从

散布，

散布的自由度为两种假设下独立变量个数之差，因此容易确信给定显著性水平下查验统计量的临界值。

一些研究说明QTL作图时的似然比统计量可能不服从单一

散布，但却能够用2个不同自由度的混合

散布来近似[6,10]，因此也能够确信给定显著性水平下查验统计量的临界值。

Lander和Botstein在提出IM的同时也提出利用人类遗传研究中经常使用的LOD（Likelihoodofodd）值作为查验QTL是不是存在的标准[5]。

LOD值概念为极大似然函数比的经常使用对数，即，

。

因此，假设LA是L0的10倍，那么LOD=1；若是LA是L0的100倍，那么LOD=2；若是LA是L0的1000倍，那么LOD=3。

依照LOD值和LRT值的概念，不宝贵到它们之间有如下关系：

或

。

检测QTL的可信度和LOD临界值之间的关系是什么？

与其他假设查验一样，QTL作图中的查验也可产生四种结果（图1）。

当一个位点上没有QTL，通过考试却错误地判定有QTL存在，称这种现象为假阳性；当一个位点上有QTL，通过考试判定有QTL存在，称这种现象为真阳性；当一个位点上有QTL，通过考试却错误地判定没有QTL存在，称这种现象为假阴性；当一个位点上没有QTL，通过考试判定没有QTL存在，称这种现象为真阴性。

假阳性和假阴性是统计考试中的两类错误，犯第一类错误（或假阳性）的概率（

）等于H0为真时被拒绝的概率，即，

=P{拒绝H0|H0为真}=P{假阳性}/[P{假阳性}+P{真阴性}]。

犯第二类错误（或假阴性）的概率（

）等于H0为假时未被拒绝的概率，即，

=P{未拒绝H0|H0为假}=P{假阴性}/[P{假阴性}+P{真阳性}]。

关于特定的查验方式而言，在必然的实验精准度下，降低

那么会提高

，降低

那么会提高

，同时降低

和

的途径是提高实验精准度和增加样本量。

犯第一类错误的概率

一样在查验前设定，对必然的查验方式，给定

后

也是确信的。

可是除t-考试外，大多数统计假设查验给定

下的

难以用代数解析式表示出来。

表1前5列给出LOD值~时对应的LRT值和三种自由度下一次查验中犯第一类错误概率，犯第一类错误概率

有时也叫做显著性概率；后4列给出显著性概率~时对应的LOD临界值。

以自由度2为例，LOD=对应的显著性概率为，若是只做一次假设查验，采纳如此的LOD临界值就能够保证假阳性的概率不超过，即鉴定出的QTL是假阳性的概率低于，或说鉴定出的QTL为真的概率超过。

基于区间考试的QTL作图，一样在基因组内所有染色体上按必然步长逐点查验QTL的存在，而这些查验又不是完全独立的，因此也很难确信一次查验的显著性水平所对应的全局

。

例如，若是每次查验均采纳临界值LOD=3，当自由度为2时每一个扫描位置对应的

近似为，QTL作图需要明白的是全基因组查验后的

。

由于QTL作图的复杂性，如涉及到多次非独立假设查验，不同物种有不同大小的基因组，不同作图群体有不同的标记数，零假设下似然比查验统计量服从什么样的渐近散布尚无定论，因此难以准确确信LOD临界值对应的一次查验和全局

，但一些非参数统计方式已用于给定全局

后LOD临界值的确信[11-12]。

一样以为采纳2~3的LOD临界值能够把全局

操纵在之内，在显性QTL和互作QTL作图中，似然比统计量有较大的自由度，还可适当考虑采纳较高的临界值，如3~4。

但通过理论或模拟，进一步明确QTL作图中似然比查验统计量的渐近散布仍是必要的，笔者推测渐近散布可能与染色体条数、每条染色体长度、标记密度和QTL遗传效应类型等因素有关。

与所有假设查验一样，采纳较高的LOD临界值会更好地操纵假QTL的发生，同时遗传效应较小的真QTL却不易被检测出来。

如何平稳两类错误的概率，这不单单是统计学问题，还要考虑到具体的研究目标。

若是QTL作图只是初步确信基因在染色体上的位置，然后依照作图结果构建其他次级群体对检测到的QTL进行精细定位、乃至图位克隆，然后开展转基因工作，这种研究几乎不允许假QTL的发生。

现在要适当提高查验QTL时的LOD临界值，保证后续研究中QTL的靠得住性。

另一方面，若是研究目标是把QTL作图结果用于标记辅助选择聚合育种，这时只有尽可能多地检测出操纵育种目标性状的QTL，才能保证对所有操纵育种性状的基因进行选择，因此有必要适当降低查验QTL时的LOD临界值，使得遗传效应较小的QTL也有机遇被检测出来。

此时即便有一些假QTL的存在，也不至于造成专门大的损失。

图1QTL定位中假设查验的两类错误。

阴影部份表示查验统计量LOD值的散布，LOD0表示临界值

Fig.1TwotypesoferrorinhypothesistestinQTLmapping.TheshadowarearepresentsthedistributionoftheteststatisticLODscore,andLOD0isthethresholdvalue

表13种自由度下不同LOD值对应的犯第一类错误概率（

）和不同

下对应的LOD临界值

Table1ThecorrespondingprobabilitiesoftypeIerrortoLODandthecorrespondingLODthresholdtothesignificanceprobabilitiesunderthreedegreesoffreedom

LOD

LRT

LOD

df=1

df=2

df=3

df=1

df=2

df=3

如何评判不同的QTL作图方式？

图2给出一个模拟的加倍单倍体（DH）群体中ICIM、CIM和IM三种方式的LOD值和估量遗传效应的曲线图。

遗传模型中包括7个QTL，第1染色体上1个，第2和4染色体上别离有2个相引相连锁QTL，第3染色体上有2个互斥相连锁QTL，所有QTL遗传效应的绝对值为1，效应的方向如图2箭头所示。

从图中咱们能够很直观地看到不同QTL作图方式找到的QTL不尽相同，IM无法准确信位连锁QTL，CIM无法准确信位互斥连锁的QTL。

统计查验的功效概念为

，即发觉真QTL的概率，经常使用来比较不同统计方式的有效性。

QTL作图包括着复杂的统计假设查验，难以从理论上推导出不同QTL作图方式的统计功效。

一样采纳模拟方式比较不同方式QTL检测功效和假阳性的大小，功效高同时又具有较低假阳性在统计上确实是较好的方式。

咱们用独立遗传模型说明功效的计算（表2），假定基因组包括10条染色体，每条长度160cM且均匀散布17个标记，8个QTL（IQ1~IQ8）别离位于前8条染色体，另外2条为空白染色体。

为简单起见，咱们用IQ二、IQ五、IQ6和IQ7说明功效的计算，4个QTL别离说明2%、5%、10%和20%的表型变异（即PVE）。

假定表型方差为，如此加性遗传效应等于PVE的平方根（表2）。

模拟4个DH群体，群体大小均为200，每一个群体中ICIM和IM检测到的所有超过LOD临界值的QTL列于表3，用于统计每一个QTL检测功效和假阳性。

以第一个模拟群体为例，ICIM检测到5个QTL，其中3个别离位于第5、6和7条染色体的、和70.00cM处，别离落在了IQ5、IQ6和IQ7的10cM置信区间内（表3），因此当置信区间为10cM时把IQ5、IQ6和IQ7的统计功效加1；第2条染色体上检测到一个QTL，与IQ2的距离为cM，不在IQ2的10cM置信区间内，第7条染色体上40cM处检测到一个QTL，既不在IQ7的10cM置信区间内也不在其20cM置信区间内，因此判定为假阳性。

同理，IM发觉4个QTL，其中两个别离位于第6和7染色体的60.00cM和cM处，别离落在IQ6和IQ7的10cM置信区间内，这2个QTL对应的功效加1，另外2个不在这4个QTL的10cM置信区间内，因此判定为假阳性。

依照上述算法，关于4次模拟来讲，在LOD临界值下当置信区间为10cM时（表3），ICIM检测IQ2、IQ5、IQ6和IQ7的功效别离为2、一、3和2，即IQ2在4次模拟中被检测到2次，IQ5被检测到1次，IQ6被检测到3次，IQ7被检测到2次；IM检测4个独立QTL的功效别离为一、0、3和2。

ICIM检测到的16个QTL中有8个假阳性，IM检测到的13个QTL中有7个假阳性。

当置信区间为20cM时（表3），ICIM检测IQ二、IQ五、IQ6和IQ7的功效别离为3、2、4和4，IM的检测功效别离为1、1、3和4；ICIM检测到的16个QTL中有3个假阳性，IM检测到的13个QTL中有4个假阳性。

因此通过100乃至1000次的模拟，就能够取得准确的检测功效和假阳性率，从而判定不同QTL作图方式的有效性。

图2200个加倍单倍体家系群体中区间作图、复合区间作图和完备区间作图的比较

Fig.2Comparisonofintervalmapping,compositeintervalmappingandinclusivecompositeintervalmappinginasimulatedpopulationwith200doubledhaploidlines.

假定一个基因组包括6条染色体，每条长度为120cM，等距离散布13个标记，第1条染色体上35cM处存在1个QTL，第二、3、4条染色体上都在35和68cM处存在2个QTL，图中箭头表示QTL的近似位置，朝上箭头表示QTL的加性效应为正，朝下箭头表示QTL的加性效应为负，效应的绝对值均为1。

Agenomewith6chromosomeswasassumed,eachof120cMandevenlydistributedwith13markers.OneQTLwaslocatedat35cMonchromosome1,andtwoQTLwerelocatedat35and68cMonchromosomes2,3,and4.ArrowspointedtotheapproximateQTLpositions.UpwardarrowsindicatedtheQTLhavepositiveeffects,whiledownwardarrowsindicatedtheQTLhavenegativeeffects.Theabsolutegeneticeffectis1forallQTL.

表28个独立遗传QTL在基因组中的位置、加性遗传效应、说明表型变异的百分数和10cM和20cM置信区间

Table2EightindependentQTLandtheirchromosomalpositions,additiveeffectsandexplainedphenotypicvariation（%）,alongwiththe10cMand20cMconfidenceintervals（CI）

QTL

染色体

Chromosome

位置

Position（cM）

加性效应

Additive

贡献率

PVE（%）

置信区间Confidenceinterval（CI）

CI=10cM

CI=20cM

IQ1

（20cM,30cM）

（15cM,35cM）

IQ2

（27cM,37cM）

（22cM,42cM）

IQ3

（34cM,44cM）

（29cM,49cM）

IQ4

（41cM,51cM）

（36cM,56cM）

IQ5

（48cM,58cM）

（43cM,63cM）

IQ6

（55cM,65cM）

（50cM,70cM）

IQ7

（62cM,72cM）

（57cM,77cM）

IQ8

（69cM,79cM）

（64cM,84cM）

表3利用4个模拟DH群体计算完备区间作图和区间作图两种方式的检测功效和假阳性，QTL置信区间长度别离是10cM或20cM

Table3CalculationofpowerandfalseQTLinfoursimulatedDHpopulationsforICIMandIM.TheconfidenceintervalofeachpredefinedQTLis10or20cM.

Pop

完备区间作图Inclusivecompositeintervalmapping

区间作图Intervalmapping

染色体

Chromosome

位置

Position

加性效应

Additive

LOD

PVE（%）

CI=10cM

CI=20cM

染色体

Chromosome

位置

Position

加性效应

Additive

LOD

PVE（%）

CI=10cM

CI=20cM

FalseQTL

IQ2

FalseQTL

IQ5

FalseQTL

IQ6

FalseQTL

IQ7

IQ2

FalseQTL

IQ5

IQ6

IQ7

FalseQTL

IQ7

IQ2

IQ6

FalseQTL

IQ7

FalseQTL

FalseQT

展开阅读全文