QTL定位中常见的12个问题.docx

上传人:b****8 文档编号:28366023 上传时间:2023-07-10 格式:DOCX 页数:32 大小:586.17KB
下载 相关 举报
QTL定位中常见的12个问题.docx_第1页
第1页 / 共32页
QTL定位中常见的12个问题.docx_第2页
第2页 / 共32页
QTL定位中常见的12个问题.docx_第3页
第3页 / 共32页
QTL定位中常见的12个问题.docx_第4页
第4页 / 共32页
QTL定位中常见的12个问题.docx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

QTL定位中常见的12个问题.docx

《QTL定位中常见的12个问题.docx》由会员分享,可在线阅读,更多相关《QTL定位中常见的12个问题.docx(32页珍藏版)》请在冰豆网上搜索。

QTL定位中常见的12个问题.docx

QTL定位中常见的12个问题

数量性状基因定位研究中假设干常见问题的分析与解答

李慧慧张鲁燕王建康*

中国农业科学院作物科学研究所/国家农作物基因资源与基因改良重大科学工程/CIMMYT中国办事处,北京100081

摘要:

QTL作图是基因精细定位、克隆和有效开展分子育种的基础,在利用QTL作图开展数量性状基因定位研究的进程中常常会碰着一些问题,与统计方式有关的一些问题包括:

LOD的统计学意义是什么?

检测QTL的可信度和LOD临界值的关系是什么?

如何评判不同的QTL作图方式?

提高QTL检测效率的途径有哪些?

与遗传参数估量有关的一些问题包括:

QTL的奉献率是如何计算出来的?

如何确信QTL有利等位基因的来源?

选择基因型分析的有效性如何?

复合性状是不是适宜于QTL作图?

与作图群体及遗传图谱有关的一些问题包括:

QTL作图群体中表型数据是不是要求服从正态散布?

加密标记是不是能够显著提高QTL检测功效?

缺失分子标记对QTL作图有什么阻碍?

奇异分离标记对QTL作图有什么阻碍?

笔者试图结合咱们连年的研究工作对这些具有共性的12个常见问题做出分析和解答,供科研工作者参考。

关键词:

数量性状;QTL作图;完备区间作图;似然比查验;功效分析

AnalyticalAnswerstoFrequentlyAskedQuestionsinQuantitativeTraitLocusMapping

LIHui-Hui,ZHANGLu-Yan,andWANGJian-Kang*

InstituteofCropSciences/NationalKeyFacilityforCropGeneResourcesandGeneticImprovement/CIMMYTChinaOffice,ChineseAcademyofAgriculturalSciences,Beijing100081,China

Abstract:

QTLmappingisanimportantstepingenefinemapping,map-basedcloning,andtheefficientuseofgeneinformationinmolecularbreeding.QuestionsarefrequentlymetandaskedintheapplicationofQTLmappinginpracticalgeneticpopulations.QuestionsrelatedtostatisticalmethodofQTLmappingare:

whatdoesLODscoremean?

WhatistherelationshipbetweenthereliabilityofdetectedQTLandtheLODthreshold?

HowtoevaluatedifferentQTLmappingmethods?

HowtoimprovetheQTLdetectionpower?

Questionsrelatedtogeneticparameterestimationare:

howtocalculatethephenotypicvarianceexplainedbyeachdetectedQTL?

HowtodeterminethesourceoffavorableallelesatdetectedQTL?

Howefficientistheselectivegenotyping?

CancompositetraitsbeusedinQTLmapping?

Questionsrelatedtolinkagemapandmappingpopulationsare:

Doesthephenotypeofatraitofinteresthavetofollowanormaldistribution?

DoestheincreaseinmarkerdensitygreatlyimproveQTLmappingpower?

WhateffectswillmissingmarkershaveinQTLmapping?

WhateffectswillsegregationdistortionhaveinQTLmapping?

Ourobjectiveinthispaperistoprovidetheanalyticalanswersto12frequentlyaskedquestions,basedonourstudiesinpastseveralyears.

Keywords:

Quantitativetrait;QTLmapping;Inclusivecompositeintervalmapping;Likelihoodratiotest;Poweranalysis

经典数量遗传学成立在多基因假说基础之上,把操纵数量性状的基因作为一个整体,重点研究各类遗传效应与遗传方差的分解和估量,不区分个别基因在表型效应上的不同[1-3]。

分子标记连锁图谱的大量显现,使得咱们能够像研究质量性状基因一样研究数量性状基因,也能够把单个数量性状基因(quantitativetraitgeneorlocus,简称QTL)定位在染色体上,并估量其遗传效应,这一进程称为QTL作图或定位[4]。

QTL作图是基因精细定位和克隆的基础,目前已成为数量性状遗传研究的常用方式。

QTL定位结果能够帮忙育种家取得目标性状的遗传信息,借助与QTL连锁的分子标记在育种群体中跟踪和选择有利等位基因,提高选择的准确性和预见性。

可是,在利用QTL作图开展遗传研究的进程中也常常碰着一些问题,这些问题大致可分为有关作图统计方式、有关遗传参数估量、和有关作图群体及连锁图谱等三大类。

笔者试图结合咱们近些年的研究工作对具有共性的12个问题做出分析和解答,供广大科研工作者在利用QTL作图开展遗传研究时参考。

与作图统计方式有关的四个问题是:

LOD的统计学意义是什么?

检测QTL的可信度和LOD临界值的关系是什么?

如何评判不同的QTL作图方式?

提高QTL检测效率的途径有哪些?

与遗传参数估量有关的四个问题是:

QTL的奉献率是如何计算出来的?

如何确信QTL有利等位基因的来源?

选择基因型分析的有效性如何?

复合性状是不是适宜于QTL作图?

与作图群体及遗传图谱有关的四个问题是:

QTL作图群体中表型数据是不是要求服从正态散布?

加密标记是不是能够显著提高QTL检测功效?

缺失分子标记对QTL作图有什么阻碍?

奇异分离标记对QTL作图有什么阻碍?

1QTL作图中的统计学问题

LOD的统计学意义是什么?

区间作图(Intervalmapping,简称IM)[5]、复合区间作图(Compositeintervalmapping,简称CIM)[6]和完备区间作图(Inclusivecompositeintervalmapping,简称ICIM)[4,7-9]均利用极大似然估量原理,通过一维扫描在全基因组上逐点检测QTL的存在。

查验的零假设(H0)是扫描位点上不存在QTL,备择假设(HA)是扫描位点上存在一个QTL,似然比统计量(LRT)用来衡量扫描位点上存在QTL的可能性大小。

似然比统计量的一样概念是,

其中ln是自然对数函数,L0是H0下似然函数的极大值,LA是HA下似然函数的极大值。

似然比统计量大多数情形下有专门好的统计学性质,即渐近服从

散布,

散布的自由度为两种假设下独立变量个数之差,因此容易确信给定显著性水平下查验统计量的临界值。

一些研究说明QTL作图时的似然比统计量可能不服从单一

散布,但却能够用2个不同自由度的混合

散布来近似[6,10],因此也能够确信给定显著性水平下查验统计量的临界值。

Lander和Botstein在提出IM的同时也提出利用人类遗传研究中经常使用的LOD(Likelihoodofodd)值作为查验QTL是不是存在的标准[5]。

LOD值概念为极大似然函数比的经常使用对数,即,

因此,假设LA是L0的10倍,那么LOD=1;若是LA是L0的100倍,那么LOD=2;若是LA是L0的1000倍,那么LOD=3。

依照LOD值和LRT值的概念,不宝贵到它们之间有如下关系:

检测QTL的可信度和LOD临界值之间的关系是什么?

与其他假设查验一样,QTL作图中的查验也可产生四种结果(图1)。

当一个位点上没有QTL,通过考试却错误地判定有QTL存在,称这种现象为假阳性;当一个位点上有QTL,通过考试判定有QTL存在,称这种现象为真阳性;当一个位点上有QTL,通过考试却错误地判定没有QTL存在,称这种现象为假阴性;当一个位点上没有QTL,通过考试判定没有QTL存在,称这种现象为真阴性。

假阳性和假阴性是统计考试中的两类错误,犯第一类错误(或假阳性)的概率(

)等于H0为真时被拒绝的概率,即,

=P{拒绝H0|H0为真}=P{假阳性}/[P{假阳性}+P{真阴性}]。

犯第二类错误(或假阴性)的概率(

)等于H0为假时未被拒绝的概率,即,

=P{未拒绝H0|H0为假}=P{假阴性}/[P{假阴性}+P{真阳性}]。

关于特定的查验方式而言,在必然的实验精准度下,降低

那么会提高

,降低

那么会提高

,同时降低

的途径是提高实验精准度和增加样本量。

犯第一类错误的概率

一样在查验前设定,对必然的查验方式,给定

也是确信的。

可是除t-考试外,大多数统计假设查验给定

下的

难以用代数解析式表示出来。

表1前5列给出LOD值~时对应的LRT值和三种自由度下一次查验中犯第一类错误概率,犯第一类错误概率

有时也叫做显著性概率;后4列给出显著性概率~时对应的LOD临界值。

以自由度2为例,LOD=对应的显著性概率为,若是只做一次假设查验,采纳如此的LOD临界值就能够保证假阳性的概率不超过,即鉴定出的QTL是假阳性的概率低于,或说鉴定出的QTL为真的概率超过。

基于区间考试的QTL作图,一样在基因组内所有染色体上按必然步长逐点查验QTL的存在,而这些查验又不是完全独立的,因此也很难确信一次查验的显著性水平所对应的全局

例如,若是每次查验均采纳临界值LOD=3,当自由度为2时每一个扫描位置对应的

近似为,QTL作图需要明白的是全基因组查验后的

由于QTL作图的复杂性,如涉及到多次非独立假设查验,不同物种有不同大小的基因组,不同作图群体有不同的标记数,零假设下似然比查验统计量服从什么样的渐近散布尚无定论,因此难以准确确信LOD临界值对应的一次查验和全局

,但一些非参数统计方式已用于给定全局

后LOD临界值的确信[11-12]。

一样以为采纳2~3的LOD临界值能够把全局

操纵在之内,在显性QTL和互作QTL作图中,似然比统计量有较大的自由度,还可适当考虑采纳较高的临界值,如3~4。

但通过理论或模拟,进一步明确QTL作图中似然比查验统计量的渐近散布仍是必要的,笔者推测渐近散布可能与染色体条数、每条染色体长度、标记密度和QTL遗传效应类型等因素有关。

与所有假设查验一样,采纳较高的LOD临界值会更好地操纵假QTL的发生,同时遗传效应较小的真QTL却不易被检测出来。

如何平稳两类错误的概率,这不单单是统计学问题,还要考虑到具体的研究目标。

若是QTL作图只是初步确信基因在染色体上的位置,然后依照作图结果构建其他次级群体对检测到的QTL进行精细定位、乃至图位克隆,然后开展转基因工作,这种研究几乎不允许假QTL的发生。

现在要适当提高查验QTL时的LOD临界值,保证后续研究中QTL的靠得住性。

另一方面,若是研究目标是把QTL作图结果用于标记辅助选择聚合育种,这时只有尽可能多地检测出操纵育种目标性状的QTL,才能保证对所有操纵育种性状的基因进行选择,因此有必要适当降低查验QTL时的LOD临界值,使得遗传效应较小的QTL也有机遇被检测出来。

此时即便有一些假QTL的存在,也不至于造成专门大的损失。

 

图1QTL定位中假设查验的两类错误。

阴影部份表示查验统计量LOD值的散布,LOD0表示临界值

Fig.1TwotypesoferrorinhypothesistestinQTLmapping.TheshadowarearepresentsthedistributionoftheteststatisticLODscore,andLOD0isthethresholdvalue

表13种自由度下不同LOD值对应的犯第一类错误概率(

)和不同

下对应的LOD临界值

Table1ThecorrespondingprobabilitiesoftypeIerrortoLODandthecorrespondingLODthresholdtothesignificanceprobabilitiesunderthreedegreesoffreedom

LOD

LRT

LOD

df=1

df=2

df=3

df=1

df=2

df=3

如何评判不同的QTL作图方式?

图2给出一个模拟的加倍单倍体(DH)群体中ICIM、CIM和IM三种方式的LOD值和估量遗传效应的曲线图。

遗传模型中包括7个QTL,第1染色体上1个,第2和4染色体上别离有2个相引相连锁QTL,第3染色体上有2个互斥相连锁QTL,所有QTL遗传效应的绝对值为1,效应的方向如图2箭头所示。

从图中咱们能够很直观地看到不同QTL作图方式找到的QTL不尽相同,IM无法准确信位连锁QTL,CIM无法准确信位互斥连锁的QTL。

统计查验的功效概念为

,即发觉真QTL的概率,经常使用来比较不同统计方式的有效性。

QTL作图包括着复杂的统计假设查验,难以从理论上推导出不同QTL作图方式的统计功效。

一样采纳模拟方式比较不同方式QTL检测功效和假阳性的大小,功效高同时又具有较低假阳性在统计上确实是较好的方式。

咱们用独立遗传模型说明功效的计算(表2),假定基因组包括10条染色体,每条长度160cM且均匀散布17个标记,8个QTL(IQ1~IQ8)别离位于前8条染色体,另外2条为空白染色体。

为简单起见,咱们用IQ二、IQ五、IQ6和IQ7说明功效的计算,4个QTL别离说明2%、5%、10%和20%的表型变异(即PVE)。

假定表型方差为,如此加性遗传效应等于PVE的平方根(表2)。

模拟4个DH群体,群体大小均为200,每一个群体中ICIM和IM检测到的所有超过LOD临界值的QTL列于表3,用于统计每一个QTL检测功效和假阳性。

以第一个模拟群体为例,ICIM检测到5个QTL,其中3个别离位于第5、6和7条染色体的、和70.00cM处,别离落在了IQ5、IQ6和IQ7的10cM置信区间内(表3),因此当置信区间为10cM时把IQ5、IQ6和IQ7的统计功效加1;第2条染色体上检测到一个QTL,与IQ2的距离为cM,不在IQ2的10cM置信区间内,第7条染色体上40cM处检测到一个QTL,既不在IQ7的10cM置信区间内也不在其20cM置信区间内,因此判定为假阳性。

同理,IM发觉4个QTL,其中两个别离位于第6和7染色体的60.00cM和cM处,别离落在IQ6和IQ7的10cM置信区间内,这2个QTL对应的功效加1,另外2个不在这4个QTL的10cM置信区间内,因此判定为假阳性。

依照上述算法,关于4次模拟来讲,在LOD临界值下当置信区间为10cM时(表3),ICIM检测IQ2、IQ5、IQ6和IQ7的功效别离为2、一、3和2,即IQ2在4次模拟中被检测到2次,IQ5被检测到1次,IQ6被检测到3次,IQ7被检测到2次;IM检测4个独立QTL的功效别离为一、0、3和2。

ICIM检测到的16个QTL中有8个假阳性,IM检测到的13个QTL中有7个假阳性。

当置信区间为20cM时(表3),ICIM检测IQ二、IQ五、IQ6和IQ7的功效别离为3、2、4和4,IM的检测功效别离为1、1、3和4;ICIM检测到的16个QTL中有3个假阳性,IM检测到的13个QTL中有4个假阳性。

因此通过100乃至1000次的模拟,就能够取得准确的检测功效和假阳性率,从而判定不同QTL作图方式的有效性。

图2200个加倍单倍体家系群体中区间作图、复合区间作图和完备区间作图的比较

Fig.2Comparisonofintervalmapping,compositeintervalmappingandinclusivecompositeintervalmappinginasimulatedpopulationwith200doubledhaploidlines.

假定一个基因组包括6条染色体,每条长度为120cM,等距离散布13个标记,第1条染色体上35cM处存在1个QTL,第二、3、4条染色体上都在35和68cM处存在2个QTL,图中箭头表示QTL的近似位置,朝上箭头表示QTL的加性效应为正,朝下箭头表示QTL的加性效应为负,效应的绝对值均为1。

Agenomewith6chromosomeswasassumed,eachof120cMandevenlydistributedwith13markers.OneQTLwaslocatedat35cMonchromosome1,andtwoQTLwerelocatedat35and68cMonchromosomes2,3,and4.ArrowspointedtotheapproximateQTLpositions.UpwardarrowsindicatedtheQTLhavepositiveeffects,whiledownwardarrowsindicatedtheQTLhavenegativeeffects.Theabsolutegeneticeffectis1forallQTL.

表28个独立遗传QTL在基因组中的位置、加性遗传效应、说明表型变异的百分数和10cM和20cM置信区间

Table2EightindependentQTLandtheirchromosomalpositions,additiveeffectsandexplainedphenotypicvariation(%),alongwiththe10cMand20cMconfidenceintervals(CI)

QTL

染色体

Chromosome

位置

Position(cM)

加性效应

Additive

贡献率

PVE(%)

置信区间Confidenceinterval(CI)

CI=10cM

CI=20cM

IQ1

1

25

1

(20cM,30cM)

(15cM,35cM)

IQ2

2

32

2

(27cM,37cM)

(22cM,42cM)

IQ3

3

39

3

(34cM,44cM)

(29cM,49cM)

IQ4

4

46

4

(41cM,51cM)

(36cM,56cM)

IQ5

5

53

5

(48cM,58cM)

(43cM,63cM)

IQ6

6

60

10

(55cM,65cM)

(50cM,70cM)

IQ7

7

67

20

(62cM,72cM)

(57cM,77cM)

IQ8

8

74

30

(69cM,79cM)

(64cM,84cM)

表3利用4个模拟DH群体计算完备区间作图和区间作图两种方式的检测功效和假阳性,QTL置信区间长度别离是10cM或20cM

Table3CalculationofpowerandfalseQTLinfoursimulatedDHpopulationsforICIMandIM.TheconfidenceintervalofeachpredefinedQTLis10or20cM.

Pop

完备区间作图Inclusivecompositeintervalmapping

区间作图Intervalmapping

染色体

Chromosome

位置

Position

加性效应

Additive

LOD

PVE(%)

CI=10cM

CI=20cM

染色体

Chromosome

位置

Position

加性效应

Additive

LOD

PVE(%)

CI=10cM

CI=20cM

1

2

FalseQTL

IQ2

5

FalseQTL

IQ5

5

IQ5

IQ5

6

FalseQTL

FalseQTL

6

IQ6

IQ6

6

IQ6

IQ6

7

FalseQTL

FalseQTL

7

IQ7

IQ7

7

IQ7

IQ7

2

2

IQ2

IQ2

2

IQ2

IQ2

5

FalseQTL

IQ5

6

IQ6

IQ6

6

IQ6

IQ6

7

IQ7

IQ7

7

FalseQTL

IQ7

3

2

IQ2

IQ2

6

IQ6

IQ6

6

IQ6

IQ6

7

FalseQTL

IQ7

7

IQ7

IQ7

7

FalseQTL

FalseQTL

7

FalseQTL

FalseQTL

7

FalseQTL

FalseQT

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 信息与通信

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1