动植物基因组denovo常见问题Word下载.docx
《动植物基因组denovo常见问题Word下载.docx》由会员分享,可在线阅读,更多相关《动植物基因组denovo常见问题Word下载.docx(8页珍藏版)》请在冰豆网上搜索。
查询植物基因组大小的网站:
;
查询动物基因组大小的网站:
。
5、基因组的项目周期
6、基因组承诺的组装指标
简单基因组:
contigN50>
20K,scaffoldN50>
500K;
复杂基因组:
300K。
样品要求
1、动植物基因组测序对取样有什么要求
植物:
需要黑暗无菌条件下培养的黄化苗、组培苗,基因组样本量500μg~1mg,越多越好。
选择纯合或杂合度尽可能小的样品(杂合度<
%)。
动物:
应选取肌肉、血液等含脂肪较少的部位取样,尽量选择同一个体取样,以减少个体差异性对后续拼接的影响。
基因组样本量500μg~1mg,越多越好。
样本的性别决定模式是XY型,则尽量选择雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。
2、全基因组测序对DNA样本有什么要求
(1)样品需求量(单次):
小片段文库,≥3μg;
2Kb~5Kb大片段文库,≥20μg;
10Kb~20Kb大片段文库,≥60μg;
完成全基因组测序样品DNA量需求约为500μg~1mg;
(2)样品浓度:
对于小片段文库,≥50ng/μl,对于2Kb~5Kb大片段文库,≥150ng/μl;
对于10Kb~20Kb大片段文库,≥150ng/μl;
(3)样品纯度:
OD260/280=~;
无蛋白质、RNA污染或肉眼可见杂质污染;
(4)样品质量:
基因组完整。
如需建立≥5Kb的插入片段文库,则电泳结果,基因组DNA主带≥23Kb;
脉冲场电泳结果,基因组DNA主带≥40Kb。
文库构建
1、基因组测序的文库构建及测序策略
180bp、500bp、2K、5K、10K;
PE100测序;
测序深度一般为100-150X;
复杂基因组:
180bp、300bp、500bp、2K、5K、10K、20K;
测序深度一般为200-300X。
2、DNAFragment文库的定义、用途及实验流程
(1)定义:
将基因组或大片段DNA随机打断成<800bp的小片段(主要为200bp、300bp、500bp等),加上特定接头做成DNA文库后直接对DNA片段进行单末端(Single-End)或者双末端(Paired-End)测序,不需要克隆到细菌中,可以获得大量的DNA序列信息。
(2)用途:
DNAFragment文库制备的整个过程只需2天,单末端测序长度可达100bp,双末端为200bp。
该技术测序通量高,可在全基因组水平上最大限度的、完整的获取基因组及多态性信息。
广泛地应用于基因组的denovo测序、基因组重测序、BAC测序和长片段PCR产物测序等。
(3)实验流程:
3、DNAmate-pair文库的定义、用途及实验流程
首先将基因组DNA随机打断到特定大小(2-20kb);
然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段捕获。
这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina测序仪上进行测序。
通过大片段文库构建,从而获得基因组中较大跨度(2-20kb)片段两端的序列。
DNAMate-pair文库制备的整个过程需要5天,这种从较大跨度两端所获得的序列对基因组denovo项目的组装和基因组结构变异发掘具有非常重要的作用。
信息分析
1、什么是Read、Contig、Scaffold
Read:
测序读到的碱基序列片段,测序的最小单位;
Contig:
由reads通过对overlap区域拼接组装成的没有gap的序列段;
Scaffold:
通过pairends信息确定出的contig排列,中间有gap。
2、什么是N50,N70,N90
把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价基因测序的完整性有重要意义;
N70和N90的计算方法与N50类似,只是百分数变为70%或90%。
3、普通基因组的解决方案
诺禾采用自主升级的SOAPdenovoII进行普通基因组组装。
组装流程(图1)包括:
(1)构建不同长度的插入片段文库;
(2)构建deBrujin图;
(3)化简deBrujin图;
(4)构建contigs;
(5)构建scaffolds;
(6)补gaps;
诺禾致源的技术升级包括:
(1)开发了新的序列纠错模块,降低测序错误对组装的影响;
(2)在contigs组装步骤,开发了StepK连接模块,以混合拼接算法连接contigs,从而提升原始的contigs长度;
(3)在scaffolds组装步骤,开发了ctgdistanceevaluation模块,更精确地评估contigs间的距离;
同时开发了scafconstruction模块,以新的连接单位来组装scaffold,从而提升scaffolds的连接准确率及长度。
图1
基因组denovo测序及拼接组装流程
经过以上几步,最终简单基因组的组装结果至少应达到contigN50>
4、复杂基因组(二倍体杂合)的解决方案
针对复杂基因组中二倍体杂合基因组,诺禾致源开发了NOVOheter软件,成功实现了二倍体杂合基因组组装。
与SOAPdenovo相比,NOVOheter软件组装二倍体杂合基因组的技术创新主要体现在以下几个方面:
(1)通过高深度测序(200-300X)将基因组上的杂合和纯合区域分开;
(2)利用reads信息和PE关系连接杂合位点,延长原始contigs:
在杂合部分间距离较短的情况下,利用reads信息将杂合位点连接起来,若杂合部分间距离较长时,利用Pair-End关系连接杂合位点(所以需要加入更多类型的小片段文库,以连接不同距离的杂合位点),从而提高了contigs的长度,为后续组装打下基础(图3);
图3基于NOVOheter软件构建contigs
a:
利用深度信息区分杂合部分(覆盖度为n)和纯合部分(覆盖度为2n);
b:
若杂合部分的距离较短(如60bp),则可利用reads信息将杂合位点连接起来;
c:
若杂合部分的距离较长(如400bp),则利用Pair-End关系,将杂合位点连接起来;
d:
得到杂合contigs。
注:
图中不同颜色的点表示杂合位点。
(3)分区域构建scaffolds:
同样利用contigs深度信息区分纯合contigs和杂合contigs;
利用Pair-End关系将纯合contigs,杂合contigs分别组装成scaffolds;
最后将相邻的纯合contigs和杂合contigs进行连接,构建更长的scaffolds。
5、如何评价组装结果
常染色体区的覆盖度:
评价基因组常染色体区的覆盖度,可以用BAC或者是Fosmid序列来评估;
把已公布或者客户提供的BAC或fosmid克隆序列作为Refrence,将拼接完成的基因组序列map回已知的BAC或者fosmid序列上,检查拼接的序列对已知序列的覆盖度到什么水平。
基因区的覆盖度:
评价基因区的覆盖度,可以用EST序列或者是转录组序列来评估;
把已公布或者客户提供的EST或转录组序列作为query序列map到拼接完成的基因组序列上,检查拼接序列对已知序列的覆盖度是达到什么水平。
6、影响基因组组装的因素
基因组的重复序列和杂合度,是否污染以及基因组的倍性情况。
7、基因组项目的标准生物信息分析的内容
基因组项目的标准生物信息分析的内容如下:
(1)数据处理;
(2)基因组组装:
基因组评估:
基因组大小、GC含量、复杂序列、杂合度评;
组装:
数据纠错;
Contig、Scaffold组装;
Gap填充;
组装质量分析、评估和结果统计;
(3)基因组注释:
重复序列注释;
基因预测;
基因组功能注释;
非编码RNA注释;
(4)比较基因组学分析:
基因家族鉴定;
基因组共线性分析;
全基因组复制分析(动物:
WGAC;
WGD);
正选择基因的鉴定及功能分析;
基因家族的扩增收缩分析;
系统发育分析;
物种分化时间估。