测序常用名词解释文档格式.docx
《测序常用名词解释文档格式.docx》由会员分享,可在线阅读,更多相关《测序常用名词解释文档格式.docx(14页珍藏版)》请在冰豆网上搜索。
480Mb
2006.9
葡萄(Vitisvinifera)
490Mb
2007.9
小yL^^(Physcomtrellapatens)
2008J
番木瓜(Cnnd口papa)-a)
370Mb
2008.4
咼粱(Soj^ghutnbicolor)
P730Mb
2009J
玉来侶%mays)
2300Mb
2009JI
黄瓜fa©
miber)
350M
2009.11
^^^jlycinemax)
1100Mb
2010,1
一穗短柄草(Brachypodiimdistachyon)
355Mb
2010.2
什么是高通量测序?
高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定,因此在有些文献中称其为下一代测序技术(nextgenerationsequencingNGS)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(Deepsequencing。
什么是Sanger法测序(一代测序)
Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。
直到掺入一种链终止核苷酸为止。
每一次序列测定由一套四个单独的反应构成,每个
反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。
由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在GA、T或C处终止。
终止点由反应中相应的双脱氧而定。
每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。
它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或
非同位素标记进行检测。
什么是基因组重测序(GenomeRe-sequencing
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体耳
水平上进行差异性分析的方法。
随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。
通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
什么是denovo测序
GenomicDNA
组装程序J序列组装[SOAPdenovo软件]
A宫smmblgclgmnQrn©
denovo测序也称为从头测序:
其不需要任何现有的序列资料就可以对某个物种
进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
获得一个物种的全基因组序列是加快对此物种了解的重要捷径。
随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。
利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可
以高效、低成本地测定并分析所有生物的基因组序列。
测序名词关系图
Scaffold
Fragnwnt
R^ad:
knownsequence)
Roughlyknownlengthbutnotknownsequence
什么是fragments
fragments就是打成的片段,而测序测的就是这些fragments,测出来的结果就是reads,又可以分为单端侧和双端侧,单端测序的话,只是从fragments的一端测序,测多长read就多长,双端测序就是从一个fragments的两端测,就会得出两个reads
什么是Reads
高通量测序平台产生的序列就称为reads。
(测序读到的碱基序列片段,测序的最小单位;
)
什么是Contig
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
(由reads通过对overlap区域拼接组装成的没有gap的序列段;
什么是ContigN50
Reads拼接后会获得一些不同长度的Contigs。
将所有的Contig长度相加,能获得一个Contig总长度。
然后将所有的Contigs按照从长到短进行排序,如获得
Contig1,Contig2,Contig3…Contig25。
将Contig按照这个顺序
依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为ContigN50。
举例:
Contig1+Contig2+Contig3+Contig4=Contig
总长度*1/2时,Contig4的长度即为ContigN5(。
ContigN50可以作为基因组拼接的结果好坏的一个判断标准。
什么是Scaffold
基因组denovo测序(没有参考基因组的测序,需要研究人员从头拼接得到的序列),通过reads拼接获得Contigs后,往往还需要构建454Paired-end库或MuminaMate-pair库,以获得一定大小片段(如3Kb6Kb10Kb20Kb)两
端的序列。
基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺
序已知的Contigs组成Scaffold。
(通过pairends信息确定出的contig排列,中间有gap)
什么是ScaffoldN50
ScaffoldN50与ContigN50的定义类似。
Contigs拼接组装获得一些不同长度的Scaffolds。
将所有的Scaffold长度相加,能获得一个Scaffold总长度。
然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold1,Scaffold2,Scaffold3...Scaffold25。
将Scaffold按照这个顺序依次相加,当相
加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为ScaffoldN5Q举例:
Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold总长度*1/2时,Scaffold5的长度即为ScaffoldN5dScaffoldN50可以作为基因组拼接的结果好坏的一个判断标准。
什么是测序深度和覆盖度
测序深度:
是指测序得到的总碱基数与待测基因组大小的比值。
假设一个基因大
小为2M测序深度为10X,那么获得的总数据量为20M覆盖度:
是指测序获得的序列占整个基因组的比例。
Gap由于基因组中的高GC重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为。
例如一个细
菌基因组测序,覆盖度是98%那么还有2%勺序列区域是没有通过测序获得的。
什么是RPKMFPKM
RPKM,ReadPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway[Mortazavietal.,2008]:
每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。
假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射
上了呢,这大概就是这个RPKM勺直观解释
RKPM(exonJ=10?
'
exon_tag_count/(total_tag_count*exon_size)
RPKM(gene)=W9'
genetag^count/(totalTtag^count*canonical_transcrip<
size)
Mortjuiivi抓(20031NatureMethods
如果对应特定基因的话,那么就是每1000000mapped到该基因上的reads中每
kb有多少是mapped到该基因上的exon的read
Totalexonreads:
ThisisthenumberinthecolumnwithheaderTotal
exonreadsintherowforthegene.Thisisthenumberofreadsthathave
beenmappedtoaregioninwhichanexonisannotatedforthegeneoracrosstheboundariesoftwoexonsoranintronandanexonforanannotatedtranscriptofthegene.Foreukaryotes,exonsandtheirinternal
relationshipsaredefinedbyannotationsoftypemRNA.映射至U外显子上总
的reads个数。
这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。
对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA^
注释。
Exonlength:
ThisisthenumberinthecolumnwiththeheaderExonlength
intherowforthegene,dividedby1000.Thisiscalculatedasthesumofthelengthsofallexonsannotatedforthegene.Eachexonisincludedonlyonceinthissum,evenifitispresentinmoreannotatedtranscriptsforthegene.Partlyoverlappingexonswillcountwiththeirfulllength,eventhoughtheysharethesameregion.外显子的长度。
计算时,计算所有某
个基因已注释的所有外显子长度的总和。
即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。
即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。
Mappedreads:
Thesumofallthenumbersinthecolumnwithheader
Totalgenereads.TheTotalgenereadsforageneisthetotalnumber