测序常用名词解释整理Word格式.docx

上传人:b****2 文档编号:14782665 上传时间:2022-10-24 格式:DOCX 页数:10 大小:337.97KB
下载 相关 举报
测序常用名词解释整理Word格式.docx_第1页
第1页 / 共10页
测序常用名词解释整理Word格式.docx_第2页
第2页 / 共10页
测序常用名词解释整理Word格式.docx_第3页
第3页 / 共10页
测序常用名词解释整理Word格式.docx_第4页
第4页 / 共10页
测序常用名词解释整理Word格式.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

测序常用名词解释整理Word格式.docx

《测序常用名词解释整理Word格式.docx》由会员分享,可在线阅读,更多相关《测序常用名词解释整理Word格式.docx(10页珍藏版)》请在冰豆网上搜索。

测序常用名词解释整理Word格式.docx

由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。

终止点由反应中相应的双脱氧而定。

每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。

它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

什么是基因组重测序(GenomeRe-sequencing)

全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。

随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。

通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。

什么是denovo测序

denovo测序也称为从头测序:

其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。

获得一个物种的全基因组序列是加快对此物种了解的重要捷径。

随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。

利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。

 

测序名词关系图

什么是fragments

fragments就是打成的片段,而测序测的就是这些fragments,测出来的结果就是reads,又可以分为单端侧和双端侧,单端测序的话,只是从fragments的一端测序,测多长read就多长,双端测序就是从一个fragments的两端测,就会得出两个reads

什么是Reads

高通量测序平台产生的序列就称为reads。

(测序读到的碱基序列片段,测序的最小单位;

什么是Contig

拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。

(由reads通过对overlap区域拼接组装成的没有gap的序列段;

什么是ContigN50

Reads拼接后会获得一些不同长度的Contigs。

将所有的Contig长度相加,能获得一个Contig总长度。

然后将所有的Contigs按照从长到短进行排序,如获得Contig1,Contig2,Contig3...………Contig25。

将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为ContigN50。

举例:

Contig1+Contig2+Contig3+Contig4=Contig总长度*1/2时,Contig4的长度即为ContigN50。

ContigN50可以作为基因组拼接的结果好坏的一个判断标准。

什么是Scaffold

基因组denovo测序(没有参考基因组的测序,需要研究人员从头拼接得到的序列),通过reads拼接获得Contigs后,往往还需要构建454Paired-end库或IlluminaMate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。

基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

(通过pairends信息确定出的contig排列,中间有gap)

什么是ScaffoldN50

ScaffoldN50与ContigN50的定义类似。

Contigs拼接组装获得一些不同长度的Scaffolds。

将所有的Scaffold长度相加,能获得一个Scaffold总长度。

然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold1,Scaffold2,Scaffold3...………Scaffold25。

将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为ScaffoldN50。

Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold总长度*1/2时,Scaffold5的长度即为ScaffoldN50。

ScaffoldN50可以作为基因组拼接的结果好坏的一个判断标准。

什么是测序深度和覆盖度

测序深度:

是指测序得到的总碱基数与待测基因组大小的比值。

假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。

覆盖度:

是指测序获得的序列占整个基因组的比例。

Gap:

由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为。

例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。

什么是RPKM、FPKM

RPKM,ReadsPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway[Mortazavietal.,2008]:

每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。

假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。

2012-7-1912:

30上传

下载附件(12.31KB)

如果对应特定基因的话,那么就是每1000000mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read

Totalexonreads:

ThisisthenumberinthecolumnwithheaderTotalexonreadsintherowforthegene.Thisisthenumberofreadsthathavebeenmappedtoaregioninwhichanexonisannotatedforthegeneoracrosstheboundariesoftwoexonsoranintronandanexonforanannotatedtranscriptofthegene.Foreukaryotes,exonsandtheirinternalrelationshipsaredefinedbyannotationsoftypemRNA.映射到外显子上总的reads个数。

这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。

对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。

Exonlength:

ThisisthenumberinthecolumnwiththeheaderExonlengthintherowforthegene,dividedby1000.Thisiscalculatedasthesumofthelengthsofallexonsannotatedforthegene.Eachexonisincludedonlyonceinthissum,evenifitispresentinmoreannotatedtranscriptsforthegene.Partlyoverlappingexonswillcountwiththeirfulllength,eventhoughtheysharethesameregion.外显子的长度。

计算时,计算所有某个基因已注释的所有外显子长度的总和。

即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。

即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。

Mappedreads:

ThesumofallthenumbersinthecolumnwithheaderTotalgenereads.TheTotalgenereadsforageneisthetotalnumberofreadsthataftermappinghavebeenmappedtotheregionofthegene.Thusthisincludesallthereadsuniquelymappedtotheregionofthegeneaswellasthoseofthereadswhichmatchinmoreplaces(belowthelimitsetinthedialoginfigure18.110)thathavebeenallocatedtothisgene'

sregion.Agene'

sregionisthatcomprisedoftheflankingregions(ifitwasspecifiedinfigure18.110),theexons,theintronsandacrossexon-exonboundariesofalltranscriptsannotatedforthegene.Thus,thesumofthetotalgenereadsnumbersisthenumberofmappedreadsforthesample(youcanfindthenumberintheRNA-Seqreport).map的reads总和。

映射到某个基因上的所有reads总数。

因此这包含所有的唯一映射到这个区域上的reads。

比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM为:

10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者:

1000(reads个数)/1(百万)*5(K)=200这个值反映基因的表达水平。

FPKM(fragmentsperkilobaseofexonpermil

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1