测序常用名词解释整理Word格式.docx-资源下载

测序常用名词解释整理Word格式.docx

1、由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。什么是基因组重测序（Genome Re-sequencing）全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到

2、全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。什么是de novo测序de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和革命性突破。利用新一代高

3、通量、高效率测序技术以及强大的生物信息分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。测序名词关系图什么是fragmentsfragments 就是打成的片段，而测序测的就是这些fragments，测出来的结果就是reads，又可以分为单端侧和双端侧，单端测序的话，只是从fragments的一端测序，测多长read就多长，双端测序就是从一个fragments的两端测，就会得出两个reads什么是Reads 高通量测序平台产生的序列就称为reads。（测序读到的碱基序列片段，测序的最小单位；）什么是Contig拼接软件基于reads之间的overlap区，拼接获得的序列称为Conti

4、g（重叠群）。（由reads通过对overlap区域拼接组装成的没有gap的序列段；什么是Contig N50Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3.Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时，C

5、ontig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。什么是Scaffold基因组de novo测序（没有参考基因组的测序，需要研究人员从头拼接得到的序列），通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。（通过pair ends信息确定出的contig排列，中间有gap）什么是Scaf

6、fold N50Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3.Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Sc

7、affold 5=Scaffold总长度*1/2时，Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。什么是测序深度和覆盖度测序深度：是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度：是指测序获得的序列占整个基因组的比例。Gap：由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。什么是RPK

8、M、FPKMRPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway Mortazavi etal., 2008:每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。假如有1百万个reads映射到了人的基因组上，那么具体到每个外显子呢，有多少映射上了呢，而外显子的长度不一，那么每1K个碱基上又有多少reads映射上了呢，这大概就是这个RPKM的直观解释。2012-7-19 12:30 上传下载附件（12.31 KB）如果对应特定基因的话，那么就是每10

9、00000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的readTotal exon reads:This is the number in the column with header Total exonreads in the row for the gene. This is the number of reads that have beenmapped to a region in which an exon is annotated for the gene or across theboundaries of two exons or a

10、n intron and an exon for an annotated transcript ofthe gene. For eukaryotes, exons and their internal relationships are defined byannotations of type mRNA.映射到外显子上总的reads个数。这个是映射到某个区域上的reads个数，这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、外显子。对于真核生物来说，外显子和它们自己内部的关系由某类型的mRNA来注释。Exonlength: This is the

11、number in the column with the header Exon length inthe row for the gene, divided by 1000. This is calculated as the sum of thelengths of all exons annotated for the gene. Each exon is included only once inthis sum, even if it is present in more annotated transcripts for the gene.Partly overlapping e

12、xons will count with their full length, even though theyshare the same region.外显子的长度。计算时，计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现，这个外显子在求和时只被包含一次。即使部分重叠的外显子共享相同的区域，重叠的外显子以其总长来计算。Mapped reads: The sum of all the numbers in the column with header Totalgene reads. The Total gene reads for a gene is the

13、 total number ofreads that after mapping have been mapped to the region of the gene. Thus thisincludes all the reads uniquely mapped to the region of the gene as well asthose of the reads which match in more places （below the limit set in thedialog in figure 18.110） that have been allocated tothis g

14、enes region. A genes region is that comprised of the flanking regions（if it was specified in figure 18.110）, the exons, the introns andacross exon-exon boundaries of all transcripts annotated for the gene. Thus,the sum of the total gene reads numbers is the number of mapped reads for thesample （you can find the number in the RNA-Seq report）.map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。比如对应到该基因的read有1000个，总reads个数有100万，而该基因的外显子总长为5kb，那么它的RPKM为：109*1000（reads个数）/106（总reads个数）*5000（外显子长度）=200或者：1000（reads个数）/1（百万）*5（K）=200这个值反映基因的表达水平。FPKM（fragments per kilobase of exon per mil

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？