测序常用名词解释整理.docx

资源描述

测序常用名词解释整理.docx

《测序常用名词解释整理.docx》由会员分享，可在线阅读，更多相关《测序常用名词解释整理.docx（11页珍藏版）》请在冰豆网上搜索。

测序常用名词解释整理.docx

测序常用名词解释整理

高通量测序领域常用名词解释大全

物种

基因组大小

发表时间

拟南芥fArabidopsisthaliaiia^

125Mb

200（X11

400Mb

2002*4

杨树（Fopifhfsnichoca/paj

480Mb

2006,9

葡葡/i'ftisrmjfera）

490Mb

2007.9

小立碗^（Phrsconntrellapalens/

480Mb

20084

番木瓜K"ajicapapaya）

370Mb

2008*4

高粱fSorghwHbjcohr）

730Mb

2Q09A

玉JK/Zqumays）

2300Mb

200941

黄瓜fGg曲加和

3SOM

2009*11

max）

liPOMb

2010.1

一穗fa柄草（Brachypociumdistachyon）

355Mb

2011）2

什么是咼通量测序?

高通量测序技术（High-throughputsequencing,HTS）是对传统Sanger测序（称

为一代测序技术）革命性的改变，一次对几十万到几百万条核酸分子进行序列测定,因此在有些文献中称其为下一代测序技术（nextgenerationsequencingNGS）

足见其划时代的改变，同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序（Deepsequencing。

什么是Sanger法测序（一代测序）

Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。

直到掺入一种链终止核苷酸为止。

每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸（dNTP）,并混入限量的一种不同的双脱氧核苷三磷酸（ddNTP）。

由于ddNTP缺乏延伸所需要的3-0H基团，使延长的寡聚核苷酸选择性地在GA、T或C处终止。

终止点由反应中相应的双脱氧而定。

每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。

它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨

率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或

非同位素标记进行检测。

什么是基因组重测序（GenomeRe-sequencing

全基因组重测序是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。

随着基因组测序成本的不断降低，人类疾病的致病突变研究由外显子区域扩大到全基因组范围。

通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序，实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点，以及结构变异等，具有重大的科研和产业价值。

什么是denovo测序

GenomicDNA

纟n.装程序0序列组装［SOAPdenovo软件］

Assembledgenomeii

denovo测序也称为从头测序：

其不需要任何现有的序列资料就可以对某个物种

进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。

获得一个物种的全基因组序列是加快对此物种了解的重要捷径。

随着新一代测序技术的飞速发展，基因组测序所需的成本和时间较传统技术都大大降低，大规模基因组测序渐入佳境，基因组学研究也迎来新的发展契机和革命性突破。

利用新一代高通量、高效率测序技术以及强大的生物信息分析能力，可以高效、低成本地测定并分析所有生物的基因组序列。

测序名词关系图

Scaffold

Coruiiq?

-=■■-._

F怙ginent

Read（known

—Roughlyknownlengthbutnotknownsequence

什么是fragments

fragments就是打成的片段，而测序测的就是这些fragments，测出来的结果就是reads，又可以分为单端侧和双端侧，单端测序的话，只是从fragments的一端测序，测多长read就多长，双端测序就是从一个fragments的两端测，就会得出两个reads什么是Reads高通量测序平台产生的序列就称为reads。

（测序读到的碱基序列片段，测序的最小单位；）

什么是Contig

拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群）。

（由reads通过对overlap区域拼接组装成的没有gap的序列段；）什么是ContigN50

Reads拼接后会获得一些不同长度的Contigs。

将所有的Contig长度相加，能获

得一个Contig总长度。

然后将所有的Contigs按照从长到短进行排序，如获得

Contig1,Contig2,Contig3…Contig25。

将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig

长度即为ContigN50。

举例：

Contig1+Contig2+Contig3+Contig4=Contig

总长度*1/2时，Contig4的长度即为ContigN5（XContigN50可以作为基因组

拼接的结果好坏的一个判断标准。

什么是Scaffold基因组denovo测序（没有参考基因组的测序，需要研究人员从头拼接得到的序

列），通过reads拼接获得Contigs后，往往还需要构建454Paired-end库或

IlluminaMate-pair库，以获得一定大小片段（如3Kb6Kb10Kb20Kb）两

端的序列。

基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺

序已知的Contigs组成Scaffold。

（通过Pairends信息确定出的contig排列，中间有gap）什么是ScaffoldN50

ScaffoldN50与ContigN50的定义类似。

Contigs拼接组装获得一些不同长度的Scaffolds。

将所有的Scaffold长度相加，能获得一个Scaffold总长度。

然

后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold1,Scaffold2,

Scaffold3...Scaffold25。

将Scaffold按照这个顺序依次相加，当相

加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为

ScaffoldN5Q举例：

Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold总长度*1/2时，Scaffold5的长度即为ScaffoldN5（XScaffoldN50

可以作为基因组拼接的结果好坏的一个判断标准。

什么是测序深度和覆盖度测序深度：

是指测序得到的总碱基数与待测基因组大小的比值。

假设一个基因大小为2M测序深度为10X,那么获得的总数据量为20M覆盖度：

是指测序获得的序列占整个基因组的比例。

Gap由于基因组中的高GC重复序列等复杂结构的存在，测序最终拼接组装获

得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为。

例如一个细菌基因组测序，覆盖度是98%那么还有2%勺序列区域是没有通过测序获得的。

什么是RPKMFPKM

RPKM,ReadPerKilobaseofexonmodelperMillionmappedreads,isdefined

每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。

假如有1百万个reads映射到了人的基因组上，那么具体到每个外显子呢，有多

少映射上了呢，而外显子的长度不一，那么每1K个碱基上又有多少reads映射

上了呢，这大概就是这个RPKM勺直观解释。

RKPM（exon）=10®*exon_iag_oount/（totaHag_couni*exon_size）

RPKM（gene）=1CP'gene_tag_counl/（total_tag_count'canonicaHranscript_siz0）

Mor（au;avief副NatureWeiHods

如果对应特定基因的话，那么就是每1000000mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的read

Totalexonreads:

ThisisthenumberinthecolumnwithheaderTotalexonreadsintherowforthegene.Thisisthenumberofreadsthathavebeenmappectoaregioninwhichanexonisannotatedforthegeneoracrosstheboundariesoftwoexonsoranintronandanexonforanannotatedtranscriptofthegene.Foreukaryotes,exonsandtheirinternal

映射到外显子上总

relationshipsaredefinedbyannotationsoftypemRNA.

的reads个数。

这个是映射到某个区域上的reads个数，这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个基因已经注释的转录本的内含子、

外显子。

对于真核生物来说，外显子和它们自己内部的关系由某类型的mRNA来

注释。

Exonlength:

ThisisthenumberinthecolumnwiththeheaderExonlengthintherowforthegene,dividedby1000.Thisiscalculatedasthesum

ofthelengthsofallexonsannotatedforthegene.Eachexonisincluded

onlyonceinthissum,evenifitispresentinmoreannotatedtranscriptsforthegene.Partlyoverlappingexonswillcountwiththeirfulllength,

eventhoughtheysharethesameregion.外显子的长度。

计算时，计算所有某个基因已注释的所有外显子长度的总和。

即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含一次。

即使部分重叠的外显子共享相同的区域，重叠的外显子以其总长来计算。

Mappedreads:

Thesumofallthenumbersinthecolumnwithheader

Totalgenereads.TheTotalgenereadsforageneisthetotalnumberofreadsthataftermappinghavebeenmappedtotheregionofthegene.

Thusthisincludesallthereadsuniquelymappedtotheregionofthegeneaswellasthoseofthereadswhichmatchinmoreplaces（belowthelimitsetinthedialoginfigure18.110）thathavebeenallocatedtothisgene'sregion.Agene'sregionisthatcomprisedoftheflankingregions（ifit

wasspecifiedinfigure

18.110）,theexons,theintronsandacross

exon-exonboundariesofalltranscriptsannotatedforthegene.Thus,the

的reads

sumofthetotalgenereadsnumbersisthenumberofmappedreadsforthesample（youcanfindthenumberintheRNA-Seqreport）.map

总和。

映射到某个基因上的所有reads总数。

因此这包含所有的唯一映射到这个区域上的reads。

举例：

比如对应到该基因的read有1000个，总reads个数有100万，而该基因的外显子总长为5kb,那么它的RPKMfe：

10^9*1000（reads个数）/10八6（总reads

个数）*5000（外显子长度）=200或者：

1000（reads个数）/1（百万）*5（K）=200这个值反映基因的表达水平。

FPKM（fragmentsperkilobaseofexonpermillionfragmentsmapped）.FPKM

与RPKM计算方法基本一致。

不同点就是FPKM计算的是fragments，而RPKM计

算的是reads。

Fragment比read的含义更广，因此FPKM包含的意义也更广,

可以是Pair-end的一个fragment，也可以是一个read。

什么是soft-ciippedreads

当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clippedreads，这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

什么是multi-hitsreads

由于大部分测序得到的reads较短，一个reads能够匹配到基因组多个位置,

无法区分其真实来源的位置。

一些工具根据统计模型，如将这类reads分配给reads较多的区域。

什么是外显子测序（wholeexonsequencing

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNAi捉并富集后

进行高通量测序的基因组分析方法。

外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

什么是mRNA测序（RNA-seq转录组学（transcriptomics）是在基因组学后新兴的一门学科，即研究特定细胞在某一功能状态下所能转录出来的所有RNA（包括mRNA和非编码RNA的类

型与拷贝数。

lllumina提供的mRN测序技术可在整个mRN领域进行各种相关研究和新的发现。

mRNAffl序不对引物或探针进行设计，可自由提供关于转录的客观和权威信息。

研究人员仅需要一次试验即可快速生成完整的poly-A尾的RNA

完整序列信息，并分析基因表达、cSNR全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等最全面的转录组信息。

简单的样品制备和数据分析软件支持在所有物种中的mRNAM序研究。

什么是smallRNA测序

SmallRNA（microRNAs、siRNAs和piRNAs）是生命活动重要的调控因子，在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。

lllumina能够对细胞或者组织中的全部SmallRNA进行深度测序及定量分析等

研究。

实验时首先将18-30nt范围的SmallRNA从总RNA中分离出来，两端分

别加上特定接头后体外反转录做成cDNA再做进一步处理后，利用测序仪对DNA

片段进行单向末端直接测序。

通过Illumina对SmallRNA大规模测序分析，可

以从中获得物种全基因组水平的miRNA图谱，实现包括新miRNA分子的挖掘，其

作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等

科学应用。

什么是miRNA测序成熟的microRNA（miRNA是17~24nt的单链非编码RNA分子，通过与mRNA目

互作用影响目标mRNA勺稳定性及翻译，最终诱导基因沉默，调控着基因表达、

细胞生长、发育等生物学过程。

基于第二代测序技术的microRNA测序，可以一次性获得数百万条microRNA序列，能够快速鉴定出不同组织、不同发育阶段、

不同疾病状态下已知和未知的microRNA及其表达差异，为研究microRNA对细胞进程的作用及其生物学影响提供了有力工具。

什么是Chip-seq

染色质免疫共沉淀技术（Chromatinimmunoprecipitation，ChlP）也称结合位

点分析法，是研究体内蛋白质与DNA相互作用的有力工具，通常用于转录因子

结合位点或组蛋白特异性修饰位点的研究。

将ChIP与第二代测序技术相结合的

ChIP-Seq技术，能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。

ChIP-Seq的原理是：

首先通过染色质免疫共沉淀技术（ChIP）特异性地富集目的蛋白结合的DN/片段，并对其进行纯化与文库构建；然后对富集得到的DNA

片段进行高通量测序。

研究人员通过将获得的数百万条序列标签精确定位到基因组上，从而获得全基因组范围内与组蛋白、转录因子等互作的DNAX段信息。

是一种检测与RNA

什么是CHIRP-Seq

CHIRP-Seq（ChromatinIsolationbyRNAPurification）

绑定的DNA和蛋白的高通量测序方法。

方法是通过设计生物素或链霉亲和素探针，把目标RNA拉下来以后，与其共同作用的DNA染色体片段就会附在到磁珠

上，最后把染色体片段做高通量测序，这样会得到该RNA能够结合到在基因组的哪些区域，但由于蛋白测序技术不够成熟，无法知道与该RNA吉合的蛋白。

什么是RIP-seq

RNAmmunoprecipitation是研究细胞内RNA与蛋白结合情况的技术，是了解转

录后调控网络动态过程的有力工具，能帮助我们发现miRNA勺调节靶点。

这种

技术运用针对目标蛋白的抗体把相应的RNA蛋白复合物沉淀下来，然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。

RIP可以看成是普遍使用的染色质免疫沉淀ChiP技术的类似应用，但由于研究

对象是RNA蛋白复合物而不是DNA蛋白复合物，RIP实验的优化条件与ChiP实验不太相同（如复合物不需要固定，RIP反应体系中的试剂和抗体绝对不能含有

RNA酶，抗体需经RIP实验验证等等）。

RIP技术下游结合microarray技术被称为RIP-Chip，帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变

化。

什么是CLIP-seq

CLIP-seq,又称为HITS-CLIP,即紫外交联免疫沉淀结合高通量测序（crosslinking-immunprecipitationandhigh-throughputsequencing）,

一项在全基因组水平揭示RNA分子与RNA吉合蛋白相互作用的革命性技术。

其

主要原理是基于RNA分子与RNA吉合蛋白在紫外照射下发生耦联，以RNA吉合

蛋白的特异性抗体将RNA蛋白质复合体沉淀之后，回收其中的RNAt段，经添

加接头、RT-PCF等步骤，对这些分子进行高通量测序，再经生物信息学的分析

和处理、总结，挖掘出其特定规律，从而深入揭示RNA结合蛋白与RNA分子的

调控作用及其对生命的意义。

什么是metagenomic（宏基因组）：

Magenomics研究的对象是整个微生物群落。

相对于传统单个细菌研究来说，它具有众多优势，其中很重要的两点：

（1）微生物通常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此

做Metagenomics研究比做单个个体的研究更能发现其特性；

（2）Metagenomics

研究无需分离单个细菌，可以研究那些不能被实验室分离培养的微生物。

宏基因组是基因组学一个新兴的科学研究方向。

宏基因组学（又称元基因组学，环境基因组学，生态基因组学等），是研究直接从环境样本中提取的基因组遗

传物质的学科。

传统的微生物研究依赖于实验室培养，宏基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。

过去几年中，DNA测序技术的进步以及测序通量和分析方法的改进使得人们得以一窥这一未知的基因组科学领域。

什么是SNP、SNV（单核苷酸位点变异）单核苷酸多态性singlenucleotidepolymorphism，SNP或单核苷酸位点变异

SNV个体间基因组DNA序列同一位置单个核苷酸变异（替代、插入或缺失）所引

起的多态性。

不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差

别的现象。

有这种差别的基因座、DNA序列等可作为基因组作图的标志。

人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。

单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。

在研究癌症基因组变异时，

相对于正常组织，癌症中特异的单核苷酸变异是一种体细胞突变（somaticmutation），称做SNV。

什么是INDEL（基因组小片段插入）基因组上小片段（＞50bP）的插入或缺失，形同SNP/SNV

什么是copynumbervariation（CNV）:

基因组拷贝数变异

基因组拷贝数变异是基因组变异的一种形式，通常使基因组中大片段的DNA形

成非正常的拷贝数量。

例如人类正常染色体拷贝数是2，有些染色体区域拷贝数

变成1或3，这样，该区域发生拷贝数缺失或增加，位于该区域内的基因表达量

也会受到影响。

如果把一条染色体分成A-B-C-D四个区域，则

A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失，扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增，如

A-C-B-C-D。

染色体结构变异是指在染色体上发生了大片段的变异。

主要包括染色体大片段的插入和缺失（引起CNV勺变化），染色体内部的某块区域发生翻转颠换，两

条染色体之间发生重组（inter-chromosometrans-location）等。

一般SV的展示利用Circos软件。

什么是Segmentdupli

展开阅读全文