基因组学考试重点.docx

资源描述

基因组学考试重点.docx

《基因组学考试重点.docx》由会员分享，可在线阅读，更多相关《基因组学考试重点.docx（42页珍藏版）》请在冰豆网上搜索。

基因组学考试重点.docx

基因组学考试重点

第一章大规模基因组测序的原理与方法

1、基因组学是要揭示下述四种整合体系的相互关系:

（1）基因组作为信息载体（碱基对、重复序列的整体守恒与局部不平衡的关系）

（2）基因组作为遗传物质的整合体（基因作为功能和结构单位与遗传学机制的关系）

（3）基因组作为生物化学分子的整合体（基因产物作为功能分子与分子、细胞机制的关系）

（4）物种进化的整合体（物种在地理与大气环境中的自然选择）

2、为什么说基因组学是一门大科学？

（1）“界门纲目科属种”，地球上现存物种近亿，所有生生灭灭的生物，无一例外，都有个基因组。

（2）基因组作为信息载体，它所储存的信息是最基本的生物学信息之一；既是生命本质研究的出发点之一，又是生物信息的归宿。

（3）基因组学研究包括对基因产物（转录子组和蛋白质组）的系统生物学研究。

（4）基因多态性的规模化研究就是基因组多态性的研究。

（5）基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。

（6）基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。

（7）基因组信息正在以天文数字计算，规模化地积累，它的深入研究必将形成一个崭新的学科。

（8）基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。

（9）基因组的信息含量高。

基因组学的研究又在于基因组间的比较。

（10）基因组学的复杂性必然导致多学科的引进和介入（各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等）。

（11）基因组学研究的手段和技术已经走在生命科学研究的最前沿。

（12）基因组信息来自于高效率和规模化所产生的实验数据。

（13）人类基因组计划证明了基因组研究的迫切性和可行性。

3、大规模基因组测序的几个支撑技术是什么？

（1）Sanger双脱氧末端终止法

双脱氧终止法，即sanger测序法，是根据DNA在某一固定的点开始，随机在某一个特定的碱基处终止，并且在每个碱基后面进行荧光标记，产生以A、T、C、G结束的四组不同长度的一系列DNA片段，然后在尿素变性的PAGE胶上电泳进行检测，从而获得可见的DNA碱基序列。

通俗点说，就是通过电泳的方法将一系列DNA片段从小到大排列起来，由于每条片段末尾都含有荧光标记的碱基，通过放射性自显影，即可读出这些碱基的种类，这些碱基的排列顺序，就是待测DNA的序列。

（2）PCR技术

聚合酶链式反应（PCR）是体外酶促合成特异DNA片段的一种方法，由高温变性、低温退火（复性）及适温延伸等几步反应组成一个周期，循环进行，使目的DNA得以迅速扩增，具有特异性强、灵敏度高、操作简便、省时等特点。

它不仅可用于基因分离、克隆和核酸序列分析等基础研究，还可用于疾病的诊断或任何有DNA,RNA的地方．聚合酶链式反应（PolymeraseChainReaction，简称PCR）又称无细胞分子克隆或特异性DNA序列体外引物定向酶促扩增技术。

（3）DNA自动测序仪的发展

DNA序列测定分手工测序和自动测序，手工测序包括sanger双脱氧链终止法和maxam-gilbert化学降解法。

自动化测序实际上已成为当今dna序列分析的主流。

美国peabi公司已生产出373型、377型、310型、3700和3100型等dna测序仪，其中310型是临床检测实验室中使用最多的一种型号。

本实验介绍的是abiprism310型dna测序仪的测序原理和操作规程。

（4）生物信息学分析软件硬件设备

4、大规模基因组测序的两种策略是什么？

二者有何区别？

（1）逐步克隆法（ClonebyClone）

（2）全基因组霰弹法（WholeGenomeShot-gun）

（3）二者的比较：

项目

策略

全基因组霰弹法

逐步克隆法

遗传背景

不需要

需要（需构建精确的物理图谱）

速度

快

慢

费用

低

高

计算机性能

高（以全基因组为单位进行拼接）

低（以BAC为单位进行拼接）

适用范围

工作框架图

精细图

代表测序物种

果蝇、水稻

人、线虫

5、人类基因组计划所构建的四张图是什么？

（1）遗传图谱：

又称为连锁图谱（linkagemap），指基因或DNA标志在染色体上的相对位置与遗传距离。

（2）物理图谱：

以定位的DNA标记序列如STS作为路标，以DNA实际长度即bp、kb、Mb为图距的基因组图谱。

（3）转录图谱：

利用EST（expressedsequencetags表达序列标签）作为标记所构建的分子遗传图谱。

（4）序列图谱：

通过基因组测序得到的，以A、T、G、C为标记单位的基因组DNA序列。

6、STS的定义，原理、要满足的条件及其来源。

（1）序列标记位点（STS）是一段短的DNA序列，通常长度在100到500bp，易于识别，仅存在于待研究的染色体或基因组中。

作一套STS图谱需要收集来自单条染色体或一个完整基因组的重叠的DNA片段。

在图1中，从单条染色体中制备一组DNA片段，使染色体上每一点平均有5条片段对应。

收集作图必需的数据时，须排列每一STS，了解哪些片段包含有哪些STS。

这可以通过杂交分析来完成，但通常使用PCR方法，因为PCR更快捷，更易于自动化，两个STS共存于同—个片段的机率依赖于它们在基因组中的相近程度。

如果它们相当接近、它们存在于同一片段的机会就相当大；而如果它们位置相对分开，有时它们会在同一片段上，有时则不会（图1）。

因此，这些资料可用来计算两个标记间的距离，其方式与计算连锁分析中计算图距的方式相同；在连锁分析中，两个标记间的图距是根据它们的交换频率来计算的。

STS作图与其相比、不同之处仅在于两个标记间的图距是根据分离频率来计算的。

（2）这些片段覆盖染色体的全长，染色体上每一点平均有五条片段相对应，染色体图谱上两个接近的标记共同存在于一条片段的可能性就高，相隔较远的标记位于同一条片段中的可能性就较小。

（3）一个DNA序列要成为STS，须满足两个前提。

首先它的序列必须是己知的，以便于用PCR方法检测STS在不同DNA片段中存在与否。

第二个要求是STS必须在待研究的染色体上有唯一的定位，或当DNA片段群覆盖全基因组时，STS在整个基因组中具有唯一的定位位点。

如果STS序列具有多个定位点，那么作图数据将会模糊不清。

因此需要确保STS不包含重复DNA的序列。

（4）上述两个前提易于满足，因此可以通过多种途径获得STS，最常见的来源是：

①表达序列标记：

表达序列际记（expressedscquencetag,E5T）是通过互补DNA（cDNA）克隆分析获得的短序列。

制备互补DNA是将mRNA转化成双链DNA.由于细胞中mRNA来自于编码蛋白的基因，故此cDNA代表了mRNA来源的细胞中表达的基因序列。

EST被看做获得重要基因序列的快捷途径。

即使其序列不完整，也仍然有价值。

如果EST来自于单一序列DNA，不是基因家族中的某一成员，它也可以被用作STS。

而所谓基因家族是指一组具有相同或相近序列的基因。

②遗传标记序列：

如微卫星标记。

③随机基因组序列可以通过对克隆的基因组DNA的随机小片段进行测序或在数据库中搜寻贮存序列获得。

7、逐步克隆法包括哪几个步骤？

（1）物理图谱的构建——序列标签位点作图

①确定各STS序列及其在基因组中的位置；

②大插入片段基因组文库的构建；（BAC文库的构建P25）

③以特定STS为标记筛选并定位克隆；

④含有STS的克隆在基因组中的排序。

经过这几个步骤，以定位的DNA标记序列（STS）作为路标，以DNA实际长度即bp、kb、Mb为图距的基因组图谱便构建完成了。

此时我们仍然不知道具体的序列信息。

只知道STS的序列和位置，以及STS间的距离。

（2）大片段克隆的筛选（P36；STS-PCR反应池方案P27）

该步骤包括BAC克隆的筛选和延伸克隆的筛选。

前者可使相互间具有重叠片段的BAC克隆根据STS信息组装成contig，并定位与基因组上。

后者主要是补充基因组中未被BAC文库覆盖的克隆序列，常用方法有指纹图谱法和末端序列步行法。

经过这一步，我们得到了覆盖整个基因组全序列的克隆，以备测序。

（3）霰弹法测序与“工作框架图”的构建

用霰弹法对筛选到的BAC克隆进行测序，得到大量随机片段。

组装这些片段，可能会出现如下问题：

低碱基质量区、单链区、序列缺口、未组装区。

通过重测序等手段对这些区域进行补充，即所说的Finishing，便可得到高质量的全序列。

（4）序列的全组装与“完成图”构建

对测序后的BAC克隆序列进行拼接，完成该基因组的序列图谱。

8、全基因组霰弹法的测序流程？

全基因组霰弹法测序的整个流程如下图所示

（1）从头组装流程：

SolexaPart&454Part（P31）

（2）ReadsProcess流程：

Solexaand454（P31-32）

（3）Hybridassembly和基于EST的组装

（4）粗测序reads的预处理P32

①意义和目的；②流程；③图像分析和碱基读出；④质量控制

（5）数据评价P33

①Read质量分布；②文库插入大小；③MappingRate；④二聚体评价

（6）用Kmer估计基因组大小

（7）基因组混合拼接验证及结构变异检测流程

（8）重复序列注释流程

（9）基因结构及功能注释技术路线（GeneOntologyandKEGG）

9、Kmer介绍

（1）定义：

就是一个长度为K的DNA序列，K通常取17。

（2）用途：

纠正测序错误，估计基因组大小、杂合率、重复序列的含量。

（3） K-mer分布图，同样数据量的情况下，峰位决定基因组大小，峰位越靠左，基因组越大。

峰值表示大部分K-mer都出现在这个深度。

（4）峰位高低的影响因素：

a、错误率，错误率越高，起始峰位越高，主峰相对越低；b、重复序列，重复序列越多，主峰下降越慢。

（5）杂合率越高，则杂合峰越高，杂合峰出现在主峰的一半处，按照杂合峰大小估计基因组大小，基因组大小等于二倍杂合峰。

（6）假设一条reads长45bp，K=17，则每个Reads产生的K-mer数=45-17+1 若测序深度为10×，则K-mer实际覆盖深度=10*（45-17+1）/45

（7）基因组大小：

若在主峰顶端对应的K-mer次数为15，实际测序量为100G，则基因组大小=100*（45-17+1）/45/15

（8）不能直接根据杂合峰和主峰的高度估计基因组的杂合率大小，只能通过模拟数据，再用实际数据与模拟数据进行比较，找出最接近的一个，来推测基因组的杂合率大小。

（9）测序深度越低，杂合峰与主峰越接近y轴，随着测序深度的增加，会将杂合峰和主峰展开，容易看出杂合峰与主峰的关系。

（10）纯下降的K-mer图，原因可以能是数据量不够；若开始下降后来有峰的K-mer图，前面下降的地方可能是测序错误。

（11）当数据量超过K-mer最高值（255M）时，则无峰。

第二章新一代测序技术

一、第一代测序技术简介

※Sanger测序法（双脱氧核糖核苷酸末端终止法）的原理？

Sanger法是根据核苷酸在某一固定的点开始，随机在某一个特定的碱基处终止，并且在每个碱基后面进行荧光标记，产生以A、T、C、G结束的四组不同长度的一系列核苷酸，然后在尿素变性的PAGE胶上电泳进行检测，从而获得可见的DNA碱基序列。

Sanger法测序的原理就是，每个反应含有所有四种脱氧核苷酸三磷酸（dNTP）使之扩增，并混入限量的一种不同的双脱氧核苷三磷酸（ddNTP）使之终止。

由于ddNTP缺乏延伸所需要的3‘-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止，终止点由反应中相应的双脱氧而定。

每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几个至千以上个，相差一个碱基一系列片断。

它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

二、第二代测序技术

1.概述

DNA测序（DNAsequencing）作为一种重要的实验技术，在生物学研究中有着广泛的应用。

早在DNA双螺旋结构（WatsonandCrick,1953）被发现后不久就有人报道过DNA测序技术，但是当时的操作流程复杂，没能形成规模。

随后在1977年Sanger发明了具有里程碑意义的末端终止测序法，同年A.M.Maxam和W.Gilbert发明了化学降解法。

Sanger法因为既简便又快速，并经过后续的不断改良，成为了迄今为止DNA测序的主流。

然而随着科学的发展，传统的Sanger测序已经不能完全满足研究的需要，对模式生物进行基因组重测序以及对一些非模式生物的基因组测序，都需要费用更低、通量更高、速度更快的测序技术，第二代测序技术（Next-generationsequencing）应运而生。

第二代测序技术的核心思想是边合成边测序（SequencingbySynthesis），即通过捕捉新合成的末端的标记来确定DNA的序列，现有的技术平台主要包括Roche/454FLX、Illumina/SolexaGenomeAnalyzer和AppliedBiosystemsSOLIDsystem。

这三个技术平台各有优点，454FLX的测序片段比较长，高质量的读长（read）能达到400bp；Solexa测序性价比最高，不仅机器的售价比其他两种低，而且运行成本也低，在数据量相同的情况下，成本只有454测序的1/10；SOLID测序的准确度高，原始碱基数据的准确度大于99.94%，而在15X覆盖率时的准确度可以达到99.999%，是目前第二代测序技术中准确度最高的。

虽然第二代测序技术的工作一般都由专业的商业公司来完成，但是了解测序原理、操作流程等会对后续的数据分析有很重要的作用，下文将以Illumina/SolexaGenomeAnalyzer测序为例，简述第二代测序技术的基本原理、操作流程等方面。

2.基本原理

Illumina/SolexaGenomeAnalyzer测序的基本原理是边合成边测序。

在Sanger等测序方法的基础上，通过技术创新，用不同颜色的荧光标记四种不同的dNTP，当DNA聚合酶合成互补链时，每添加一种dNTP就会释放出不同的荧光，根据捕捉的荧光信号并经过特定的计算机软件处理，从而获得待测DNA的序列信息。

3.操作流程

（1）测序文库的构建（LibraryConstruction）

首先准备基因组DNA（虽然测序公司要求样品量要达到200ng，但是GnomeAnalyzer系统所需的样品量可低至100ng,能应用在很多样品有限的实验中），然后将DNA随机片段化成几百碱基或更短的小片段，并在两头加上特定的接头（Adaptor）。

如果是转录组测序，则文库的构建要相对麻烦些，RNA片段化之后需反转成cDNA，然后加上接头，或者先将RNA反转成cDNA，然后再片段化并加上接头。

片段的大小（Insertsize）对于后面的数据分析有影响，可根据需要来选择。

对于基因组测序来说，通常会选择几种不同的insertsize，以便在组装（Assembly）的时候获得更多的信息。

（2）锚定桥接（SurfaceAttachmentandBridgeAmplification）

Solexa测序的反应在叫做flowcell的玻璃管中进行，flowcell又被细分成8个Lane，每个Lane的内表面有无数的被固定的单链接头。

上述步骤得到的带接头的DNA片段变性成单链后与测序通道上的接头引物结合形成桥状结构，以供后续的预扩增使用。

（3）预扩增（DenaturationandCompleteAmplification）

添加未标记的dNTP和普通Taq酶进行固相桥式PCR扩增，单链桥型待测片段被扩增成为双链桥型片段。

通过变性，释放出互补的单链，锚定到附近的固相表面。

通过不断循环，将会在Flowcell的固相表面上获得上百万条成簇分布的双链待测片段。

（4）单碱基延伸测序（SingleBaseExtensionandSequencing）

在测序的flowcell中加入四种荧光标记的dNTP、DNA聚合酶以及接头引物进行扩增，在每一个测序簇延伸互补链时，每加入一个被荧光标记的dNTP就能释放出相对应的荧光，测序仪通过捕获荧光信号，并通过计算机软件将光信号转化为测序峰，从而获得待测片段的序列信息。

从荧光信号获取待测片段的序列信息的过程叫做BaseCalling，Illumina公司BaseCalling所用的软件是Illumina’sGenomeAnalyzerSequencingControlSoftwareandPipelineAnalysisSoftware。

读长会受到多个引起信号衰减的因素所影响，如荧光标记的不完全切割。

随着读长的增加，错误率也会随之上升。

（5）数据分析（DataAnalyzing）

这一步严格来讲不能算作测序操作流程的一部分，但是只有通过这一步前面的工作才显得有意义。

测序得到的原始数据是长度只有几十个碱基的序列，要通过生物信息学工具将这些短的序列组装成长的Contigs甚至是整个基因组的框架，或者把这些序列比对到已有的基因组或者相近物种基因组序列上，并进一步分析得到有生物学意义的结果。

4、二代测序技术总结

（1）需荧光或者化学放光物质；

（2）需聚合酶或者连接酶；（3）较昂贵的试剂耗材和光学系统；（4）强大的图像分析计算能力。

三、454技术平台简介（焦磷酸测序法）

1、化学原理

焦磷酸测序是由DNA聚合酶、三磷酸腺苷硫酸化酶（ATPsulfurylase）、荧光素酶（luciferase）和双磷酸酶（apyrase）4种酶催化同一反应体系的酶级联化学发光反应，反应底物5’-磷酰硫酸（APS）和荧光素。

反应体系还包括待测序DNA单链和测序引物。

在每一轮测序反应中，加入1种dNTP，若该dNTP与模板配对，聚合酶就可以将其掺入到引物链中并释放等摩尔数的焦磷酸基团（PPi）。

硫酸化酶催化APS和PPi形成ATP，后者驱动荧光素酶介导的荧光素向氧化荧光素的转化，发出与ATP量成正比的可见光信号，并由Pyrogram软件转化为一个峰值，其高度与反应中掺入的核苷酸数目成正比。

根据加入dNTP类型和荧光信号强度就可以实时记录模板DNA的核苷酸序列。

2、测序技术流程

（1）文库构建

①基因组DNA片段化（fragmentation）及评估；

②DNA片段末端平齐化（endpolishing）：

为接头的添加反应做准备；

③接头连接：

添加接头A和B。

④文库固定化：

DNA片段通过接头连接到微珠上。

⑤补充反应（Fall-inReaction）：

修补连接到微珠上的DNA片段的链缺口。

⑥DNA双链分离，DNA片段以单链形式结合在微珠上。

※P39末端配对文库制备两张图详细介绍了文库构建步骤。

（2）文库模板扩增

EmulsionPCR:

ahighefficientwayofPCRamplificationofrandomDNAlibrariesinaptamerselection.在得到仅有AB衔接子单链的DNA模板后，此DNA模板可与过量DNA不做珠子退火结合，并被吸附到一种用于PCR反应的有水混合物小滴上，此混合物包含了PCR反应所必需的各种试剂，在合适条件进行扩增，最后可对结合的大量DNA链的珠子进行富集。

（3）测序反应

（4）成像：

信号强度图谱。

（5）测序数据的处理

3、454测序技术优缺点

四、Illumina测序技术平台（聚合酶合成测序）

1、技术原理及流程

（1）文库制备

将基因组DNA打成几百个碱基（或更短）的小片段，在片段的两个末端加上接头（adapter）。

（2）产生DNA簇

利用专利的芯片，其表面连接有一层单链引物，DNA片段变成单链后通过与芯片表面的引物碱基互补被一端“固定”在芯片上。

另外一端（5’或3’）随机和附近的另外一个引物互补，也被“固定”住，形成“桥（bridge）“。

反复30轮扩增，每个单分子得到了1000倍扩增，成为单克隆DNA簇。

DNA簇产生之后，扩增子被线性化，测序引物随后杂交在目标区域一侧的通用序列上。

（3）测序

GenomeAnalyzer系统应用了边合成边测序（SequencingBySynthesis）的原理。

加入改造过的DNA聚合酶和带有4种荧光标记的dNTP。

这些核苷酸是“可逆终止子”，因为3’羟基末端带有可化学切割的部分，它只容许每个循环掺入单个碱基。

此时，用激光扫描反应板表面，读取每条模板序列第一轮反应所聚合上去的核苷酸种类。

之后，将这些基团化学切割，恢复3'端粘性，继续聚合第二个核苷酸。

如此继续下去，直到每条模板序列都完全被聚合为双链。

这样，统计每轮收集到的荧光信号结果，就可以得知每个模板DNA片段的序列。

目前的配对末端读长可达到2×50bp，更长的读长也能实现，但错误率会增高。

读长会受到多个引起信号衰减的因素所影响，如荧光标记的不完全切割。

（4）数据分析

自动读取碱基，数据被转移到自动分析通道进行二次分析。

2、Solexa测序技术的优缺点P42

3、Illumina技术应用

4、Illumina测序相关数据处理软件

五、SOLiD测序（SequencingbyOligonucleotideLigationandDetection）

1、SOLiD工作流程

（1）文库制备

SOLiD系统能支持两种测序模板：

片段文库（fragmentlibrary）或配对末端文库（mate-pairedlibrary）。

使用哪一种文库取决于你的应用及需要的信息。

片段文库就是将基因组DNA打断，两头加上接头，制成文库。

如果你想要做转录组测序、RNA定量、miRNA探索、重测序、3’,5’-RACE、甲基化分析、ChIP测序等，就可以用它。

如果你的应用是全基因组测序、SNP分析、结构重排/拷贝数，则需要用配对末端文库。

配对末端文库是将基因组DNA打断后，与中间接头连接，再环化，然后用EcoP15酶切，使中间接头两端各有27bp的碱基，再加上两端的接头，形成文库。

（2）乳液PCR/微珠富集

在微反应器中加入测序模板、PCR反应元件、微珠和引物，进行乳液PCR（EmulsionPCR）。

PCR完成之后，变性模板，富集带有延伸模板的微珠，去除多余的微珠。

微珠上的模板经过3’修饰，可以与玻片共价结合。

看到这里，是不是有一种似曾相识的感觉呢？

那就对了，此步骤与454的GSFLX基本相同。

不过SOLiD系统的微珠要小得多，只有1um。

乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。

其关键技术是“注水到油”，基本过程是在PCR反应前，将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面，水溶液瞬间形成无数个被矿物油包裹的小水滴。

这些小水滴就构成了独立的PCR反应空间。

理想状态下，每个小水滴只含一个DNA模板和一个P1磁珠，由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应，这个DNA模板的拷贝数量呈指数级增加，PCR反应结束后，P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。

（3）微珠沉积

3’修饰的微珠沉积在一块玻片上。

在微珠上样的过程中，沉积小室将每张玻片分成1个、4个或8个测序区域。

SOLiD系统最大的优点就是每张玻片能容纳更高密度的微珠，在同一系统中轻松实现更高的通量

展开阅读全文