如何进行序列分析_精品文档.ppt

资源描述

如何进行序列分析_精品文档.ppt

《如何进行序列分析_精品文档.ppt》由会员分享，可在线阅读，更多相关《如何进行序列分析_精品文档.ppt（107页珍藏版）》请在冰豆网上搜索。

如何进行序列分析_精品文档.ppt

序列分析序列分析一、碱基组成一、碱基组成DNA序列一个显而易见的特征是四种碱基类型的分布。

尽管四种碱基的频率相等时对数学模型的建立可能是方便的，但几乎所有的研究都证明碱基是以不同频率分布的。

表1包含了9个完整DNA分子序列的资料，表2的数据来自两个胎儿球蛋白基因（Gr和Ar），每个基因具有三个外显子和两个内含子（shen等1981）。

这两个例子说明序列内和序列间碱基具有不同的频率。

在基因每一侧的500个任意碱基区域被称为“侧翼”，基因间区域是指两个基因间的其余序列。

表1九种完整DNA序列的碱基组成表2人类胎儿球蛋白基因不同区段的碱基组成二碱基相邻频率二碱基相邻频率分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。

碱基相邻的频率一般不等于单个碱基频率的乘积例：

例：

鸡血红蛋白鸡血红蛋白链的链的mRNA编码区的编码区的438个碱基个碱基图1鸡球蛋白基因编码区的DNA序列（GenBank：

CHKHBBM，记录号J00860）表3图1鸡球蛋白基因序列的相邻碱基分布在编码区，存在某种约束来限制DNA序列编码氨基酸。

在密码子水平上，这一约束与碱基相邻频率有关。

表4列出了遗传密码和图1序列中各密码子数量。

尽管数目很小，难以作出有力的统计结论，但编码同一氨基酸的不同密码子（同义密码子）好像不是等同存在的。

这种密码子偏倚必定与两碱基相邻频率水平有关。

表4还清楚地表明，由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型，因而对第3位置上碱基的约束要比第2位碱基小得多。

表464种可能的碱基三联体密码子及相应的氨基酸数（据图1序列）相邻碱基之间的关联将导致更远碱基相邻碱基之间的关联将导致更远碱基之间的关联，这些关联延伸距离的估计之间的关联，这些关联延伸距离的估计可以从马尔科夫链可以从马尔科夫链（Markovchain）理论得理论得到到（Javare和和Giddings，1989）三同向重复序列分析三同向重复序列分析除了分析整个序列碱基关联程度的特征外，我们常对寻找同向重复序列（directrepeats）之类的问题感兴趣。

Karlin等（1983）给出了完成这一分析的有效算法。

该法采用由特定的几组碱基字母组成的不同亚序列或称为字码（word）。

只需要对整个序列搜索一次。

给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。

由X1、X2、Xk共k个字母组成的每一种不同的字码按：

计算字码值。

这些值的取值范围为1到4k例如：

5字码TGACC的值为1+344+243+042+141+140=459。

可先从低k值的字码开始搜索。

记录序列中每一个位置k字码的字码值。

只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。

序列TGGAAATAAAACGTAAGTAG中所有碱基2字码（k=2）的初始位置和字码值。

对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。

在本例中只有4个重复的2碱基重复序列。

例如，在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。

从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复；以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。

表5序列TGGAAATAAAACGTAAGTAG的3字码值和位置（Karlin,1983）四、四、RNARNA二级结构预测二级结构预测尽管现有一些RNA折叠程序可以预测RNA二级结构，但这类分析仍然是一门艺术。

RNA折叠有助于找出RNA分子中可能的稳定茎区，但对给定的RNA分子来说，这一结果的生物学意义生物学意义究竟有多大，还是一个未知数。

即使有此局限性，二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。

五、从序列中寻找基因五、从序列中寻找基因1.基因及基因区域预测基因按其功能可分为结构基因结构基因和调控基因调控基因：

结构基因可被转录形成mRNA，并进而转译成多肽链；调控基因是指某些可调节控制结构基因表达的基因。

在DNA链上，由蛋白质合成的起始密码开始，到终止密码子为止的一个连续编码序列称为一个开放阅读框（OpenReadingFrame,ORF）。

结构基因多含有插入序列，除了细菌和病毒的DNA中ORF是连续的，包括人类在内的真核生物的大部分结构基因为断裂基因，即其编码序列在DNA分子上是不连续的，或被插入序列隔开。

断裂基因被转录成前体mRNA，经过剪切过程，切除其中非编码序列（即内含子），再将编码序列（即外显子）连接形成成熟mRNA，并翻译成蛋白质。

假基因是与功能性基因密切相关的DNA序列，但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。

一种典型的真核蛋白质编码基因的结构示意图。

其编码序列（外显子）是不连续的，被非编码区（内含子）隔断。

所谓基因区域预测基因区域预测，一般是指预测DNA序列中编码蛋白质的部分，即外显子部分。

不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。

这些预测综合各种外显子预测的算法和人们对基因结构信号（如TATA盒等）的认识，预测出可能的完整基因基因区域的预测是一个活跃的研究领域，先后有一大批预测算法和相应程序被提出和应用，其中有的方法对编码序列的预测准确率高达90%以上，而且在敏感性和特异性之间取得了很好的平衡预测方法中，最早是通过序列核苷酸频率、密码子等特性进行预预测方法中，最早是通过序列核苷酸频率、密码子等特性进行预测测（如最长如最长ORF法等法等），随着各类数据库的建立和完善，通过相似，随着各类数据库的建立和完善，通过相似性列线比对也可以预测可能的基因。

同时，一批新方法也被提了性列线比对也可以预测可能的基因。

同时，一批新方法也被提了出来，如隐马尔可夫模型出来，如隐马尔可夫模型（HiddenMarkovModel,HMM）、动态动态规划法规划法（dynamicprogramming）、法则系统法则系统（ruled-basedsystem）、语言学语言学（linguistic）方法、线性判别分析方法、线性判别分析（LinearDiscriminantAnalysis,LDA）、决策树决策树（decisiontree）、拼接拼接列线列线（splicedalingment）、博利叶分析博利叶分析（Fourieranalysis）等。

等。

下表列出了下表列出了claverie（1997）对部分程序预测基因区域能力的比较对部分程序预测基因区域能力的比较结果，表中同时列出了相应算法和程序的网址。

结果，表中同时列出了相应算法和程序的网址。

目前基因区域预测的各种算法均存在以下2个问题

（1）目前算法对基因中的非编码区和基因间序列非编码区和基因间序列不加任何区别，所以预测出的基因仍然是不完全的，对5和3非编译区（UTR，untranslatedregion）的预测基本上还是空白；

（2）目前大多数算法都是基于已知基因序列基于已知基因序列。

如相似性列线比较算法是完全依赖于已知的序列，而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练，由于训练所用的序列毕竟是有限的，所以对那些与学习过的基因结构不太相似的基因，这些算法的预测效果就要大打折扣了要解决以上两个问题，需要对基因结构进行更深入的研究，寻找隐藏在基因不同结构中的内在统计规律。

2发现基因的一般过程从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次第一步：

获取DNA目标序列如果你已有目标序列，可直接进入第2步；可通过PubMed查找你感兴趣的资料；通过GenBank或EMBL等数据库查找目标序列第二步：

查找ORF并将目标序列翻译成蛋白质序列利用相应工具，如ORFFinder、Genefeature（BaylorCollegeofMedicine）、GenLang（UniversityofPennsylvania）等，查找ORF并将DNA序列翻译成蛋白质序列第三步：

在数据库中进行序列搜索可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索第四步：

进行目标序列与搜索得到的相似序列的整体列线（globalalignment）虽然第三步已进行局部列线（localalignment）分析，但整体列线有助于进一步加深目标序列的认识进行多序列列线（multiplesequencealignment）和获得列线区段的可视信息。

可分别在AMAS（OxfordUniversity）和BOXSHADE（ISREC,Switzerland）等服务器上进行第五步：

查找基因家族第六步：

查找目标序列中的特定模序分别在Procite、BLOCK、Motif数据库进行profile、模块（block）、模序（motif）检索；对蛋白质序列进行统计分析和有关预测第七步：

预测目标序列结构可以利用PredictProtein（EMBL）、NNPREDICT（UniversityofCalifornia）等预测目标序列的蛋白质二级结构第八步：

获取相关蛋白质的功能信息为了了解目标序列的功能，收集与目标序列和结构相似蛋白质的功能信息非常必要。

可利用PubMed进行搜索第九步：

把目标序列输入“提醒”服务器如果有与目标序列相似的新序列数据输入数据库，提醒（alert）服务会向你发出通知。

可选用SequenceAlerting（EMBL）、Swiss-Shop（Switzerland）等服务器3解读序列（makingsenseofthesequence）大致有2条途径可以发现基因：

（1）基于同源性的方法，包括已知mRNA序列的应用；

（2）基因家族和特殊序列间的比较。

最初的方法包括利用各种计算机手段分析外显子和其它序列信号，如酶切位点六、基于编码区特性：

最长六、基于编码区特性：

最长ORFORF法法基因区域或蛋白质编码区的识别，特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。

将每条链按6个读框全部翻译出来，然后找出所有可能的不间断开放阅读框（ORF）往往有助于基因的发现预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类:

一类是基于编码区所具有的独特信号，如始起密码子、终止密码子等；二是基于编码区的碱基组成不同于非编码区，这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的；三是通过同源性比较搜寻蛋白质库或dbEST库寻找编码区。

前二类方法主要是利用编码区的特性来寻找，下面对这二类方法做简单描述最长ORF法：

在细菌基因组中，蛋白质编码基因从起始密码ATG到终止密码平均有100bp，而300bp长度以上的ORF平均每36Kb才出现一次，所以只要找出序列中最长的ORF（300bp）就能相当准确地预测出基因利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法：

由于内含子的进化不受约束，而外显子则受到选择压力，因此内含子的序列要比外显子更随机。

这是目前各种预测程序中被广泛应用的一种方法，如GCG（GeneticComputerGroup研制，一种通用核酸、蛋白质分析软件包）的TestCode、美波士顿大学GeneID和BaylorMedcineCollege的BCMGeneFinder等程序均利用了这一方法CpG岛：

CpG岛（CpGisland）一词是用来描述哺乳动物基因组DNA中的一部分序列，其特点是胞嘧啶（C）与鸟嘌呤（G）的总和超过4种碱基总和的50%，即每10个核苷酸约出现一次双核苷酸序列CG。

具有这种特点的序列仅占基因组DNA总量的10%左右。

从已知的DNA序列统计发现，几乎所有的管家基因（House-Keepinggene）及约占40%的组织特异性基因的5末端含有CpG岛，其序列可能包括基因转录的启动子及第一个外显子。

因此，在大规模DNA测序计划中，每发现一个CpG岛，则预示可能在此存在基因。

展开阅读全文