ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:42.17KB ,
资源ID:26897750      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/26897750.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(BLOSUM矩阵和其在生物信息学中的应用.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

BLOSUM矩阵和其在生物信息学中的应用.docx

1、BLOSUM矩阵和其在生物信息学中的应用生工0902BLOSUM矩阵及其在生物信息学中的使用生物信息学齐阳,汪锴,袁理2011/11/25什么是BLOSUM矩阵?BLOSUM矩阵有什么使用?BLOSUM矩阵及其在生物信息学中的使用齐阳 汪锴 袁理摘要 BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛使用。本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、使用以及现代算法。并指出了BLOSUM矩阵的发展前景。关键词 BLOSUM矩阵;生物信息学;使用0 引言序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,

2、通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比1,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。1 BLOSUM 矩阵概况序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间

3、或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变2。在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数3。当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。因此

4、,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率3。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比1,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即

5、BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。2 BLOSUM 矩阵的构建2.1 多序列比对 定义:一个多序列比对A 是一个二维字符矩阵,即A(n1,N,i1,I),其中=或,并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐5。 从上面的定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)的最后结果,它最近似地表示了所有的进化过程。其中删除和插入

6、没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS-ITVNWTQQLPGLRLSCSSSGFIFSS-YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG2.2 BLOSUM打分规则6 BLOSUM中得分主要采用Log-odds得分,即同源和非同源的可能性的比率的对数。在BLOSUM中两个残基i和j的得分s(a,b)按照log-odds方程计算,方程如下:-(1)其中,是指假定残基对a和b是同源的,

7、在已有同源序列比对中出现的目标频率:是指假定残基a和b是非同源的和独立的, 残基a和b出现在任何一个蛋白质氨基酸序列中的平均背景频率:是尺度参数,每个得分四舍五人取整.如果残基对a 和b是同源的, 则它们出现在同源序列比对中目标频率,s(a,b)0.如果残基对a和b 是非同源的, 则它们出现在同源序列比对中目标频率,s(a,b)0.以相同氨基酸: 色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分;不同氨基酸: 丙氨酸/亮氨酸(A/L)比对得分和赖氨酸/谷氨酸(K/E)比对得分为例, 介绍计算过程.1) 色氨酸/色氨酸(W/W)比对得分;在同源比对数据库中,测得=0.0065,

8、 =0-013, =0.347,代入(1)得s(W/W)=+10.5,取整得+11;2) 亮氨酸/亮氨酸(L/L)比对得分;在同源比对数据库中,测得=0.0371, =0.099, =0.347,代入(1)得s(L/L)=+3.8,取整得+4;3) 丙氨酸/亮氨酸(A/L)比对得分;在同源比对数据库中,测得=0.0044, =0.074, =0.099 =0.347,代入(1)得s(K/E)=-1.47,取整得-1;4) 赖氨酸/谷氨酸(K/E)比对得分;在同源比对数据库中,测得=0.0041, =0.058, =0.054, =0.347,代入(1)得s(K/E)=+0.76,取整得+1;将

9、BLOSUM-1矩阵和自身相乘,可以近似得到高阶BLOSUM单位的替换率。可以根据序列的长度以及序列间的先验相似程度来选用特定的BLOSUM矩阵,低价BLOSUM矩阵更多是用来比较比较亲缘较远的序列,一般来说,BLOSUM-62矩阵适于用来比较大约具有62%相似度的序列,而BLOSUM-80矩阵更适合于相似度为80%左右的序列3。运用上述计算方法,就可得到BLOSUM62,见Table 1. Blosum62替代矩阵。3 BLOSUM 矩阵的使用基于进化原理的氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用的,其起源于相同的氨基酸模式之间氨基酸的保守性,即某种氨基酸对另一种氨基

10、酸的取代数据,广泛用于蛋白质数据库的搜索。最近BLOSUM 被成功用于表面抗原分析、T 细胞抗原决定簇预测7、氨基酸定点突变后蛋白质的稳定性等多种重要科学研究中,对于常用的数据集经过严格的交叉验证,人们已经发现BLOSUM矩阵明显优于目前通常采用的理化特性打分方法和单位打分方法8。随着后基因组时代的到来,适和远亲分析的BLOSUM一定可以有更大的用武之地,以解决生命科学中的诸多难题。3.1表面抗原分析为分析HBV的表面抗原,对两个病人人群进行跟踪研究:一组是52位患病1年以上的慢性HBV感染携带者,另一组是129位新诊断的患者。获得这180名患者乙肝表面抗原的DNA序列然后和来自于基因库的16

11、8个全长HBV序列比较序列一致性。乙肝病毒表面抗原亲水区域的多态性用突变大师软件来分析。参考文献和BLOSUM打分9被用来分析潜在改变的抗原性。3.2 T细胞抗原决定簇预测为进一步预测T细胞抗原决定簇的结构,Huang L和Dai Y做了进一步研究,将BLOSUM矩阵10和氨基酸指标向量结合,在BLOSUM 矩阵中代替了氨基酸指标向量的每一个非零项,使相应的值出现在对角线项,这种方法可以把氨基酸的位置和相似度用BLOSUM打分9的形式简单表现出来。3.3磷酸化位点的预测磷酸化作用在多种真核细胞中具有重要的作用,例如有丝分裂、新陈代谢1以及信号传导10等。蛋白激酶在蛋白底物中催化特定的受体氨基酸

12、,每一种激酶只催化它特定的底物子集。蛋白激酶的失活会导致疾病,因此了解特定蛋白激酶的磷酸化作用机制有重要意义。而利用实验手段或质谱分析11、缩氨酸微阵列12和特定磷蛋白质水解13等方法分析磷酸化蛋白质组都有很多缺陷,但有一种方法在磷酸化位点预测上有明显优势-基于k邻近的蛋白激酶特异性预测方法14,此方法可以对不同激酶家族的磷酸化作用位点进行标注。由BLOSUM62打分矩阵得到的相似度函数作为系统的输入向量。3.4蛋白质定点突变稳定性预测准确率定点突变技术的潜在使用领域很广, 比如研究蛋白质相互作用位点的结构特性、酶学和酶工程中改造酶的不同活性或动力学特性、改造启动子或DNA 相互作用元件、研究

13、蛋白质晶体结构, 以及药物研发、提高蛋白抗原性或稳定性和活性等。何种程度的变异会影响野生型蛋白的稳定性, 以及突变后该蛋白质稳定性的改变, 是设计蛋白质或对蛋白质进行点突变分析时的关键。但是实验测定的精确方法需要昂贵的设备和较长的实验时间,因此现在多使用生物信息学的方法。有人使用BLOSUM62预测氨基酸定点突变后蛋白质的稳定性,并对常用的数据集经过严格的交叉验证发现其明显优于目前通常采用的理化特性打分方法和单位打分法8。4 BLOSUM 矩阵的挑战和发展4.1 BLOSUM矩阵和PAM矩阵的比较(1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍。(2)低价PAM矩阵

14、适合用来比较亲缘较近的序列,而低价BLOSUM矩阵更多是用来比较亲缘较远的序列。(3)在BLOSUM中,通过统计聚类技术来对相关蛋白质的无空位比对进行分类,并且计算类间的替换率。当观察某对氨基酸得到的替换率很低时就会带来一些统计问题,而BLOSUM的方法正好能够避免此类问题。4.2 基于BLOSUM矩阵的一些现代算法由于BLOSUM打分矩阵的上述优点,已被各种现代算法所利用,发挥不同领域的作用于功能。下面将介绍几种使用BLOSUM打分矩阵最多的算法,对它们的优缺点进行简单阐述。4.2.1 动态规划算法其指导思想就是在多级过程的每一级上列出各种可行的局部解。该方法由Needle-man 和Wun

15、sch 于1970 年提出,最初用于求两个序列的最佳比对。对于两两全局序列比对情况,该方法的关键是设计一个二维矩阵,该矩阵的两个轴就是要比对的两个序列。Needle man-Wunsch 算法可以直接用于三个序列的比对。多序列比对的积分是n 个序列中两两进行比对所得积分之和。对于N 个序列的比对其运算时间呈指数增长,所以动态规划算法不是很适用。4.2.2 渐进算法渐进算法最早由Feng 和Doolittle 提出。在算法中,首先采用Needleman-Wunsch 算法把需要比对的N个序列进行彼此两两比对,其结果形成个实体,然后对这些实体排序,进行全局比对。这种方法一般在质量尤其是计算速度、存

16、储空间及可比对的序列数目方面比动态规划算法更优良。在比对过程中遵循“一旦有一个空位,总有一个空位”的规则。渐进算法实际上从历史和进化的观点比对多个序列,准确地反映了导致现代序列的一系列歧异进化过程,并且可以直接用于构造进化树,其缺点是不能保证比对的结果是数学上的最优化比对。4.2.3 随机算法16 (1)遗传算法遗传算法使一类借鉴生物界的进化规律(适者生存、优胜劣汰和遗传学原理)演化来的全局意义上的自适应随机搜索方法。当用遗传算法进行生物序列分析时,假设每一代包含固定数量的个体(在序列分析中表示优化比对问题的一个可行解),这些个体用它们的适应度来评价。那些具有较高适应度的优良个体更适合于生存环

17、境,将有很多的机会产生它们的后代,从而使优良特性得以遗传并强化。变异则模拟了生物进化过程中的偶然残基突变现象。对产生的新一代群体进行重新评价、选择、交叉、变异,如此循环往复,使群体中的最优个体的适应度和平均适应度不断提高,直至最优个体的适应度和平均适应度不断提高,直至最优个体的适应度达到某一限定值或最优个体的适应度和群体的平均适应度不再提高,则迭代过程收敛,算法结束。在这种算法中,可以对各种变异、交叉和打分系统进行设置。(2)模拟退火模拟退火算法的思想是Kirkpartick 等人于1982 年引入组合优化领域,其源于对固体退火过程的模拟。模拟退火算法采用Meteropolis 接受准则,并用

18、一组称为冷却进度表的参数控制算法进程,使算法在多项式时间内给出一个近似最优解。模拟退火方法是用于蛋白质三维结构比对的一种确定性方法。但是,作为一种多序列比对工具,它需要过长的计算时间,特别是当比对的序列数目较大时更为明显,所以只适于一些高性能的计算机。5 总结BLOSUM打分矩阵自1992年由Henikoff夫妇提出至今已近二十年,它的使用也从最初的多肽链比对,蛋白质定点突变稳定性预测扩展到表面抗原分析,T细胞表面抗原决定簇预测,磷酸化位点预测等多方面。虽然有文章表示近年来已被当做标准的BLOSUM打分矩阵并非完全正确且存在错误计算,但这没有影响到BLOSUM打分矩阵的使用,甚至从某种程度上提

19、升了其在搜索中的表现17。随着后基因组时代的到来,适于远亲分析的BLOSUM矩阵一定可以有更大的用武之地。参考文献1 Steven Henikoff, Jorja G Henikoff.Amino acid substitution matrices from protein block J.Atlas of Protein Sequence and Structure.1978,5(3):345-352.2 Chantle R.Korostensky.Algorithms for Building Multiple Sequence Alignments and Evolutionary T

20、rees.Dissertation Swiss Federal Institute of Technology.2000.3 孙啸,陆祖宏,谢建明等译.生物信息学概论.清华大学出版社.北京4 http:/bioinformatics.weizmann.ac.il/blocks/about_blocks.html5 徐丽,康瑞华.生物信息学中的多序列比对算法.中国水运(理论版).2006,4(6):118-119.6 孟翔燕,孟军,葛家麟.一种基于亲疏水性的替代矩阵.数学的实验和认识. 2009,39(7):105-112.7 Roque-Afonso AM,Ferey MP,Ly TD.Vir

21、al and clinical factors associated with surface gene variants among hepatitis B virus carriers. Antivir Ther.2007,12(8):1255-12638 基于进化信息改进蛋白质定点突变稳定性预测准确率, 刘建国, 刘建荣, 刘明, 闫蓬勃.生物物理学报.2009,25(5)。9 Nielsen M,Lundegaard C,Worning P,et al.Reliable prediction of T-cell epitopes using netural networks novel

22、 sequence representations.Protein Sci.2003,12:1007-1017.10 Lou Yang,Yao Jianhui,Zereshki A,et al.NEK2A interacts with MAD1 and possibly functions as a novel integrator of the spindle checkpoint signalingJ.J Biol Chem.2004,279:20049-20057.11 Meijer AJ,Dubbelhuis PF.Amino acid signalling and the integ

23、ration of metabolism J.Biochem Biophys Res Commun.2004,313:397-403.12 Kraft C,Herzog F,Gieffers C,et al.Mitotic regulation of the human anaphase2promoting complex by phosphorylationJ.EMBOJ,2003,22:6598-6609.13 Rychlewski L,Kschischo M,Dong Liying,et al.Target specificity analysis of the Abl kinase u

24、sing peptide microarray dataJ. J MolBiol.2004,336:307-311.14 Knight ZA,Schilling B,Row RH,et al.Phosphospecific proteolysis for mapping sites of protein phosphorylation J.Nat Biotechnol.2003,21:1047-1054.15 王明会,王立荣,许文龙,林晓君,江朝晖,冯焕清.基于k 近邻和BLOSUM62 矩阵方法的磷酸化位点预测.中国生物医学工程学报.2007,26(3).16 王槐春.核酸和蛋白质序列分析基础.北京.人民军医出版社.1994.17Mark P Styczynski,Kyle L Jensen,Isidore Rigoutsos,Gregory Stephanopoulos. BLOSUM62 miscalculations improve search performance.Nature Biotechnology.2008,26:274-275.

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1