6生物信息学和进化的研究方法Word文件下载.docx
《6生物信息学和进化的研究方法Word文件下载.docx》由会员分享,可在线阅读,更多相关《6生物信息学和进化的研究方法Word文件下载.docx(21页珍藏版)》请在冰豆网上搜索。
利用这些信息能够构建特定蛋白质或核酸从古生菌和细菌到真核生物(包括人类)的进化树。
也可以用实验方法研究分子进化。
有些化石的DNA分子也可以进行PCR扩增和测序,直接观察古代的分子序列。
此外科研人员也可以进行一些核酸复制实验观察实验室的分子进化。
这些研究的结果能揭示更多的分子进化机制。
6.1同源物来自同一祖先
生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时间发生的变化。
来自同一祖先的两个物体就是同源关系。
同源(homologus)分子或同源物(homologs)可以分为两类(图6.3)。
侧向同源物(paralogs)指同种生物的同源物。
直向同源物(orthologs)指不同物种间具有非常相似甚至一致功能的同源物。
了解分子间的同源性能够揭示分子的进化历史和它们的生物功能。
如果新近测序的蛋白质与功能已知蛋白具有同源性,那么这个新近测序的蛋白质也可能具有这样的生物功能。
如何确定人类两种蛋白质具有侧向同源?
如何确定人类蛋白和酵母蛋白具有直向同源?
我们在6.2节要介绍这方面的内容。
核酸序列或氨基酸序列之间有显著的类似性常常表明这些物质之间有同源性。
当然,三维结构比较更能揭示生物分子的同源性。
图6.3两类同源蛋白。
不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物(ortholog)。
而同一物种内执行不同功能的相似蛋白叫侧向同源蛋白(paralog)。
6.2序列比对的统计分析检测同源性(homology)
两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先,因此有同样的三维结构、生物功能和作用机制。
虽然核酸序列和蛋白质序列都可用来进行序列比对,但是蛋白质氨基酸序列比对更好。
最显著的原因是构建蛋白质的单体有20种,而构建核酸的单体只有4种。
为了解释蛋白质比较的方法,我们先考察球蛋白。
肌红蛋白是肌肉组织的氧结合蛋白,而血红蛋白是血液的载氧蛋白(第7章)。
这两种蛋白质都有血红素辅基(一种有铁的有机分子,能结合氧)。
人血红蛋白有4个多肽链,每个多肽链结合一个血红素辅基。
这四个多肽链分别是两个完全一样的α-链和两个完全一致的β-链。
此处我们仅考察α-链。
研究人血红蛋白α-链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性(图6.4)。
为了确定这两个序列之间的类似性,建立了序列比对方法。
图6.4人血红蛋白α-链和人肌球蛋白进行序列比对。
α-链血红蛋白有141个氨基酸,肌红蛋白有153个氨基酸。
如何比对两个序列?
最简单的方法是将一个蛋白质的氨基酸序列与另一个蛋白质的氨基酸序列进行所有可能的比对,记录各种比对所获得的一致残基的数目。
这种比对不难,只需每次将一个序列沿着另一个序列滑行一位,计算匹配氨基酸残基的数量(图6.5)。
图6.5人血红蛋白α-链和人肌球蛋白进行序列比对。
(A)一条序列沿另一条序列滑行,进行序列比对(每次滑行一个氨基酸位点),统计两条多肽链中氨基酸一致的位点数量。
(B)匹配数量最多的比对模式(上),将一致氨基酸位点数量(纵轴)与滑行位点(横轴)作图(下)。
α-链和肌红蛋白最佳比对只有23个位点是一致的,分散在多肽链中央区域。
但是,相近的比对有22个一致位点,而且这些位点集中于蛋白质的N-端。
如果在比对过程中引入缺口,就能将上述两种比对的大多数一致位点都囊括进来(图6.6)。
在比对过程中需要添加这种缺口以补偿基因进化过程中出现的插入或缺失。
图6.6添加缺口的比对。
人血红蛋白α-链和肌红蛋白在加入缺口后的序列比对。
但是用缺口的办法增加了序列比对的复杂性,因为序列比对时所选择的缺口大小有人为因素。
现在已建立了计算机自动进行序列比对时添加缺口的方案。
这种方法采用打分系统评估各种比对方案,利用缺口惩罚来排除序列比对时出现的不合理缺口。
例如一致位点加10分,一个缺口(无论缺口大小)扣25分。
图6.6的比对方案得355分(38个一致位点和一个缺口,38x10-1x25=355)。
这样,这两个蛋白质之间氨基酸一致性就达到25.9%(两个蛋白质平均长度是147氨基酸残基,有38个一致位点)。
下面的问题是,这样的一致性是否属于明显类似?
用重排的方法估计比对的统计学意义
图6.5展示的序列类似性似乎是显著的,但是不能排除偶然出现了这些一致性的可能。
如何评估这些偶然性?
采用的策略是将某一蛋白质的氨基酸序列进行随机重排(shuffling),然后将重排所得蛋白序列与目标序列比对(图6.7)。
重复这一过程,构建出各种重排蛋白的得分。
采用这种策略,肌红蛋白和血红蛋白α-链之间权威比对就凸现出来(图6.8)。
权威比对的数值远高于随机重排蛋白的平均值。
随机重排1020次,才出现一次这种比对值。
因此我们可以轻松地认为这两个序列确实是类似的。
最简单的解释是这两种蛋白序列来自同一祖先,属于同源物。
图6.7重排产生的一个新序列。
图6.8比对计分的统计比较。
计算重排序列比对的计分值,产生该计分值出现的次数。
用出现次数对比对计分值作图。
该图表示随机重排序列比对的积分分布。
α-链和肌红蛋白序列比对计分(红色)远远高于随机重排的计分,强烈提示这两个蛋白序列相似性明显。
采用替代矩阵确定进化关系
上述打分方案只关心一致位点和缺口,没有考虑那些不一致的位点。
但是,并不是所有不一致位点(即替代位点)都是等效的。
有些替代是保守替代,即用性质和结构相似的氨基酸进行的替代。
保守替代对蛋白质功能影响最小。
有些替代用性质和结构完全不同的氨基酸进行替代。
此外,有些替代只需更换一个核苷酸,有些替代要更换两个或三个核苷酸。
保守替代或单核苷酸替代发生频率比非保守性替代的频率高。
那么,当我们进行序列比对时,如何评价不同的替代?
要解决这个问题,首先要考察有进化关系的蛋白质分子中已经存在的氨基酸替代。
基于序列适当比对的数据,人们提出了替代矩阵。
在该矩阵中,那些发生频率高的替代,得分高;
那些发生频率非常少的替代,失分就多。
图6.9是Blosum-62替代矩阵。
从该表可以看出半胱氨酸和色氨酸比丝氨酸和丙氨酸保守得多。
而且结构上保守的替代,如赖氨酸替代精氨酸、异亮氨酸替代颉氨酸,得分就比较高。
在进行两个序列比对时,要给每个替代打分。
对缺口的打分也细化了。
一个氨基酸残基缺口扣12分,在此基础上缺口每增加一个残基加扣2分。
采用这种打分方式,图6.6比对就能够获得115分。
大多数替代是保守替代(得分是正值),极少数替代是稀有替代(得分是负值)(图6.10)。
图6.9Blosum-62替代矩阵。
考察同源蛋白各种替代发生的机会,制定该打分方案。
氨基酸归为四类:
带电氨基酸(红色);
极性氨基酸(绿色);
大的非极性氨基酸(蓝色);
其它氨基酸(黑色)。
只需要改变一个核苷酸的替代用阴影标出。
当你寻找一种替代应该给出的打分时,你在顶部寻找原来的氨基酸(在每列的顶部),然后向下寻找替代氨基酸,从表格左边查找相应的得分。
图6.10考虑保守替代的序列比对。
α-链和肌红蛋白序列比对,保守替代用黄色涂出,相同氨基酸用桔子颜色涂出(在框内)。
这种打分系统在比对那些序列缺乏明显相关性的蛋白质方面,其灵敏度比仅仅依靠一致性位点打分系统高。
例如豆血红蛋白(leghemoglobin)是一些植物根部的氧结合蛋白,其氨基酸序列与人血红蛋白氨基酸序列进行比对。
重复重排和打分的分布值见图6.11。
基于一致性进行的打分,用重排打分评价是20次重排就有一次机会产生的得分与一致性打分系统得分相同,因此是一种偶然性类似。
相反用替代矩阵打分系统打分,用重排打分评价是300次才有一次机会得分与替代矩阵打分系统相同的得分。
因此用矩阵打分系统得出的蛋白进化关联性结论更可靠(图6.12)。
基于序列分析的经验得到了一些简单的评估原则。
对于长度超过100氨基酸的两个蛋白质,序列一致性超过25%就不可能是偶然的,很可能是同源物。
相反,序列一致性低于15%的两个蛋白质仅仅依靠匹配比较显示的类似性没有显著的统计意义。
而序列一致性在15%~25%之间的蛋白质,需要进一步分析以确定比对的统计意义。
必须指出,序列相似性在统计上不明显的蛋白质也有可能是同源物。
从同一祖先进化而来的很多蛋白质差异化程度高至序列比对无法看出它们的同源性。
这类同源蛋白的三维结构相似。
图6.11一致性比对和Blosum62矩阵比对。
重复重排打分对豆血红蛋白和人肌红蛋白序列比对进行评估,简单一致性比对(A)和Blosum62矩阵打分比对(B)。
红色显示真正序列的比对,说明Blosum矩阵打分的统计意义明显。
图6.12人肌红蛋白和豆血红蛋白进行的序列比对(采用Blosum62替代矩阵打分系统)。
保守替代用黄色涂出,相同氨基酸加框,用桔子颜色涂出。
搜寻数据库、确定同源序列
确定一个蛋白序列后,首先要做的事情就是将这个蛋白质的氨基酸序列与所有已经鉴定的蛋白序列比较,从而了解这种蛋白质的进化、结构与功能。
就是采用前面介绍的比对方案将这个蛋白质的氨基酸序列与序列已知蛋白数据库的所有成员进行比对。
最常用的同源序列搜寻可以在国立生物技术信息中心网站(www.ncbi.nih.gov)完成。
所用的方法是BLAST搜寻(基本局部比对搜寻工具,basiclocalalignmentsearchtool)。
氨基酸序列可以打印或粘贴到网站上,进行搜寻。
最常用的是进行所有已知序列非冗余数据库搜寻。
截至2004年,该数据库有300多万序列。
BLAST搜寻产生一个序列比对表,每栏数据后标出了偶然发生这种相似性的几率(图6.13)。
1995年,研究人员报道了第一例自由生活生物(Hamophilusfluenza,嗜血流感细菌)的全基因组序列。
将这个基因组序列推测出来的编码蛋白序列进行BLAST搜寻,1743种蛋白质中有1007种蛋白质(58%)与早先鉴定的其它生物的功能已知蛋白密切相关。
还有347种蛋白与数据库内其它生物的"
假定蛋白"
相关。
其余389种序列与数据库的任何序列没有关联性。
因此纯粹进行序列比对就能够确定该生物半数以上蛋白质的功能。
图6.13BLAST搜寻的结果。
用Ecoli核糖5-磷酸异构酶(也称为磷酸戊糖异构酶)的序列BLAST搜寻非冗余序列(nr)数据库的部分结果。
其中有268个序列是人类同源蛋白的垂直同源物。
这些序列的比对用黄色标出。
E数据(用红色标出)显示偶然出现同一水平类似性的几率是2x10-25。
由于这个数据远远低于1,因此这种序列比对具有显著的统计意义。
6.3三维结构比较有助于进化关系研究
蛋白质序列比较是了解蛋白质功能和亲缘关系的有力工具。
但是,生物分子的功能更取决于它的三维结构。
只有功能才能反映序列变异的效果,而功能是由分子的空间结构决定的。
因此,为了深入了解蛋白质的进化关系,我们必须考虑蛋白质的三维结构,尤其是与三维结构相关的氨基酸序列。
第3章我们介绍了测定蛋白质结构的方法。
三级结构比一级结构更保守
由于蛋白三维结构与功能的关联性比一级结构与功能的关联性更高,因此在进化上三维结构比一级结构更保守。
球蛋白的三维结构就反映了这一点(图6.14)。
虽然人血红蛋白α-链与豆血红蛋白在氨基酸序列比对方面只有15.6%一致性(没有显著的统计意义),但是它们的三维结构很保守。
这种结构保守性使这些蛋白质能够结合血红素,有助于它们可逆性结合氧分子。
图6.14三维结构保守性。
人血红蛋白α-链,肌红蛋白,和豆血红蛋白三维结构保守。
每个血红素辅基有一个铁原子。
氧分子就是结合于该铁原子上。
[Drawnfrom1HBB.pdb,1MBD.pdb,and1GDJ.pdb.]
当你知道血红蛋白、肌红蛋白和豆血红蛋白的生物化学功能相似,你就会预测它们有相似的结构。
但是有越来越多的证据显示,从前预测并不相关的蛋白质,其三维结构明显类似。
肌动蛋白(actin)是细胞骨架的一个主要组分(34.2节)。
热休克蛋白70(Hsp-70)协助胞内蛋白折叠。
这两种蛋白质序列一致性只有15.6%(图6.15)。
但是三维结构比对显示它们是侧向同源物。
尽管这两种蛋白质在现代生物体内生物功能不同,但是结构类似性显示它们来自同一祖先。
由于测定三维结构的蛋白质越来越多,发现这种意料之外的亲缘关系的频率越来越大。
计算机搜寻进行的三维结构比对能够将你确定的蛋白三维结构与三维结构已知的蛋白数据库内其它蛋白进行比对。
图6.15肌动蛋白和HSP70大片段的结构。
相同的结构用颜色标出。
尽管这两者蛋白功能差异很大,但是这两种蛋白的三维结构很相似。
[Drawnfrom1ATN.pdband1ATR.pdb]
三维结构信息有助于评估序列比对结果
至今所建立的序列比对方法的基础是同等看待蛋白质序列的各个位点。
但是蛋白质分子内有些区域或有些氨基酸比其它位点更为保守,是维持蛋白质三维结构的关键。
例如各种球蛋白中心都有与铁原子结合的血红素辅基。
直接与铁原子结合的组氨酸(人肌红蛋白64位残基)在这些球蛋白中保守。
确定一个家族蛋白的保守残基或保守序列后,我们就能确定该家族蛋白的其它成员(尽管这些成员之间序列类似性的总水平没有统计意义)。
因此制作一个序列模板可能就很有用。
序列模板标出了该蛋白家族重要的氨基酸残基。
利用序列模板能够鉴定其它方法不能鉴定的家族成员。
有些方法利用三维结构已知的信息,对蛋白质氨基酸序列进行归类。
还有些方法用来鉴定一个蛋白家族的保守氨基酸(即使不知道这些家族蛋白的三维结构)。
这些方法常常采用替代矩阵,这种替代矩阵能确定同一家族蛋白序列的各个位点的替代差异,从而确定相当远的进化关系。
自身序列比对确定重复模体(motif,或翻译成基序)
有10%以上的蛋白质,分子内有两个或多个相似的结构域。
序列搜寻方法能够确定已经在其它分子内鉴定出的重复序列。
但是,如何确定分子内新的、尚未在其它分子中鉴定的重复单位?
可以将序列进行自我比对。
将该区域作为独立的蛋白质进行比对、评估这种重复的统计意义。
TATAbox结合蛋白是控制基因转录的关键蛋白(29.2节)。
比对找出了分子内的重复序列。
有很明显的统计意义,90个氨基酸中有30%氨基酸是一致的(图6.16A)。
随机重排出现这样类似性的几率是10-13。
TATAbox结合蛋白的三维结构也证明该蛋白有重复结构。
该蛋白有两个几乎一致的结构域(图6.16B)。
这些证据显示编码一个结构域的基因产生重复形成了该蛋白的编码基因。
图6.16内部重复的序列比对。
(A)TATAbox结合蛋白的两个重复进行的序列比对。
N-端重复用绿色表示,C-端重复用蓝色表示。
(B)TATA-box结合蛋白的结构。
N-端绿色,C-端蓝色。
[Drawnfrom1VOK,pdb]
同一进化是解决生化挑战的共同方法
至今,我们已经探讨了来自同一祖先分子的蛋白质,即差异进化(divergentevolution)。
还有一种情况是祖先分子并不相同,但是蛋白质的结构类似。
两个起源不同的蛋白分子是如何采用相似结构的?
这两类分子是同一进化成相似结构,执行相似的生化功能。
这种结构可能是解决生物所面临问题的最有效的方法。
从不同的进化途径导致同一解决方法(即相似结构)的过程称为同一进化(convergentevolution)。
同一进化的例子之一是丝氨酸蛋白酶。
第9章将详细讨论这些能够水解肽键的酶。
图6.17表示两个这样的酶的活性位点的结构(活性位点就是底物蛋白质发生水解反应的地方)。
这些活性位点的结构很相似,其组氨酸、丝氨酸和天冬氨酸在空间的排布几乎一致。
实际上胰凝乳蛋白酶和枯草杆菌蛋白酶水解肽键的机理完全相同。
初看起来,这种相似性似乎意味着这两种蛋白质是同源物,来自同一祖先分子。
但是这两种蛋白质的空间结构差异显著,因此不可能有进化关联(图6.18)。
胰凝乳蛋白酶几乎全是β-链,而枯草杆菌蛋白酶含有很多α-螺旋结构。
尽管两个蛋白酶活性位点的丝氨酸、组氨酸和天冬氨酸在空间上的位置相似,但是它们在多肽链一级结构上的排布顺序却不同。
这两个蛋白质不可能来自同一祖先分子
(只保留活性位点结构,而其它结构则完全不同)。
图6.17蛋白酶活性位点的同一进化。
丝氨酸蛋白酶胰凝乳蛋白酶和枯草杆菌蛋白酶的活性位点的三个关键残基位置几乎一致。
图6.18胰凝乳蛋白酶和枯草杆菌蛋白酶的结构。
与活性位点空间结构(在蛋白质空间结构顶部)高度相似性不同,枯草杆菌蛋白酶和胰凝乳蛋白酶的空间结构差异显著。
β-链用黄色表示,α-螺旋用蓝色表示。
[Drawnfrom1GCT.pdband1SUP.pdb.]
RNA序列比较能够了解RNA二级结构
可以用前面介绍的方法比较同源RNA序列。
这种比较能研究RNA的进化,还能为RNA分子自身的三维结构提供思路。
在第4章我们曾经说过,单链核酸能折叠回来,利用Watson-Crick碱基配对及其它相互作用,形成精致的结构。
有类似碱基配对结构的核酸家族,核苷酸序列可能有差异,但是碱基配对却保守。
例如,所有生物核糖体大RNA分子中有一个区域就是这样(图6.19)。
大肠杆菌rRNA在该区域的第9位是鸟嘌呤核苷酸,第22位是胞嘧啶核苷酸;
而人rRNA分子在该区域的第9位是尿嘧啶核苷酸,第22位是腺嘌呤核苷酸。
考察六种生物rRNA在该区域的序列(图6.19)以及更多rRNA分子的序列发现第9位和第22位核苷酸的序列可以改变,但是它们形成Watson-Crick碱基对的能力不变。
相邻位点的情况也是这样。
由此我们推测这两个区间一道形成双螺旋,一个位点的变异因另一个位点同时变异获得补偿。
将同源RNA分子进行序列比对,能够提示RNA分子的二级结构及其它相互作用。
随后测定RNA分子三级结构(30.3节)也证实序列比较所预测的二级结构。
图6.19RNA序列比较。
(A)比较不同物种核糖体RNA的部分序列。
(B)序列比较提示该区域所形成的二级结构。
绿色棒显示该位点的Watson-Crick碱基对完全保守,而绿色点表示该位点的碱基配对在多数情况下是保守的。
6.4在序列信息的基础上能够构建进化树
同源物有序列类似性,提示序列类似性能推测蛋白家族成员的进化途径。
类似性程度越高,表明这两种蛋白质在进化上分离(即差异)的时间越晚;
序列类相似度愈低,这两种蛋白质在进化上分离(即差异)的时间愈早。
进化上分离时间利用球蛋白(豆血红蛋白、肌红蛋白、血红蛋白a-链和血红蛋白b-链)进行了说明(图6.10和图6.12)。
比对这些序列(如有必要添加缺口),构建进化树(分支的长度与序列间差异氨基酸的数量呈正比)(图6.20)。
图6.20球蛋白进化树。
根据序列比较推测分支结构,而化石研究的结果提供了进化分离的时间范围。
这种比较仅能显示进化分化的相对时间。
例如肌红蛋白与血红蛋白分离的时间相当于血红蛋白α-链和β-链分离时间的两倍。
怎样评估基因重复和其它进化事件所发生的时间?
将序列差异推测的进化树的时间用化石记录所显示的时间进行校正。
例如,基因重复产生血红蛋白α-链和β-链的时间是3.5亿年前。
这个估计时间与无颌鱼与有骨鱼进化分离的时间吻合。
无颌鱼lamprey与有骨鱼的分离时间在4亿年前,而无颌鱼只有一种血红蛋白链(图6.21)。
这些方法适于相对现代及非常古老的分子(如所有生物都有的核糖体RNA)。
实际上,RNA序列分析显示古生菌在进化早期就与细菌分离了。
图6.21Lamprey无颌鱼。
无颌鱼的祖先在4亿年前与有骨鱼发生进化分离。
lamprey只含有一条血红蛋白链。
[BrentP.Kent]
6.5现代技术能用实验探讨分子进化
生物化学的两项技术使我们能够更为直接地研究进化过程。
聚合酶链式反应(PCR)能直接检测古老的DNA分子,从而消除了(至少部分消除了)仅用现存生物基因组进行研究的局限。
分子进化可以用组合化学(combinatorychemistry)加以研究。
组合化学能产生种类众多的生物分子,从中选择具有某一生化特征的生物分子。
利用这一过程能够了解进化早期的分子种类。
古代DNA扩增并测序
DNA分子化学稳定性高,所以这种分子适于担任遗传信息的储存分子。
在适当条件下,如此稳定的DNA分子能够存活数千年。
有了PCR技术之后,有时我们能够成功扩增古生DNA并进行序列测定。
1856年在德国Dusseldorf发现的Neanderthal化石(估计距今有3万至10万年)的线粒体DNA的379碱基片段被成功地进行PCR扩增。
与现代人线粒体DNA序列比较有22~36个核苷酸替代。
而人类与黑猩猩线粒体相应序列的核苷酸替代位点有55个。
进一步研究显示人类与Neaderthals的共同祖先存在于60万年前。
用这些数据和其它研究数据构建的进化树显示Neanderthal并不是黑猩猩和人类进化的中间阶段,而是一个进化的"
死胡同"
,后来所有的neanderthal被灭绝(图6.22)。
有几个研究宣称测定了更早期DNA分子的序列(如琥珀所捕获的昆虫DNA),但这些研究是由问题的。
这些样品已经被现代DNA分子污染。
成功测定古老DNA分子需要有足量古老的DNA分子并且没有现代DNA分子的污染。
图6.22进化树上Neanderthal所处的位置。
DNA序列比较显示Neanderthal不是人类的直接祖先,而是在进化早期与人类分开,并最终灭绝。
分子进化可以用实验进行研究
进化需要三个过程:
(1)产生有差异的群体;
(2)选择具有某些特征的个体;
(3)繁殖、富集这些被选择的成员。
在适当条件下,核酸分子在体外能够进行这三个过程。
这些研究的结果能够了解产生具有催化活性和结合活性的核酸