生物信息学 第十一章.docx
《生物信息学 第十一章.docx》由会员分享,可在线阅读,更多相关《生物信息学 第十一章.docx(23页珍藏版)》请在冰豆网上搜索。
生物信息学第十一章
11
利用蛋白质序列的预测方法
AndreasD.Baxevanis
GenomeTechnologyBranch
NationalHumanGenomeResearchInstitute
NationalInstitutesofHealth
Bethesda.Mryland
DavidLandsman
NationalCenterfroBiotechnologyInformaiton
ComputationalBiologyBranch
NationalLibraryofMedicine
NationalInstituteofHealth
Bethsda.Maryland
本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数量正急剧增加。
与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。
可惜用实验方法获取这些信息的速度远远赶不上单纯序列数据产生的速度。
象圆二色谱、旋光色散、X光晶体衍射和核磁共振都是确定结构特征的强有力技术,但它们的实现需要大量时间,并对技术和技巧都有很高要求。
对比蛋白质序列和结构数据库的容量可知两类信息之间差距已十分明显,到写这本书时,有428,814个条目在冗余的蛋白质序列库(nr),而PDB库中仅有5017个条目1。
为缩小这一差距所做的尝试都围绕于“预测的方法”。
这些序列条目能在缺少生物化学数据的情况下提供关于蛋白质性质的见解。
本章的焦点是从序列本身中获取生物学发现的计算技术,与前几章中的技术不同之处于这些方法大多并不依赖于双序列或多序列的比对。
核酸序列所包含的四种核苷酸在化学上性质相似(但不相同),与之不同的是,构成蛋白质的20种氨基酸残基由于化学构造上差别很大,因而在结构和功能上存在更大多样性。
任一残基对蛋白质的整体物理性质都会产生影响,因为这些残基本身就是酸性或者碱性的。
因而在蛋白质结构域中每种残基对构成不同类型结构都存在偏向。
当然,这些属性就是生物化学的核心原理之一“序列决定构象”的基础(Anfinsen等,1961)。
在谈及这种或那种预测技术之前要预先说明的是,无论用哪种方法,这些结果都是预测。
不同的方法,采用了不同的算法,可能产生相同或不同的结果。
但有一点很重要:
弄清楚某种方法的原理,而不是仅把算法当作一个“黑箱”。
因为一种方法可能对特定实例很合适,而对另一个则完全不对。
虽然如此,存在一种强大合作的潜力:
正确应用这些预测技术,参照以主要的生化数据,就能提供有关蛋白质结构与功能的有价值信息。
1.GenBank发布编号100.0,1997年4月15日;PDB为1997年3月13日之数据。
基于组成的蛋白质辨识
人们早已熟知了20种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用于确认未知蛋白(或反过来分析已知蛋白)。
其中的大部分可通过在Geneva大学医院和Geneva大学的ExPASy服务(Appel等,1994)来获得。
ExPASy工具的应用有两个焦点:
既分析和确认由二维凝胶电泳分离得到的未知蛋白,也预测已知蛋白的基本性质。
这些工具利用了SWISS-PROT数据库中的有效注解来进行预测。
既然这类计算对电泳分析有用,它们也能在其它实验领域中有所帮助,尤其是对色谱和沉降分析。
在这里及以下内容中,包含在ExPASy中的工具都会标明,但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。
本章末列出了与本章中所提及的工具有关的因特网资源。
AACompIdent与AACompSim(ExPASy)
与把氨基酸序列在SWISS-PROT库中搜索不同,AACompIdent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白(Wilkins等,1996)。
对于输入部分,该程序需要蛋白质的氨基酸组成,等电点pI和分子量(如果知道),正确的物种分类及特别的关键词。
此外,用户还需在六种氨基酸“组合”中作出选择,这影响到分析如何进行。
例如,某种“组合”会把残基Asp/Asn(D/N)和Gln/Glu(Q/E)组合成Asx(B)和Glx(Z);或者某种残基会在分析中被完全除去。
对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分。
由电子邮件返回的结果被组织成三级列表:
第一张列表中的蛋白都基于特定的物种分类而不考虑pI和分子量;第二张列表包含了不考虑物种分类、pI和分子量的全体蛋白;第三张列表中的蛋白不但基于特定物种分类,并且将pI和分子量也考虑在内。
虽然计算所得结果各不相同,但零分表明了该序列与提出的组成完全相符。
AACompIdent的一个变种,AACompSim提供类似的分析,但与前者以实验所得的氨基酸组成为依据进行搜索不同,后者使用SWISS-PROT中的序列为依据(Wilkins等,1996)。
利用ComputepI/MW(见下)所得的不同数值可以计算出理论等电点和分子量。
有报道称,氨基酸组成在物种之间是十分保守的(Cordwell等,1995),并且通过分析氨基酸的组成,研究者能从低于25%序列相似性的蛋白之间发现弱相似性(Hobohm和Sander,1995)。
因此,在“传统的”数据库搜索基础上辅以组成分析,能为蛋白质之间关系提供更多见解。
PROPSEARCH
PROPSEARCH与AACompSim一样,也利用蛋白的氨基酸组成来检测蛋白质之间的微弱联系。
据该软件开发者称这一技术能轻易发现同一蛋白质家族的成员(Hobohm和Sander,1995)。
但这一技术比AACompSim更加强壮:
它使用了144种不同的物化属性来进行分析,其中包括分子量、巨大残基的含量、平均疏水性和平均电荷等。
这些属性的集合被称作“查询向量”,并将其与数据库(SWISS-PROT和PIR)中的每个序列预先计算好的向量进行比较。
拥有这样一个预先计算好的“向量数据库”大大节约了每次查询所需的时间。
PROPSEARCH的Web服务所需的输入是查询序列本身,其输出的一个实例为图11.1。
这里作为查询序列的是人自身抗原NOR-90的序列。
结果由距离分值分成几段,该分值代表了查询序列与由PROPSEARCH找到的新序列之间的相似性程度,从而属于同一家族,因此通常表明具有相似的功能。
10分或更低表明两种蛋白相似的可能性大于87%。
低于8.7分将相似性可信度提高到94%,而低于7.5分则达到99.6%。
分析图11.1的结果可见,NOR-90与一些核转录因子、蛋白激酶、一个retinoblastoma结合蛋白、肌动蛋白结合蛋白radixin和推测是一种GTP酶靶蛋白的RalBP1等蛋白相似。
既然这些蛋白的功能各自不同,它们并不都是想要的结果;然而,其中许多是DNA的结合蛋白,这就暗示一种可能是在不同功能区中都采用了的十分相似的结构域。
至少进行一次BLASTP搜索对确认结果和识别关键性残基是十分必要的。
Fragmentsearch:
OFF(POS1andPOS2arebeginandendofsequence)
Rank
ID
DIST
LEN2
POS1
POS2
pI
DE
1
>p1;s18193
0.00
727
1
727
5.33
autoantigenNOR-90–human
2
ubf1_human
1.36
764
1
764
5.62
NUCLEOLARTRANSCRIPTIONFACTOR1(UPSTREAMBINDINGFACTOR1)(UBF-1)
3
ubf1_mouse
1.40
765
1
765
5.55
NUCLEOLARTRANSCRIPTIONFACTOR1(UPSTREAMBINDINGFACTOR1)(UBF-1).
4
ubf1_rat
1.57
764
1
764
5.61
NUCLEOLARTRANSCRIPTIONFACTOR1(UPSTREAMBINDINGFACTOR1)(UBF-1).
5
ubf1_xenla
3.95
677
1
677
5.79
NUCLEOLARTRANSCRIPTIONFACTOR1(UPSTREAMBINDINGFACTOR1)(UBF-1).
6
ubf2_xenla
4.18
701
1
701
6.05
NUCLEOLARTRANSCRIPTIONFACTOR2(UPSTREAMBINDINGFACTOR2)(UBF-2).
7
>p1;s57552
7.72
606
1
606
6.63
hypotheticalproteinYPR018w–yeast(Saccharomycescerevisiae)
8
>p1;i50463
8.49
772
1
772
5.71
proteinkinase–chicken
9
>p1;h54024
8.83
768
1
768
5.27
proteinkinase(EC2.7.1.37)cdc2-relatedPITSLREalpha2-3–human
10
>p1;b54024
8.87
777
1
777
5.27
proteinkinase(EC2.7.1.37)cdc2-relatedPITSLREalpha2-3–human
11
>p1;g54024
8.90
766
1
766
5.21
proteinkinase(EC2.7.1.37)cdc2-relatedPITSLREbeta2-2–human
12
>p1;a55817
9.00
783
1
783
5.19
cyclin-dependentkinase130-PITSLRE–mouse
13
>p1;f54024
9.11
777
1
777
5.30
proteinkinase(EC2.7.1.37)cdc2-relatedPITSLREbeta2-1–human
14
>p1;e54024
9.11
779
1
779
5.42
proteinkinase(EC2.7.1.37)cdc2-relatedPITSLREalpha2-1–human
15
yaa5_schpo
9.45
598
1
598
4.78
HYPOTHETICAL69.5KDPROTEINC22G7.05INCHROMOSOMEI.
16
>p1;s62449
9.45
598
1
598
4.78
hypotheticalproteinSPAC22G7.05–fissionyeast(Schizosaccharomycespombe)
17
>f1;i58390
9.45
920
1
920
5.00
retinoblastomabindingprotein1isoformI–human(fragment)
18
>p1;s63193
9.58
590
1
590
6.15
hypotheticalproteinYNL227c–yeast(Saccharomycescerevisiae)
19
ynw7_yeast
9.58
590
1
590
6.15
HYPOTHETICAL68.8KDPROTEININURE2-SSU72INTERGENICREGION.
20
>p1;s49634
9.74
899
1
899
4.79
hypotheticalproteinYML093w–yeast(Saccharomycescerevisiae)
21
ymj3_yeast
9.74
899
1
899
4.79
HYPOTHETICAL103.0KDPROTEININRAD10-PRS4INTERGENICREGION.
22
radi_human
9.76
583
1
583
6.33
RADIXIN.
23
radi_pig
9.81
583
1
583
6.21
RADIXIN(MOESINB).
24
>f1;i78883
9.83
866
1
866
4.77
retinoblastomabindingprotein1isoformII–human(fragment)
25
>p1;b42997
9.87
754
1
754
5.17
retinoblastoma-associatedprotein2–human
26
>p1;a57467
9.91
647
1
647
5.74
Ra1BP1–rat
图11.1基于氨基酸组成的PROPSEARCH数据搜索。
输入序列是人自身抗原NOR-90。
为简洁起见,除去了解释性材料和一张与整个目标数据库距离打分的直方图。
表中的列给出的是根据距离得分排列的顺序、SWISS-PROT或PIR标识、距离得分、查询序列与该序列重叠的长度、重叠的位置(从POS1到POS2)、计算出的pI,以及对该序列的描述。
MOWSE
分子量搜索(MolecularWeightSearch,MOWSE)算法利用了通过质谱(MS)技术获得的信息(Pappin等,1993)。
利用完整蛋白质的分子量及其被特定蛋白酶消化后产物的分子量,一种未知蛋白质能被准确无误地确认,给出由若干实验才能决定的结果。
由于未知蛋白无需再全部或部分测序,这一方法显著地减少了实验时间。
MOWSE的输入是一个纯文本文件,包含一张实验测定的肽段列表,分子量范围在0.7到4.0Kda之间。
计算过程基于在OWL非冗余蛋白质序列库(Akrigg等,1988)中包含的信息。
打分基于在一定分子量范围内蛋白中一个片段分子量出现的次数。
输出的结果是得分最佳的30个蛋白的列表,包括它们在OWL中的条目名称,相符肽段序列,和其它统计信息。
模拟研究得出在使用5个或更少输入肽段分子量时,准确率为99%。
该搜索服务可通过向mowse@daresburg.ac.uk发送电子邮件实现。
为获得更多关于查询格式的细节信息,可以相该地址发送电子邮件,并在消息正文中写上“help”这个词。
基于序列的物理性质
ComputepI/MW(ExPASy)
ComputepI/MW是计算输入序列等电点和分子量的工具。
对pI的确定基于早期研究中将蛋白质从由中性到酸性变性条件下迁移过程中所获得的pK值(Bjellqvist等,1993)。
因此,该作者警告用户,对于碱性蛋白质所得到的pI值可能不准确。
分子量的计算是把序列中每个氨基酸的同位素平均分子量加在一起,再加上一个水分子的分子量。
用户可以把序列整理为FASTA格式,或提供SWISS-PROT标识,或者是可唯一确定的添加号。
若用户提供了序列,该工具会自动计算全序列的pI和分子量;若用户提供的是SWISS-PROT标识,程序会显示该条目的描述和物种记录;如果用户给出了一段序列片段范围则计算将在该片段上进行,而不是针对整个序列。
PeptideMass(ExPASy)
PeptideMass工具针对肽段谱图分析实验,用于确定蛋白质在与特定蛋白酶或化学试剂作用下的内切产物(Wilkins等,1997)。
通过PeptideMass可以预测水解结果的酶和试剂包括:
胰蛋白酶(trypsin)、糜蛋白酶(chymotrypsin)、LysC、溴化氰、ArgC、AspN和GluC(双羧酯或磷酸酯)。
半胱氨酸和甲硫氨酸可在计算产物肽段前加以修饰。
若用户提供的是SWISS-PROT标识,而不单是一段序列,PeptideMass还能利用SWISS-PROT库中标注中的信息协助计算。
例如,除去信号序列,后在剪切之前引入已知的翻译后修饰。
输出结果会列成表格,其中将给出输入蛋白的pI和分子量,然后是SWISS-PROT中关于变种的分子量、位点、修饰后变种的信息,最后是肽片段的序列。
TGREASE
TGREASE是沿蛋白质序列长度计算其疏水性的工具(Kyte和Doolittle,1982)。
“疏水性”是每种氨基酸所固有的特性,即氨基酸远离周围水分子,将自己包埋进蛋白质核心的相对趋势。
这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质最终折叠成的三维空间构象。
因此,TGREASE对预测球状蛋白内埋区以及判断待定跨膜序列等方面都有应用。
TGREASE属于FASTA系列程序之一,可以从Virginia大学得到,并可以作为独立程序在Mac或Dos系统下运行。
疏水性预测的方法依赖于疏水性的衡量尺度,这里每个氨基酸根据其一系列的物理特性(例如,溶解性、跨越水-汽相时产生的自由能等),被赋予一个数值以代表其疏水性。
具有更高正值的氨基酸具有更大的疏水性;而具有更低负值的氨基酸则更加亲水。
然后,沿蛋白质序列的疏水性的移动平均值,或者称为亲/疏水性索引被计算出来。
窗口的宽度是可以调整的,这里推荐7-11残基的窗口宽度以获得更多的信息和更少的噪声干扰。
最后把结果绘制成亲/疏水性-残基序号的线形图。
图11.2是用人的白介素8受体B作的TGREASE图。
图中的峰与实际跨膜区段的位置虽然不完全一致,但二者的相关性已经相当明显。
要注意的是这种方法不仅仅预测跨膜区段,还预测所有的疏水区。
专门用来检测跨膜区段的方法将在后面专门讨论。
………………
图11.2TGREASE所作Kytt-Doolittle疏水性分析结果。
输入序列是人高亲和白介素8受体B,使用了缺省的窗口长度。
图中底部的粗横线是手工加上的,代表了SWISS-PROT中标注的该蛋白1L-8R-B(P25025)中的七个跨膜区段的位置。
SAPS
蛋白质序列统计分析方法(StatisticalAnalysisofProteinSequences,SAPS)用于给出关于查询序列的广泛的统计信息(Brendel等,1992)。
当一个蛋白序列通过Web界面提交给SAPS,服务器会返回一大堆关于该蛋白的物理和化学性质的信息,这些都是仅仅通过序列本身就可以分析出来的。
输出的结果最先是按种类对氨基酸的统计计数;随后是电荷分布分析,包括正/负电荷聚集区的位置,高度带电和不带电区段,以及电荷的传播和模式等;最后的部分给出了高疏水性和跨膜区段、重复结构和多重态、以及周期性分析。
二级结构和折叠类
分析新发现的蛋白质或未知功能的基因产物的第一步是用BLAST或其它工具在公共数据库中进行相似性搜索。
然而,这种搜索可能无法找到一个已知相符蛋白质;即使能得到一个统计显著的相符蛋白质,也很可能在序列记录中没有任何关于其二级结构的信息,而这些信息对设计合理的生物化学实验十分重要。
虽然没有“已知”的信息,但仍然有办法预测出序列折叠成α螺旋或β叠片的性能。
这些方法依赖于对大量实验测定三维结构的蛋白质的观察和分析。
在讨论技术本身之前,有必要简要回顾一下二级结构和折叠类。
前面已经提及,许多氨基酸具有疏水性的侧链,而主链或称骨架是亲水性的。
肽链通过构成离散的二级结构元件来平衡这两种相反的作用力。
这在1951年由LinusPauling及其合作者提出(Pauling和Corey,1951)。
α螺旋是一种用来起瓶塞的钻头一样的螺旋结构,由主链构成螺旋的骨架,侧链从螺旋向外伸出。
骨架是通过各个氨基酸上的CO基团与C末端方向+4个氨基酸(n+4)的NH基团形成的氢键来保持稳定的,这样就形成了结实的棒状结构。
一些残基比其它残基更易形成α螺旋:
丙氨酸、谷氨酸、亮氨酸和甲硫氨酸经常在α螺旋中出现;而脯氨酸、甘氨酸、酪氨酸和丝氨酸一般不会在α螺旋中出现。
通常认为,脯氨酸是螺旋破坏者,这是由于它的环状结构中断了n+4氢键的形成。
与α螺旋相比,β链是一种更舒展的结构。
与α螺旋在二级结构单元内部形成氢键不同,氢键形成于两条或多条相邻的β链之间。
多条β链间通过这种氢键作用使整个结构形成β折叠片。
这些折叠片可以是平行的,也可以是反平行的,这取决于各β链中N末端和C末端的取向。
一个β折叠片的变种是β拐角,多肽链构成发卡状的急转弯,并形成反平行β叠片。
1976年Levitt和Chothia根据蛋白质中二级结构元件的排列顺序提出了一个分类系统(Levitt和Chothia,1976)。
非常简单,一个α结构基本由α螺旋构成;一个β结构主要由β链构成。
肌红蛋白是典型的全由α螺旋构成的蛋白质,因而属于α结构类(Takano,1977)。
质体蓝素是β类的好例子,其中8条β链间的氢键的模式形成了一个紧密的桶状结构(Guss和Freeman,1983)。
组合折叠类α/β是由交替出现的β链和α螺旋构成的。
黄素氧还蛋白是α/β蛋白的一个好例子,其中β链构成中心的β折叠,周围由α螺旋包围(Burnett等,1974)。
在以下讨论中,有一个术语会经常出现:
神经网络。
它赋予了计算过程“学习”的能力以模仿人类的学习,而大多数计算程序都延着固有的顺序盲目地执行指令。
神经网络技术在如二级结构预测这种分析模式和趋势的问题中有广泛的应用。
每个神经网络都包含一个输入层和一个输出层。
在二级结构预测的应用中,输入层是序列带来的信息,输出层是每个特定氨基酸形成特定二级结构的几率。
实际的学习过程发生在位于输入层和输出层之间的一个或多个隐含层中。
学习的实现需要向网络提供一组训练数据集。
这里,一组合适的训练集是已测出结构的蛋白质数据库。
网络会加工这些信息去寻找氨基酸序列与之以特定上下文关系所形成结构之间的微弱联系。
神经网络在二级结构预测中的应用更具体的讨论可见Kneller等(1990)的文献。
nnpredict
nnpredict算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Kneller等,1990)。
在预测时,服务器使用FASTA格式的文件,其中有单字符或三字符的序列以及蛋白质的折叠类(α、β或α/β)。
残基被分为几类,如α螺旋(H)、β链(E)或其它(-)。
若对给定残基未给出预测,则会标上问号(?
),这说明无法作出可信的分配。
若没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式。
据报道,对于最佳实例的预测,nnpredict的准确率超过了65%。
序列通过向nnpredict@celeste.ucsf.edu发送电子邮件提交给nnpredict。
以黄素氧还蛋白为例,电子邮件的格式为:
option:
a/b
>flavodoxin-Anacystisnidulans
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASKLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Option行标明蛋白质的折叠类:
n用于无折叠类,a为α,b为β,a/b为α/β。
每个电子邮件只能提交一个序列,服务器返回的结果经整理见图11.3。
PredictProtein
PredictProtein(Rost等,199