整理生物信息学第八章Word文件下载.docx

资源描述

整理生物信息学第八章Word文件下载.docx

《整理生物信息学第八章Word文件下载.docx》由会员分享，可在线阅读，更多相关《整理生物信息学第八章Word文件下载.docx（12页珍藏版）》请在冰豆网上搜索。

整理生物信息学第八章Word文件下载.docx

我们从两个多序列比对的方法开始，接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法，最后讨论两个具有赠送的方法，因为绝大多数公开的算法不能达到出版物的数量。

在本章结尾部分将会列出更详细的多序列比对的算法。

渐进比对方法

CLUSTALW

CLUSTALW算法是一个最广泛使用的多序列比对程序，在任何主要的计算机平台上都可以免费使用。

这个程序基于渐进比对的思想，得到一系列序列的输入，对于每两个序列进行双重比对并且计算结果。

基于这些比较，计算得到一个距离矩阵，反映了每对序列

Bioinformatics:

APracticalGuidetotheAnalysisofgenesandProteins

EditedbyA.D.BaxevanisandB.E.E.Ouellette

1998Wiley–Liss.Inc.

的关系，于是，基于邻近加入方法，这个矩阵被用来计算出一个系统发生辅助树。

这个辅助树，加权后可以证实极相近的序列，然后以双重比对极相近的序列开始，为组建比对提供基础，然后重新比对下一个加入的比对，依次类推。

如果加入的序列较多，那么毫无疑问，必须加入空位以适应序列的差异，但是加入空位必须接受空位开放罚分和空位扩展罚分。

在绝大多数情况下，使用者不会在比对时加入结构信息，但是空位开放补偿利用了可以出现在α-螺旋或β-折叠末端的特殊残基以及空位罚分所偏好的残基，众所周知，这些残基更喜欢显示这个特异性。

已经存在的空位的扩展原则很简单，只是要在那些极有可能在结构中形成弯曲的位点扩展空位，这些空位扩展罚分计算是有位置决定的。

为了介绍基于UNIX平台的CLUSTALW的使用，考虑一下从四种不同物种来源的UIA蛋白（人类，鼠，Xenopuslaevis和果蝇）。

这四种输入序列放在一个单独的文件中，作成六种可以接受的格式中的一种，然后在UNIX提示符下执行clustalw，用户必须执行命令才会看见主菜单:

*********************************************************************

**********CLUSTALW（1.60）MultipleSequenceAlignments******************

1.SequenceInputFromDisc

2.MultipleAlignments

3.Profile/StructureAlignments

4.Phylogenetictrees

S.Executeasystemcommand

H.HELP

X.EXIT（leaveprogram）

Yourchoice:

选择菜单中的选项1（SequenceInputFromDisc）以输入要比对的序列，选择1后会出现序列输入菜单:

Sequencesshouldallbein1title.

6formatsaccepted:

NBRFPIR,EMBI,SwissProt,Peatson（Fasta）,GDE,Clustal,GCGMSF.

Enterthenameofthesequencefile:

UIA.seqs

系统会提示用户有六种可以接受的格式，然后会提问输入序列的文件名，在这里序列输入文件名为UIA.seqs，一旦输入这个文件名，屏幕上会显示读取文件的过程，然后返回主菜单，这时，用户可以选择选项2进行多序列比对:

****************MULTIPLEALIGNMENTMENU*****************

1.DOCOMPLETEMULTIPLEALIGNMENTNOW（Slow/Accurate）

2.Produceguidetreefileonly

3.doalignmentusingoldguidetreefile

4.ToggleSlowFastpairwisealignments=SLOW

5.Pairwisealignmentparameters

6.Multiplealignmentparameters

7.Resetgapsbetweenalignments?

=ON

8.Togglescreendisplay=ON

9.Outputformatooptions

orpress[RETURN]togobacktomainmenu

从这一点看，用户在执行多序列比对时有很多选择的自由，举例来说，在MultipleAlignmentParameters下，用户可以实际空位开放和扩展的罚分，指出在组建辅助树时分歧到什么程度证明可以跳过一个序列，选择一个分值矩阵（BLOSUM或PAM），并且可以选择当一个亲水残基出现（或缺失）在一个特异位点时，是否要执行特异性罚分，如果需要，要罚多少分。

在PairwiseAlignmentParameters下，用户可以调整用于慢比对和快比对的罚分和窗口大小。

因为在这个例子中，我们没有可以用来指示我们改变比对参数的任何信息，因此只有选择选项1（”Docompletemultiplealignmentnow”）。

选择选项1后，程序会在屏幕上显示构件辅助树的过程，然后开始真正的所序列比对。

CLUSTAW结束时，会显示最终的比对结果，上述的例子的结果显示在图8.1中。

在比对下方，一些位点被标记为星号或圆点，这些标记分别显示这些残基在序列中是绝对或是高度保守的。

如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息，用户就可以再修正参数，然后返回程序，看它是否影响最终的比对。

CLUSTALW（1.60）multiplssequencealignment

hum-U1A------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ

mse-U1AMATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ

xla-U1A------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ

dme-U1A---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ

***************.******************...*****

hum-U1AAFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP

mse-U1AAFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP

xla-U1AAFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV

dme-U1AAFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA

*********.****.***********.**.*.****.**.***.**.*.

hum-U1AKSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPP

mse-U1AKSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPP

xla-U1AKVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPGMPPP

dme-U1APGTDEKKDKKKK-----------------------------------------------P

.**

hum-U1AGLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG

mse-U1AGLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFPG

xla-U1AGMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPG

dme-U1ASSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG

*.*..*.***.*************.***********

hum-U1AFKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK

mse-U1AFKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK

xla-U1AFKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK

dme-U1AFKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK

********.*********.*.*..**...*******..***.****

图8.1、以四种U1A序列为一系列的输入序列，使用CLUSTALW多序列比对程序后得到的比对结果。

保守性极高的残基位置由星号标记在序列下方的相应位置，保守性稍低的残基由打点标记出来。

MultiAlin

MultAlin方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个分层次的聚类。

当序列都分成类后，开始进行多序列比对，计算出多序列比对中的两个序列比对的新值，基于这些新值，重新构建一棵树。

这个过程不断进行，直到分值不在上升，此时所序列比对也就结束了。

MultAlin可以在INRAToulouse的一个环球网点上很容易地执行，要比对的序列按照FASTA的格式被粘贴到一个序列输入框内，然后从一系列下拉菜单中，用户定义适当的参数，比如输出格式，可选的输入格式，引用的分值矩阵以及空位开放和扩展罚分的分值。

大多数用户只会根据输入序列的远近关系，选择不同的分值矩阵。

然后，序列被提交到服务器上，当多序列比对返回时，会计算一个一致序列并显示在比对的下方。

举例来说，如图8.1所示的用CLUSTALW比对的同样的序列被提交给MultAlin服务器，接受缺省的比对参数，其结果如图8.2所示，在一致序列中，所有序列都匹配的残基相应的位置用此残基的大写字母表示，大多数都匹配的用小写字母表示，同样地，符号！

、$、%和#分别表示保守取代，具体含义如图8.2上方的图例。

很明显，用两种方法分别得到的比对结果并不完全一样。

主要区别在于CLUSTALW在果蝇序列中开放了两个长度超过10的空位，而MultAlin只开放了一个长空位，而且，MultAlin可以得到比CLUSTALW多20个完全相同残基的排队，当然，这并不以为这一种方法比另外一种方法优越，这有要重提本书的一个不便的话题，即从输入序列的性质出发，应用不同的方法会得到不同程度的成功。

警慎的用户会选择若干个工具同时使用，并且对最终的比对结果作手工修正以期达到最佳效果。

模体和样式

前面叙述的方法对于多序列比对极为有用，但是用户必须实现搜集好独立的输入序列，要么通过一系列的BLAST或其它的数据库搜索，要么在实验室里直接作出决定。

但是，有太多的方法可以获取一个单独的序列，并且基于此序列中的任何模体或样式，返回所有的蛋白质家族，完成某个特异方法所定义的最佳比对。

很多时候，这些方法所揭示的距离关系并非从例行的标准的数据库搜索中轻易获取。

在这一部分，我们讨论两种方法，都是搜索特殊数据库以获取序列的模体和样式的，当然也是两种从最少的序列信息中进行蛋白质家族分类的强有力的方法。

ProfileScan

基于经典的头文件分析的Gribskov方法,ProfileScan使用一种称为pfscan的方法寻找一个蛋白质或核酸的查询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库：

第一个是PROSITE，一个ExPASy数据库，通过使用模体和序列样式（诸如指纹）将生物学意义重大的位点收集分类；

第二个是Pfam,收集了蛋白质结构域家族，与其它收集方法有很大不同的是，最初的蛋白质结构域的比对完全是有手工完成的，而不是依靠自动化的处理方法，正因为这样，Pfam只拥有500多条款目，但这些款目的质量极好。

基于PROSITE和Pfam的搜索可以通过访问ProfileScan的主页完成，她只需要一条简单的输入序列（用文本格式），或者一个标号，比如一个SWISS-PROTID。

用户可以选择搜索的敏感度，选择返回显著的匹配或者所有匹配，甚至包括边界的情况。

为了说明输出的格式，我们现在向PROSITE系统提交人类的热休克诱导蛋白的序列作一次搜索:

normalizedtawfromtoProfile|description

355,980141556pos6-612PF00012|HSP70Heatshockhsp70protein

真正返回的PROSITE条目显得并不希奇，输出里含有值得注意的分值，这个前期加工（raw）的分值就是真正由搜索时使用的打分矩阵计算出来的，更信息化的数字是“normalized”，即N值，N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目，基本上来说，N值越大，偶然发生的命中几率就越小。

举例来说，如果N值为355，偶然命中的几率只有1.94Х10-349。

数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位点。

BLOCKS

BLOCKS数据库利用了块的概念，对蛋白质家族进行鉴定，而不是只依赖于单个的序列本身。

块的思想来源于更加普遍的概念&

#0;

模体（motif），模体通常是指一段氨基酸序列的保守的伸展，拥有一定的蛋白质功能或者结构。

当这些来源于同一家族中的蛋白质中的模体比对时（不引入空位），其结果就是块；

块就是指比对，而不是序列本身。

很明显，任何一个独立的蛋白都可以包含一个或者更多个的块，对应于它的每一个功能和结构模体。

BLOCKS数据库本身来源于PROSITE的条目。

当使用一个感兴趣的序列进行BLOCKS搜索时，查询序列就会同数据库中所有的块在任何可能的位点进行比对，对于每一个比对都会使用位点特异分值矩阵或者PSSM进行打分。

PSSM和这本书前面叙述的分值矩阵（例如BLOSUM62）的重大区别在于，其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的位点的可能性。

所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的一个特异位点的几率，这在本部分的结尾就会变的十分明白。

BLOCKS搜索可以通过访问西雅图的FredHutchinson肿瘤研究中心的BLOCKS主页完成，这个网点很直接，允许执行基于序列或者关键词的检索。

如果用户在输入时使用了DNA序列，他就可以指明使用哪个遗传密码，搜索哪条链。

不管执行搜索的是一个序列还是一个关键词，成功的搜索将会返回相应的块，图8.3显示了一个例子。

在这个条目中（一个核内激素受体，称为类固醇指针），头几行按顺序分别标记为ID，AC和DE，给出了这个块代表的家族的缩写，BLOCKS数据库注册码和家族的详细描述；

BL行给出了关于组建这个特别的块的原始序列模体的信息：

参数width和seqs表示block的宽度（用残基计算），以及这个块中有多少序列数目，接下来是统计学有效性和构成长度的信息；

最后是序列列表，只显示出对应于这个特殊模体的序列部分，每一行的开头都是这个序列的SWISS-PROT注册码，第一个残基在整个序列中的位置，然后是序列本身以及基于位点的序列权重，这个权重用100刻度，100表示序列距离这个群体最远；

注意到有些序列行中有空行：

部分比对被聚集在一起，在每个聚集中，80%的序列残基是相同的。

MoST　MoS

模体搜索工具（或者写作MoST），是一个UNIX程序，用来进行数据库搜索以寻找保守的模体。

这个方法使用比对序列块（比对块，alignmentblock），可以容纳任意数目N的序列，每一个长L，所有序列长度必须一致，但是在目前还不能引进空位。

这个比对块用来产生一个蛋白质权重矩阵，然后对所有序列进行矩阵扫描，从目标蛋白质数据库开始搜索，对每一个长L的片段通过加和适合的权重矩阵元素得到其分值。

如果找到在统计学上显著地匹配于序列块的序列，这些序列也会被加入到序列块中。

搜索完一个循环后，权重矩阵必须重新计算，然后重新进行搜索，这个过程反复进行，直到再也找不到统计学意义显著的匹配序列为止，这个过程因而在数据库搜索过程中不断积累新的信息。

在执行MoST时有一个可以设置的参数就是比例R，R表示预期的虚假匹配数目被预测的真实匹配数目。

因为MoST搜索预期将会收敛（就是说因为不会再找到新的序列，反复过程将会终止），所以R值的选择十分重要。

如果R值太高，搜索就会延伸而不是收敛，最后会引进目标数据库中的所有序列，避免虚假匹配的一个方法就是逐渐增大R值，观察匹配的数量和质量，如果可能出现延伸就放弃增大R值。

MoST命令行形式为:

mostdatabaseblock[method][seg][cutoff][i#%]>

outfile

在这里database指明要搜索哪一个数据库；

block指明含有输入比对块的文件名（用FASTA格式存储）；

可选的method参数指明了怎样计算依赖位置的权重矩阵：

如果不加指明，缺省值将选择出现一个特殊残基的可能性的Dirichlet分布，选项1引用加权平均（Gribskov方法），选项2引用Bayesian伪记数方法，选项3引用依赖数据的伪记数模型，至于执行中如何选择，在MoST的原始参考书中有详细描述，新用户应该先使用缺省值，检查结果的质量，然后考虑是否改变参数；

seg参数指明搜索中是否应用seg过滤算法，seg（缺省）表示开关开，-seg表示开关关；

阈值cutoff指明上面描述的比例R，推荐初始值选择在r0.1-r0.5；

最后，使用i#%参数将对输入块进行限制，比如，如果指定为i80%，在组中只有相同比列大于80%才被引用，这个选项可以在出现从多个物种来源的相同序列时，有效地放置数据系统的扭曲。

图8.4显示了一个MoST输出的例子。

输出文件很便利地回应了开始的命令，允许多重MoST，一个接一个地辨别。

接下来是真正的块，头和尾都有一个额外的序列，标记MAX的序列被认为是一个defacto一致序列，它是基于计算矩阵得分最高的序列，在这里，它得分为609，分值显示于序列最末端；

同样道理，标记为min的序列是最不一致的序列，得分最低，实际比对块的序列介于两行之间，按高分到低分排列，序列左边是序列标号，右边是分值。

图8.5是输出的延续，作为这个输入块的第一轮重复的结果，找到了5个新序列（比对的上方）。

在新序列的左边是这个条目的Def行的前几个特征，然后是显示的第一个残基的位置，序列本身以及序列的统计值。

更进一步，原始序列（比对块中的序列）再出现，这些序列可以反过头来使用更在Def行后的标志数字同序列块相比。

数字被缩短了，但是输出文件仍然继续，显示每一轮的计算结果，直到收敛。

这个输出的一个好特点就是不匹配于块的残基很容易显示出来，比对过程中程序已经替用户把它们用小写字母表示出来了。

PROBE

有一个最新的比对模型程序叫做PROBE，在某些方面，PROBE与MoST很相似，它们都运用反复计算的策略检测较远关系的序列，但是，从本质上讲，算法的机制是不一样的，所以有必要作进一步的讨论。

在决定哪些序列相关时，PROBE执行一个及物的搜索，如果一个双重搜索发现序列A和B是相关的，另外一个搜索发现序列B和C是相关的，那么A和C就一定相关，即使A和C之间的双重比对没有直接发现它们相关。

通过一系列的BLAST搜索，所有这样的联系都被反复演绎出来，直到再不会发现新的序列。

在这样一系列相关序列组成的集合上，将会进行一系列的比对，反复比对，直到比对不再改善。

这时，将会进行下一轮的数据库搜索，应用上一轮的最佳比对，寻找在上一轮中被忽略的相关序列。

PROBE程序反复操作这一过程，直到搜索收敛为止。

PROBE和MoST之间的一个很重要的区别就在于PROBE在搜索开始时只需要一个序列作为“种子”，即使可以使用一个家族的序列，而在MoST程序中，必须输入一个预先准备好的不包含空位的比对。

因为无法保证用机器寻找到的比对比手工的比对质量要好（很多时候恰恰相反），在进行MoST搜索时必然会携带手工计算比对时的位点偏向因素。

MoST和PROBE处理输入的方法是不一样的，MoST一次必须处理一个比对块，而PROBE按照反复搜索中的发现把输入序列分成多个块，在这里，用户要决定是否维持块的完整以及块是否可以进一步分成更小的组成单位，作出决定时最好依据它们的生物学功能。

最后，MoST是一个贪婪的算法，下一轮搜索中发现的新序列一旦加入

展开阅读全文