实验九蛋白质序列分析.docx

资源描述

实验九蛋白质序列分析.docx

《实验九蛋白质序列分析.docx》由会员分享，可在线阅读，更多相关《实验九蛋白质序列分析.docx（12页珍藏版）》请在冰豆网上搜索。

实验九蛋白质序列分析.docx

实验九蛋白质序列分析

实验九、蛋白质序列分析（3学时）

目的：

了解针对于蛋白质序列的分析内容与方法。

熟悉蛋白质的网上分析服务器。

内容：

预测蛋白质序列的物化特性；预测蛋白酶消化模式；预测跨膜结构以及卷曲螺旋（coiledcoil）结构；预测蛋白质的翻译后修饰；发现蛋白质中的功能结构域；蛋白质结构域分析常用网站。

Whenyou’restudyingaprotein,youturnyourselfintoaninvestigator.

也就是说，你希望在实验设计之前了解与此有关的任何信息。

比如，蛋白质序列的分子量、等电点等基本物化特性，活化的蛋白质会起什么作用？

它是否会在翻译后进行修饰？

是否是个跨膜蛋白？

是否有已知的3D结构？

如果它是个酶，那么它的底物是什么？

当然相似性搜索也能够帮助你猜测蛋白质所包含的功能。

如果你发现某处的一个蛋白质序列数据库（每个序列都经过了非常详细的研究与注释）中有与你的蛋白质序列非常相似的序列，你就可以说这条记录中的蛋白质特性有极大的可能也会出现在你的序列中。

如果你希望利用计算机做一些生物化学研究，这里有两个非常好的网上站点：

TheExPASy（ExpertProteinAnalysisSystem）serveratwww.expasy.ch（youcanaccesstohttp:

//cn.expasy.org,whichisthemirrorserverofExPASyinChina）,withaspecificpagededicatedtoproteinanalysismethods.

TheSwissEMBnetatwww.ch.embnet.org.

一、预测蛋白质的主要物化特性。

ProtParam是ExPASy服务器上的一个程序，可方便地评估蛋白质序列中的每一种简单的物化特性。

1、进入ExPASy服务器www.expasy.ch,在主页右侧“Toolsandsoftwarepackages”栏下有一个Proteomicsandsequenceanalysistools，其下有多个选项，选定Primarystructureanalysis的链接（或直接利用http:

//au.expasy.org/tools/#primary进入），选择第一项ProtParam。

2、如果你的序列在SWISSPROT（SP）中有记录，就可以使用SP的AC号进行分析，如果你的序列不在SP库中，则在另一窗口中粘贴进裸序列（rawdata）进行分析。

（我们先使用其示例蛋白AC号P05130，可先从页面上方的快捷检索栏中输入此AC号，在SWISS-PROT/TrEMBL中的查找此序列的相关信息。

）点击computeparameters。

3、如果你选用的是SP库的AC号进行分析，则会出现一个中间页面，你可以看到在你序列中的一些特性的列表，注意这不是预测结果，只是显示了SP记录中所包含的信息。

在此信息的下部有两栏内容需要你输入要分析的片段范围。

如果这两栏空着，则ProtParam会给出整条序列的分析结果。

点击SUBMIT.

4、结果中包括了分子量、消光系数、半衰期等信息，你可以利用浏览器的File-saveas来保存你的结果。

5、ProtParam的结果说明。

http:

//au.expasy.org/tools/protpar-ref.html处的Fulltext链接提供的PDF文件对ProtParam进行了详细的解释，你可以从中了解ProtParam是如何计算得到这些参数的。

下面是一些你要注意的地方：

分子量。

A、程序计算的只将序列中的所有残基的分子子进行相加，结果中并不包含翻译后的修饰如糖基化和磷酸化的情况。

B、结果中不会考虑诸如去除前导肽等复杂的蛋白质成熟机制。

C、ProtParam不会知道你的成熟蛋白质是否会形成二聚体、三聚体或多聚体。

因此，这类问题会使你的实验结构与预想值相差很远。

消光系数（Extinctioncoefficient）。

可以让你知道在特定的波长下你的蛋白质会吸收多少光强。

当你纯化了蛋白质后需要对其进行分光光度计检测时，此估计值就很有用。

（注意：

ProtParam的预测值只是一种指示。

ProtParampredictstheextinctioncoefficientbysummingthecontributionofeveryaminoacidasifeachwasindependent.Thiscalculationignoresthefactthatthebehaviorofaminoacidscanbedramaticallyaltereddependingontheirimmediatesurroundings.Thisisn’tsomethingthatcanbepredicted.Ifyouneedtheexactcoefficient,youmustmeasureitexperimentally.Ontheotherhand,formostproteins,theexperimentalcoefficientisrarelyverydifferentfromthetheoreticalone.）

不稳定性（Instability）。

这个值只是对蛋白质稳定性的一个粗略估计。

Whentheindexisbelow40,theproteinisusuallystable.Above40,itmaynotbestable.

半衰期（Half-life）。

粗略的估计你的蛋白质经过多长时间后其存在于细胞内的总量比其最初合成时减少了一半。

这一预测针对三种不同的物种。

你可以从中外推到相似的物种。

（注意：

如果你的蛋白质降解属于一个调控过程，则半衰期的预测值没有任何意义。

）

二、蛋白质的模拟消化

如果你只希望利用蛋白质序列中你感兴趣的那部分进行实验时，可以利用一个蛋白质酶对你的蛋白质进行特异性消化。

如果你想做下列实验时，同样需要使用蛋白酶的消化：

A、分离你的蛋白质中的结构域；B、通过质谱鉴定可能的翻译后修饰；C、当你表达了一个融合蛋白的时候去除标记蛋白（tagprotein）；D、确认你克隆的蛋白质对某些内源蛋白酶不敏感。

ExPASy服务器上有一个PeptideCutter工具（在www.expasy.ch/tools/#proteome页面中）可满足此方面的要求。

利用上个实验所使用的蛋白质P05130进行模拟蛋白酶切，相关说明及特定的蛋白酶酶切位点都有链接，指导你的使用。

三、蛋白质一级结构分析

一级结构即为蛋白质的氨基酸序列。

它不会反应出氨基酸残基间可能的相互作用（这种残基间的相互作用是由二级结构及三级结构预测来完成的）。

一级结构的分析是为了发现序列中的一些特定组成片段，而这些片段可能会揭示蛋白质的特性。

比如：

A、蛋白质中的疏水区域可能是一个跨膜片段，并将蛋白质定位于膜上；B、coiled-coil区域暗示了可能的蛋白质-蛋白质相互作用；C、亲水片段将可能形成蛋白质表面的环状结构。

在此部分实验中所使用的分析方法中很多都依赖于滑动窗口技术。

以滑动窗口以基础的预测不会很敏感也不会很精确，但它却很实在。

如果你用此种方法发现了一个很强的信号，一般说来它都是一个真正的生物学信号。

1、查找跨膜片段

预测你的蛋白质中是否具有跨膜片段会比其它任何的简单预测告诉你的功能信息都要多。

如果知道你的蛋白质是一个跨膜蛋白，就不会采用与球蛋白同样的技术对它进行研究；如果你发现跨膜片段存在于蛋白质的N-端，你可以猜测它是个分泌蛋白；如果蛋白中存在多个跨膜结构域，则暗示了它是个通道蛋白。

这里我们给出两个跨膜片段预测工具：

ProtScale（onExPASyserver,itisaverysimpleone,doesn’tpredictanythingforyou;itreturnsahydrophobicityprofileandletsyoudotheinterpretation.）以及TMHMM（notapartofExPASy,itisaserviceofferedtothecommunitybytheTechnicalUniversityofDenmark.Oneofthemostcomplete,tellsyouabouttheportionsofyourproteinthatareprobablyinsidethecellandthosethatareprobablyoutside）。

1）运行ProtScale。

A、进入ProtScal：

www.expasy.ch/cgi-bin/protscale.pl.

B、将序列的AC号（P78588）输入小的搜索框。

（P78588是SP数据库中的记录，这个蛋白含有7个跨膜片段）

C、在页面下方的Pleasechooseanaminoacidscalefromthefollowinglist的选项中选择

Hphob./Kyte&Doolittle。

你可以看到页面提供了大量的蛋白质特性供你检测蛋白质使用，而此项是最适合预测跨膜螺旋的蛋白质特性。

D、在windowSize下拉菜单中，选择19（由于跨膜结构的基本长度为21个氨基酸，因此此值比较适合发现跨膜结构域）。

E、点击Submit。

与第一项物化特性分析的ProtParam一样，出现了一个中间页面，显示了SP数据库记录中的信息，并可以对要分析的片段的范围进行限定（注意留心此记录中所记载的7个跨膜结构的位置）。

随后，可点击Submit执行分析。

F、显示的结果如图，可利用右键图片另存保存你的结果。

在上图中，记录中记载的跨膜结构域都在图下部用短粗线进行了标记。

一般说来，利用KyteandDoolittle方法的推荐阈值为1.6。

从图中我们可以清楚地分辨7个跨膜结构中的5个，第6个我们可以猜想得到，而第7个跨膜结构我们却无法看得出来。

这没什么可惊奇的：

很多包含7个跨膜结构区域的蛋白质都是很容易发现其中的6个，但第7个非常难以预测。

你还可以在前一页的Pleasechooseanaminoacidscalefromthefollowinglist中选择利用其他的scale如Eisenberg来确认你的结果是否具有意义。

结果与刚才得到的结果有一些不同，但主要的特性则非常相似。

2）运行TMHMM。

TMHMM利用了精密的数据模型（隐马尔可夫模型）来预测跨膜区域。

A、点击www.cbs.dtu.dk/services/TMHMM进入TMHMM。

B、TMHMM只识别FASTA格式的的序列。

所以要先拿到P78588的序列，将之粘贴到相应的窗口中。

C、选择UseOldModel选项。

（对此蛋白而言，旧版本的工具比新版要更准确一些。

这一点可根据不同的蛋白而进行改变），其它选项保持默认值（如Extensivewithgraphic）。

点击Submit。

D、在结果中以图形的方式显示了跨膜结构。

你可以将它保存下来。

ProtScale与TMHMM的两个主要不同点：

A）TMHMM返回了一个精确的预测结果；B）TMHMM预测了哪个片段在细胞内而哪个片段在细胞外。

在此例中，TMHMM未鉴定出中间234-255氨基酸残基间的跨膜片段，但它给出的5个片段的位置估计值相当准确。

如果你为了设计实验而需要一个准确的预测，最好使用多个不同的预测方法。

当预测方法差异很大而给出的结果却是一致的话，则说明你的思路是正确的。

2、查找卷曲螺旋（coiled-coil）片段

卷曲螺旋区域是蛋白质中两个或多个α螺旋互相缠绕所形成的结构。

我们之所以对卷曲螺旋区域感兴趣，原因之一是它经常存在于蛋白质-蛋白质的相互作用中。

另一个原因则是它会在进行数据库搜索时形成假阳性匹配。

因此在数据库搜索前最好先将它们进行屏蔽。

你可以利用EMBnet上的COILS服务器来发现蛋白质中的coiled-coil区域。

www.ch.embnet.org/software/COILS_form.html

四、预测翻译后修饰

蛋白质经常需要经过修饰才形成有活性的蛋白。

而翻译后修饰则包括了增加糖基、氨基酸的修饰以及去除新合成的蛋白质的部分片段。

如果你想在细菌中克隆并表达一个人类蛋白质，你就应该了解蛋白中的这些情况。

因为你所表达的人类蛋白质如果要成为活性蛋白，可能需要一些翻译后的修饰，而这种修饰是细菌所不能做到的。

分析翻译后修饰最有用的工具是PROSITE。

它是一个能够在ExPASy站点上发现的数据库，包含了很多由实验验证的与某些生物学特性相关的短序列模式。

这些模式中很多都与翻译后的修饰有关。

将你的序列与这些模式进行比较，就可以发现你的蛋白质中可以会发生什么样的修饰。

（注意：

做序列分析时一定要记住：

短序列（比如少于20个氨基酸残基）的相似性并不都具有相同的功能。

也就是说，如果一个短序列可以代表蛋白质中的ATP结合位点，而你的序列中正好有这样一个短序列，并不能说你的蛋白是个ATP结合蛋白，只能说显示它可能是个ATP结合蛋白。

当然，短序列的片段越长，这种指示作用越强。

）

1、查找PROSITE模式。

1）进入ScanProsite，http:

//au.expasy.org/tools/scanprosite/

2）利用左侧的查询框查找序列中包含的序列模式（这里我们使用的是SP的蛋白质P12259，这是一个人类凝血因子V蛋白）。

3）在页面下部的GeneralOptions中选中Donotscanprofiles。

（因为对于翻译后修饰，pattern比profile更有意义。

）点击StarttheScan。

4）如果你的结果返回的很慢，你可以试用世界各地其他的镜像站点进行分析。

2、ScanProsite的结果说明。

大多数翻译后修饰模式的主要问题是它们太短，以致于在序列中发现的匹配模式可能是被偶然命中的因而不具有真正的生物学意义。

在ScanProsite的结果中，通过每一个pattern的AC号（PSXXXX）的链接都可以查看其详细的高质量的注释文件（PDOCXXXXX），其中包含了很多这一模式的相关信息及它可能的生物学功能。

而PSXXXX记录中则包含了很多获得这一模式所采用的方法及技术信息。

在PSXXXX后面黑体表示的则为此模式的名称。

如果模式过短，则有可能是不相关的。

此时会在显示结果的后面出现一条警告信息：

[Warningpattenwithahighprobabilityofoccurrence].

有些被鉴定模式的蛋白质3D结构已知，就会在结果命中的模式后面看到其PDB数据的名称及相应的链接。

点击它，就会看到相应结构的静态图像。

其中蛋白质是用带状来表示的，而特定的匹配模式序列所在的区域用绿色的球棍显示。

思考问题：

我们可以从结果中找到一个模式N-myristoylationsite（PS00008）在给定的序列中发现了19次！

结合相应的PDOC文件，分析此序列是否具有这样的功能？

注意：

当发现一个翻译后修饰时，先要确认发生这种修饰的物种是否与提交的序列相符。

因为在原核生物中的修饰经常与真核生物中的修饰有所不同。

你必须查阅相应模式（pattern）的信息。

比如，myristillation只发生于真核生物。

如果你在原核生物的序列中发现一个myristillationsite，就可以对这一信息不予理睬。

3、利用SignalP（http:

//www.cbs.dtu.dk/services/SignalP/）进行信号肽的预测。

信号肽是蛋白质N-端的一段序列，一般不会长于45个氨基酸残基。

SignalP是ExPASy提供的工具之一。

它在真核生物、格兰式阴性菌、格兰式阳性菌3个水平上预测信号肽。

主要通过人工神经网络、隐马尔可夫模型等方法的组合对信号肽的位置及相应的切点做出预测。

这里我们使用SP的P02753序列（即RETB_HUMAN,序列的前18个氨基酸残基为信号肽）。

将FASTA格式的序列粘贴进提交窗口。

点击Submit后耐心等待，其间可能会出一个要你的E-mail的中间页面，我们可以不管它，直到服务器返回最终结果。

可以看到预测结果与数据库注释相吻合（可以点击结果下方的Explaintheoutput链接，理解C、Y、S等值的含义，并可以浏览SignalP中的两个示例蛋白预测结果）。

五、发现蛋白质中的结构域

结构域（domain）是蛋白质中的一部分，如果将蛋白质的其余部分去除，结构域部分仍然能够起作用。

一个结构域至少包含了50个氨基酸残基。

一般说来，每一个蛋白质中的结构域都执行着特定的功能：

与其它蛋白质发生相互作用；结合钙、锌等金属离子；或包含一个活性位点等。

比较常见的情况是蛋白质含有一个催化结构域（catalyticdomain）、相关的结合结构域（bindingdomain）以及一个调控结构域（regulatorydomain）。

目前有很多的结构域数据库，如Prosite,Pfam,PRINTs,PRODOM等等，InterPro综合了多个结构域数据库的信息，是查找domain信息的一个好去处。

然而，InterPro也不是包罗万象的，如果要对序列中包含的结构域信息进行全面的分析，则需要使用不同的结构域服务器。

1、利用InterProScan来发现结构域

1）进入EBI的InterProScan页面http:

//www.ebi.ac.uk/InterProScan/。

2）这里允许以多种序列格式输入序列数据，但不允许使用AC号。

这里我们使用FOSB_HUMAN序列为例。

3）选择结果的显示方式。

（Interactive即将结果返回你的浏览器窗口，而E-mai则将结果发送给你。

一般情况下选择interactive）

4）点击Submitjob。

耐心地等待结果。

5）可以将结果以网页的形式保存下来。

6）结果说明。

结果中的每一行都代表着序列与某个结构域数据库中的某个结构域相匹配。

其中：

*黄色的条框表明是一个家族或结构域的特征。

一些结构域或信号是整个蛋白质家族所特有的，还有些只为结构域所特有。

当不同的结构域数据库中的几个结构域描述的是同一个内容的时候，InterPro数据库就会将它们组合在一个条框上，比如IPR004827结构域。

*IPRXXXXXX链接指向了InterPro数据库文件。

这一文件努力将各种不同的结构域数据库中的分散信息进行集中与概括。

为了更好地理解各个domain，经常阅读InterPro文件以及各个独立的分文件是一个不错的主意。

*在每一行的前面都有一个链接指向相应数据库的结构域记录。

比如点击PS00138则会进入PROSITE数据库，这里你可以找到独立的PROSITE说明文件。

*在每一行中那些小的带颜色的条框显示了你的序列中哪一部分发现了相应domain的匹配。

它们的大小与domain的大小成正比。

将鼠标移至这些条框上，就会显示你的序列上的匹配情况。

*每一行末尾处的名称是相应数据库记录的名称。

*每一个IPRXXXX对应的名称可以提示你匹配区段可能的生物学意义。

2、利用CD服务器发现结构域

NCBI的CD（conserveddomain）服务器与InterPro原理相类似。

CD服务器的主要优点是给出命中的分数，因而帮助我们从大量匹配中鉴别相对的好坏。

其缺点是不像InterPro那样整合了大量的数据库内容，尽管它包含的结构域数据也相当多，但这些资源是NCBI自己的，你不会在其它地方找到。

1）进入NCBI的CDD。

www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

2）在检索框中输入FOSB_HUMAN蛋白的序列或AC号

3）去掉FilterthelowComplexity选项前面的对钩（在AdvancedOptionsfortheBLASTServer下）。

在很多有意义的结构域中，某个氨基酸残基会重复出现很多次。

比如在亮氨酸拉链中会出现多个亮氨酸，或在富甘氨酸结构域中出现多个甘氨酸等。

如果使用低复杂度重复屏蔽，则可能漏掉这些结构域。

4）点击submitQuery，并保存结果。

5）结果说明。

CD服务器的结果与BLAST程序的结果非常相似。

在图解显示区，红色的结构域来源于SMART；蓝色的结构域来源于Pfam；而粗糙的末端表明序列只与结构域部分匹配。

注意：

A、一般说来，E值低于0.01时才能说明问题；而当去除了低复杂重复屏蔽后，所需的E值就要更低一些。

B、对那些部分匹配的结构域持怀疑态度，尤其是部分匹配存在于低复杂重复区域时。

3、利用Pfscan来发现结构域

开发Pfscan的人即是那些维护PROSITE的人。

Pfscan服务器为你提供了一个非常强大的使用PROSITE的界面。

Pfscan还包括了一些未正式通过InterPro公布的结构域。

如果你在InterProScan服务器或CD服务器上未发现什么有意的情况时，Pfscan是你最后的机会！

1）进入Pfscan页面。

http:

//myhits.isb-sib.ch/cgi-bin/motif_scan

2）利用序列的AC号、裸序列或FASTA格式的序列进行分析。

这里我们仍使用FOSB_HUMAN（P53539）序列。

3）在parameter的DatabaseofMotifs中选择你希望的结构域数据集。

注意：

PROSITE要比Pfam小得多。

选择PROSITE要比选择Pfam结果来得快。

4）点击Search。

Pfscan提供了一个非常丰富的结构域分析结果。

然而其结果不如InterProScan及CD那样容易解释。

总的说来，Pfscan使用的是归一化处理后的记分，分值越高说明匹配越好。

当分值超过7时可认为相关性较好。

Pfscan并未按照命中记分进行排序，有相关性的命中会以Status:

的形式表示。

六、网上更多的免费蛋白质分析工具。

下面列出网上的几个免费的蛋白质序列分析服务器：

ExPASywww.expasy.ch/tools（你可以使用它的多个镜像站点进行分析）

Pbilhttp:

//npsa-pbil.ibcp.fr

PIRhttp:

//pir.georgetown.edu

CBSwww.cbs.dtu.dk/services

Hitshttp:

//hits.isb-sib.ch

InterProwww.cbi.ac.uk/interpro/scan.html

CDsearchwww.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

综合练习：

Swissprot数据库中的P49333序列是拟南芥中的乙烯受体蛋白。

仔细阅读记录中的各种相关信息，思考并回答下列问题：

1、利用ExPASy中的工具PSORT进行此蛋白的定位预测（位于tools的Topologyprediction中），与SP记录中的内容进行比较；

2、利用TMHMM进行跨膜区域预测，与SP记录中的内容进行比较；

3、阅读发表在2002年JBC上的文献摘要，ChenYF等人是利用何种实验方法对蛋白的定位进行实验的。

4、找到此蛋白在染色体上的定位

展开阅读全文

实验九 蛋白质序列分析.docx

实验九蛋白质序列分析.docx