BLAST核酸氨基酸序列相似性比较.docx

资源描述

BLAST核酸氨基酸序列相似性比较.docx

《BLAST核酸氨基酸序列相似性比较.docx》由会员分享，可在线阅读，更多相关《BLAST核酸氨基酸序列相似性比较.docx（13页珍藏版）》请在冰豆网上搜索。

BLAST核酸氨基酸序列相似性比较.docx

BLAST核酸氨基酸序列相似性比较

BLAST核酸/氨基酸序列相似性比拟

Blast （BasicLocalAlignmentSearchTool）是一套在蛋白质数据库或DNA数据库中进展相似性比拟的分析工具。

BLAST程序能迅速与公开数据库进展相似性序列比拟。

BLAST结果中的得分是对一种对相似性的统计说明。

BLAST采用一种局部的算法获得两个序列中具有相似性的序列。

如果您想进一步了解BLAST算法，您可以参考NCBI的BLASTCourse，该页有BLAST算法的介绍。

BLAST的功能

BLAST对一条或多条序列（可以是任何形式的序列）在一个或多个核酸或蛋白序列库中进展比对。

BLAST还能发现具有缺口的能比对上的序列。

BLAST是基于Altschul等人在J.Mol.Biol上发表的方法（J.Mol.Biol.215:

403-410（1990））,在序列数据库中对查询序列进展同源性比对工作。

从最初的BLAST开展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在了。

BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。

所查询的序列和调用的数据库那么可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。

BLAST包含的程序：

1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列〔一条核酸序列会被翻译成可能的六条蛋白〕，再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白〔每条核酸序列会产生6条可能的蛋白序列〕，这样每次比对会产生36种比对阵列。

　　通常根据查询序列的类型〔蛋白或核酸〕来决定选用何种BLAST。

假设是作核酸－核酸查询，有两种BLAST供选择，通常默认为BLASTN。

如要用TBLASTX也可，但记住此时不考虑缺口。

BLAST适用于本地查询。

可以下载公共数据库，对于该数据库的更新和维护是必不可少的。

如果要直接到网上查询也可以〔即ＮetＢlast〕，但记住如果你认为自己的序列很有价值的话，还是慎重为宜。

　　如何访问在线的BLAST功能效劳?

　　您只要通过浏览器访问Blast主页（blast.ncbi.nlm.nih.gov/）。

所有的查询和分析都通过浏览器来完成，就象您在您的本地机上一样方便和快捷。

BLAST采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍：

1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列〔一条核酸序列会被翻译成可能的六条蛋白〕，再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白〔每条核酸序列会产生6条可能的蛋白序列〕，这样每次比对会产生36种比对阵列。

NCBI的在线blast：

blast.ncbi.nlm.nih.gov/Blast.cgi

1，进入在线blast界面，可以选择blast特定的物种〔如人，小鼠，水稻等〕，也可以选择blast所有的核酸或蛋白序列。

不同的blast程序上面已经有了介绍。

这里以常用的核酸库作为例子。

2，粘贴fasta格式的序列。

选择一个要比对的数据库。

关于数据库的说明请看NCBI在线blast数据库的简要说明。

一般的话参数默认。

3，blast参数的设置。

注意显示的最大的结果数跟E值，E值是比拟重要的。

筛选的标准。

最后会说明一下。

4，注意一下你输入的序列长度。

注意一下比对的数据库的说明。

5，blast结果的图形显示。

没啥好说的。

6，blast结果的描述区域。

注意分值与E值。

分值越大越靠前了，E值越小也是这样。

7，blast结果的详细比对结果。

注意比对到的序列长度。

评价一个blast结果的标准主要有三项，E值〔Expect），一致性（Identities），缺失或插入〔Gaps〕。

加上长度的话，就有四个标准了。

如图中显示，比对到的序列长度为1405，看Identities这一值，才匹配到1344bp,而输入的序列长度也是为1344bp〔看上面的图〕，就说明比对到的序列要长一点。

由Qurey〔起始1〕和Sbjct（起始35）的起始位置可知，5'端是是多了一段的。

有时也要注意3'端的。

附：

E值〔Expect）：

表示随机匹配的可能性，E值越大，随机匹配的可能性也越大。

E值接近零或为零时，具本上就是完全匹配了。

一致性（Identities）：

或相似性。

匹配上的碱基数占总序列长的百分数。

缺失或插入〔Gaps〕：

插入或缺失。

用"—"来表示。

BlastN/MegaBlast/DiscontiguousMegaBlast的区别：

三者之间的共同之处就是BlastN/Megablast/Discontiguousmegablast都是BlastN,就是核酸序列比对核酸序列的算法。

简单而言

BlastN:

应该是出现较早的算法。

比对的速度慢，但允许更短序列的比对〔如短到7个碱基的序列〕。

MEGABLAST:

主要用来鉴定一段新的核酸序列，它并不注重比对各个碱基的不同和序列片断的同源性，而只注重被比对序列是否是数据库未收录的，是否为新的提交序列或基因。

速度快。

同一物种间的。

DiscontiguousMEGABLAST:

灵敏度〔sensitivity〕更高，用于更准确的比对。

主要用于跨物种之间的同源比对。

详细解释

1，MEGABLAST常被用于鉴定核酸序列

MEGABLASTisthetoolofchoicetoidentifyanucleotidesequence.

MegaBLAST也是一种BLASTN程序，不过它主要是用来在非常相似的序列之间〔来自同一物种〕比对同源性的。

鉴定某一段核酸序列是否存在于数据库，最好的方法是选择MEGABLAST。

如果比对到的序列在数据库中注释完整的话，那该序列丰富的注释可以当作新序列的参考。

当然，BlastN/MEGABLAST/DiscontiguousMEGABLAST，都可以完成这种事情。

但MEGABLAST就是特别设计用于非常相似序列之间的比对，可用于寻找查询序列的最正确匹配的序列。

2，DiscontiguousMEGABLAST更好地用于查找不同物种的相似的核酸序列，而不是与查询序列一样〔identical〕物种的。

DiscontiguousMEGABLASTisbetteratfindingnucleotidesequencessimilar,butnotidentical,toyournucleotidequery.

DiscontiguousMEGABLAST，用于跨物种核酸序列快速比对。

它使用非重叠群字段匹配算法〔noncontiguouswordmatch〕来进展核酸比对。

DiscontiguousMegaBLAST比blastx等翻译后比对要快得多，同时它在比拟编码区时也具有相当高的敏感度。

但是需要指出的是，核酸与核酸之间的比对并不是发现同源蛋白编码区域的最正确方法，直接在蛋白水平用Blastp比对更好。

这是因为密码子的简并性。

（Lc.注：

翻译得有些拗口，多多见谅！

）

DiscontiguousMEGABLAST详细介绍：

.ncbi.nlm.nih.gov/blast/discontiguous.html

原文：

.ncbi.nlm.nih.gov/blast/producttable.shtml#tab31

本文详细出处参考：

liucheng.name/1009/#more-1009

1，Blastp:

标准的蛋白序列与蛋白序列之间的比对

StandardproteinBLASTisdesignedforproteinsearches.

Blastp用于确定查询的氨基酸序列在蛋白数据库中找到相似的序列。

跟其它的Blast程序一样，目的是要找到相似的区域。

2，PSI-BLAST:

敏感度更高的蛋白序列与蛋白序列之间的比对

PSI-BLASTisdesignedformoresensitiveprotein-proteinsimilaritysearches.

Position-SpecificIterated（PSI）-BLAST，是一种更加高灵敏的Blastp程序，对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。

当你使用标准的Blastp比对失败时，或比对的结果仅仅是一些假基因或推测的基因序列时〔"hypotheticalprotein"or"similarto..."〕，你可以选择PSI-BLAST重新试试。

3，PHI-BLAST:

模式发现迭代BLAST

PHI-BLASTcandoarestrictedproteinpatternsearch.

PHI-BLAST,模式发现迭代BLAST,用蛋白查询来搜索蛋白数据库的一个程序。

仅仅找出那些查询序列中含有的特殊模式的对齐。

PHI的语法详细介绍看这里：

.ncbi.nlm.nih.gov/blast/html/PHIsyntax.html

PeptideSequenceDatabases蛋白序列的数据库

Allnon-redundantGenBankCDStranslations+ RefSeq Proteins+PDB+SwissProt+PIR+PRF

所有非冗余的的GenBankCDS区的翻译序列+参考序列的蛋白+PDB数据库 +SwissProt蛋白数据库+PRF蛋白数据库

refseq

RefSeqproteinsequencesfrom NCBI'sReferenceSequenceProject.

所有NCBI的参考序列

swissprot

LastmajorreleaseoftheSWISS-PROTproteinsequencedatabase（noupdates）.

swissprot的蛋白数据库

pat

ProteinsfromthePatentdivisionofGenPept.

专利的蛋白数据库

pdb

Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank.

PDB数据库

month

AllneworrevisedGenBankCDStranslation+PDB+SwissProt+PIR+PRFreleasedinthelast30days.

一个月新增加的蛋白序列

env_nr

Proteinsequencesfromenvironmentalsamples.

来自environmentalsamples的蛋白序列

NucleotideSequenceDatabases核酸数据库

AllGenBank+RefSeqNucleotides+EMBL+DDBJ+PDBsequences（excludingHTGS0,1,2,EST,GSS,STS,PAT,WGS）.Nolonger"non-redundant".

所有GenBank的核酸序列+参考序列中的核酸序列+EMBL+DDBJ+PDB核酸序列〔但不包括HTG，EST，GSS等序列〕

refseq_rna

RNAentriesfromNCBI'sReferenceSequenceproject

NCBI参考序列中的核酸序列

refseq_genomic

GenomicentriesfromNCBI'sReferenceSequenceproject

NCBI参考序列中的基因组序列

est

DatabaseofGenBank+EMBL+DDBJsequencesfromESTDivisions

来自GenBank+EMBL+DDBJ的EST序列

est_human

Humansubsetofest.

人的EST序列

est_mouse

Mousesubset.

小鼠的EST序列

est_others

Non-Mouse,non-Humansubsetofest.、除了人与小鼠之外的EST序列

gss

GenomeSurveySequence,includessingle-passgenomicdata,exon-trappedsequences,andAluPCRsequences.

htgs

UnfinishedHighThroughputGenomicSequences:

phases0,1and2（finished,phase3HTGsequencesareinnr）

未发布的高通量的基因组测序

pat

NucleotidesfromthePatentdivisionofGenBank.

专利的核酸序列

pdb

Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank

PDB核酸序列

month

AllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30days.

一个月新增的核酸序列

dbsts

DatabaseofGenBank+EMBL+DDBJsequencesfromSTSDivisions.

STS数据库

chromosome

AdatabasewithpletegenomesandchromosomesfromtheNCBIReferenceSequenceproject..

NCBI参考序列方案中所有的完整基因组和染色体序列

wgs

Adatabaseforwholegenomeshotgunsequenceentries.

基因组鸟枪法测序得到的序列

env_nt

Nucleotidesequencesfromenvironmentalsamples,includingthosefromSargassoSeaandMineDrainage

projects.

来自environmentalsamples的核酸序列。

NCBI中Blast可以用来进展序列比对、检验引物特异性

Blast导航主页面主体包括三局部

BLASTAssembledGenomes选择你要比照的物种，点击物种之后即可进入比照页面

BasicBLAST包含5个常用的Blast，每一个都附有简单介绍

SpecializedBLAST是一些特殊目的的Blast，如Primer-BLAST、IgBLAST

根据需要做出选择

本学期学习了最根本的核苷酸序列的比对

点击BasicBLAST局部的nucleotide到一个新的页面，翻开后的页面特征：

大体上包括三个局部

EnterQuerySequence局部可以让我们输入序列，其中的JobTitle局部可以为本次工作命一个名字

ChooseSearchSet局部可以选择要与目的序列比对的物种或序列种类。

其中的EntrezQuery可以比照对结果进展适当的限制。

ProgramSelection局部可以选择本次比照的准确度，种种间等等。

其次Blast按钮下面有一个“Algorithmparameters〞算法参数，可设置参数。

点击Blast后，出现的页面大体上包括四个局部

一．所询问和比对序列的简单信息

1．询问序列的简单信息——名称、描述、分子类型、序列长度

2．所比对数据库的名称、描述和所用程序

二．GraphicSummary——blast结果图形显示

相似度颜色图〔黑、蓝、绿、粉红、红，相似度由低到高〕

三．Descriptions——blast结果描述区

1．到其他数据库的

2．描述以表格的形式呈现〔以匹配分值从大到小排序〕

（1）Accession下程序比对的序列名称，点击相应的可以进入更为详细的mapviewer

（2）Descriptions下是对所比对序列的简单描述

接下来是5个结果数值：

（3）Maxscore匹配分值，点击可进入第四局部相应序列的blast的详细比对结果

（4）Totalscore总体分值

（5）Querycoverage覆盖率

（6）Evalue——E〔Expect〕值，表示随机匹配的可能性。

E值越大，随机匹配的可能性也越大。

E值接近零或为零时，具本上就是完全匹配了。

（7）Maxident——匹配一致性，即匹配上的碱基数占总序列长的百分数。

（8）Links——到其他数据库的。

四．各序列blast的详细比对结果

数据库中不同序列比对的详细结果，每一个结果大体上包括3局部

1.所比对序列的名称、简单描述、长度。

到其他数据库的。

2.比对结果的5个数值：

（1）score打分矩阵计算出来的值，由搜索算法决定的，值越大说明询问序列跟目标序列匹配程度越大

（2）Expect是输入序列被随机搜索出来的概率，该值越小越好。

（3）Identities是相似程度，即输入序列和搜索到序列的匹配率

（4）Gaps就是空白,即比对序列只有一条链上有碱基

（5）strand=plus/minus即询问序列和数据库里面序列的互补链匹配

3．输入序列和库中比照到的序列每个碱基的详细比照

Blast 2Sequences，在很早前NCBI就有提供这种工具的了。

最近在2008年底又重新改版了，改版后的功能更加强大。

有许多非常实用，但你可能不是太清楚的功能。

这里大概提一下，具体的详细用法，还是要靠你自己慢慢摸索。

功能介绍：

∙1，两个序列之间的比对〔BLAST2Sequences〕，这是最初的功能

∙2，BLAST多个序列。

∙3，BLAST2Sequences时，还能用点矩阵图〔DotMatrix〕查看

∙4，BLAST多个序列时，还能进一步做进化树分析。

BLAST主页：

blast.ncbi.nlm.nih.gov/

现在在任何一个Blast界面都可以直接切换到BLAST2Sequences，只要把Aligntwoormoresequences的选项勾上就可以了。

看下列图。

1，2个序列的比对

下列图是NP_000680.2和NP_004170.1的2个序列比对。

结果看DotMatrixView。

但这两个序列有匹配到时，在图中用线条表示。

标示各自起始和终止的位置，匹配的长度中。

就在图中一目了然。

如下列图，仅有两个小片段blast上。

2，多个序列的比对

看第一图，可以直接输入多个Accession Number，或是直接输入多个FASTA格式的序列。

或是用本地的文件上传也行。

有时需要对一个未知的序列在一些目标序列里作一些比拟。

这个方法很有用。

如下列图，用人苯丙氨酸羟化酶（NP_000680）与其它不同物种的羟化酶进展多个BLAST，最后看它们的进化树。

详细如下：

humanphenylalaninehydroxylase（accessionNP_000680）withasetof34othervertebratearomaticaminoacidhydroxylases.Theportionshownherecontainsthetryptophanhydroxlase1homologsfromhuman（Homosapiens）, NP_004170;rabbit（Oryctolaguscuniculus）, NP_001093425 and NP_001075741;mouse（Musmusculus）, NP_033440;rat（Rattusnorvegicus）, NP_001094104;chicken（Gallusgallus）, NP_990287; Xenopuslaevis, NP_001080923;zebrafish（Daniorerio）, NP_001001843 and NP_840091;andpufferfish（Takifugurubripes）, NP_001027848.

展开阅读全文