BLAST核酸氨基酸序列相似性比较.docx

上传人:b****3 文档编号:5292898 上传时间:2022-12-15 格式:DOCX 页数:13 大小:226.41KB
下载 相关 举报
BLAST核酸氨基酸序列相似性比较.docx_第1页
第1页 / 共13页
BLAST核酸氨基酸序列相似性比较.docx_第2页
第2页 / 共13页
BLAST核酸氨基酸序列相似性比较.docx_第3页
第3页 / 共13页
BLAST核酸氨基酸序列相似性比较.docx_第4页
第4页 / 共13页
BLAST核酸氨基酸序列相似性比较.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

BLAST核酸氨基酸序列相似性比较.docx

《BLAST核酸氨基酸序列相似性比较.docx》由会员分享,可在线阅读,更多相关《BLAST核酸氨基酸序列相似性比较.docx(13页珍藏版)》请在冰豆网上搜索。

BLAST核酸氨基酸序列相似性比较.docx

BLAST核酸氨基酸序列相似性比较

BLAST核酸/氨基酸序列相似性比拟

Blast (BasicLocalAlignmentSearchTool)是一套在蛋白质数据库或DNA数据库中进展相似性比拟的分析工具。

BLAST程序能迅速与公开数据库进展相似性序列比拟。

BLAST结果中的得分是对一种对相似性的统计说明。

BLAST采用一种局部的算法获得两个序列中具有相似性的序列。

如果您想进一步了解BLAST算法,您可以参考NCBI的BLASTCourse,该页有BLAST算法的介绍。

BLAST的功能

BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进展比对。

BLAST还能发现具有缺口的能比对上的序列。

BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:

403-410(1990)),在序列数据库中对查询序列进展同源性比对工作。

从最初的BLAST开展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在了。

BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。

      所查询的序列和调用的数据库那么可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。

BLAST包含的程序:

1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列〔一条核酸序列会被翻译成可能的六条蛋白〕,再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条序列都将同所查序列作一对一地核酸序列比对。

 4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白〔每条核酸序列会产生6条可能的蛋白序列〕,这样每次比对会产生36种比对阵列。

  通常根据查询序列的类型〔蛋白或核酸〕来决定选用何种BLAST。

假设是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。

如要用TBLASTX也可,但记住此时不考虑缺口。

BLAST适用于本地查询。

可以下载公共数据库,对于该数据库的更新和维护是必不可少的。

如果要直接到网上查询也可以〔即NetBlast〕,但记住如果你认为自己的序列很有价值的话,还是慎重为宜。

  如何访问在线的BLAST功能效劳?

  您只要通过浏览器访问Blast主页(blast.ncbi.nlm.nih.gov/)。

所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。

 

BLAST采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:

 

1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列〔一条核酸序列会被翻译成可能的六条蛋白〕,再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白〔每条核酸序列会产生6条可能的蛋白序列〕,这样每次比对会产生36种比对阵列。

NCBI的在线blast:

blast.ncbi.nlm.nih.gov/Blast.cgi

1,进入在线blast界面,可以选择blast特定的物种〔如人,小鼠,水稻等〕,也可以选择blast所有的核酸或蛋白序列。

不同的blast程序上面已经有了介绍。

这里以常用的核酸库作为例子。

2,粘贴fasta格式的序列。

选择一个要比对的数据库。

关于数据库的说明请看NCBI在线blast数据库的简要说明。

一般的话参数默认。

3,blast参数的设置。

注意显示的最大的结果数跟E值,E值是比拟重要的。

筛选的标准。

最后会说明一下。

4,注意一下你输入的序列长度。

注意一下比对的数据库的说明。

5,blast结果的图形显示。

没啥好说的。

6,blast结果的描述区域。

注意分值与E值。

分值越大越靠前了,E值越小也是这样。

7,blast结果的详细比对结果。

注意比对到的序列长度。

评价一个blast结果的标准主要有三项,E值〔Expect),一致性(Identities),缺失或插入〔Gaps〕。

加上长度的话,就有四个标准了。

如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp〔看上面的图〕,就说明比对到的序列要长一点。

由Qurey〔起始1〕和Sbjct(起始35)的起始位置可知,5'端是是多了一段的。

有时也要注意3'端的。

附:

E值〔Expect):

表示随机匹配的可能性,E值越大,随机匹配的可能性也越大。

E值接近零或为零时,具本上就是完全匹配了。

一致性(Identities):

或相似性。

匹配上的碱基数占总序列长的百分数。

缺失或插入〔Gaps〕:

插入或缺失。

用"—"来表示。

 

BlastN/MegaBlast/DiscontiguousMegaBlast的区别:

三者之间的共同之处就是BlastN/Megablast/Discontiguousmegablast都是BlastN,就是核酸序列比对核酸序列的算法。

简单而言

BlastN:

应该是出现较早的算法。

比对的速度慢,但允许更短序列的比对〔如短到7个碱基的序列〕。

MEGABLAST:

主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。

速度快。

同一物种间的。

DiscontiguousMEGABLAST:

灵敏度〔sensitivity〕更高,用于更准确的比对。

主要用于跨物种之间的同源比对。

详细解释

1,MEGABLAST常被用于鉴定核酸序列

MEGABLASTisthetoolofchoicetoidentifyanucleotidesequence.

MegaBLAST也是一种BLASTN程序,不过它主要是用来在非常相似的序列之间〔来自同一物种〕比对同源性的。

鉴定某一段核酸序列是否存在于数据库,最好的方法是选择MEGABLAST。

如果比对到的序列在数据库中注释完整的话,那该序列丰富的注释可以当作新序列的参考。

当然,BlastN/MEGABLAST/DiscontiguousMEGABLAST,都可以完成这种事情。

但MEGABLAST就是特别设计用于非常相似序列之间的比对,可用于寻找查询序列的最正确匹配的序列。

2,DiscontiguousMEGABLAST更好地用于查找不同物种的相似的核酸序列,而不是与查询序列一样〔identical〕物种的。

DiscontiguousMEGABLASTisbetteratfindingnucleotidesequencessimilar,butnotidentical,toyournucleotidequery.

DiscontiguousMEGABLAST,用于跨物种核酸序列快速比对。

它使用非重叠群字段匹配算法〔noncontiguouswordmatch〕来进展核酸比对。

DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比拟编码区时也具有相当高的敏感度。

但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最正确方法,直接在蛋白水平用Blastp比对更好。

这是因为密码子的简并性。

(Lc.注:

翻译得有些拗口,多多见谅!

DiscontiguousMEGABLAST详细介绍:

.ncbi.nlm.nih.gov/blast/discontiguous.html

原文:

.ncbi.nlm.nih.gov/blast/producttable.shtml#tab31

本文详细出处参考:

liucheng.name/1009/#more-1009

 

1,Blastp:

标准的蛋白序列与蛋白序列之间的比对

StandardproteinBLASTisdesignedforproteinsearches.

Blastp用于确定查询的氨基酸序列在蛋白数据库中找到相似的序列。

跟其它的Blast程序一样,目的是要找到相似的区域。

2,PSI-BLAST:

敏感度更高的蛋白序列与蛋白序列之间的比对

PSI-BLASTisdesignedformoresensitiveprotein-proteinsimilaritysearches.

Position-SpecificIterated(PSI)-BLAST,是一种更加高灵敏的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。

当你使用标准的Blastp比对失败时,或比对的结果仅仅是一些假基因或推测的基因序列时〔"hypotheticalprotein"or"similarto..."〕,你可以选择PSI-BLAST重新试试。

3,PHI-BLAST:

模式发现迭代BLAST

PHI-BLASTcandoarestrictedproteinpatternsearch.

PHI-BLAST,模式发现迭代BLAST,用蛋白查询来搜索蛋白数据库的一个程序。

仅仅找出那些查询序列中含有的特殊模式的对齐。

PHI的语法详细介绍看这里:

.ncbi.nlm.nih.gov/blast/html/PHIsyntax.html

 

PeptideSequenceDatabases蛋白序列的数据库

nr

Allnon-redundantGenBankCDStranslations+ RefSeq Proteins+PDB+SwissProt+PIR+PRF

所有非冗余的的GenBankCDS区的翻译序列+参考序列的蛋白+PDB数据库 +SwissProt蛋白数据库+PRF蛋白数据库

refseq

RefSeqproteinsequencesfrom NCBI'sReferenceSequenceProject.

所有NCBI的参考序列

swissprot

LastmajorreleaseoftheSWISS-PROTproteinsequencedatabase(noupdates).

swissprot的蛋白数据库

pat

ProteinsfromthePatentdivisionofGenPept.

专利的蛋白数据库

pdb

Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank.

PDB数据库

month

AllneworrevisedGenBankCDStranslation+PDB+SwissProt+PIR+PRFreleasedinthelast30days.

一个月新增加的蛋白序列

env_nr

Proteinsequencesfromenvironmentalsamples.

来自environmentalsamples的蛋白序列

NucleotideSequenceDatabases核酸数据库 

nr

AllGenBank+RefSeqNucleotides+EMBL+DDBJ+PDBsequences(excludingHTGS0,1,2,EST,GSS,STS,PAT,WGS).Nolonger"non-redundant".

所有GenBank的核酸序列+参考序列中的核酸序列+EMBL+DDBJ+PDB核酸序列〔但不包括HTG,EST,GSS等序列〕

refseq_rna

RNAentriesfromNCBI'sReferenceSequenceproject

NCBI参考序列中的核酸序列

refseq_genomic

GenomicentriesfromNCBI'sReferenceSequenceproject

NCBI参考序列中的基因组序列

est

DatabaseofGenBank+EMBL+DDBJsequencesfromESTDivisions

来自GenBank+EMBL+DDBJ的EST序列

est_human

Humansubsetofest.

人的EST序列

est_mouse

Mousesubset.

小鼠的EST序列

est_others

Non-Mouse,non-Humansubsetofest.、除了人与小鼠之外的EST序列

gss

GenomeSurveySequence,includessingle-passgenomicdata,exon-trappedsequences,andAluPCRsequences.

htgs

UnfinishedHighThroughputGenomicSequences:

phases0,1and2(finished,phase3HTGsequencesareinnr)

未发布的高通量的基因组测序

pat

NucleotidesfromthePatentdivisionofGenBank.

专利的核酸序列

pdb

Sequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBank

PDB核酸序列

month

AllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30days.

一个月新增的核酸序列

dbsts

DatabaseofGenBank+EMBL+DDBJsequencesfromSTSDivisions.

STS数据库

chromosome

AdatabasewithpletegenomesandchromosomesfromtheNCBIReferenceSequenceproject..

NCBI参考序列方案中所有的完整基因组和染色体序列

wgs

Adatabaseforwholegenomeshotgunsequenceentries.

基因组鸟枪法测序得到的序列

env_nt

Nucleotidesequencesfromenvironmentalsamples,includingthosefromSargassoSeaandMineDrainage

projects.

来自environmentalsamples的核酸序列。

 

NCBI中Blast可以用来进展序列比对、检验引物特异性

Blast导航主页面主体包括三局部

BLASTAssembledGenomes选择你要比照的物种,点击物种之后即可进入比照页面

BasicBLAST包含5个常用的Blast,每一个都附有简单介绍

SpecializedBLAST是一些特殊目的的Blast,如Primer-BLAST、IgBLAST

根据需要做出选择

本学期学习了最根本的核苷酸序列的比对

点击BasicBLAST局部的nucleotide到一个新的页面,翻开后的页面特征:

大体上包括三个局部

EnterQuerySequence局部可以让我们输入序列,其中的JobTitle局部可以为本次工作命一个名字

ChooseSearchSet局部可以选择要与目的序列比对的物种或序列种类。

其中的EntrezQuery可以比照对结果进展适当的限制。

ProgramSelection局部可以选择本次比照的准确度,种种间等等。

其次Blast按钮下面有一个“Algorithmparameters〞算法参数,可设置参数。

点击Blast后,出现的页面大体上包括四个局部

一.所询问和比对序列的简单信息

1.询问序列的简单信息——名称、描述、分子类型、序列长度

2.所比对数据库的名称、描述和所用程序

二.GraphicSummary——blast结果图形显示

相似度颜色图〔黑、蓝、绿、粉红、红,相似度由低到高〕

三.Descriptions——blast结果描述区

1.到其他数据库的

2.描述以表格的形式呈现〔以匹配分值从大到小排序〕

(1)Accession下程序比对的序列名称,点击相应的可以进入更为详细的mapviewer

(2)Descriptions下是对所比对序列的简单描述

接下来是5个结果数值:

(3)Maxscore匹配分值,点击可进入第四局部相应序列的blast的详细比对结果

(4)Totalscore总体分值

(5)Querycoverage覆盖率

(6)Evalue——E〔Expect〕值,表示随机匹配的可能性。

E值越大,随机匹配的可能性也越大。

E值接近零或为零时,具本上就是完全匹配了。

(7)Maxident——匹配一致性,即匹配上的碱基数占总序列长的百分数。

(8)Links——到其他数据库的。

四.各序列blast的详细比对结果

数据库中不同序列比对的详细结果,每一个结果大体上包括3局部

1.所比对序列的名称、简单描述、长度。

到其他数据库的。

2.比对结果的5个数值:

(1)score打分矩阵计算出来的值,由搜索算法决定的,值越大说明询问序列跟目标序列匹配程度越大

(2)Expect是输入序列被随机搜索出来的概率,该值越小越好。

(3)Identities是相似程度,即输入序列和搜索到序列的匹配率

(4)Gaps就是空白,即比对序列只有一条链上有碱基

(5)strand=plus/minus即询问序列和数据库里面序列的互补链匹配

3.输入序列和库中比照到的序列每个碱基的详细比照

 

Blast 2Sequences,在很早前NCBI就有提供这种工具的了。

最近在2008年底又重新改版了,改版后的功能更加强大。

有许多非常实用,但你可能不是太清楚的功能。

这里大概提一下,具体的详细用法,还是要靠你自己慢慢摸索。

功能介绍:

∙1,两个序列之间的比对〔BLAST2Sequences〕,这是最初的功能

∙2,BLAST多个序列。

∙3,BLAST2Sequences时,还能用点矩阵图〔DotMatrix〕查看

∙4,BLAST多个序列时,还能进一步做进化树分析。

 

BLAST主页:

blast.ncbi.nlm.nih.gov/

现在在任何一个Blast界面都可以直接切换到BLAST2Sequences,只要把Aligntwoormoresequences的选项勾上就可以了。

看下列图。

1,2个序列的比对

下列图是NP_000680.2和NP_004170.1的2个序列比对。

结果看DotMatrixView。

但这两个序列有匹配到时,在图中用线条表示。

标示各自起始和终止的位置,匹配的长度中。

就在图中一目了然。

如下列图,仅有两个小片段blast上。

 

2,多个序列的比对

看第一图,可以直接输入多个Accession Number,或是直接输入多个FASTA格式的序列。

或是用本地的文件上传也行。

有时需要对一个未知的序列在一些目标序列里作一些比拟。

这个方法很有用。

如下列图,用人苯丙氨酸羟化酶(NP_000680)与其它不同物种的羟化酶进展多个BLAST,最后看它们的进化树。

详细如下:

humanphenylalaninehydroxylase(accessionNP_000680)withasetof34othervertebratearomaticaminoacidhydroxylases.Theportionshownherecontainsthetryptophanhydroxlase1homologsfromhuman(Homosapiens), NP_004170;rabbit(Oryctolaguscuniculus), NP_001093425 and NP_001075741;mouse(Musmusculus), NP_033440;rat(Rattusnorvegicus), NP_001094104;chicken(Gallusgallus), NP_990287; Xenopuslaevis, NP_001080923;zebrafish(Daniorerio), NP_001001843 and NP_840091;andpufferfish(Takifugurubripes), NP_001027848.

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1