Blast使用技巧_精品文档优质PPT.ppt

上传人:b****2 文档编号:15483925 上传时间:2022-11-01 格式:PPT 页数:39 大小:1.60MB
下载 相关 举报
Blast使用技巧_精品文档优质PPT.ppt_第1页
第1页 / 共39页
Blast使用技巧_精品文档优质PPT.ppt_第2页
第2页 / 共39页
Blast使用技巧_精品文档优质PPT.ppt_第3页
第3页 / 共39页
Blast使用技巧_精品文档优质PPT.ppt_第4页
第4页 / 共39页
Blast使用技巧_精品文档优质PPT.ppt_第5页
第5页 / 共39页
点击查看更多>>
下载资源
资源描述

Blast使用技巧_精品文档优质PPT.ppt

《Blast使用技巧_精品文档优质PPT.ppt》由会员分享,可在线阅读,更多相关《Blast使用技巧_精品文档优质PPT.ppt(39页珍藏版)》请在冰豆网上搜索。

Blast使用技巧_精品文档优质PPT.ppt

指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的质的判断判断。

就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。

而说A和B的同源性为80都是不科学的。

生物序列的同源性4相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序序列间的相似性越高的话,它们是同源序列的可能性就更高列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。

正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。

所以有出现A序列和B序列的同源性为80一说。

5数据库搜索目的n确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。

n确定哪些蛋白质和基因在特定的物种中出现。

n确定一个DNA或蛋白质序列身份。

n发现新基因。

n寻找对于一个蛋白质的功能或结构起关键作用的氨基酸残基。

6Blast简介

(一)BLAST是由美国国立生物技术信息是由美国国立生物技术信息中心(中心(NCBI)开发的一个基于开发的一个基于序列相似性序列相似性的数据库搜的数据库搜索程序。

索程序。

BLAST是是“局部相似性基本查询工局部相似性基本查询工具具”(BasicLocalAlignmentSearchTool)的的缩写。

缩写。

7Blast是一个序列相似性搜索的程序包,是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义是根据查询的对象和数据库的不同来定义的。

比如说查询的序列为核酸,查询数据的。

比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择库亦为核酸序列数据库,那么就应该选择blastn程序。

程序。

下表列出了主要的下表列出了主要的blast程序。

Blast简介

(二)8程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。

Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列翻译后的蛋白质序列逐一比对。

TBlastx核酸核酸核酸序列翻译成蛋白质序列,再和核酸数据库中的核酸序列翻译成的蛋白质序列逐一进行比对。

9ProgramInputDatabaseblastp将一个蛋白质查询序列与一个蛋白质数据库进行比较blastpproteinprotein1blastn将一个DNA查询序列的两条链与一个DNA数据库进行比较blastnDNADNA1blastx将一个DNA序列用所有可能的阅读框翻译成6个蛋白质,然后将它们逐一与一个蛋白质数据库进行比较blastxDNAprotein6tblastn将一个DNA数据库中的每一条序列翻译成6种可能的蛋白质,然后将要查询的蛋白序列与翻译的蛋白质逐一进行比较tblastnDNAprotein6tblastx将查询DNA以及数据库中的DNA都翻译成6种可能的蛋白质,然后进行36次蛋白质-蛋白质数据库搜索tblastxDNADNA361011Blast程序评价序列相似性的两个数据Score:

使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。

Evalue:

在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。

E值越小表示随机情况下得到该Score值的可能性越低。

12NCBI提供的Blast服务登陆ncbi的blast主页核酸序列蛋白序列翻译序列底下有其他一些针对特殊数据库的和查看以往的比对结果等13Blast任务提交表单

(一)1.序列信息部分填入查询(query)的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索14Blast任务提交表单

(二)设置搜索的范围,entrez关键词,或者选择特定物种2.设置各种参数部分一些过滤选项,包括简单重复序列,人类基因组中的重复序列等E值上限窗口大小如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数15Blast任务提交表单(三)3.设置结果输出显示格式选择需要显示的选项以及显示的文件格式显示数目Alignment的显示方式筛选结果E值范围其他一些显示格式参数点击开始搜索16提交任务返回查询号(requestid)可以修改显示结果格式修改完显示格式后点击进入结果界面17结果页面

(一)图形示意结果18结果页面

(二)目标序列描述部分带有genbank的链接,点击可以进入相应的genbank序列匹配情况,分值,e值19结果页面(三)详细的比对上的序列的排列情况查询序列和目标序列之间的字母表示两个氨基酸相同,加号+表示两个氨基酸相似。

空白表示既不相同也不相似。

20一个具体的例子(blastp)假设以下为一未知蛋白序列query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA我们通过blast搜索来获取一些这个序列的信息。

21具体步骤1.登陆blast主页http:

/www.ncbi.nlm.nih.gov/BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果22分析过程

(一)1.登陆ncbi的blast主页2.选择程序,因为查询序列是蛋白序列可以选择blastp,点击进入也可以选择tblastn作为演示,我们这里选blastp23分析过程

(二)3.填入序列(copypaste)Fasta格式,或者纯序列4.选择搜索区域,这里我们要搜索整个序列,不填5.选择搜索数据库,这里我们选nr(非冗余的蛋白序列库)。

是否搜索保守区域数据库(cdd),蛋白序列搜索才有。

我们选上24分析过程(三)6.限制条件,我们限制在病毒里面找。

7.其他选项保持默认值打分矩阵25分析过程(四)8.输出格式选项保持默认值9.点击开始搜索26分析过程(五)10.查询序列的一些相关信息在cdd库里面找到两个保守区域,点击可以进入27分析过程(六)图形结果28分析过程(七)匹配序列列表29序列同源性的判断方法:

n搜索结果是否显著l查看E值列表,是否显著.l如果是核酸序列,E10-6为显著;

l如果是蛋白质序列,E10-3为显著l查看同一性分值l如果是核酸序列,Identity70%为显著;

l如果是蛋白质序列,Identity25%为显著n两个蛋白是否具有近似的大小30n两个蛋白是否有共同的模体或信号序列.n两个蛋白质是不是一个合理的多序列比对的一部分n两个蛋白质是否共有一个相似的生物学功能.n两个蛋白质是否具有相似的三维结构.nPSI-BLAST搜索31BLAST搜索策略调整w搜索结果过多情况搜索结果过多情况n加Entrez限制条件n利用序列的一部分进行搜索n调整记分矩阵n调整期望值w搜索结果过少情况搜索结果过少情况n去掉Entrez限制n提高期望值n使用更高PAM值或更低BLOSUM值的记分矩阵n高级BLAST搜索32进一步深入Blast1.blast22.Megablast3.Psi-blast4.PHI-blast5.其他(rpsblast,blastclust等)33Blast2两个序列的blast比对,给定两个序列,相互进行blast比对。

能快速检查两个序列是否存在相似性片断或者是否一致。

这比起全序列比对要快很多。

34Megablastwmegablast采用了贪婪算法(greedyalgorithm),它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间。

主要针对核酸序列。

是blast经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10倍,可以很快的完成两组大数据的比对。

35PSI-blastPositionspecificiterativeBLAST(PSI-BLAST)位点特异的迭代blast搜索,主要针对蛋白序列。

第一次blast搜索后,结果中最相似的序列重新构建PSSM(位点特异性打分矩阵),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此迭代。

最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低,趋近0。

这样可以提高提高blast搜索的灵敏度,有助于寻找搜索的灵敏度,有助于寻找远源相关的蛋白。

远源相关的蛋白。

36PHI-BLASTw模式识别BLAST(PatternhitintiatedBLAST)wPHI-BLAST能找到与查询序列相似的符合某种模式(pattern)的蛋白质序列37Blast的算法基础w基本思想是:

通过产生数量更少的但质量更好的增强点来提高速度。

wBALST算法是建立在严格的统计学的基础之上的。

它集中于发现具有较高的相似性的局部比对,且局部比对中不能含有空位(blast2.0引入了允许插入gap的算法)。

w由于局部比对的限制条件,在大多数情况下比对会被分解为若干个明显的HSP(High-scoreSequencePairs)。

38Blast的算法流程39Theend

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 笔试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1