第三章生物信息学详细讲义.ppt

上传人:b****3 文档编号:2727139 上传时间:2022-11-09 格式:PPT 页数:62 大小:2.30MB
下载 相关 举报
第三章生物信息学详细讲义.ppt_第1页
第1页 / 共62页
第三章生物信息学详细讲义.ppt_第2页
第2页 / 共62页
第三章生物信息学详细讲义.ppt_第3页
第3页 / 共62页
第三章生物信息学详细讲义.ppt_第4页
第4页 / 共62页
第三章生物信息学详细讲义.ppt_第5页
第5页 / 共62页
点击查看更多>>
下载资源
资源描述

第三章生物信息学详细讲义.ppt

《第三章生物信息学详细讲义.ppt》由会员分享,可在线阅读,更多相关《第三章生物信息学详细讲义.ppt(62页珍藏版)》请在冰豆网上搜索。

第三章生物信息学详细讲义.ppt

第三讲生物信息查询第三讲生物信息查询从Entrez查询BLAST和FASTA应用从Entrez查询Entrez是提供的一种集成检索工具,他可以通过一次检索而查询到多个子库中的所有信息Entrez可以进行集成检索是通过数据库之间的联系达到的,数据库之间联系的数据库类型有两种:

相近性和硬连接相近性是在一个指定的库内搜索相类似记录,硬连接是在不同数据库之间搜索相关记录例子:

例子:

例子:

例子:

E.coliE.coliK-12K-12基因组基因组基因组基因组BLAST和FASTA应用Blast简介:

BLAST是由美国国立生物技术信息中心(是由美国国立生物技术信息中心(NCBI)开发)开发的一个基于的一个基于序列相似性序列相似性的数据库搜索程序的数据库搜索程序BLAST是是“局部相似性基本查询工具局部相似性基本查询工具”(BasicLocalAlignmentSearchTool)的缩写的缩写Blast简介:

Blast是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。

比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序.主要的主要的blast程序程序相似性(similarity):

它指的是一种很直接的数量关系数量关系,比如部分相同或相似的百分比或其它一些合适的度量。

比如说,A序列和B序列的相似性是80,或者4/5。

这是个量化的关系。

当然可进行自身局部比较序列相似性比较:

就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有BLASTBLAST、FASTAFASTA等Blast应用中的相关问题为什么使用blast,可以获得什么样的信息?

如何在NCBI上获得blast服务,怎么使用的问题?

其他问题:

实际使用时选择哪种方式(网络,本地化),参数的选择,结果的解释Blast资源1.NCBI主站点:

http:

/www.ncbi.nlm.nih.gov/BLAST/(网络版)ftp:

/ftp.ncbi.nlm.nih.gov/blast/(单机版)2.其他站点:

http:

/http:

/www.fruitfly.org/blast/(果蝇)Blast的两种版本网络版本包括NCBI在内的很多网站都提供了在线的blast服务,这也是我们最经常用到的blast服务.优点:

方便,容易操作,数据库同步更新等.缺点:

不利于操作大批量的数据,同时也不能自己定义搜索的数据库.单机版单机版的blast可以通过NCBI的ftp站点获得,有适合不同平台的版本(包括linux,dos等)。

获得程序的同时必须获取相应的数据库才能在本地进行blast分析.优点:

可以处理大批的数据,可以自己定义数据库.不足之处:

需要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平.Blast结果给出的信息Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息:

1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因这些信息都可以应用到后续分析中.Blast程序评价序列相似性的两个数据Score:

使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大.Evalue:

在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。

E值越小表示随机情况下得到该Score值的可能性越高.NCBI提供的Blast服务登陆NCBI的BLAST主页Primer搜索分物种搜索NCBI提供的Blast服务核酸序列蛋白序列翻译序列翻译序列翻译序列其他一些针对特殊数据库的blast任务提交表单

(二)序列信息部分blast任务提交表单

(二)按blast提交任务结果页面

(一)图形结果匹配情况,分值和值序列描述enbank的连接结果页面

(二)详细的序列比对情况举例(blastp):

假设以下为一未知蛋白序列query_seqmivekiaawllyplcllrcflcnsvrpatckcvhcllypfevccecmsetldslehsccyccvlplliirefwrrvilptlkatcdcirlpcvltrrfckrticplakswcrcfccpcevflrcllfpcmmlrrmhrgrltgvrepgafrdsrdparrgtwvndwcedlcvwiwspccyvkrcirtmcdtftkkifywfiapagsprmpeepsplsrkvfss我们通过blast搜索来获取一些它的相关信息具体操作步骤1.登陆blast主页http:

/www.ncbi.nlm.nih.gov/BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果分析过程

(一)登陆ncbi的blast主页选择程序,因为要查询的是一段蛋白,所以选用blastp分析过程

(二)可以填入登记号,基因号或者直接(copypaste)输入fasta格式的序列点击此处了解详细要求分析过程(三)搜索序列的范围上传一条或者多条你存贮的数据分析过程(四)搜索命名搜索的数据库,在此选择非冗余型搜索类型搜索限制类型分析过程(五)查询序列的相关信息分析过程(五)结果图形分析过程(六)七组的具体名称具体信息描述打分及值分析过程(七)第一组数据具体情况分析过程(八)最后一组数据情况结论该序列来源于:

该序列有什么功能:

进一步深入Blast1.blast22.Megablast3.Psi-blastBlast2两个序列的blast比对,给定两个序列,相互进行blast比对。

能快速检查两个序列是否存在相似性片断或者是否一致。

这比起全序列比对要快很多.Megablastmegablast采用了贪婪算法(greedyalgorithm),它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间。

主要针对核酸序列。

是blast经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10倍,可以很快的完成两组大数据的比对.PSI-blastPositionspecificiterativeBLAST(PSI-BLAST)位点特异的迭代blast搜索,主要针对蛋白序列。

第一次blast搜索后,结果中最相似的序列重新构建PSSM(位点特异性打分矩阵),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此迭代.最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低,趋近0。

这样可以提高提高blast搜索的灵敏度搜索的灵敏度.其他的序列相似性搜索工具fastaFastA是最早广泛使用的一种数据库相似性检索程序,用于检索核苷酸和蛋白质序列数据库中的序列相似性和同源性。

它专门为鉴定那些从远古祖先继承下来的蛋白质序列而设计,尤其对那些演化程度高、低相似性片段更为适合.http:

/www.ebi.ac.uk/fasta33/Fasta搜索的优缺点优点:

FASTA对DNA序列搜索的结果要比对蛋白质序列搜索的结果更敏感.缺点:

它对数据库的每一次搜索都只有一个最佳的比对,一些有意义的比对可能被错过.数据库搜索工具的sensitivity与selectivitySensitivity:

尽可能多地搜索到具有一定相似性的序列的能力。

Selectivity:

尽可能准确地搜索到对研究目的有用的相似性的序列的能力。

作业1.使用entrez获取登录号为AH004419的蛋白序列,然后通过blastp,搜索nr库中最相似的10个序列(只显示10个最相似的序列).2.获取AAo6o359序列,blastp搜索SwissProt库中的相似序列.本章结束!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 冶金矿山地质

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1