Uniprot蛋白数据库_精品文档优质PPT.pptx
《Uniprot蛋白数据库_精品文档优质PPT.pptx》由会员分享,可在线阅读,更多相关《Uniprot蛋白数据库_精品文档优质PPT.pptx(23页珍藏版)》请在冰豆网上搜索。
他同时也是人类蛋白组组织(HumanProteomeOrganisation)的主席。
然而,Hanash提醒说,UniProt只是一个开始,还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息,他说。
(2002年)这句话不仅代表了Uniport数据库,也是代表了整个生物信息学,科研本就是站在巨人的肩膀上发展的,那么这个肩膀也得与时俱进了!
Uniport的前世今生的前世今生UniProt(全称(全称UniversalProtein),它整合了三个老字号数据库(),它整合了三个老字号数据库(Swiss-Prot、TrEMBL和和PIR-PSD)的数据。
是目前信息最丰富、资源最广的免费蛋白质数据库(注意没有之一哦!
)。
的数据。
UniProt知识库(知识库(UniProtKB)是收集蛋白质功能信息的中心枢纽,具有准确,一致和丰富的注释。
除了捕)是收集蛋白质功能信息的中心枢纽,具有准确,一致和丰富的注释。
除了捕获每个获每个UniProtKB条目强制的核心数据(主要是氨基酸序列,蛋白名称或描述,分类数据和引用信息)外,条目强制的核心数据(主要是氨基酸序列,蛋白名称或描述,分类数据和引用信息)外,还会添加尽可能多的还会添加尽可能多的注释注释信息。
这包括广泛接受的生物本体论,分类和交叉引用,以及以实验数据和计算信息。
这包括广泛接受的生物本体论,分类和交叉引用,以及以实验数据和计算数据的证据归属形式的注释质量的明确指示数据的证据归属形式的注释质量的明确指示。
蛋白质序列从哪里来?
由UniProtKB提供的超过95的蛋白质序列来源于已经提交给公共核酸数据库,EMBL-Bank/GenBank/DDBJ数据库(INSDC)的编码序列(CDS)的翻译。
所有这些序列以及作者提交的相关数据都自动整合到UniProtKB/TrEMBL中。
除翻译的除翻译的CDS之外之外,UniProtKB蛋白质序列可以来自蛋白质序列可以来自:
1、在PDB数据库。
2、通过直接蛋白质测序实验获得的序列,通过Edman降解或MS/MS实验并提交给UniProtKB/Swiss-Prot。
只有约5的UniProtKB/Swiss-Prot条目包含通过直接蛋白质测序获得的序列数据(具有关键字的条目列表Directproteinsequencing)。
3、从文献(igPRF或其他期刊扫描项目)扫描的序列。
4、从基因预测,没有提交的序列EMBL-Bank/GenBank登录/DDBJ。
5、序列来源于内部基因预测,在非常特殊的情况下。
Uniprot主要功能主要功能查询蛋白质序列以及其他多种信息查询蛋白质序列以及其他多种信息查询蛋白质组查询蛋白质组找相似的蛋白质找相似的蛋白质对比多种蛋白质序列对比多种蛋白质序列查询蛋白质相关文献查询蛋白质相关文献网站的网站的网址网址为为http:
/www.uniprot.org/,先来看看全景图吧!
,先来看看全景图吧!
这个这个数据库数据库可以可以大致大致分为分为6个个主题部分,如上图红框所示主题部分,如上图红框所示1、UniProtKB;
2、UniRef;
3、UNIParc;
4、Proteomics;
5、Supportingdata。
6、检索区、检索区这次我们先游览第一个主题,也是最经典的部分。
(其实其他的主题我自己还没有完全搞明白)这次我们先游览第一个主题,也是最经典的部分。
(其实其他的主题我自己还没有完全搞明白)1、UniProtKB(UniversalProteinKnowledgebase)它是经过专家校验的数据集,又分成两部分(绿框部分,不)它是经过专家校验的数据集,又分成两部分(绿框部分,不用担心,这些都是免费的,不是那种滥收费园中园)用担心,这些都是免费的,不是那种滥收费园中园)1.1、Swiss-Prot(经过人工检查、校验的条目经过人工检查、校验的条目)高质量高质量的、人工注释的、非冗余的数据集;
主要来自文献中的研究成果和的、人工注释的、非冗余的数据集;
主要来自文献中的研究成果和E-value校验过的计算分析结果。
校验过的计算分析结果。
截止到截止到昨天昨天Swiss-Prot包含包含556,196条条记录,(记录,(2010年年8月月10日有日有519,348条记录,条记录,7年后增加了年后增加了3万多条记录,万多条记录,评价每天大约评价每天大约10几条记录,速度还是比较慢的。
)几条记录,速度还是比较慢的。
)1.2、TrEMBL(计算机自动注释的、未经人工校验的条目计算机自动注释的、未经人工校验的条目)该数据主要是利用计算机对大量基因组数据流进行分析注释(人工校验速度暂时无法跟上数据的产生速度)。
该数据主要是利用计算机对大量基因组数据流进行分析注释(人工校验速度暂时无法跟上数据的产生速度)。
截止到昨天截止到昨天2017年年03月月19日日TrEMBL包含包含98,705,220条条记录,(记录,(2010年年8月月10日有日有110,636,205条记录,条记录,7年后年后数据量减少了很多,估计是去掉了很多重复的数据)另外大家会注意到这里的数据是数据量减少了很多,估计是去掉了很多重复的数据)另外大家会注意到这里的数据是Swiss-Pro数据的数据的100多倍。
多倍。
进入方式进入方式多种多样,多种多样,1、主页默认的入口就是、主页默认的入口就是UniProt;
2、可以直接点击红框、可以直接点击红框1区域进入;
区域进入;
3、也可以通过点击红、也可以通过点击红框框6,系系统会弹出下拉菜单如图统会弹出下拉菜单如图2所示,选择所示,选择UniProt红框红框1即可进入。
即可进入。
检索区主要是为了让检索区主要是为了让有经验同学快速有经验同学快速找到自己感兴趣的蛋白质,可以按照蛋白质的名称、序列,找到自己感兴趣的蛋白质,可以按照蛋白质的名称、序列,ID号等方式检索号等方式检索。
红红框框1区是对这个主题区域的简要介绍区是对这个主题区域的简要介绍红红框框2区可以让游客根据自己的喜好来显示蛋白质数据,比如可以只显示经过人工校验的条目;
可以只看专属于某个物区可以让游客根据自己的喜好来显示蛋白质数据,比如可以只显示经过人工校验的条目;
可以只看专属于某个物种的蛋白质;
还可以检索物种分类;
还有直接快速进入种的蛋白质;
还有直接快速进入UniRef的通道以及视频化的帮助,演示文件的通道以及视频化的帮助,演示文件红红框框3区是主题区,这里列出了所有区是主题区,这里列出了所有UniProt数据库的蛋白质条目,因为数据太多数据库的蛋白质条目,因为数据太多(这个这个数字其实是数字其实是Swiss-Pro与与TrEMBL两部分的总和),每页显示两部分的总和),每页显示25条(您可以自己选择每页的显示数目条(您可以自己选择每页的显示数目10、25、50、100或或200),),Entry:
是:
是UniProt的给每个蛋白质赋予的独一无二的的给每个蛋白质赋予的独一无二的ID号号Entryname:
是蛋白是蛋白ID简要名字简要名字Proteinnames:
蛋白质的名字蛋白质的名字Genenames:
编码这个蛋白的编码这个蛋白的Gene名字名字Organism:
蛋白质的种属来源:
蛋白质的种属来源Length:
氨基酸氨基酸长度长度首先sp表示,Swiss-Prot数据库是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实(reviewed,manuallyannotated)。
P02769是蛋白在uniprot上的ID号,即蛋白的身份证号。
ALBU_BOVIN是蛋白在uniprot上的登录名,跟P02769是一个作用。
Serumalbumin是蛋白名称,即蛋白的姓名啦。
OS表示Organism,也就是物种名称,数据库中的物种名称一般为拉丁名称,牛血清白蛋白Bostaurus当然是牛的拉丁。
GN表示genename,即基因名称PE表示ProteinExistence,即蛋白的可靠性,PE=1、2、3、4、5分别对应如下,可以看出数字越小可靠性越高:
分别对应如下,可以看出数字越小可靠性越高:
1.Experimentalevidenceatproteinlevel蛋白质水平实验证据2.Experimentalevidenceattranlevel转录水平实验证据3.Proteininferredfromhomology从同源蛋白质推断4.Proteinpredicted蛋白质预测5.Proteinuncertain蛋白质不确定SV表示SequenceVersion,即序列版本,即蛋白的身份证第二代,第三代这里需要指出的是,除了这里需要指出的是,除了sp,有时还会,有时还会出现出现TR。
红框红框2区区只看专属于某个物种的蛋白质只看专属于某个物种的蛋白质红框红框3区第区第一行一行tBLAST:
这个按钮可以让你用感兴趣的蛋白质序列做这个按钮可以让你用感兴趣的蛋白质序列做BLAST分析(就是查一下在分析(就是查一下在UniProt数据库中,还有哪些蛋白质的数据库中,还有哪些蛋白质的氨基酸序列与你感兴趣的蛋白质相同或相似),别小瞧这个功能,知道哪些蛋白与目的蛋白序列相似,就有可能知道这氨基酸序列与你感兴趣的蛋白质相同或相似),别小瞧这个功能,知道哪些蛋白与目的蛋白序列相似,就有可能知道这个蛋白具有哪些生物系功能,如果恰好还有其他相似蛋白的结构信息,就能帮助你大致知道这个蛋白的空间结构。
使用个蛋白具有哪些生物系功能,如果恰好还有其他相似蛋白的结构信息,就能帮助你大致知道这个蛋白的空间结构。
使用这个功能必须先选中,只能选中一个蛋白质这个功能必须先选中,只能选中一个蛋白质。
iAlign:
tBLAST是对单个蛋白序列与数据库数据进行比对,是对单个蛋白序列与数据库数据进行比对,iAlign可以让你对多个蛋白质的序列之间进行相似性比对,可以让你对多个蛋白质的序列之间进行相似性比对,这种分析可以让你找到这些蛋白之间的结构保守区域,还可以根据蛋白质的相似性,分析这些蛋白之间的亲缘关系,进这种分析可以让你找到这些蛋白之间的结构保守区域,还可以根据蛋白质的相似性,分析这些蛋白之间的亲缘关系,进化的先后顺序等。
化的先后顺序等。
基本局部比对搜索工具=Download:
这个容易理解,您可以下载蛋白的序列数据,可以下载选中的蛋白,也可以下载全部蛋白(做蛋白质组:
这个容易理解,您可以下载蛋白的序列数据,可以下载选中的蛋白,也可以下载全部蛋白(做蛋白质组学分析的人经常用,否则没有必要全部下载,不过有时候最好定期下载更新一下,还是很有必要学分析的人经常用,否则没有必要全部下载,不过有时候最好定期下载更新一下,还是很有必要的)的)下载的格式也多种下载的格式也多种多样,比如多样,比如FASTA,Text,Excel,XML,List等,如果数据量大,还可以选择压缩以后下载等,如果数据量大,还可以选择压缩以