蛋白质组学生物信息学分析介绍_精品文档.pdf

上传人:b****2 文档编号:3216595 上传时间:2022-11-20 格式:PDF 页数:13 大小:1.86MB
下载 相关 举报
蛋白质组学生物信息学分析介绍_精品文档.pdf_第1页
第1页 / 共13页
蛋白质组学生物信息学分析介绍_精品文档.pdf_第2页
第2页 / 共13页
蛋白质组学生物信息学分析介绍_精品文档.pdf_第3页
第3页 / 共13页
蛋白质组学生物信息学分析介绍_精品文档.pdf_第4页
第4页 / 共13页
蛋白质组学生物信息学分析介绍_精品文档.pdf_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

蛋白质组学生物信息学分析介绍_精品文档.pdf

《蛋白质组学生物信息学分析介绍_精品文档.pdf》由会员分享,可在线阅读,更多相关《蛋白质组学生物信息学分析介绍_精品文档.pdf(13页珍藏版)》请在冰豆网上搜索。

蛋白质组学生物信息学分析介绍_精品文档.pdf

1生物信息学分析FAQCHAPTERONEABOUTGENEONTOLOGYANNOTATION.3什么是GO?

.3GO和KEGG注释之前,为什么要先进行序列比对(BLAST)?

.3GO注释的意义?

.3GO和GOslim的区别.4为什么有些蛋白没有GO注释信息?

.4为什么GOLevel2的统计饼图里蛋白数目和差异蛋白总数不一致?

.4什么是差异蛋白的功能富集分析&WHY?

.4GO注释结果文件解析.5SheetTopBlastHits.5Sheetprotein2GO/protein2GOslim.5SheetBP/MF/CC.6SheetLevel2_BP/Level2_MF/Level2_CC.6CHAPTERTWOABOUTKEGGPATHWAYANNOTATION.7WHYKEGGpathwayannotation?

.7KEGG通路注释的方法&流程?

.7KEGG通路注释的意义?

.7为什么有些蛋白没有KEGG通路注释信息?

.8什么是差异蛋白的通路富集分析&WHY?

.8KEGG注释结果文件解析.8Sheetquery2map.8Sheetmap2query.9SheetTopMapStat.9CHAPTERTHREEABOUTFEATURESELECTION&CLUSTERING.10WHYFeatureSelection?

.102聚类分析(Clustering).10聚类结果文件解析.10CHAPTERFOURABOUTPROTEIN-PROTEININTERACTIONNETWORK.12蛋白质相互作用网络分析的意义.12蛋白质相互作用VS生物学通路?

.12蛋白质相互作用网络分析结果文件解析.123CHAPTERONEABOUTGENEONTOLOGYANNOTATION什么是GO?

随着多种生物基因组的相继解码,同时大量ESTs以及geneexpressionprofiledate的积累,使得annotation的工作量和复杂度大大增加。

然而另一方面,大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质(sharedprotein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especiallyincomparativegenomics)。

由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息就是我们面临的核心困难,这也是GO所要着力解决的问题。

通过建立一套具有动态形式的控制字集(controlledvocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随着生命科学研究的进步,不断积累和更新。

一个ontology会被一个控制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用统计学方法及自然语言处理技术,可以实现知识管理的专家系统控制。

到目前为止,GeneOntology(GO)数据库中有3大独立的ontology:

biologicalprocess生物过程,molecularfunction分子功能,cellularcomponent细胞组分。

而这三个ontology下面又可以独立出不同的亚层次,层层向下构成一个ontologies的树型分支结构。

可以说,GO是生物学的统一化工具。

由于GO是一种整合性的分类系统,其下的3类主ontology虽然说是独立的,但是无论是GOC原初的设计还是我们的使用中其实都还是存在一定的流程关系。

一个基因/蛋白质或者一个ontology在注解的过程中,首先是考虑涉及在构成细胞内的组分和元件(cellularcomponent),其次就是此组分/元件在分子水平上所行使的功能(molecularfunction),最后能够呈现出该分子功能所直接参与的生物过程(biologicalprocess)。

由于这是一种存在反馈机制的注释过程,并且整个系统是动态开放实时更新的,因此在某种程度上说它具有纠错的能力。

GO和KEGG注释之前,为什么要先进行序列比对(BLAST)?

在进行功能注释和通路注释之前,我们会先将差异蛋白与合适的数据库中的蛋白序列进行比对。

目的一:

很多物种目前研究的程度还很有限,关于这些物种的蛋白注释信息还很不完善。

根据相似性原理,具有相似序列的蛋白可能也具有相似的功能,因此,我们可以将BLAST所得的同源蛋白的注释信息转嫁到我们关注的差异蛋白上,来完成对于差异蛋白尤其是研究程度不足的物种的差异蛋白的注释。

目的二:

我们在查库过程中,为了得到更多的蛋白质鉴定信息,我们大多使用UniProt数据库(含SwissProt和TrEmbl:

SwissProt中的蛋白均经过人工校验,数据可靠性高,注释完整;TrEmbl由基因组序列翻译而来,未经人工校验,注释信息不全)或NCBIProtein数据库(用户可任意提交序列,有冗余,信息不完善,质量很难保证),BLAST一方面可以帮我们提高后续的注释效率,另一方面也可以帮助客户大致了解所鉴定的蛋白可能的名称和功能(尤其对于uncharacterizedprotein,predictedprotein,putativeprotein等)。

GO注释的意义?

对鉴定到的蛋白或者差异蛋白进行GO注释,其宗旨是为了帮助我们了解这些蛋白。

可能的应用包括:

4一,例如,某客户对某差异蛋白A非常感兴趣,通过在GO注释的结果中(protein2GO表单)查询蛋白A的注释信息,即可得知蛋白A可能具有的功能、可能参与的生物学过程,以及该蛋白所在的亚细胞定位。

二,根据课题的设计和先验知识,客户可能对某个生物学过程(例如:

离子运输)非常感兴趣,可以通过在结果中(BP表单)查询iontransport这个GOterm下包含哪些蛋白,并对这些蛋白进行深入研究。

三,客户拿到质谱数据分析结果后,可能对于后续的分析没有方向,这种情况下可以通过在注释结果中查询哪些功能类别包含的蛋白数目较多,可以从这些功能类别和蛋白入手进行重点研究。

四,GO注释可以为课题的设计和实验结果的合理性提供证据。

GO和GOslim的区别GOslim是简化的GO子集,是经过科学家人工筛选的一部分GOterm。

简单的说,GOslim去除了一些比较细枝末节的GOterm,更着重研究level更高、相互关联的GOterm,以及与物种更为相关的GOterm(Plant,Candidaalbicans,Schizosaccharomycespombe,Yeast,Aspergillus,Metagenomics)。

GOslim对于大规模组学的研究很有意义(比如全基因组、全蛋白组),不至于相关的功能类别太多反而忽略了重点。

通常情况下,我们的分析只针对几十个到几百个差异蛋白进行重点注释,GO和GOslim的结果差别不大。

为什么有些蛋白没有GO注释信息?

目前对于蛋白质的功能研究还有限,尤其是非模式生物。

为了提高注释率,根据序列相似的蛋白可能具有相似的功能的原则,我们已经在注释前对目标蛋白序列进行了blast,并利用足够相似的比对序列的注释信息对目标序列进行注释。

此外,我们还采用了查找InterPro数据库中的保守motif的方法对难以注释的蛋白进行注释。

但是仍然有少数蛋白,对于该蛋白,或者同物种中也之相似的蛋白,或者其他物种中的同源蛋白的研究依然十分不足,所以以目前的研究水平难以获得注释信息。

为什么GOLevel2的统计饼图里蛋白数目和差异蛋白总数不一致?

一个蛋白可能参与多个生物过程(biologicalprocess),具有多种分子功能(molecularfunction),甚至存在于多个细胞组分(cellularcomponent),因此GOLevel2的统计饼图里多个类别的蛋白数相加通常是大于差异蛋白数目的。

此外,少数蛋白由于无法获得注释信息,不参与统计,也是造成统计数目和差异蛋白总数不一致的一个原因。

什么是差异蛋白的功能富集分析&WHY?

差异蛋白的功能富集分析是将差异蛋白列表中的蛋白与参考物种的全部蛋白列表或实验鉴定到的所有蛋白列表根据GO功能的注释结果进行对照比较,通过Fisher精确检验(FishersExactTest),得出两者差异的显著性,从而找到这个差异蛋白列表中富集的功能类别条目,找到一个蛋白列表的功能特性。

不同于蛋白功能注释以蛋白为单位进行注释,差异蛋白的功能富集分析以GO功能条目为单位,结果可以直接揭示整个差异蛋白列表中蛋白的整体功能富集特征。

5GO注释结果文件解析GO注释的结果文件包括GO.xlsx和GOslim.xlsx两个EXCEL表格,共计15个表单。

GO.xlsx:

包含TopBlastHits,protein2GO,BP,MF,CC,Level2_BP,Level2_MF,Level2_CC等8个表单GOslim.xlsx:

包含protein2GOslim,BP,MF,CC,Level2_BP,Level2_MF,Level2_CC等7个表单SheetTopBlastHitsSequencename:

目标蛋白IDSequencedesc.:

根据blast结果,目标蛋白可能的名称和描述Sequencelength:

目标蛋白序列长度Hitdesc.:

比对序列的蛋白名称和描述HitACC:

比对序列的蛋白ID号E-Value:

S值可靠性的评价,表明在随机的情况下,其它序列与目标序列相似度大于S值的可能性,越低越好Similarity:

Positives/AlignmentScore:

表示两序列的同源性,分值越高表明它们之间相似的程度越大Alignment:

比对上的蛋白序列部分的长度Positives:

相同或理化性质相似的氨基酸数目Sheetprotein2GO/protein2GOslimSeqName:

目标蛋白IDHit-Desc:

比对序列的蛋白名称和描述GO-Group:

所注释GOterm的类别(P:

BiologicalProcess,F:

MolecularFunction,C:

CellularComponent)GO-ID:

所注释GOterm的IDTerm:

所注释GOterm的名称6SheetBP/MF/CCLevel:

GOterm在ontologies的树型分支结构中所处的层次,BP、MF、CC最高(Level1)GO-ID:

所注释GOterm的IDTerm:

所注释GOterm的名称Type:

GOterm所属类别(BP、MF、CC)#Seqs:

属于该GOterm的蛋白数目Seqs:

属于该GOterm的蛋白IDSheetLevel2_BP/Level2_MF/Level2_CCDatalabels:

GOterm(Level2),属于该GOterm的蛋白数目metabolicprocess,38cellularprocess,37signaling,2multicellularorganismalprocess,3developmentalprocess,3single-organismprocess,16responsetostimulus,4localization,7biologicalregulation,8cellularcomponentorganizationorbiogenesis,13BiologicalProcessproteinbindingtranscriptionfactoractivity,1catalyticac

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教学研究 > 教学计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1