Gene Ontology分析.docx

上传人:b****5 文档编号:7374314 上传时间:2023-01-23 格式:DOCX 页数:5 大小:24.42KB
下载 相关 举报
Gene Ontology分析.docx_第1页
第1页 / 共5页
Gene Ontology分析.docx_第2页
第2页 / 共5页
Gene Ontology分析.docx_第3页
第3页 / 共5页
Gene Ontology分析.docx_第4页
第4页 / 共5页
Gene Ontology分析.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

Gene Ontology分析.docx

《Gene Ontology分析.docx》由会员分享,可在线阅读,更多相关《Gene Ontology分析.docx(5页珍藏版)》请在冰豆网上搜索。

Gene Ontology分析.docx

GeneOntology分析

Gene OntologyGO分析 Gene Ontology可分为分子功能MolecularFunction生物过程biologicalprocess和细胞组成cellularcomponent三个部分。

蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号而GO号可对于到Term即功能类别或者细胞定位。

参考网站http:

//www.geneontology.org功能富集分析 功能富集需要有一个参考数据集通过该项分析可以找出在统计上显著富集的GOTerm。

功能或者定位有可能与研究的目前有关。

图1.基于GO的蛋白质富集分析图谱GO功能分类GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成往往是在GO的第二层次。

此外也有研究都挑选一些Term而后统计直接对应到该Term的基因或蛋白数。

结果一般以柱状图或者饼图表示。

1.GO分析 根据挑选出的差异基因计算这些差异基因同GO分类中某几个特定的分支的超几何分布关系GO 分析会对每个有差异基因存在的GO返回一个p-value小的p值表示差异基因在该GO中出现了富集。

GO 分析对实验结果有提示的作用通过差异基因的GO 分析可以找到富集差异基因的GO分类条目寻找不同样品的差异基因可能和哪些基因功能的改变有关。

2.Pathway分析 根据挑选出的差异基因计算这些差异基因同Pathway的超几何分布关系Pathway 分析会对每个有差异基因存在的pathway返回一个p-value小的p值表示差异基因在该pathway中出现了富集。

Pathway 分析对实验结果有提示的作用通过差异基因的Pathway 分析可以找到富集差异基因的Pathway条目寻找不同样品的差异基因可能和哪些细胞通路的改变有关。

与GO 分析不同pathway 分析的结果更显得间接这是因为pathway是蛋白质之间的相互作用pathway的变化可以由参与这条pathway途径的蛋白的表达量或者蛋白的活性改变而引起。

而通过芯片结果得到的是编码这些蛋白质的mRNA表达量的变化。

从mRNA到蛋白表达还要经过microRNA调控翻译调控翻译后修饰如糖基化磷酸化蛋白运输等一系列的调控过程mRNA表达量和蛋白表达量之间往往不具有线性关系因此mRNA的改变不一定意味着蛋白表达量的改变。

同时也应注意到在某些pathway中如EGF/EGFR通路细胞可以在维持蛋白量不变的情况下通过蛋白磷酸化程度的改变调节蛋白的活性来调节这条通路。

所以芯片数据pathway 分析的结果需要有后期蛋白质功能实验的支持如Westernblot/ELISAIHC免疫组化overexpression过表达RNAiRNA干扰knockout基因敲除trans gene转基因等。

Pathway图示蓝色箭头上方图表示的是pathway的框架图蓝色箭头下方图用红色表示落在pathway中的差异基因所编码的蛋白质。

3.基因网络分析 目的根据文献数据库和已知的pathway寻找基因编码的蛋白之间的相互关系不超过1000个基因。

基因网络关系图蓝色外圈的红色椭圆形表示的是有报道且被检索到的蛋白同其他蛋白之间的相互作用网络。

4.GSEA分析 Gene SetEnrichmentAnalysis 分析是用统计学的方法分析5类功能基因簇gene set是否在不同的生物样本组中存在差异通过芯片实验数据的分析寻找不同样品的差异基因可能与哪些生物学功能相关为后期实验提供参考。

GSEA主页截图该页面是对这5类功能基因簇的描述5.KEGGPathway分析 KEGG网站KyotoEncyclopediaofGenesandGenomes京都基因与基因组百科全书是一套关于基因组、酶促途径以及生物化学物质的在线数据库。

它免费提供了基因数据库、通路数据库、配体化学反应数据库、序列相似性数据库SSDB、基因表数据库、蛋白分子相互关系数据库BRITE并且开发网页和编程的接口。

有很多研究者采用KEGG的数据或工具进行通路的分析。

KEGGPathway 分析可以根据输入数据不同采用两种不同的方法进行分析如果SWISSRPOT或者GeneID列表可以通数据库号转换并对应的方式对应到通路若来自Genbank的序列可以通过相似性注释的方式对应到KEGGPathway。

PathwayIDDescriptionTest00010Glycolysis/Gluconeogenesis1300020CitratecycleTCAcycle900051Fructoseandmannosemetabolism800190Oxidativephosphorylation1200230Purinemetabolism700240Pyrimidinemetabolism900271Methioninemetabolism6………GeneGoMetaCore是由美国GeneGo公司开发的代谢组分析商业软件的其中一个模块其中的一项功能是进行人、大鼠、小鼠的通路分析结果示例如下 Gene Ontology 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。

这种情况归结为生物学上定义混乱的原因不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义即使是完全由人手动处理也无法完成。

举个例子来说如果需要找到一个用于制抗生素的药物靶点你可能想找到所有的和细菌蛋白质合成相关的基因产物特别是那些和人中蛋白质合成组分显著不同的。

但如果一个数据库描述这些基因产物为“翻译类”而另一个描述其为“蛋白质合成类”那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

 Gene Ontology GO项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。

这个项目最初是由1988年对三个模式生物数据库的整合开始:

FlyBase果蝇数据库DrosophilatSaccharomycesGenomeDatabase酵母基因组数据库SGDandtheMouseGenomeDatabase小鼠基因组数据库MGD。

从那开始GO不断发展扩大现在已包含数十个动物、植物、微生物的数据库。

GO的定义法则已经在多个合作的数据库中使用这使在这些数据库中的查询具有极高的一致性。

这种定义语言具有多重结构因此在各种程度上都能进行查询。

举例来说GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物也可以进一步找到各种生物地受体酪氨酸激酶。

这种结构允许在各种水平添加对此基因产物特性的认识。

GO的结构包括三个方面分子生物学上的功能、生物学途径和在细胞中的组件作用。

当然它们可能在每一个方面都有多种性质。

如细胞色素C在分子功能上体现为电子传递活性在生物学途径中与氧化磷酸化和细胞凋亡有关在细胞中存在于线粒体质中和线粒体内膜上。

下面将进一步的分别说明GO的具体定义情况。

基因产物基因产物和其生物功能常常被我们混淆。

例如“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物也表明了它的功能。

但是这之间其实是存在差别的一个基因产物可以拥有多种分子功能多种基因产物也可以行使同一种分子功能。

比如还是“乙醇脱氢酶”其实多种基因产物都具有这种功能而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。

一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能甚至更多。

所以在GO中很重要的一点在于当使用“乙醇脱氢酶活性”这种术语时所指的是功能并不是基因产物。

许多基因产物会形成复合物后执行功能。

这些“基因复合物”有些非常简单如血红蛋白由血红蛋白基因产物α球蛋白、β球蛋白和小分子的亚血红素组成有些非常复杂如核糖体。

现在小分子的描述还没有包括在GO中。

在未来这个问题可望由和现在的Klotho和LIGAND等小分子数据库联合而解决。

分子功能分子功能描述在分子生物学上的活性如催化活性或结合活性。

GO分子功能定义功能而不是整体分子而且不特异性地指出这些功能具体的时空信息。

分子功能大部分指的是单个基因产物的功能还有一小部分是此基因产物形成的复合物的功能。

定义功能的义项包括催化活性、转运活性、结合活性等更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。

生物学途径生物学途径是由分子功能有序地组成的具有多个步骤的一个过程。

举例来说较为宽泛的是细胞生长和维持、信号传导。

一些更为具体的例子包括嘧啶代谢或α配糖基的运输等。

一个生物学途径并不是完全和一条生物学通路相等。

因此GO并不涉及到通路中复杂的机制和所依赖的因素。

细胞组件细胞中的位置指基因产物位于何种细胞器或基因产物组中如糙面内质网核或核糖体蛋白酶体等。

GO的形式GO定义的术语有着直接非循环式directedacyclicgraphsDAGs的特点而并非是传统的等级制hierarchy定义方式随着代数增加下一级比上一级更为具体。

举个例子来说生物学途径中有一个定义是己糖合成它的上一级为己糖代谢和单糖合成。

当某个基因被注解为“己糖合成活性”后它自动地获得了己糖代谢和单糖合成地注解。

因为在GO中每个术语必须遵循“真途径“法则即如果下一代的术语可以用于描述此基因产物其上一代术语也可以适用。

GO的注释Annotation那么GO中的术语如何和相对应的基因产物相联系的呢这是由参与合作的数据库来完成的它们使用GO的定义方法对它们所包含的基因产物进行注解并且提供支持这种注解的参考和证据。

每个基因或基因产物都会有一个列表列出与之相关的GO术语。

每个数据库都会给出这些基因产物和GO术语的联系数据库并且也可以在GO的ftp站点上和WEB方式查询到。

并且GO联合会提供了简化的本体论术语GOslim这样可以在更高级的层面上研究基因组的功能。

比如粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。

GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。

基因产物指一个基因编码的RNA或蛋白产物。

因为一个基因可能编码多个具有很不相同性质的产物所以GO推荐的注释是针对基因产物的而不是基因的。

一个基因是和所有适用于它的术语联系在一起的。

一个基因产物可以被一种本体论定义的多种分支或多种水平注释。

注释需要反映在正常情况下此基因产物的功能生物途径定位等而并不包括其在突变或病理状态下的情况。

GO联合会的各个数据库成员采用手动或自动的方式生成注释这两种方式共有的原理是一.所有的注释都需要有来源可以是文字、另一个数据库或是计算机分析结果二.注释必须提供支持这种基因产物和GO术语之间联系的证据。

GO文件格式GO的所有数据都是免费获得的。

GO数据有三种格式flat每日更新、XML每月更新和MySQL每月更新。

这些数据格式都可以在GOftp的站点上下载。

XML和MySQL文件是被储存于独立的GO数据库中。

如果需要找到与某一个GO术语相关的基因或基因产物可以找到一个相应表格搜寻到这种注解的编号并且可以链接到与之对应的位于不同数据库的基因相关文件。

GO浏览器和修改器browserandeditorGO术语和注释使用了多种不同的工具软件它们都可以在web方式的“GO浏览器”下“GOsoftwarepage”中找到。

大多数GO浏览器都是web模式的允许你直观的看到术语和其相关信息如定义、同义词和数据库参考等。

有些GO浏览器如AmiGO和QuickGO可以看到每个术语的注释。

而可下载的DAG-Edit编辑器一样可以离线地显示注释和所有本体论定义的信息。

对于每一个浏览器来说都可以选择最适用于你要求的工具软件。

常见的三种浏览器AmiGOfromBDGP在AmiGO中可以通过查询一个GO术语而得到所有具有这个注释的基因产物或查询一个基因产物而得到它所有的注释关系。

还可以浏览本体论得到术语之间的关系和术语对应的基因产物数目。

AmiGO直接连接GO下的MySQL。

MGIGOBrowserMGIGO的功能类似于AmiGO所不同的在于它所得到的基因为小鼠基因。

MGIGO浏览器直接连接GO下的MGI数据库。

QuickGOatEBIQuickGO整合在EBI下的InterPro中可以通过查询一个GO术语而得到它的定义与关系描述、在SWISS-PROT中的定位、在酶分类学EC和转运分类学TC中的定位和InterPro中的定位等。

其他还有一些特殊的浏览GO的浏览器其中括号中为建立机构和主要特色EPGOBrowserEBI基因表达情况、GoFishHarvardBoolean查询、GenNavNLM图像化展示、GeneOntologyRZPDRZPDUniGene、ProToGOHebrewUniversityGO的亚图像化、CGAPGOBrowser癌症基因组解剖工程癌症、GOBrowserIlluminaeperl.、TAIRKeywordBrowserTAIR拟南芥、PANDORAHebrewUniversity非一致化蛋白。

修改器GO术语和本体论结构可以由任何可以读入GO平板文件的文本修改器进行编辑但是这需要对平板文件非常熟悉。

因此DAG-Edit是被推荐使用的它是为GO特别设计的能够保证文件的句法正确。

GO注释可以被多种数据库特异性的工具所编辑如TIGR的Manatee和EBI的Talismantool。

但是GO数据库中写入新的注释是需要通过GO认证的管理员方可进行的如果想提出新的注释或对本体论的建议可以联系GO。

主要修改器为DAG-Edit和COBrA。

DAG-Edit基于Java语言提供了能浏览、查询、编辑具有DAG数据格式的GO数据界面。

在SourceForge可以免费下载伴随着帮助文件。

COBrA能够编辑和定位GO和OBO本体论。

它一次显示两个本体论因此可以在不同的水平相应定位。

如组织和细胞类型水平优点在于可以综合几种本体论支持的文件格式多包括GO平板文件、GORDF和OWL格式等。

如图为DAG-Edit的界面可以分为四个部分1定义编辑面板termeditorpanel显示当下的本体论。

也是主要的编辑本体论结构的工具可以通过点击和拖动术语来修改本体论的从属关系。

2文本编辑面板texteditorpanel修改术语中的内容。

在修改多个术语时会出现一个选择菜单可以选中后逐个修改。

3DAG浏览器DAG浏览器是一个插件能够以图形的方式展示具有复杂的从属关系的术语。

4搜寻/屏蔽面板可搜寻术语、术语类型和术语间关系。

可自定义屏蔽条件限制得出的搜寻结果。

GO数据库的查找和浏览FAQ1.如何搜寻注释使用AmiGO浏览器可以在所有参与的数据库中搜寻一个特定的注解。

AmiGO允许使用GO术语或基因产物的搜寻。

搜寻结果包括GO对这个术语的等级分级情况定义和近义结构外部链接所有相联系的基因产物和它的下一级术语。

2.如何得到全部的GO注释在GO网站上基因产物与GO联系的组信息都有提供。

这些文件储存了基因/基因产物的ID和引用文献等支持证据如FlyBase基因IDSWISS-PROT蛋白ID在ftp站点上都可以获得。

3在一些模式生物中一个基因通常有多个与之相关的核苷酸序列如EST、蛋白序列等。

要查询到这些序列可以从该模式生物数据库中通过基因联系gene association查询到基因获得IDgeneaccessionID或是分别在Compugen中查询大的转录产物transcipt和SWISS-PROT/TrEMBL中查询蛋白。

4.如何得到由GO术语注解的蛋白序列在GO网页上选择能查询到所有数据库的Amigo浏览器键入GO术语如“线粒体”在结果中显示了被注释的基因。

然后选择你所需基因在网页的最低端把选项拖至“getfastasequence”区域再确定即可。

5如何能够找到所有和一个特定的GO术语相关的人类基因呢GO术语是和SWISS-PROT/TrEMBL/InterProandEnsembl中的蛋白序列无赘余地对应的。

这些注释在EBI上的GOA-Human文件中GO的FTP站点上EnsemblEMBLBank上都可找到。

6可以直接使用GenBank的gi获取码在GO数据库中进行查询吗GO数据库中除了Compugen所提供的GenBank获取码之外没有包含其他GenBank获取码的信息但是在EBI的GOAGOAnnotation中有一个综合的对GenBank/EMBL/DDBJ进行查询的方式详细请见ftp:

//ftp.ebi.ac.uk/pub/databases/GO/goa/HUMAN/xrefs.goa.GO与其他分类系统的定位关系MappingtoGOGO并不只是希望为基因组建立一个标准化的、结构清晰的注释语言。

GO致力于各种基因组数据库的标准化。

GO为各种基因组分类系统和GO注释之间的转化提供了转化表见http:

//www.geneontology.org/GO.indices.html数据库索引文件来源UniProtKnowledgebasespkw2goEvelynCamonNote:

spkw2gousedtobecalledswp2goallfilesremainthesame.EnzymeCommissionec2goMichaelAshburnerEGADegad2goMichaelAshburnerGenProtECgenprotec2goHeatherButlerandMichaelAshburnerTIGRroletigr2goMichaelAshburnerTIGRFamiliestigrfams2goTIGRStaffInterProinterpro2goNicolaMulderMIPSFuncatmips2goMichaelAshburnerandMidoriHarrisMetaCycPathwaysmetacyc2goMichaelAshburnerandMidoriHarrisMultiFunClassificationsmultifun2goMichaelAshburnerJaneLomaxandMargretheHaugeSerresPfamDomainspfam2goNicolaMulderProdomDomainsprodom2goNicolaMulderPrintsDomainsprints2goNicolaMulderProSiteDomainsprosite2goNicolaMulderSmartDomainssmart2goNicolaMulderREADME需要注意的是这些转化不是完全而精确的。

其中的一个原因可能是GO有一套完整的定义系统而很多数据库并不具有。

GO的应用GO的局限性1.GO不是基因序列或基因产物数据库相反的GO强调基因产物在细胞中的功能。

2.GO不是整合数据库的一种方式如联邦式整合数据库它并不能做到这点是因为a.更新速度较慢b.由于每个人对数据定义的方式不同标准难以达到一致。

c.GO并不对生物学的每个方面进行描述。

如功能域的结构、3D结构、进化等。

3GO是对基因功能的注解但是有其局限性。

比如说GO不能反映此基因的表达情况即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。

GO虽然不涉及这些方面但是支持其他的OBOopenbiologyontologies成员成立其他类型的本体论数据库如发育本体学、蛋白组本体学、基因芯片本体学等用于基因组分析 基因组和全长cDNA序列工程通常会根据序列的相似性推测基因与已注释的基因功能类似。

现在最常用的手段是在SWISS-PROT序列中设定一个相似性的域值使用计算机化的方法来判断。

因此根据这一原理也可以得到新的GO注释被标记为“根据电子注释推测”。

一个GO的重要应用方面是对于一个GO术语能形成一个相联系的基因产物组。

举例来说某一基因产物可以被精确地注释为在碳水化合物代谢的一个特定的功能如葡萄糖代谢而在总结碳水化合物代谢时所有这些基因产物都会聚集到一起。

GO计划为每一个高频出现的术语建立文档总汇现在有些已经在“GOSlim”中实现了。

用于基因表达分析 如在芯片数据中引入GO注释通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。

共表达的基因可能编码在同一个生物过程中出现的基因产物或定位于同一个细胞部位的。

如果未知基因和一些已被GO过程术语相似地注释了的基因共表达那么这个未知基因很有可能在同一个过程中发挥功能。

分析和操作基因表达芯片数据并且又能结合GO注释的软件已产生。

EBI提供的ExpressionProfiler和EP:

GO都具有此功能。

GO可能的应用GO的应用前景很广阔不可能一一列出现在已用到的包括1整合来自于不同生物的蛋白组信息。

2判定蛋白结构域的功能。

3找到在疾病/衰老中异常表达的基因的功能类似性。

4预测与一种疾病相关的基因5 分析在发育中同时表达的基因6建立起自动的能从文献中获取基因功能信息的工具。

GO规模如上所述GO的三层结构是分子功能、生化途径和细胞组件。

GO包含的大部分为平板格式文件GOflatfile由每一种本体论中定义的文件为文本文件而包含本体论和定义两种格式的是OBO格式的平板文件XML作为可以用于三种本体论和所有定义的文件格式也有提供。

这些文件都在每月的1日更新GO每月将给出月份更新报告。

GO的使用和引用GO的使用基因本体论联合会是由国家人类基因组研究所NHGRI的R1拨款所赞助此外还有欧盟RTD项目“生活质量和生活资源管理”拨款。

Gene OntologyTM由AstraZeneca公司提供资金赞助而SGD小组得到了IncyteGenomics的赞助。

GO数据库中的术语、注释等都属于公共范畴。

GO的资源是免费的但是必须在以下三种情况下使用1.必需引用基因本体论联合会。

2.所使用的GO文件必需标明GO的版本号和日期。

GO处于不断更新中3.GO文件的内容和内在的逻辑关系不得被更改。

引用GO当使用GO资源时请引用以下文献 Gene Ontology:

toolfortheunificationofbiology.The Gene Ontology Consortium2000NatureGenet.25:

25-29.当引用亚数据库资源时请参考GO的publicationl.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1