GO数据库使用指南docx.docx

上传人:b****8 文档编号:23571276 上传时间:2023-05-18 格式:DOCX 页数:56 大小:284.90KB
下载 相关 举报
GO数据库使用指南docx.docx_第1页
第1页 / 共56页
GO数据库使用指南docx.docx_第2页
第2页 / 共56页
GO数据库使用指南docx.docx_第3页
第3页 / 共56页
GO数据库使用指南docx.docx_第4页
第4页 / 共56页
GO数据库使用指南docx.docx_第5页
第5页 / 共56页
点击查看更多>>
下载资源
资源描述

GO数据库使用指南docx.docx

《GO数据库使用指南docx.docx》由会员分享,可在线阅读,更多相关《GO数据库使用指南docx.docx(56页珍藏版)》请在冰豆网上搜索。

GO数据库使用指南docx.docx

GO数据库使用指南docx

GO数据库使用指南

VersionNo.2010.09.03

内部资料仅供参考)

第一部分GO是什么?

1.1基因本体论(geneontology)的建立

1.2本体论(Theontologies)简介

1.3本体论语义之间的关系及其组织结构4

1.3.1语义之间关系的基本理解4

1.3.2关系之间的推导5

1.3.3调节控制关系(theregulatesrelation)及其推导6

1.3.4本体论的组织结构7

1.4GO的注释(Annotation)

第二部分GO怎么用?

10

2.1下载本体论文件和注释文件10

2.2GO语义及其相关注释的浏览与搜索

2.2.1AmiGO的基本使用说明

2.2.2语义关系的图形化描述20-

2.2.3根据语义检索22

2.2.4根据基因产物检索25

第一部分GO是什么?

GO(geneontology)是基因本体联合会(GeneOnotologyConsortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断

深入而更新的语义词汇标准。

GO是多种生物本体语言中的一种,提供了三层结构的系统定

义方式,用于描述基因产物的功能.

1.1基因本体论(geneontology》的建立

现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。

这种情况归结为生物学

上定义混乱的原因,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样。

光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全

由人手动处理也无法完成。

举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你

可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人体中蛋白质合成组分

显著不同的。

但如果一个数据库描述这些基因产物为翻译类”而另一个数据库描述其为蛋

白质合成类”那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

GeneOntology就是为了解决上述问题,使各种数据库中基因产物功能描述相一致而发起的一个项目。

这个项目最初是由1988年对三个模式生物数据库的整合开始:

theFlyBase(果

蝇数据库Drosophila),theSaccharomycesGenomeDatabase(酵母基因组数据库SGD)和theMouseGenomeInformatics(小鼠基因组数据库MGI)。

从那开始,GO不断发展扩大,现在已是包含数十个动物、植物、微生物的数据库(详见GOConsortiumPage)。

GO开发了具有三级结构的语义词汇标准(Ontologies),根据基因产物的相关生物学途

径、细胞学组件以及分子功能而分别给予定义,与具体物种无关。

GO的工作大致可分为三

个部分:

第一,给予并维持语义(terms);第二,将位于数据库当中的基因、基因产物与GO

本体论语言当中的语义(terms)进行关联,形成网络;第三,开发相关工具,使本体论标准语言的产生和维持更为便捷。

GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高

的一致性。

这种定义语言具有多重结构,因此在各种程度上都能进行查询。

举例来说,GO

可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物的

受体酪氨酸激酶。

这种结构允许在各种水平添加对此基因产物特性的认识。

1.2本体论(Theontologies)简介

GO提供了一系列的语义(terms)用来描述基因、基因产物的特性。

这些语义分为三种不同的种类:

细胞学组件,用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等;分子功能,用于描述基因、基因产物个体的功能,如与碳水化合物结合或ATP水解酶活性等;生物学途径,指分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等。

基因产物可能分别具有分子生物学上的功能、生物学途径和在细胞中的组件作用。

当然,

它们也可能在某一个方面有多种性质。

如细胞色素C,在分子功能上体现为电子传递活性,

在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。

注:

基因产物和其生物功能常常被我们混淆。

例如,"乙醇脱氢酶”既可以指放在Eppendorf试管里的

基因产物,也表明了它的功能。

但是这之间其实是存在差别的:

一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。

比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而

并不是所有的这些酶都是由乙醇脱氢酶基因编码的。

一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛

歧化酶”两种功能,甚至更多。

所以,在GO中,很重要的一点在于,当使用

“乙醇脱氢酶活性"这种术

语时,所指的是功能,并不是基因产物。

下面,将进一步的分别说明GO的具体定义情况。

细胞组件

即细胞中的位置,指基因产物位于何种细胞器或基因产物组中

(如糙面内质网,核或核

糖体,蛋白酶体等)。

分子功能

分子功能描述在分子生物学上的活性,如催化活性或结合活性。

GO分子功能用来定义

功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。

分子功能大部分指的

是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。

定义功能的义项

包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。

生物学途径

生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。

举例来说,较为宽

泛的是细胞生长和维持、信号传导。

一些更为具体的例子包括嘧啶代谢或a-配糖基的运输

等。

一个生物学途径并不是完全和一条生物学通路相等。

因此,GO并不涉及到通路中复杂

的机制和所依赖的因素。

1.3本体论语义之间的关系及其组织结构

1.3.1语义之间关系的基本理解

基因本体论组织类似于图,语义作为图的结点,语义之间的关系为图中的边。

因此,一

旦产生新的语义,其与其它语义之间的关系也会同时被定义。

语义之间的关系有四种:

isa、

partof禾口regulates。

关系表示的几点约定

1.“语义”用图论的术语“结点”表示

2.我们习惯于用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。

3.图中的实线表示结点之间的关系

4.虚线表示推理而并未证明的关系

AisaB;BispartofC

从而可以得出:

AispartofC,其形式化表示为:

isa•partoffpartof

GO图具有树的性质,但与其不同的是,GO图中结点不但可能具有多个孩子结点,而

且可能具有多个父亲结点,且与不同的父结点具有不同的关系,如下图所示:

线粒体

(mitochondrion)便有两个父亲结点,因为线粒体既是一种细胞器(organelle),又是细胞质

(cytoplasm)的一部分。

同样,细胞器(organelle)也有两个孩子结点,因为线粒体是一种细胞

器(organelle),细胞器膜(organellemembrane)是细胞器的一部分。

 

1.3.2关系之间的推导

isa•isafisa

isa具有传递性,即如果AisaB,BisaC,那么AisaC。

形式化表示为isa•isafisa。

如下图:

线粒体(mitochondrion)是一种胞内细胞器(intracellularorganelle),而胞内细胞器是一种细胞器官(organelle),从而可以推出:

线粒体是一种细胞器官。

isa・initraicellularorganelle11$a

\t

partof•partoffpartof

partof具有传递性,如果AispartofB,BispartofC,那么AispartofC。

形式化表示为partof•partoffpartof。

同样如下图所示:

线粒体(mitochondrion)是细胞质(cytoplasm)的一部分,细胞质又是细胞(cell)的一部分,从而可得出:

线粒体是细胞的一部分。

{pwTofp

partof•isapartof与isa•partofpartof

mitochondrialrtiembrace

<__丿

-panof

胞内细胞器

如果关系isa与partof组合,则其关系均为partof。

分别如下图所示:

mitochondrionr

-丿

~1

线粒体膜

■■■I

线粒体

---partof卜■■■■■

133调节控制关系(theregulatesrelation)及其推导

基因本体论语义中,如果某一过程直接影响另一过程或参数值(quality)的表现形式,我

们称前者调节控制(regulates)后者。

被调节的对象可以是一个过程,如生物通路、酶促反应等,也可以是一个参数值,如细胞大小,pH值等。

与partof类似,调节控制关系也是充分

非必要的,即:

B能且仅能调节控制A,而A并非只受B的调节控制。

如下图所示:

SOMEregulatedby

例如:

一旦cellcyclecheckpoint(细胞周期检查点)出现时,它总是调节控制cellcycle(细

胞周期),然而细胞周期并不单独受细胞周期检查点调节控制,还受其它过程的调节控制。

ALLregulates

fA

cellcycle

"A

cellcyclecheckpoint

SOMEregulatedby

regulates•isaregulates、isa•regulatesregulates以及regulates•partof

regulates均为正确的推导关系,其示意图分别如下:

截至目前,尚不能确定partof•regulates宀?

?

、regulates•regulates宀?

?

?

为何种关

系。

134本体论的组织结构

GO委员会除了要定义语义(term)以外,还要定义该语义与其它语义之间的关系,使语

义总体构成有一定结构的语义词汇表。

本体论的图形化表示

本体论的结构可以用图表示,其中语义表示为结点,其间的关系表示为结点之间的边。

当然GO语义之间的关系是单向的,例如:

线粒体(mitochondrion)是一个细胞器(organelle),可以表示为amitochondrionisanorganelle,但反过来不成立,细胞器不是一个线粒体!

这种意义上说,本体论的结构更像是有向非循环树,其中离根结点越近的结点越概括,离叶

子结点越近的结点越具体,但与有向非循环树不同的是,本体论结构图中的结点可以有两个

及其以上的父结点。

例如:

生物过程当中的语义已糖合成(hexosebiosyntheticprocess)就有两

个父结点,已糖代谢(hexosemetabolicprocess)和单糖合成(monosaccharidebiosyntheticprocess)o其并不难理解,因为已糖(hexose)是一种单糖(monosaccharide),生物合成过程

(biosyntheitcprocess)也是一种生物代谢过程(metabolicprocess)。

cellularcomponani!

|

|blologcaijprocess

[~moiKuiarJunictlDni|

本体论中部分语义结构的图形化表示:

 

pigmentmeiabdlcprocess

duringpigmentation

plgm&nlaionduring

development

neg^Elveregiulatioinof

biologicalprocess

pDslilv«r^gulatloriofbialaglcal

process

pigmanlmetabolicprocess,

duringdevelapm^EBl

plgmentauon

regulatlDnofpigmentation

duringd-evefoprn^ii

eyepigmentprecursor

疗bi祐pom

negativereguladonorcuticle

pigmentation

r^gdLaiioin$rpigrrwrilalicndunngdeveiopmp&nit

negadver&gutaitonofeye

plgmantaHcn

pdsttFvereguaiionorpigmentationduringdevckipment

posiiivereguladonofcubiclepigmeintatlDni

posiliwreguladonofeye

pigmenEaUon

pigmentation

 

1.4GO的注释(Annotation))

那么,GO中的术语如何和相对应的基因产物相联系的呢?

这是由参与合作的数据库来完成的,它们使用GO的定义方法,对它们所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。

每个基因或基因产物都会有一个列表,列出与之相关的GO术语。

每个

数据库都会给出所有这些基因产物和GO术语的联系数据库,可以在GO的站点查询到。

GO对基因和基因产物的注释阐明了基因产物和用于定义他们的GO术语之间的关系。

基因

产物指一个基因编码的RNA或蛋白产物。

因为一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。

一个基因是和所有适用于它的

术语联系在一起的。

一个基因产物可以被一种本体论定义的多种分支或多种水平注释。

注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。

GO联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:

1.所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;

2.注释必须提供支持这种基因产物和GO术语之间联系的证据。

 

第二部分GO怎么用?

如上所述,GO是分别从三个不同的层面描述基因产物的语义集。

基因产物数据库用GO提供的语义去注释基因产物,并向GO联合会提供注释文件,阐明了基因产物和用于定义他们的GO术语之间的关系。

下面将详细介绍如何下载本体论文件、注释文件,以及如何浏览GO语义及其相关的注释。

2.1下载本体论文件和注释文件

如果在研究中用到GO数据库,你需要下载相关的本体论文件和注释文件,在使用GO之前,对于本体论文件和注释文件组织结构的了解尤为重要。

首先,打开浏览器,输入www.geneontology.org,进入GO数据的起始页。

OntDlD^eE

叶乂半

MappngcstoGOOtherfiles

FTPMdCVS

Tack

BFOMMirE

D^tasetanalysis朗teeSaftwarc*kbranes□thartuck

SubfritYourTool

FAQIntrndudionOntologv...

Orcd&flvcontemnOribaAaflv£tnjd:

Ljr«!

OrltnlogYrdatians-C-eMarCdiTipgKrtMciKUlarFumton9idlaicalProc-ass

&[andardiznigtherepre&e«i[&Ejeiiiafgeneandpraduei:

BEtribuiess^rcisa.

QutchlInk5

andriatabawis.Theprojectprovidesn亡口ntr口IkdvacabukiryoftermsFurdescribing

TCKtlf

geneproductdigracrtnFiksgenicproductannotatwnd^tafromGOConsortium

AmGObrowserA.

mefinberSjasweltoolstoace电営百processthisdao・Readmoreabouttine

右EfimCJnta-bgy...

OntUlBA"emlgN卡

Anrwtzbondawiioads

Searchth吕GenieQmtelosyD^Uba^e

DCCufWIiati®^

gpFAQ

Searchforgenes,pfoteinsorGOtermusingAmiGO:

GOon5Mjrc4Forga

1

ContactGO

Itewi

®geneorprotemname0GOtermarID

GOanT^ittar

RndhQupddtH—

忌。

newsdnk

AmiGOi?

theoFHchiIGO■sucndiengint.BrowseGeneOntologywrth

GOMr■炸fiS5reedQ

AmiGO.

GOanFacaboak

The&eneOatalagypfojeccIsamsjH”btolnfarmatjcsMiitauve臨iththeaimof

wnedipraldnnanw

~^theGeneOntology

WelcometoCheGeneOntologywebsitel

GO9imGude0B0vl.2姑她1!

TheG«neOntologyprojecEver^mudhencouragesinputfroiinthe匚口mimumityintcibothtticcontentoftficGOsndanfiotatjonusingGO.Wcairveryhappytowoilcwith

AfllWjflKrfl.-,

otherstoensurethattheGOis-bothcompleteandaicairaite,andwe由hoveiymudh

AnnDtatiDnQuide

encouragecommunitiestosubmitGOannotatioiiisfarm-elusionmthe60database.

EvklerKe:

Cgdes

Cflmwhona

Please疋口ntaccus.

5CP5

Hit亡Dnsdgmti5uN»rnedbyaPaip^jni:

framche>M胡mualH^nanG^nomtR.e£4-drdiInsbiiibe

D^tab^scs

fMHURTlhirMI曲ET.EmIJierulllidL^fui^niSli^uri^i.ThiCAi'i*匕心i*d白丘山扫guld

点击"Downloads”便进入GO数据库相关文件的下载界面,如下图所示:

XtheGeneOntology

■PXT””/”"”三严■!

”””

Dcwnluidrs

S«r£h|J

genecipraLeinnanw

0r1bo*of]iE5

WtaWGia

Mjppir¥Q|5:

taGO

OtherNet

FTP问*

Took

Srnwsiers

弓氏占吵蚪待苗1¥*旳上沖*n如训卡SDlt^iiarcferaiKsOther

嗖UbWSTotf

ZWAH^tlOlt

FAQ

Introdiadtjon

Ont-akifffcontentOnt-ol-oijp-strud&jrcOiMkiOr旧atimg匚rihjlar匚Mwonant

GODownloads

Sectioncontents

SeerhuGOtwigSKtionhs『50伽©ntdownhisds-

Ontotogyfileda^Ubsds;6(、termsandrelationisliipis^inavametyoffomiats

AnnotationifilecjowfrilMiisi;wssodationsIwtwwigeneproductsandGOtiaimssubmittedbymEmbirBandassociates

D『EEdU3"i3「〔LJE

OOd’tatM莢;combinedannotationde(Jontologvdata

M-appings-EoGO:

mappingsbetweenGOtermsanddasacEKorenliliesinotherdal-abases;forexamplerUniProt

kcywoidSrEnzymeCommissiaiinumber«ndReflctomppstSiways

Te^Cftirt^疋3ur亡B:

pi^^E^EifihArAftdp^£-!

L6rSdhlh*Ci也去0曲1白记§y*

口th即fte」rtdudmgonto-k>g^-relatefiles

Do卅nloa曲”iaFTP占ndCVS:

accessdetailsfortheGOFTPandC^Ssites

Backtap

其中包括:

tools工具栏中相关的工具软件、本体论文件、注释文件、数据库文件以及其它相关的技术支持文件。

本文主要介绍本体论文件、注释文件和教学资源文件。

GeneOntology

DciynlaMlE;

SearchI~|

pefiE01preLeinnsm?

:

OntalagK?

ArtmaimsDatiSbasd

Mappngst口Otherfih:

sFTPandCVS

Tools

BrotfiMrsDfSUtit酊Aiirbswlwn5aftwar«tbrandsOthertncts&ulwrttYQtifToo)DtxjunMnlinllon

FAQIntrnductkinOntGlOfly.,.

OhboAoavcontentOhtn^gv5tnjctu-e©啟旳計Tackirt

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1