第四章生物学数据库内容结构文档格式.docx

上传人:b****6 文档编号:19981942 上传时间:2023-01-13 格式:DOCX 页数:32 大小:52.53KB
下载 相关 举报
第四章生物学数据库内容结构文档格式.docx_第1页
第1页 / 共32页
第四章生物学数据库内容结构文档格式.docx_第2页
第2页 / 共32页
第四章生物学数据库内容结构文档格式.docx_第3页
第3页 / 共32页
第四章生物学数据库内容结构文档格式.docx_第4页
第4页 / 共32页
第四章生物学数据库内容结构文档格式.docx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

第四章生物学数据库内容结构文档格式.docx

《第四章生物学数据库内容结构文档格式.docx》由会员分享,可在线阅读,更多相关《第四章生物学数据库内容结构文档格式.docx(32页珍藏版)》请在冰豆网上搜索。

第四章生物学数据库内容结构文档格式.docx

Q

亮氨酸

Leu

L

酪氨酸

Try

Y

苯丙氨酸

Phe

F

组氨酸

His

H

脯氨酸

Pro

P

天冬氨酸

Asp

D

甲硫氨酸

Met

M

谷氨酸

Glu

E

色氨酸

Trp

W

赖氨酸

Lys

K

半胱氨酸

Cys

C

精氨酸

Arg

R

注意:

序列中存在的特别符号

—代表不明长度的空位(gap);

不明核酸用N,不明蛋白质是X;

R代表G或A的嘌呤;

Y代表T或C的嘧啶;

K代表G或T(带酮基);

M代表A或C(带氨基);

S代表G或C氢键强;

W代表A或T弱;

(考)B代表G、T或C;

D代表G、A或T;

H代表A、C或T;

V代表G、C或A;

N代有A、G、C、T任意一种;

*代表翻译结束。

1.2数据库格式

从GenBankflatfile格式(GBFF)的角度介绍其中的序列数据,GBFF是GenBank数据库的基本信息单位,是最广泛表示生物序列格式之一,也是GenBank/EMBL/DDBJ三大数据库交换数据的格式。

各个数据库中的格式基本相同,稍有差别,每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片断或蛋白质序列。

数据库的每一条目是一分纯文本文件,左端为识别标志,识别是完整英文。

GenBank和EMBL数据库行首识别标志

EMBL识别标志

GenBank识别标志

意义

ID

LOCUS

标识字符串及短描述字

AC

ACCESSION

接受号

DE

DEFINITION

描述

OS

SOUCE

生物来源

OC

ORGANISM

生物体系分类谱系

DT

建立日期

KW

KEYWORDS

关键字

RN

REFERENCE

引文编号

RA

AUTHORS

引文作者

RT

TITLE

引文题目

RL

JOURNAL

引文期刊

RX

交叉引用

DR

COMMENTS

对其它数据库的引用

MEDLINE

引用MEDLINE号

XX

为阅读清晰加的空白

CC

COMMENT

评注

NI

VERSION

可更新的序列版本号

FH

FEATURES

特性表头

FT

TEATURES

特性表

SQ

EMBL序列开始,后跟长度、字母

BASECOUNT

GENBANK碱基数

ORIGIN

GENBANK序列开始标志、为空行

序列结束标志

1.3GBFF格式

GBFF格式分为三部分:

第一部分是描述符,从第一行LOCUS行到ORIGIN行,包含了整个记录的信息;

第二部分是物性表,从FEATURES行开始,包含了注释这一记录的特性,是条目的核心,中间使用一批关键字;

第三部分是序列本身,以//符号结尾。

第一部分:

第一行:

LOCUSAF486325477bpDNAlineraVRL12-AUG-2002

LOCUS:

基因座位,某一特定的基因位于染色体或其他载体所在位置,包括该基因的全部核苷酸序列。

Locus名称由一个英文字母+数字组成总长不超过10个字符。

在数据库中locus名称在数据库中必须是独立的、唯一的,以保证检索的不被重复。

477bp长度

DNA:

生物分子类型。

有DNA、RNA、tRNA\mRNA\rRNA等

VRL:

分类码三个字母组成。

以前按生物种类对序列分类,现在按序列的功能分类,EST、STS、CON类等。

12-AIG-2002是数据的收录日期

DEFINITION行:

用以总结记录的生物意义。

ACCESSION行:

AF486325,是检索号,是从数据库中检索一个记录的主要关键词。

所有GenBank的记录都只有一个单独的ACCESSION行,并且只有一个检索号,检索号采用两种编码:

1+5(1个大写字母+5个数字)或2+6(两个大写字母+6个数字)。

现行采用2+6格式。

VERSION行:

AF486325.1,检索号、版本号。

1为第1版。

每次序列改变,版本号加1。

GI号:

是基因信息号(geneidentifier),一个gi号对应一个核苷酸序列,序列改变gi号也改变

KEYWORDS行是历史的遗物,现在不在强调使用。

SOURCE行是生物体的来源,ORGANISM行是分类系谱,生物的拉丁文名称。

REFERENCE1(bases1to477)参考文献,每个记录收录的文献,是序列的的出处依据,与MEDLINE有超级链接。

里边包含有AUTHORS,TITLE,JOURNAL,MEDLINE,PUBMED,分别是作者,主题,所属期刊,文献数据库的链接。

第二部分是特征部分

CDs编码序列。

Gene基因名称。

Exon外显子。

Intron内含子。

第三部分是序列内容

与序列格式一致。

最后以//结尾。

1.3GBFF格式中的序列标识问题

LOCUS名称

LOCUS出现在GenBank中的LOCUS行以及DDBJ记录(EMBLE的ID行)是GenBank中最初的辨识器。

就象基因LOCUS名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。

由于LOCUS行是有固定的格式,LOCUS的名称限制在少于或等于10个数字或大写字母。

在GenBank中,名字的前三个字母是组织码,剩下的字母是基因码(如:

HUMHBB代表人体,然而,当该区域的功能和原先设想的功能不同时,LOCUS中的基因码会发生变化。

这种不稳定性显然是复现中的一个问题。

另一个问题是GenBank中的序列和组织随时间呈几何指数增长,这使得发明或修改记忆名称是不可能的。

基于以上几点使得LOCUS名称在GenBank中不再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。

序列号(accession)

由于使用LOCUS(或ID)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们(DDBJ/EMBL/GenBank)引入了序列号。

开始时它不具有生物意义是为了保证其相对的稳定性。

它是由一个大写字母和五个数字组成。

(新的序列号是由两个大写字母和六个数字组成。

)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。

序列号是对LOCUS/ID号的改进,但实际使用中,问题和不足是显然的。

例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号查找出的序列并不总是相同的。

这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了1000bp)的时候,序列号不变(只是相同记录的升级版)。

如果我们分析起始序列和记录序列U00001的第100个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第100个位置上。

序列号出现在GenBank的ACCESSION行上。

该行的第一个序列号称为基本序列号,它是复现该记录的关键,大部分记录只有这个序列号。

第二级序列号是为了给该记录提供历史信息。

例如如果U00001和U00002是同一个记录的不同版本,则U00002将成为一个新记录的基本序列号,U00001是二级序列号。

在实际的标准中U00001记录将从GenBank中删除因为旧的记录已经过时,二级序列号将取代旧的成为用户需要查询的记录。

这时应该标注二级序列号不是指同一对象,所以用户应仔细检查它们的注释。

(数据库的不同,甚至是同一数据库的不同时间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会发生。

但不管怎样,序列号仍然是DDBJ/EMBL/GenBank记录恢复中最可控最稳定的方法。

Gi号

1992年NCBI开始对所有Entrez中的序列使用基因信息号(gi),其中包含从DDBJ/EMBL/GenBank中的核酸序列、根据CDS特征翻译的蛋白质序列以及从SWISS-PROT、PIR、PRE、PDB、专利以及其它得到的蛋白质序列等。

Gi是由原数据库提供的另外的SeqId。

尽管由于原数据库的不同SeqId的形式和意义不同,但gi在意义和形式上对不同源数据库是相同的。

在形式上,它只是简单的整数(所以有时被称为GI号)。

它只是一些特定序列的辨识器。

假定一个序列加入GenBank,给定序列号U00001。

当该序列在NCBI所内部处理时,它加入所谓的ID数据库。

ID确认以前从未见过U00001,就给它一个gi号54。

当提交器通过改变出处修改记录时,U00001又加入ID。

ID认出该记录出现过,恢复原先的U00001和新记录进行比较,如果完全相同,则给该记录gi号54;

如果不相同,即使只有一对碱基不同,则给新gi号88。

然而因为原数据库的意义,新序列仍保持序列号U00001。

这时ID标识旧记录(gi54)的替换时间,并将它加入历史指示它被gi88的记录替代。

ID也加入历史gi88指出它替代了gi54。

Gi号的主要功能:

提供了从多源数据库序列间的简单标志;

提供了指示特别序列的标志。

任何分析gi54存储分析的人可以肯定只要U00001有gi54,它就是有效的;

它是稳定且可恢复的。

NCBI保持每个gi号的最新版本。

由于历史在记录中存在,任何发现gi54不再是GenBank的一部分的人仍然可以通过NCBI的ID复现该记录,通过查看历史可以看到它被gi88替代。

检查gi54和gi88可以确定它们的关系,研究人员可以映射以前的分析到gi88或者重新分析数据。

由于gi54在ID中总是存在的,这使得我们可以随时分析不仅限于GenBank发行时间。

基于上述原因,从计算Entrez序列邻居到确定新序列的处理或BLAST数据库的产生所有NCBI的内部处理序列都是基于gi号。

NID/PIDs

GenBank中的NID和PID指示了核酸的gi号和记录的蛋白质序列。

补充这个是使希望能在一个平台上计算序列的科学家能利用稳定的gi号去追踪序列。

正象前面提到的,使用gi号而不是用序列号将保持使用有效,即使记录的序列以后发生变化(例如,5’端)。

在写本文时,又出现了一种新的SeqId(序列版本,见下文),它是被用于选择的序列辨识器。

一旦这种转变完成,可能NID和PID号将不再出现在数据格式中,尽管使用gi号的分析将继续有效。

而且,初始数据将出现在NCBI准备与GenBank数据平行的ASN.1文件中。

1.4序列联配的文件

序列联配是指多序列格式(Multiplesequenceformat,MSF),序列联配程序的输出结果可能采用一组格式中的任何一种,以上讨论的三种格式都可以用来表示联配的序列,但是还有几种格式是为处理联配结果特别设计的。

不同软件联配后有不同的格式。

所以在使用中要进行格式的转换,主要通过windows中的记事本notobpad.exe进行编辑和处理。

1.5结构数据文件

用作大分子结构生物信息学研究的原始材料是PDB文件,这些文本文件采用蛋白质数据库(proteindatabank)设计的格式,这类文件包含正交的原始坐标,并包含注释,说明和实验细节。

MMDB结构数据文件采用ASN.1格式。

NCBI数据模型经常被提到或和“NCBIASN”或“ASN.1数据模型”混淆。

AbstractSyntaxNotation1(ASN.1)是国际标准组织(ISO)的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。

说一个数据模型是用ASN.1写的就象一个计算机程序是用C或FORTRAN写的,指明了语言而不是指程序本身。

从特殊的以DNA为中心的视角来看,熟悉的GenBank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的数据关系的描述。

PDB文件格式

1.格式描述的基本概念

字符集合

只是一些非控制型字符,象空格和结束符,出现在PDB文件记录中。

也就是:

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ 

1234567890 

`-=[]\;

'

./~!

@#$%^&

*()_+{}|:

"

<

>

?

 

空格和结束符。

结束符根据系统而定,Unix用一行字符,而其他的系统可能就用一个回车来表示。

特殊字符

希腊字母就详细的拼写出来。

比如:

α,β,γ

原子用DOT表示。

右箭头用-->

表示。

左箭头用<

--表示。

上标用两个等号表示开始和结束。

S==2+==(考)

下标用一个等号来表示开始和结束。

F=c=

如果等号两边至少有一边有一个空格,那么这个字符就是表示等号。

2+4=6

逗号,冒号和括号用来表示文档中的分界苻,也就是下面几种中的一种:

List 

SList 

SpecificationList 

Specification 

如果逗号,冒号或者括号在任何一片文档中使用不是作为分界苻的话,那么肯定有字符被漏掉了。

比如下边例子中第四行的"

\"

COMPNDMOL_ID:

1;

COMPND2MOLECULE:

GLUTATHIONESYNTHETASE;

COMPND3CHAIN:

NULL;

COMPND4SYNONYM:

GAMMA-L-GLUTAMYL-L-CYSTEINE\:

GLYCINELIGASE

COMPND5(ADP-FORMING);

COMPND6EC:

6.3.2.3;

COMPND7ENGINEERED:

YES

S-ADENOSYLMETHIONINESYNTHETASE;

A,B;

MAT,ATP\:

L-METHIONINES-ADENOSYLTRANSFERASE;

COMPND5EC:

2.5.1.6;

COMPND6ENGINEERED:

YES;

COMPND7BIOLOGICAL_UNIT:

TETRAMER;

COMPND8OTHER_DETAILS:

TETRAGONALMODIFICATION

2.数据格式

每个PDB文件可能分割成一系列行,由行终止符终止.在记录文件中每行由80列组成.每条PDB记录末尾标志应该是行终止符.PDB文件中每行都是自我识别的.每行的前六列存放记录名称,左对齐空格补足.必须和规定的记录名称一致.PDB文件也可看成是各种记录类型的总和.每个记录类型包括一行或多行又被更深一层分成各字段.该文件详细描述了每个数据类型,一般包括如下几部分:

综述、记录格式、细节、例子。

3.记录类型

按照在记录中出现的频率区分:

SINGLE

一个文件中只出现一次.按字母顺序列出如下:

记录类型 

说明

CRYST1 

晶胞参数

END

结束

HEADER

分子类,公布日期,ID号

MASTER 

版权拥有者

ORIGXn

直角-PDB坐标

SCALEn 

直角部分结晶学坐标

如果这些记录在一个记录中重复出现是错误的。

SINGLECONTINUED

在记录中概念性的只出现一次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:

记录类型

AUTHOR 

结构测定者

CAVEAT 

可能的错误提示

COMPND 

化合物名称

EXPDTA 

测定结构所用的试验方法

KEYWDS 

关键词

OBSLTE 

注明该id号已改为新号

SOURCE 

化合物来源

SPRSDE 

已撤消或更改的相关记录

TITLE 

说明试验方法类型

MULTIPLE

大部分记录类型多次出现,经常出现在这些组中,组中的信息理论上并没有连接,但已呈现为列表的组成部分.这种记录类型中的许多习惯连载可能不仅仅制定记录还和其他记录相联.按字母顺序列出如下:

ANISOU

温度因子

ATOM 

标准基因的原子坐标

CISPEP 

顺势残基

CONECT 

有关记录

DBREF

其他序列库的有关记录

HELIX 

螺旋

HET 

非标准残基

HETSYM 

非标准残基的同义字

HYDBND 

氢键

LINK 

残基间化学键

MODRES

对标准残基的修饰

MTRIXn 

显示非晶相对称

REVDAT

修订日期及相关内容

SEQADV

PDB与其它记录的出入

SEQRES 

残基序列

SHEET

片层

SIGATM 

标准差

SIGUIJ

SITE 

特性位点

SLTBRG 

盐桥

SSBOND

二硫键

TURN 

转折

TVECT

转换因子

MultipleContinued

在记录中概念性的出现多次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:

FORMUL

非标准残基化学式 

HETATM 

非标准集团原子坐标

HETNAM 

非标准残基的化学名称 

Grouping

有三种记录类型用来聚合其他记录.按字母顺序列出如下:

ENDMDL

亚基结束

MODEL

多亚基时,示亚基号

TER

链末端

MODEL/ENDMDL记录包围着ATOM,HETATM,SIGATM,ANISOU,SIGUIJ,和TER记录.TER记录预示链的末端.

Other

其他记录类型有详细的内部结构.按字母顺序列出如下:

JRNL

发表坐标集的文献

REMARK

注解

4.记录的表示

记录部分的划分

Title

大概描述 

HEADER,OBSLTE,TITLE,CAVEAT,COMPND,SOURCE,KEYWDS,EXPDTA,AUTHOR,REVDAT,SPRSDE,JRNL

Remark 

参考书目,最大分辨率,注解等

REMARKs1,2,3andothers

Primarystructure

一级结构氨基酸或核苷酸序列和PDB序列与其他序列库的有关记录 

DBREF,SEQADV,SEQRES,MODRES

Heterogen 

不标准组的描述 

HET,HETNAM,HETSYN,FORMUL

Secondarystructure

二级结构 

HELIX,SHEET,TURN

Connectivityannotation

化学元素连接

SSBOND,LINK,HYDBND,SLTBRG,CISPEP 

Miscellaneousfeature 

大分子的特征

SITE

Crystallographic

晶体细胞描述 

CRYST1

Coordinatetransformation

坐标描述 

ORIGXn,SCALEn,MTRIXn,TVECT

Coordinate 

原子坐标数据 

MODEL,ATOM,SIGATM,ANISOU,SIGUIJ,TER,HETATM,ENDMDL

Connectivity

化学键连接 

CONECT

Bookkeeping 

概要信息和结束标志

MASTER,END

5.对数据类型的说明 

数据类型

Achar 

一个英文字母(A-Z,a-z)

Atom 

原子名

Character 

ASCII码和空格

Continuation

如果一行描述不完用此表示序列号,占两个字符右对齐,第一个用空格

Date 

占九个字符dd-mmm-yy,DD表日期,右对齐不足左补零;

MMM表月份用常用的三个英文字母表示;

YY表20世纪的一年,他们都必须是有效日期

IDcode 

占四个字符,第一个是阿拉伯数字(0-9),余下的三个由希腊数字组成,字母必须是大写的。

若第一个是阿拉伯数字零则对此蛋白质的描述中没有坐标数据

Integer

右对齐,不足的用空格填充的整型数据

Token 

由一组没有空格的字符组成,结尾部分紧跟着冒号和空格

一个由逗号分开的字符串

Lstring 

字符串,任何空格都有意义必须保存

LString(n) 

有N个字符的Lstring

Real(n,m) 

实型

Recordname 

记录的名字,由六个字符组成,左对齐,不足的用空格补充

Residuename

右对齐格式标准氨基酸或核苷酸中的一个,后有列表.不标准组分在HET中详细说明

Slist 

由一些内容组成的字符串,有分号分开

Specification

由一些token记录组成的字符串,由冒号分开

Specification

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1