ImageVerifierCode 换一换
格式:DOCX , 页数:32 ,大小:52.53KB ,
资源ID:19981942      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/19981942.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第四章生物学数据库内容结构文档格式.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第四章生物学数据库内容结构文档格式.docx

1、Q亮氨酸LeuL酪氨酸TryY苯丙氨酸PheF组氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW赖氨酸LysK半胱氨酸CysC精氨酸ArgR注意:序列中存在的特别符号代表不明长度的空位(gap);不明核酸用N,不明蛋白质是X;R代表G或A的嘌呤;Y代表T或C的嘧啶;K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C氢键强;W代表A或T弱;(考)B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代有A、G、C、T任意一种;*代表翻译结束。1.2数据库格式从GenBank flatfile 格式(GBFF)的角度介绍其中的序列

2、数据,GBFF是GenBank数据库的基本信息单位,是最广泛表示生物序列格式之一,也是GenBank/EMBL/DDBJ三大数据库交换数据的格式。各个数据库中的格式基本相同,稍有差别,每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片断或蛋白质序列。数据库的每一条目是一分纯文本文件,左端为识别标志,识别是完整英文。GenBank和EMBL数据库行首识别标志EMBL识别标志GenBank识别标志意义IDLOCUS标识字符串及短描述字ACACCESSION接受号DEDEFINITION描述OSSOUCE生物来源OCORGANISM生物体系分类谱系DT建立日期KWKEYWORDS关键字RN

3、REFERENCE引文编号RAAUTHORS引文作者RTTITLE引文题目RLJOURNAL引文期刊RX交叉引用DRCOMMENTS对其它数据库的引用MEDLINE引用MEDLINE号XX为阅读清晰加的空白CCCOMMENT评注NIVERSION可更新的序列版本号FHFEATURES特性表头FTTEATURES特性表SQEMBL序列开始,后跟长度、字母BASE COUNTGENBANK碱基数ORIGINGENBANK序列开始标志、为空行序列结束标志1.3 GBFF格式GBFF格式分为三部分:第一部分是描述符,从第一行LOCUS行到ORIGIN行,包含了整个记录的信息;第二部分是物性表,从FEA

4、TURES行开始,包含了注释这一记录的特性,是条目的核心,中间使用一批关键字;第三部分是序列本身,以/符号结尾。第一部分:第一行:LOCUS AF486325 477bp DNA linera VRL 12-AUG-2002LOCUS:基因座位,某一特定的基因位于染色体或其他载体所在位置,包括该基因的全部核苷酸序列。Locus名称由一个英文字母+数字组成总长不超过10个字符。在数据库中locus名称在数据库中必须是独立的、唯一的,以保证检索的不被重复。477bp 长度DNA:生物分子类型。有DNA、RNA、tRNAmRNArRNA等VRL:分类码 三个字母组成。以前按生物种类对序列分类,现在按

5、序列的功能分类,EST、STS、CON类等。12-AIG-2002 是数据的收录日期DEFINITION行:用以总结记录的生物意义。ACCESSION行:AF486325,是检索号,是从数据库中检索一个记录的主要关键词。所有GenBank的记录都只有一个单独的ACCESSION行,并且只有一个检索号,检索号采用两种编码:1+5(1个大写字母+5个数字)或2+6(两个大写字母+6个数字)。现行采用2+6格式。VERSION行:AF486325.1,检索号、版本号。1为第1版。每次序列改变,版本号加1。GI号:是基因信息号(gene identifier),一个gi号对应一个核苷酸序列,序列改变g

6、i号也改变KEYWORDS行是历史的遗物,现在不在强调使用。SOURCE行是生物体的来源,ORGANISM行是分类系谱,生物的拉丁文名称。REFERENCE 1(bases 1to 477)参考文献,每个记录收录的文献,是序列的的出处依据,与MEDLINE有超级链接。 里边包含有AUTHORS,TITLE,JOURNAL,MEDLINE,PUBMED,分别是作者,主题,所属期刊,文献数据库的链接。第二部分是特征部分CDs 编码序列。Gene基因名称。Exon外显子。Intron内含子。第三部分是序列内容与序列格式一致。最后以/结尾。1.3 GBFF格式中的序列标识问题LOCUS 名称 LOCU

7、S 出现在 GenBank 中的 LOCUS 行以及 DDBJ 记录( EMBLE 的 ID 行)是 GenBank 中最初的辨识器。就象基因 LOCUS 名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。由于 LOCUS 行是有固定的格式, LOCUS 的名称限制在少于或等于 10 个数字或大写字母。在 GenBank 中,名字的前三个字母是组织码,剩下的字母是基因码(如: HUMHBB 代表人体,然而,当该区域的功能和原先设想的功能不同时, LOCUS 中的基因码会发生变化。这种不稳定性显然是复现中的一个问题。另一个问题是 GenBank 中的序列和组织随时间呈几何指数增长,这使

8、得发明或修改记忆名称是不可能的。基于以上几点使得 LOCUS 名称在 GenBank 中不再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。序列号(accession) 由于使用 LOCUS (或 ID )名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们( DDBJ/EMBL/GenBank )引入了序列号。开始时它不具有生物意义是为了保证其相对的稳定性。它是由一个大写字母和五个数字组成。(新的序列号是由两个大写字母和六个数字组成。)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。序列号是对 LOCUS/ID 号的改进,但实际使用中

9、,问题和不足是显然的。例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号查找出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了 1000bp )的时候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列 U00001 的第 100 个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第 100 个位置上。序列号出现在 GenBank 的 ACCESSION 行上。该行的第一个序列号称为基本序列号,它是复现该记录的关键,大部分记录只有这个序列号。第二级序列号是为了给该记录提供历史信息。例如如果 U00001 和

10、U00002 是同一个记录的不同版本,则 U00002 将成为一个新记录的基本序列号, U00001 是二级序列号。在实际的标准中 U00001 记录将从 GenBank 中删除因为旧的记录已经过时,二级序列号将取代旧的成为用户需要查询的记录。这时应该标注二级序列号不是指同一对象,所以用户应仔细检查它们的注释。(数据库的不同,甚至是同一数据库的不同时间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会发生。但不管怎样,序列号仍然是 DDBJ/EMBL/GenBank 记录恢复中最可控最稳定的方法。 Gi 号 1992 年 NCBI 开始对所有 Entrez 中的序列

11、使用基因信息号( gi ),其中包含从 DDBJ/EMBL/GenBank 中的核酸序列、根据 CDS 特征翻译的蛋白质序列以及从 SWISS-PROT 、 PIR 、 PRE 、 PDB 、专利以及其它得到的蛋白质序列等。 Gi 是由原数据库提供的另外的 SeqId 。尽管由于原数据库的不同 SeqId 的形式和意义不同,但 gi 在意义和形式上对不同源数据库是相同的。在形式上,它只是简单的整数(所以有时被称为 GI 号)。它只是一些特定序列的辨识器。假定一个序列加入 GenBank ,给定序列号 U00001 。当该序列在 NCBI 所内部处理时,它加入所谓的 ID 数据库。 ID 确认以

12、前从未见过 U00001 ,就给它一个 gi 号 54 。当提交器通过改变出处修改记录时, U00001 又加入 ID 。 ID 认出该记录出现过,恢复原先的 U00001 和新记录进行比较,如果完全相同,则给该记录 gi 号 54 ;如果不相同,即使只有一对碱基不同,则给新 gi 号 88 。然而因为原数据库的意义,新序列仍保持序列号 U00001 。这时 ID 标识旧记录( gi54 )的替换时间,并将它加入历史指示它被 gi88 的记录替代。 ID 也加入历史 gi88 指出它替代了 gi54 。 Gi 号的主要功能:提供了从多源数据库序列间的简单标志; 提供了指示特别序列的标志。任何分

13、析 gi54 存储分析的人可以肯定只要 U00001 有 gi54 ,它就是有效的; 它是稳定且可恢复的。 NCBI 保持每个 gi 号的最新版本。由于历史在记录中存在,任何发现 gi54 不再是 GenBank 的一部分的人仍然可以通过 NCBI 的 ID 复现该记录,通过查看历史可以看到它被 gi88 替代。检查 gi54 和 gi88 可以确定它们的关系,研究人员可以映射以前的分析到 gi88 或者重新分析数据。由于 gi54 在 ID 中总是存在的,这使得我们可以随时分析不仅限于 GenBank 发行时间。基于上述原因,从计算 Entrez 序列邻居到确定新序列的处理或 BLAST 数

14、据库的产生所有 NCBI 的内部处理序列都是基于 gi 号。NID/PIDs GenBank 中的 NID 和 PID 指示了核酸的 gi 号和记录的蛋白质序列。补充这个是使希望能在一个平台上计算序列的科学家能利用稳定的 gi 号去追踪序列。正象前面提到的,使用 gi 号而不是用序列号将保持使用有效,即使记录的序列以后发生变化(例如, 5 端)。在写本文时,又出现了一种新的 SeqId (序列版本,见下文),它是被用于选择的序列辨识器。一旦这种转变完成,可能 NID 和 PID 号将不再出现在数据格式中,尽管使用 gi 号的分析将继续有效。而且,初始数据将出现在 NCBI 准备与 GenBan

15、k 数据平行的 ASN.1 文件中。1.4序列联配的文件序列联配是指多序列格式(Multiple sequence format,MSF),序列联配程序的输出结果可能采用一组格式中的任何一种,以上讨论的三种格式都可以用来表示联配的序列,但是还有几种格式是为处理联配结果特别设计的。不同软件联配后有不同的格式。所以在使用中要进行格式的转换,主要通过windows中的记事本notobpad.exe进行编辑和处理。1.5 结构数据文件用作大分子结构生物信息学研究的原始材料是PDB文件,这些文本文件采用蛋白质数据库(protein data bank)设计的格式,这类文件包含正交的原始坐标,并包含注释,

16、说明和实验细节。MMDB结构数据文件采用ASN.1格式。NCBI 数据模型经常被提到或和“ NCBI ASN” 或“ASN.1 数据模型”混淆。 Abstract Syntax Notation 1 ( ASN.1 )是国际标准组织( ISO )的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。说一个数据模型是用 ASN.1 写的就象一个计算机程序是用 C 或 FORTRAN 写的,指明了语言而不是指程序本身。从特殊的以 DNA 为中心的视角来看,熟悉的 GenBank 格式实际是的给人读的,而 ASN.1 是为计算机读的,并且有复杂的数据关系的描述。PD

17、B文件格式1.格式描述的基本概念字符集合只是一些非控制型字符,象空格和结束符,出现在PDB文件记录中。也就是:abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890 - = ; , . / ! # $ % & * ( ) _ + | : ?空格和结束符。结束符根据系统而定,Unix用一行字符,而其他的系统可能就用一个回车来表示。特殊字符希腊字母就详细的拼写出来。比如:, , 原子用DOT表示。右箭头用-表示。左箭头用-表示。上标用两个等号表示开始和结束。S2+(考)下标用一个等号来表示开始和结束。F=c=如果等号两边至少有一

18、边有一个空格,那么这个字符就是表示等号。2 + 4 = 6逗号,冒号和括号用来表示文档中的分界苻,也就是下面几种中的一种:ListSListSpecification ListSpecification如果逗号,冒号或者括号在任何一片文档中使用不是作为分界苻的话,那么肯定有字符被漏掉了。比如下边例子中第四行的:COMPND MOL_ID: 1;COMPND 2 MOLECULE: GLUTATHIONE SYNTHETASE;COMPND 3 CHAIN: NULL;COMPND 4 SYNONYM: GAMMA-L-GLUTAMYL-L-CYSTEINE:GLYCINE LIGASECOMP

19、ND 5 (ADP-FORMING);COMPND 6 EC: 6.3.2.3;COMPND 7 ENGINEERED: YES S-ADENOSYLMETHIONINE SYNTHETASE; A, B; MAT, ATP:L-METHIONINE S-ADENOSYLTRANSFERASE;COMPND 5 EC: 2.5.1.6;COMPND 6 ENGINEERED: YES;COMPND 7 BIOLOGICAL_UNIT: TETRAMER;COMPND 8 OTHER_DETAILS: TETRAGONAL MODIFICATION2.数据格式 每个PDB文件可能分割成一系列行,

20、由行终止符终止.在记录文件中每行由80列组成.每条PDB记录末尾标志应该是行终止符.PDB文件中每行都是自我识别的.每行的前六列存放记录名称,左对齐空格补足.必须和规定的记录名称一致. PDB文件也可看成是各种记录类型的总和.每个记录类型包括一行或多行又被更深一层分成各字段.该文件详细描述了每个数据类型,一般包括如下几部分:综述、记录格式、细节、例子。3. 记录类型按照在记录中出现的频率区分:SINGLE一个文件中只出现一次.按字母顺序列出如下:记录类型说明CRYST1晶胞参数END结束HEADER分子类,公布日期,ID号MASTER版权拥有者ORIGXn直角PDB坐标SCALEn直角部分结晶

21、学坐标如果这些记录在一个记录中重复出现是错误的。SINGLE CONTINUED在记录中概念性的只出现一次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:记录类型AUTHOR结构测定者CAVEAT可能的错误提示COMPND化合物名称EXPDTA测定结构所用的试验方法KEYWDS关键词OBSLTE注明该id号已改为新号SOURCE化合物来源SPRSDE已撤消或更改的相关记录TITLE说明试验方法类型MULTIPLE大部分记录类型多次出现,经常出现在这些组中,组中的信息理论上并没有连接,但已呈现为列表的组成部分.这种记录类型中的许多习惯连载可能不仅仅制定

22、记录还和其他记录相联.按字母顺序列出如下:ANISOU温度因子ATOM标准基因的原子坐标CISPEP顺势残基CONECT有关记录DBREF其他序列库的有关记录HELIX螺旋HET非标准残基HETSYM非标准残基的同义字HYDBND氢键LINK残基间化学键MODRES对标准残基的修饰MTRIXn显示非晶相对称REVDAT修订日期及相关内容SEQADVPDB与其它记录的出入SEQRES残基序列SHEET片层SIGATM标准差SIGUIJSITE特性位点SLTBRG盐桥SSBOND二硫键TURN转折TVECT转换因子Multiple Continued在记录中概念性的出现多次,但信息内容可能超过了可

23、利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:FORMUL非标准残基化学式HETATM非标准集团原子坐标HETNAM非标准残基的化学名称Grouping有三种记录类型用来聚合其他记录. 按字母顺序列出如下:ENDMDL亚基结束MODEL多亚基时,示亚基号TER链末端MODEL/ENDMDL 记录包围着 ATOM, HETATM, SIGATM, ANISOU, SIGUIJ,和 TER 记录. TER 记录预示链的末端.Other其他记录类型有详细的内部结构.按字母顺序列出如下:JRNL发表坐标集的文献REMARK注解4.记录的表示记录部分的划分Title大概描述HEAD

24、ER, OBSLTE, TITLE,CAVEAT, COMPND, SOURCE,KEYWDS, EXPDTA, AUTHOR,REVDAT, SPRSDE, JRNLRemark参考书目,最大分辨率,注解等REMARKs 1, 2, 3 and othersPrimary structure一级结构 氨基酸或核苷酸序列和PDB序列与其他序列库的有关记录DBREF, SEQADV, SEQRES,MODRESHeterogen不标准组的描述HET, HETNAM, HETSYN, FORMULSecondary structure二级结构HELIX, SHEET, TURNConnectivi

25、ty annotation化学元素连接SSBOND, LINK, HYDBND, SLTBRG,CISPEPMiscellaneous feature大分子的特征SITECrystallographic晶体细胞描述CRYST1Coordinate transformation坐标描述ORIGXn, SCALEn, MTRIXn, TVECTCoordinate原子坐标数据MODEL, ATOM, SIGATM,ANISOU, SIGUIJ, TER, HETATM, ENDMDLConnectivity化学键连接CONECTBookkeeping概要信息和结束标志MASTER, END5.对数

26、据类型的说明数据类型Achar一个英文字母(A-Z,a-z)Atom原子名CharacterASCII码和空格Continuation如果一行描述不完用此表示序列号,占两个字符右对齐,第一个用空格Date占九个字符dd-mmm-yy, DD表日期,右对齐不足左补零;MMM表月份用常用的三个英文字母表示;YY表20世纪的一年,他们都必须是有效日期IDcode占四个字符,第一个是阿拉伯数字(0-9),余下的三个由希腊数字组成,字母必须是大写的。若第一个是阿拉伯数字零则对此蛋白质的描述中没有坐标数据Integer右对齐,不足的用空格填充的整型数据Token由一组没有空格的字符组成,结尾部分紧跟着冒号和空格一个由逗号分开的字符串Lstring字符串,任何空格都有意义必须保存LString(n)有N个字符的LstringReal(n,m)实型Record name记录的名字,由六个字符组成,左对齐,不足的用空格补充Residue name右对齐格式标准氨基酸或核苷酸中的一个,后有列表.不标准组分在HET中详细说明Slist由一些内容组成的字符串,有分号分开Specification由一些token记录组成的字符串,由冒号分开Specification

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1