序列文件格式fasta格式与Flatfile格式.docx

资源描述

序列文件格式fasta格式与Flatfile格式.docx

《序列文件格式fasta格式与Flatfile格式.docx》由会员分享，可在线阅读，更多相关《序列文件格式fasta格式与Flatfile格式.docx（7页珍藏版）》请在冰豆网上搜索。

序列文件格式fasta格式与Flatfile格式.docx

序列文件格式fasta格式与Flatfile格式

一、序列文件格式：

fasta格式和Flatfile格式

fasta格式

数据库被用来寄存原始数据，和一系列附加的注释。

不同的检索工具和程序利用了这些信息中的不同部份。

纵观各类格式，咱们能够发觉其中应用了一些一起的规那么，以使得多种情形下在不同格式之间生成和互换数据成为可能。

最便于人阅读的格式对运算机程序来讲极可能并非是最有效率的（例如GenBankflatfile，这是一种人能够阅读的版本）。

这些记录还有二进代码版，加倍紧凑，运算机处置也更快。

但不幸的是，由于历史的缘故，对一种固定格式的频繁利用使得引入另一种格式极为困难，尽管新的格式可能加倍富含信息，加倍准确，易于复制和计算，易于抽取信息，易于利用。

GBFF的简单性，使咱们都能够取得易用的工具，这也是EMBL和GBFF极大通用性的重要缘故。

作为最简单的格式，一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。

这里是一个以FASTA（或Pearson格式）文件表示的核苷酸序列数据：

>L04459

*******************

或同样的，一个蛋白质记录：

>P31373

*******************

FASTA格式广泛应用于许多分子生物学软件包之中。

作为最简单的情况（正如上面所显示的），大于号（>）表示一个新文件的开始。

标记符��上面第一个例子开始部分的L04459��后面是大写或小写字母的DNA序列，通常60个字符一行（但这并非是标准规定）。

如果需要的话，用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息。

例如，在不违反上面规定的前提下，可以在FASTA的说明行中加入更多的内容，使这个简单的格式包含更多的信息，就象下面这样：

*******************

现在这个FASTA文件中包含了gi号码（见下面）、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。

这个记录是从记录生成的，而是NCBI用来存储和维护所有数据的格式。

（在计算机中这些数据保存为一行，如果打印出来，将比本书的页面宽出许多。

所以，这里做了折行处理）。

在分子生物学的历史上曾经使用过许多格式，其中有些格式现在还在使用，同时也有许多工具用来在这些格式之间转换数据。

NCBI的asn2ff程序可以将文件转换为多种flatfile文件格式，它可以生成GenBank、EMBL、GenPept、Swiss-Prot以及FASTA格式的文件。

这一程序包含在NCBI工具软件包之中。

DonGilbert的READSEQ是另一个广泛使用的工具，已包含在许多软件包中。

在使用这些工具进行格式转换时，用户应当注意，有些GenBank或EMBL格式下的特性将被丢失。

READSEQ只工作于序列自身，并不处理注释部分。

那些只需要序列数据的程序最好使用FASTA格式的序列来进行查询。

尽管FASTA格式的信息含量比其他格式少，但它提供了人和计算机都可理解的处理原始数据的简单方法。

GenBankFlatfile格式

GenBankflatfile（GBFF）是GenBank数据库的大体信息单位，也是最普遍地用以表示生物序列的格式之一。

在本书写作的时候，它也是从GenBank到DDBJ和EMBL数据库，和EMBL、DDBJ之间或向其他数据库互换数据时所采纳的格式。

DDBJflatfile格式与GBFF格式是相同的。

EMBL格式那么每行都带有前缀，以说明本行的信息类型。

注释部份（见下面）前缀为“FT”，在内容上与其他数据库相同。

所有这些格式事实上都是由更结构化的生成的。

可是要紧由于历史的缘故，许多用户（专家或非专家）在工作中利用GBFF（或EMBLflatfile格式）

GBFF能够分成三个部份，头部包括关于整个记录的信息（描述符）。

第二部份包括了注释这一记录的特性，第三部份是核苷酸序列自身。

所有的核苷酸数据库记录（DDBJ/EMBL/GenBank）都在最后一行以,编码线粒体蛋白质的核基因

编码叶绿体蛋白质的核基因

编码线粒体蛋白质的线粒体基因

编码叶绿体蛋白质的叶绿体基因

或

DEFINITION属种XXS核糖体RNAgene，（以下选一）

completesequence.

编码线粒体RNA的线粒体基因

编码叶绿体RNA的叶绿体基因

基于一项合作数据库之间最近达到的协议，将在DEFINITION行中给出属和种的全名，而再也不利用通用名（如human）或属名缩写（如）。

数据库中在此协议之前生成的记录将最终按此协议进行更新。

只有一个生物在那个协议之外，那确实是人免疫缺点病毒将在DEFINITION行中表示为HIV1和HIV2。

******************

检索号在记录的第三行，是从数据库中检索一个记录的要紧关键词。

那个号码将在参考文献中被引用，并始终和序列在一路。

确实是说，当序列被更新（例如更正一个核苷酸）时，那个号码可不能改变。

检索号码采取以下两种方式之一：

1+5或2+6格式。

1+5格式是指1个大写字母后跟5位数字；2+6格式是指2个大写字母后跟6位数字。

绝大多数新近加入数据库的记录采取后一种方式。

所有的GenBank记录都只有一个单独的ACCESSION行，行中可能有多个检索号码，但绝大多数情形只有一个检索号。

这通常称为主检索号码，其余的是二级检索号码。

*********************

不幸的是，在以前二级检索号码还有一些不同的含义，但概念方式并非统一。

二级检索号码可能与主检索号码相关，或主检索号码只是已经取消的二级检索号码的替代品。

合作数据库正在尽力使后者成为任何情形下的缺省方式。

但因为二级检索号码已经利用了15年以上（在此期间GenBank的治理方式也通过了多次调整），能论述所有情形的全数数据已无从取得。

*********************

NID行是了核苷酸序列的gi号码（geninfoidentifier）。

前缀字母（d，e或g）说明是哪个数据库生成了那个号码，或这一号码用于哪个数据库。

因为NCBI第一利用了那个号码，因此DDBJ和EMBL用NCBI（GenBank）指定的号码来填充他们的数据库。

简单地说，一个gi号码对应于一个核酸序列（蛋白质序列也有gi号码）。

当序列改变时，gi号码也改变，但检索号码不变。

此刻显现了第三种标识符。

合作数据库已同意将版本号加在不同版本的序列上（就象NID或gi）。

格式是：

检索号.版本号。

例如：

******************

这说明序列第1版，检索号为AF010325，gi号为2245686。

在本文写作时，尚未确信那个标识符应放在哪一行中，但确信会在ACCESSION和NID行以后。

极可能就选择在VERSION行（正如上面那样）。

相关信息请参考最新的GenBankreleasenote。

那个标识符中的版本号码将随每顺序列改变而加1，gi的更改也是如此（但不是每次加1，而是改变到下一个可能的整数）。

那个标识符格式的检索号码将承担此刻由检索号/gi号（在NID行）所承担的任务，它最终取代GBFF的NID行将一点也不令人奇怪。

Accession行在可预见的以后可不能被取消，因为它还有历史价值，也因为还存在一些由于历史缘故此保留的二级号码。

*******************

KEYWORDS是另一个有趣的历史遗留物，而且不幸地在很多情形下被误用了。

给一个记录加上关键词通常并非十分有效，因为在过去的年月中有许多作者选用了不在受控词表中的词，而且在整个数据库顶用法也不一致。

因此，NCBI不鼓舞利用关键词，但在查询时加入关键词是能够的，专门是那些没有在其它记录中显现的过词，或以一种受控的方式来利用的词（例如：

关于EST，STS，GSS，HTG记录）。

这时，拒绝加入关键词只是NCBI/GenBank的策略。

*******************

SOURCE行中有生物的通用名或科学名称。

有些情形下也有其它来源的信息（见下面）。

此刻正在一致尽力以保证来源特性中包括所有必需的信息（不同于此刻的SOURCE行），而且所有关于分类的信息（SOURCE行和ORGANISMS行）能够从来源特性和NCBI分类效劳器中取得。

关于系统族或关于分类的其它方面感爱好的读者能够访问NCBI的分类主页（见章末列表）。

这一分类被所有核苷酸序列数据库和蛋白质数据库Swiss-Prot所采纳。

*******************

每一个GenBank记录至少要有一篇参考文献。

许多情形下有两篇。

前面那个例子是一篇未发表的论文（应该是“已投”），若是以后文章发表的话那么将代替于此。

参考文献提供了科学证据和一个背景来讲明那个特定的序列为何会如此确信。

当参考文献发表时，通常会有一个MEDLINE标识符，正如下面例子中一样，提供了指向MEDLINE/PubMed数据库的链接。

*****************

在1998年末，又加入了一个新的行，和其标识符PUBMED，许诺指向PubMed数据库和发表者在线全文电子版的链接。

*****************

最后一次引用通常显现于许多GenBank的记录中，为那些将要围绕这一序列开展工作的研究者提供科学依据。

这其中通常包括第一作者完成此项工作的要紧实验室，或作者的通信地址。

日期是记录被提交给数据库的日期，而不是这些数据第一次公布发表的日期，那将在LOCUS行中显现（见上面），若是这一记录没有被更新过的话。

GBFF头部的最后一部份是评论。

这一部份包括关于整个记录的许多不同的注释和评论（也称之为“描述部份”）。

基因中心喜爱在这一部份中加入自己的内容，和致谢等。

有许多GenBank记录没有这一部份，这是可选的。

那个地址也能够包括电子邮件地址和URL，但在实践中NCBI并非鼓舞如此（尽管象上面提到的一样有些基因组测序中心已经如此作了），对此简单的说明是电子邮件地址通常比建筑物的地址更易被轻易改换。

但DDBJ几年前就已经将电子邮件地址包括在了记录当中，这又一次表现了政策考虑上的微妙不同。

特性表

GBFF记录的中间部份，也是最重要的一部份，确实是注释，它直接表达了记录的生物背景知识。

或许有人争辩说生物背景在记录所引用的参考文献中有最好的表现，但不论如何，记录中的一整套注释有助于快速地抽取相关生物信息，并许诺提交者指出这一记录那时什么缘故会被提交到那个数据库中。

那个地址关于注释的选择就十分关键了。

特性表文档详细描述了合法的特性（许诺利用的注释），和这些特性的许诺限制词。

不幸的是，那个地址常常有一些非法的，推测性的或由计算得出的注释。

若是一个注释是仅由计算取得的，它作为记录说明的可用性就大打折扣了。

一样考虑

这一节描述GenBank中的一些关键特性，讲述他们的重要性和包括的信息。

由于第14章包括了关于这一部份的大量最新的GBFF文档，因此那个地址的讨论只限于生物背景，和关于这一部份由NCBI工作人员给出的指导性意见。

这些材料将引导读者深切了解数据模型和GBFF在序列分析中的重腹地位，而且也作为对特性概念和GenBank语言中限定语的介绍。

在GBFF记录中，GBFF的每项注释都称之为一个“特性”。

而在NCBI数据模型中，特性指关于部份序列的注释，但关于整个序列的注释通常称为“描述符”。

如此在GenBank辞汇表中，从数据模型的角度看来源事实上是一个描述符（BioSource，指整个序列），而不象在其它地址那样是一个特性。

但因为本章是关于GenBank数据库的，因此咱们采纳了前一种概念。

读者应该清楚其中的微妙不同，专门是在读本书的其他部份时。

来源

来源（source）是唯一一个必需在所有GenBank记录中显现的特性。

所有的特性都有一系列合法的限定词，有些是强制性的（例如来源中的/organism（生物体））。

所有的DNA序列记录都有出处，即便是合成序列如此极端的特例也一样。

大多数情形下一个记录只能有一个来源特性，并带有/organism限定词。

***************

限定词organism包括属和种的科学名称，有些情形下还能够在亚种水平描述。

关于来源，一系列限定词将包括了关于BioSource的所有材料，这可能包括图谱、染色体或组织、克隆标识和其它库信息。

在来源和其它所有GenBank记录的特性中，作者都必需要注意幸免加入冗余的信息。

关于读者来讲，对一切不能由计算证明的东西都必需抱一点疑心态度。

组织来源和文库也只有和相关的发表文献对照才比较靠得住（若是有文献的话），而且只有在这种情形下这种信息才在GenBank的所有记录中一致地利用。

在以系统化的方式利用限定词的一批记录中，正象许多大的EST集一样，分类能够被证明（确实是说，这一生物确实存在于NCBI保护的关于所有生物的数据库中）。

另外若是限定词还在所有记录中一致地利用，关于研究者将是十分有利的。

但不幸的是，许多限定词在数据库中的利用缺乏充分的一致性，这就使得它们事实上没有专门大的价值。

隐含于BioSource和生物体中的是DNA或RNA利用的基因编码，这将被用以将核苷酸翻译为蛋白质序列（若是记录中存在的话）。

这一信息包括在CDS中。

CDS

正如在第六章中详细介绍的，CDS指示读者如何将两个序列连接在一路，或如何依照核苷酸序列和基因编码取得氨基酸序列。

GBFF以DNA为核心，通过DNA序列坐标系统映射所有特性，而不是从氨基酸的角度。

正如下面GenBankY11895的例子所显示的（那个例子来自一个提交到EMBL的记录）。

*********************

在分析这些数据时，咱们必需从DNA坐标推导出氨基酸位置，而且咱们关于所编码蛋白质的了解也将仅限于从对DNA特性的描述中取得。

这一限制可被Sequin克服。

这一例子也显示了数据库交叉索引（db_xref）的利用。

这一受控限制词许诺数据库将另一个外部数据库的序列（第一个标识符）与一个在本数据库中利用的标识符交叉索引。

许诺db_xref的数据库都是合作数据库所保护的。

正如上面提到的，NCBI给每一个记录给予一个gi（geninfo）标识符。

这意味着翻译产物蛋白质序列（不是简单附属于DNA记录，犹如在GenBank记录中显示的），也有自己的gi号码。

一个特定的标识符当且仅当序列更改时才更改。

蛋白质gi号码此刻作为PIDdb_xref或蛋白质标识符显现。

下面那个例子显示了两种情形：

/db_xref=“PID:

e322087”

/db_xref=“PID:

g2415691”

前缀e和g表示EMBL及GenBank。

‘g’前缀后面的整数是NCBI给予的gi（那个地址的gi没有字母，只有PID值）。

那个地址能够有两个PID，因为每一个数据库各自保护其标识符。

在GenBank中，只有EMBL生成的记录有两个PID，其中一个带有‘e’前缀，另一个带有‘g’前缀。

这一混乱将专门快终止，因为1998年后gi号码的利用将被简化。

关于核苷酸序列，还将有一个序列标识符，带有版本号成份，和一个固定的序列标识符（或检索号）。

***********************

在过渡时期，所有的序列标识符需要同时存在，但PID将最终被取消。

Protein_id（或核苷酸序列数据库生成的蛋白质检索号）将由3个字母加5位数字组成，后跟一个句号和另一个整数，显示那个蛋白质序列的版本。

当序列更新时，这一数字也将增加，就象gi那样。

如此若是旧版本存在的话用户将能够简单地通过版本号来查找以前版本的记录。

氨基酸序列是核苷酸序列数据库最重要的副产品之一，因此已经有大量的尽力来保证其正确性（若是对GenBank记录进行翻译，必需找到正确的相位，以指导对给定序列的翻译）。

这些序列提供了蛋白质数据库的原始材料，也提供了最有效的发觉新基因的方式。

当注释能够被证明时，它们就有附加值，因此正确的标识符是十分重要的。

产物名称或蛋白质名称有可能是主观的，而且常常是通过与其它未充分注释的序列的微弱相似性而给予的，而且它们本身也常常没有被充分注释。

因此用户必需意识到信息缺乏的恶性循环。

当一个记录描述了一个单独基因或全长mRNA序列，并伴有已发表的文章时，往往能够由此取得充分的信息。

如此的记录一般是一个研究组的工作功效，那个组对基因的细节已进行了必然的研究。

幸运的是，已有许多这种记录在数据库中，组成了研究者应用这些数据的知识基础。

基因

最近才加入的基因特性事实上自数据库开始时就已经隐含地利用了，它以前常常作为一个基因限定词出此刻一些其它特性中。

将其作为一个单独的特性来显式地利用，极大地便利了依照这一特性来注释的其它数据成份的生成和确信进程。

那个新特性也统一了生物学家对GenBank记录中基因特性的不同概念和利用方式。

尽管很明显可不能所有的生物学家都同意关于基因的一个统一概念，但作为最简单的说明，基因代表了DNA的一个能够用一个名字标识的片段，或常常在基因组测序打算中利用的数字（例如GenBank检索号U95973中的）。

基因特性许诺用户看到感爱好的基因片段，并在某些情形下作出选择。

RNA

不同的结构RNA能够用来注释基因组序列中的RNA（例如mRNA、rRNA、tRNA）。

尽管目前这些尚未象蛋白质序列那样分成单独的记录，但这些序列（尤其是mRNA）对咱们关于基因组高级组成的明白得是十分重要的。

RNA有专门的意义，因为它们是能够在实验室中被观测的生物对象。

因此，它们是有关基因组的极有价值的信息片段，而且常常是它们自身的mRNA记录。

这与启动子不同，启动子没有什么特点，不均匀地散布在大量记录中，很难从生物角度概念，而且事实上关于GenBank记录没有什么用途。

基因组记录中的RNA特性代表了一个生物分子存在的实验依据。

小结

DDBJ/EMBL/GenBank数据库是最经常使用的核苷酸及蛋白质序列数据库，它贮存了大量的公共分子生物学信息。

明白得各个数据成份的含义，明白如何从记录中提取生物学知识，将极大有助于咱们关于那个文件格式的明白得。

尽管那个数据库从来也不是为用运算机读取而设计的，但已经有一批热衷于运算机的生物学家用整套的运算机程序来对记录进行分析、转换和信息抽取工作。

DDBN/EMBL/GenBank在国际合作DNA序列数据库内部保护一种数据互换格式，这在近几年可能可不能改变，尽管存在着象那样更好的，信息更丰硕的其它选择。

但此刻的安排也有益处，这是一个便于阅读的简单格式，能代表它希望描述的生物背景知识。

展开阅读全文