读懂GenBank文件格式中的资料.docx

资源描述

读懂GenBank文件格式中的资料.docx

《读懂GenBank文件格式中的资料.docx》由会员分享，可在线阅读，更多相关《读懂GenBank文件格式中的资料.docx（26页珍藏版）》请在冰豆网上搜索。

读懂GenBank文件格式中的资料.docx

读懂GenBank文件格式中的资料

一、LOCUS

在GenBank格式中，

LOCUSNM_0014692156bpmRNAlinear（家系血统）PRI（primate猿类）16-DEC-2004

DEFINITIONHomosapiensthyroidautoantigen70kDa（Kuantigen）（G22P1）,mRNA.

TheLOCUSfieldcontainsanumberofdifferentdataelements,includinglocusname,sequencelength,moleculetype,GenBankdivision,andmodificationdate.Eachelementisdescribedbelow.

二、COMMENT

1、REVIEWEDREFSEQ：

说明了该RefSeq生成的进程。

2、Summary：

说明了该序列的功能。

三、Feature名词说明：

informationaboutgenesandgeneproducts,aswellasregionsof（biologicalsignificancereportedinthe）sequence.ThesecanincluderegionsofthesequencethatcodeforproteinsandRNAmolecules.

Feature下的副题目内容太复杂，必要时到那个地址TheDDBJ/EMBL/GenBankFeatureTable查.

1、key：

一样选择Location/Qualifier。

2、complement：

cDNA。

Ifafeatureislocatedonthecomplementarystrand,theword"complement"willappearbeforethebasespan.

3、5<：

指向5’端。

Ifthe"<"symbolprecedesabasespan,thesequenceispartialonthe5'end（e.g.,CDS<1..206）.Ifthe">"symbolfollowsabasespan,thesequenceispartialonthe3'end（e.g.,CDS435..915>.

4、/db_xref：

其字符串是通往其他数据库的链接。

/db_xref="taxon:

9606"taxonomy物种分类学

/db_xref="GeneID:

2547"链接到Gene。

/db_xref="LocusID:

2547"链接到Locuslink。

/db_xref="MIM:

152690"链接到OMIM。

四、两个例子：

Key=Location/Qualifiers

CDS=23..400

====/product="alcoholdehydrogenase"

====/gene="adhI"

mightbereadas:

ThefeatureCDSisacodingsequencebeginningatbase23andendingatbase400,hasaproductcalled'alcoholdehydrogenase'andiscodedforbyagenecalled“adhI”

Amorecomplexdescription:

Key=Location/Qualifiers

CDS=join（544..589,688..>1032）

====/product="T-cellreceptorbeta-chain"

whichmightbereadas:

Thisfeature,whichisapartialcodingsequenceisformedbyjoiningelementsindicatedtoformonecontiguoussequenceencodingaproductcalledT-cellreceptorbeta-chain.

一样考虑

这一节描述GenBank中的一些关键特性，讲述他们的重要性和包括的信息。

由于第14章包括了关于这一部份的大量最新的GBFF文档，因此那个地址的讨论只限于生物背景，和关于这一部份由NCBI工作人员给出的指导性意见。

这些材料将引导读者深切了解数据模型（第6章）和GBFF在序列分析中的重腹地位，而且也作为对特性概念和GenBank语言中限定语的介绍。

那个地址的特性与其它在第6章和第14章中讨论的特性略有不同。

在GBFF记录中，GBFF的每项注释都称之为一个“特性”。

而在NCBI数据模型中，特性指关于部份序列的注释，但关于整个序列的注释通常称为“描述符”。

如此在GenBank辞汇表中，从数据模型的角度看来源事实上是一个描述符（BioSource，指整个序列），而不象在其它地址那样是一个特性。

但因为本章是关于GenBank数据库的，因此咱们采纳了前一种概念。

读者应该清楚其中的微妙不同，专门是在读本书的其他部份时。

来源

来源（source）是唯一一个必需在所有GenBank记录中显现的特性。

所有的特性都有一系列合法的限定词，有些是强制性的（例如来源中的/organism（生物体））。

所有的DNA序列记录都有出处，即便是合成序列如此极端的特例也一样。

大多数情形下一个记录只能有一个来源特性，并带有/organism限定词。

那个地址是附录中的例子：

***************

限定词organism包括属和种的科学名称，有些情形下还能够在亚种水平描述。

关于来源，一系列限定词将包括了关于BioSource的所有材料，这可能包括图谱、染色体或组织、克隆标识和其它库信息。

在来源和其它所有GenBank记录的特性中，作者都必需要注意幸免加入冗余的信息。

关于读者来讲，对一切不能由计算证明的东西都必需抱一点疑心态度。

组织来源和文库也只有和相关的发表文献对照才比较靠得住（若是有文献的话），而且只有在这种情形下这种信息才在GenBank的所有记录中一致地利用。

在以系统化的方式利用限定词的一批记录中，正象许多大的EST集一样，分类能够被证明（确实是说，这一生物确实存在于NCBI保护的关于所有生物的数据库中）。

另外若是限定词还在所有记录中一致地利用，关于研究者将是十分有利的。

但不幸的是，许多限定词在数据库中的利用缺乏充分的一致性，这就使得它们事实上没有专门大的价值。

隐含于BioSource和生物体中的是DNA或RNA利用的基因编码，这将被用以将核苷酸翻译为蛋白质序列（若是记录中存在的话）。

这一信息包括在CDS中。

CDS

正如在第六章中详细介绍的，CDS指示读者如何将两个序列连接在一路，或如何依照核苷酸序列和基因编码取得氨基酸序列。

GBFF以DNA为核心，通过DNA序列坐标系统映射所有特性，而不是从氨基酸的角度。

正如下面GenBankY11895的例子所显示的（那个例子来自一个提交到EMBL的记录）。

*********************

在分析这些数据时，咱们必需从DNA坐标推导出氨基酸位置，而且咱们关于所编码蛋白质的了解也将仅限于从对DNA特性的描述中取得。

这一限制可被Sequin克服（见第14章）。

这一例子也显示了数据库交叉索引（db_xref）的利用。

这一受控限制词许诺数据库将另一个外部数据库的序列（第一个标识符）与一个在本数据库中利用的标识符交叉索引。

许诺db_xref的数据库都是合作数据库所保护的（见章末列表）。

正如上面提到的，和将在第六章中讨论的，NCBI给每一个记录给予一个gi（geninfo）标识符。

这意味着翻译产物蛋白质序列（不是简单附属于DNA记录，犹如在GenBank记录中显示的），也有自己的gi号码。

一个特定的标识符当且仅当序列更改时才更改。

蛋白质gi号码此刻作为PIDdb_xref或蛋白质标识符显现。

下面那个例子显示了两种情形：

/db_xref=“PID:

e322087”

/db_xref=“PID:

g2415691”

前缀e和g表示EMBL及GenBank。

‘g’前缀后面的整数是NCBI给予的gi（那个地址的gi没有字母，只有PID值）。

那个地址能够有两个PID，因为每一个数据库各自保护其标识符。

在GenBank中，只有EMBL生成的记录有两个PID，其中一个带有‘e’前缀，另一个带有‘g’前缀。

这一混乱将专门快终止，因为1998年后gi号码的利用将被简化。

关于核苷酸序列，还将有一个序列标识符，带有版本号成份，和一个固定的序列标识符（或检索号）。

***********************

在过渡时期，所有的序列标识符需要同时存在，但PID将最终被取消。

Protein_id（或核苷酸序列数据库生成的蛋白质检索号）将由3个字母加5位数字组成，后跟一个句号和另一个整数，显示那个蛋白质序列的版本。

当序列更新时，这一数字也将增加，就象gi那样。

如此若是旧版本存在的话用户将能够简单地通过版本号来查找以前版本的记录。

氨基酸序列是核苷酸序列数据库最重要的副产品之一，因此已经有大量的尽力来保证其正确性（若是对GenBank记录进行翻译，必需找到正确的相位，以指导对给定序列的翻译）。

这些序列提供了蛋白质数据库的原始材料，也提供了最有效的发觉新基因的方式（见第7章）。

当注释能够被证明时，它们就有附加值，因此正确的标识符是十分重要的。

产物名称或蛋白质名称有可能是主观的，而且常常是通过与其它未充分注释的序列的微弱相似性而给予的，而且它们本身也常常没有被充分注释。

因此用户必需意识到信息缺乏的恶性循环。

当一个记录描述了一个单独基因或全长mRNA序列，并伴有已发表的文章时，往往能够由此取得充分的信息。

如此的记录一般是一个研究组的工作功效，那个组对基因的细节已进行了必然的研究。

幸运的是，已有许多这种记录在数据库中，组成了研究者应用这些数据的知识基础。

基因

最近才加入的基因特性事实上自数据库开始时就已经隐含地利用了，它以前常常作为一个基因限定词出此刻一些其它特性中。

将其作为一个单独的特性来显式地利用，极大地便利了依照这一特性来注释的其它数据成份的生成和确信进程。

那个新特性也统一了生物学家对GenBank记录中基因特性的不同概念和利用方式。

尽管很明显可不能所有的生物学家都同意关于基因的一个统一概念，但作为最简单的说明，基因代表了DNA的一个能够用一个名字标识的片段（例如附录的例子中的CHIP基因），或常常在基因组测序打算中利用的数字（例如GenBank检索号U95973中的）。

基因特性许诺用户看到感爱好的基因片段，并在某些情形下作出选择。

RNA

不同的结构RNA能够用来注释基因组序列中的RNA（例如mRNA、rRNA、tRNA）。

尽管目前这些尚未象蛋白质序列那样分成单独的记录，但这些序列（尤其是mRNA）对咱们关于基因组高级组成的明白得是十分重要的。

RNA有专门的意义，因为它们是能够在实验室中被观测的生物对象。

因此，它们是有关基因组的极有价值的信息片段，而且常常是它们自身的mRNA记录。

这与启动子不同，启动子没有什么特点，不均匀地散布在大量记录中，很难从生物角度概念，而且事实上关于GenBank记录没有什么用途。

基因组记录中的RNA特性代表了一个生物分子存在的实验依据。

小结

DDBJ/EMBL/GenBank数据库是最经常使用的核苷酸及蛋白质序列数据库，它贮存了大量的公共分子生物学信息。

明白得各个数据成份的含义，明白如何从记录中提取生物学知识，将极大有助于咱们关于那个文件格式的明白得。

尽管那个数据库从来也不是为用运算机读取而设计的，但已经有一批热衷于运算机的生物学家用整套的运算机程序来对记录进行分析、转换和信息抽取工作。

DDBN/EMBL/GenBank在国际合作DNA序列数据库内部保护一种数据互换格式，这在近几年可能可不能改变，尽管存在着象那样更好的，信息更丰硕的其它选择。

但此刻的安排也有益处，这是一个便于阅读的简单格式，能代表它希望描述的生物背景知识

NCBI简介

明白得自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。

通过只有四个字母来代表DNA化学亚基的字母表，显现了生命进程的语法，其最复杂形式确实是人类。

说明和利用这些字母来组成新的“单词和短语”是分子生物学领域的中心核心。

数量庞大的分子数据和这些数据的隐秘而精细的模式使得运算机化的数据库和分析方式成为绝对的必需。

挑战在于发觉新的手腕去向理这些数据的容量和复杂性，而且为研究人员提供更好的便利来取得分析和计算的工具，以便推动对咱们遗传之物和其在健康和疾病中角色的明白得。

国立中心的成立

后来的参议员ClaudePepper意识到信息运算机化进程方式对指导生物医学研究的重要性，发起了在1988年11月4日成立国立生物技术信息中心（NCBI）的立法。

NCBI是在NIH的国立医学图书馆（NLM）的一个分支。

NLM是因为它在创建和保护生物信息学数据库方面的体会被选择的，而且这能够成立一个内部的关于计算分子生物学的研究打算。

NCBI的任务是进展新的信息学技术来帮忙对那些操纵健康和疾病的大体分子和遗传进程的明白得。

它的使命包括四项任务：

成立关于分子生物学，生物化学，和遗传学知识的存储和分析的自动系统

实行关于用于分析生物学重要分子和复合物的结构和功能的基于运算机的信息处置的，先进方式的研究

加速生物技术研究者和医药医治人员对数据库和软件的利用。

全世界范围内的生物技术信息搜集的合作尽力。

NCBI通过下面的打算来实现它的四项目的：

大体研究

NCBI有一个多学科的研究小组包括运算机科学家，分子生物学家，数学家，生物化学家，实验物理学家，和结构生物学家，集中于计算分子生物学的大体的和应用的研究。

这些研究者不单单在基础科学上做出重要奉献，而且往往成为应用研究活动产生新方式的源泉。

他们一路用数学和计算的方式研究在分子水平上的大体的生物医学问题。

这些问题包括基因的组织，序列的分析，和结构的预测。

目前研究打算的一些代表是：

检测和分析基因组织，重复序列形式，蛋白domain和结构单元，成立人类基因组的基因图谱，HIV感染的动力学数学模型，数据库搜索中的序列错误阻碍的分析，开发新的数据库搜索和多重序列对齐算法，成立非冗余序列数据库，序列相似性的统计显著性评估的数学模型，和文本检索的矢量模型。

另外，NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。

数据库和软件

在1992年10月，NCBI承担起对GenBankDNA序列数据库的责任。

NCBI受过度子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）互换数据成立起数据库。

同美国专利和商标局的安排使得专利的序列信息也被整合。

GenBank是NIH遗传序列数据库，一个所有能够公布取得的DNA序列的注释过的搜集。

GenBank同日本和欧洲分子生物学实验室的DNA数据库一起组成了国际核酸序列数据库合作。

这三个组织天天互换数据。

GenBank以指数形式增加，核酸碱基数量可能每14个月就翻一个倍。

最近，GenBank拥有来自47,000个物种的30亿个碱基。

孟德尔人类遗传（OMIM），三维蛋白质结构的分子模型数据库（MMDB），唯一人类基因序列集合（UniGene），人类基因组基因图谱，分类学阅读器，同国立癌症研究所合作的癌症基因组剖析打算（CGAP）。

Entrez是NCBI的为用户提供整合的访问序列，定位，分类，和结构数据的搜索和检索系统。

Entrez同时也提供序列和染色体图谱的图形视图。

Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。

这些数据库包括核酸序列，蛋白序列，大分子结构，全基因组，和通过PubMed检索的MEDLINE。

Entrez的一个壮大和独特的特点是检索相关的序列，结构，和参考文献的能力。

杂志文献通过PubMed取得，PubMed是一个网络搜索界面，能够提供对在MEDLINE上的九百万杂志引用的访问，包括了链接到参与的出版商网络站点的全文文章。

Blast是一个NCBI开发的序列相似搜索程序，还可作为辨别基因和遗传特点的手腕。

BLAST能够在小于15秒的时刻内对整个DNA数据库执行序列搜索。

NCBI提供的附加的软件工具有：

开放阅读框寻觅器（ORFFinder），电子PCR，和序列提交工具，Sequin和BankIt。

所有的NCBI数据库和软件工具能够从WWW或FTP来取得。

NCBI还有E-mail效劳器，提供用文本搜索或序列相似搜索访问数据库一种可选方式。

教育和训练

NCBI通过赞助会议，研讨会，和系列演讲来培育在应用于分子生物学和遗传学的运算机领域的科学交流。

一个科学访问学者项目已经成立，来培育同外部科学家的合作。

作为NIH内部的部份研究项目，也提供博士后工作位置

向导

人类基因组资源向导—可用的人类基因组数据资源概览。

包括关于人类基因组的公告和进展报告和提供对以前分离的数据的集中访问。

人类基因组序列数据的状态—描述了目前在GenBank中的数据的范围，包括完成的和草图高通量基因组序列数据的讨论。

染色体

人类基因组测序—每一条染色体，概述了人类基因组打算的测序进展（图示和统计）。

提供对基因组序列数据的访问，也有链接到参与的国际基因组中心，各类STS图谱，疾病基因信息，和选择出的参考文献。

列出完成的contig的大小和位置。

Contig能够被显示出来，以表示组成他们的GenBank中的记录的成份，或那些由e-PCR确信的位于其上的STS标记。

Contig用在GenBank中处于第三期的HTG序列记录来组装起来，组装的方法是用Jang,etal描述的进程，并给于一个NT_*的accessionnumber，作为RefSeq打算的一部份。

关于各期HTG序列的详细说明见HTG网页。

Entrez图谱阅读器—整合的染色体图谱—图谱阅读器是Entrez基因组的一个软件组成部份，用来显示一个或多个用一起标记或基因名字相互align过的图谱，和用相同序列进行比较过的序列图谱。

在人类基因组数据和搜索技术文件中有关于20种序列，细胞遗传，遗传连锁，放射杂交，和其它的图谱。

Entrez图谱阅读器的帮忙文件提供了关于如何利用那个工具的一样说明。

FTP—每一个染色体都有一个文件目录包括各类格式的完成的基因组contig（NT_*记录）：

hs_chr*.asnASN.1格式（descriptionabove）

hs_chr*.fna.gzFASTA格式（descriptionabove）

hs_chr*.gbk.gzGenBankflatfile格式

（目前注解包括STS标记，已知和预期的基因将被在以后几个月中加入）

hs_chr*.gbsGenBanksummary格式

（那个格式不含有序列数据，可是包括一个“CONTIG”字段，说明那个contig是如何有独立的GenBank记录组装起来的。

）

Blast人类基因组序列数据

BLAST人类染色体—将一个核酸或蛋白序列同已经完成的HTGcontig比较。

Contig用在GenBank中处于第三期的HTG序列记录来组装起来，组装的方法是用Jang,etal描述的进程，并给于一个NT_*的accessionnumber，作为RefSeq打算的一部份。

关于各期HTG序列的详细说明见HTG网页。

同人类染色体作BLAST是人类基因组测序页面的一个组成部份。

BLASThtgs数据库—将一个核酸或蛋白序列同未完成的HTG序列（第0，1，2期）进行比较（关于各期HTG序列的详细说明见HTG网页）。

尽管htgs数据库包括有来自许多物种的序列，你能够利用AdvancedBLAST页面来限定你的搜索只在人类。

BLASTgss数据库—将一个核酸或蛋白序列同随机的“单次（测序）阅读”的基因组调查序列比较，犹如cosmid/BAC/YAC结尾序列，exontrap取得的基因组序列，和AluPCR序列。

尽管gss数据库包括有来自许多物种的序列，你能够利用AdvancedBLAST页面来限定你的搜索只在人类。

基因

位点链接（LocusLink）—为校正过的序列和遗传位点的描述信息提供一个单次查询界面。

LocusLink给每一个位点发布一个稳固的ID，并提供官方的命名，同名，序列accesssionnumber，表型，EC号码，OMIM号码，Unigene簇，图谱信息，和相关的网址。

LocusLink是NCBI，人类基因命名委员会，OMIM和其它组织的合作结果。

LocusLink目前包括人类，小鼠，大鼠，斑马鱼，和果蝇的位点，物种能够被分开或合在一路查询。

OMIM—在线人类孟德尔遗传—常常更新的人类基因和遗传失调的目录，有链接到其它相关的文献参考，序列记录，和相关数据库。

RefSeq—NCBI数据库的参考序列。

校正的，非冗余集合，包括基因组DNAcontigs，已知基因的mRNAs和蛋白，在以后，整个的染色体。

Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。

UniGene—被整理成簇的EST和全长mRNA序列，每一个代表一种特定已知的或假设的人类基因，有定位图和表达信息和同其它资源的交叉参考。

序列数据能够以cluster形式在Unigene网页下载，完整的数据能够从FTP站点repository/UniGene目录下下载。

序列

人类基因组测序—每一条染色体，概述了人类基因组打算的测序进展（图示和统计）。

提供对基因组序列数据的访问，也有链接到参与的国际基因组中心，各类STS图谱，疾病基因信息，和选择出的参考文献。

列出完成的contig的大小和位置。

Contig能够被显示出来，以表示组成他们的GenBank中的记录的成份，或那些由e-PCR确信的位于其上的STS标记。

Contig用在GenBank中处于第三期的HTG序列记录来组装起来，组装的方法是用Jang,etal描述的进程，并给于一个NT_*的accessionnumber，作为RefSeq打算的一部份。

关于各期HTG序列的详细说明见HTG网页。

RefSeq—NCBI数据库的参考序列。

校正的，非冗余集合，包括基因组DNAcontigs，已知基因的mRNAs和蛋白，在以后，整个的染色体。

Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。

Entrez—对GenBank,EMBL,DDBJ,PIR-International,PRF,Swiss-Prot,andPDB数据库中的核酸和蛋白序列数据提供整合的访问，同时提供对3D蛋白结构，基因组图谱信息和PubMedMEDLINE的访问。

Entrez包括了对每一个数据库记录的预先计算好的相似搜索，产生一个相关序列，结构，和MEDLINE记录的表。

包括了来自〉70000个物种的序列数据，能够用物种字段来限制记录只在人类搜索。

UniGene—被整理成簇的EST和全长mRNA序列，每一个代表一种特定已知的或假设的人类基因，有定位图和表达信息和同其它资源的

展开阅读全文