//202.117.48.20/www.ncbi.nlm.nih.gov/htbin-post/Entrez/query-uid=2182225&form=6&db=n&Dopt=g">http:
//www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?
uid=2182225&form=6&db=n&Dopt=g
B:
新的CON中片段代表,新的GenBank格式的延续,容许片段记录之间建立联系,CONTIG行可以包含单个序列,已知长度的间隔,未知长度的间隔。
尽管这种格式中没有特征及序列,但每个组成成分仍以传统格式表达。
GenBank格式也隐藏了一些DNA序列的多序列性。
例如一般意义上,一个基因的三个外显子是有顺序的,或是被侧面的非编码区或DNA内含子密集包围着,而内含子的整个长度是没有被测序的。
这时候在GenBank的数据中会有三条记录,每一个对应一个外显子。
没有一个特征能清楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的DNA序列隔断)。
在GenBank格式中,这时会有SEGMENT行指出第一个记录是SEGMENT1of3、第二个记录是SEGMENT2of3、第三个记录是SEGMENT3of3,但这仅告诉使用者这是一些没有确定顺序的片段。
从整个GenBank角度来看,使用一种被称为LOCUS的算法将无序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如RNKOR1,RNKOR2,RNKOR3。
显然当LOCUS名字中包含其它与该序列不相关的干扰时,这种复杂的安排会遇到问题。
况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述片段之间的距离。
因为在EMBI序列数据库中根本没有分割片段的信息,所以任何从这种形式派生出来的记录都缺乏一些基本的信息。
NCBI数据模型定义了一种直接代表片段的格式,被成为“片段序列”。
其包含的元素不是A,G,C,T,而是由怎样从其它序列构造的方法组成。
所以以上面的例子为例,片段序列将包含:
RNKOR1-200bp间隔-RNKOR2-未知长度的间隔-RNKOR3。
该片段序列和其他记录一样有自己的名称(RNKOR)、序列号、特征、位点和注解。
通常我们将这种形式的存储方式称为包含RNKOR1、RNKOR2、RNKOR3、所有中间联系和特征的序列RNKOR片段集。
当GenBank以核酸-蛋白质组形式发行时,片段集被分成多条记录,片段集就消失了。
然而从Entrez图的视角看片段集,片段集象一条线将它的组分连接在一起。
DDBJ/EMBL/GenBank最近同意了一种方法用于代表构造结构,它将被放在新的CON分割中(图6.1B)。
不同于GenBank格式,NCBI片段序列不要求片段间有间隙,事实上片段可以重叠。
这使得片段序列适合用于代表诸如细菌基因的长序列,这恰恰就是Entrez基因分离细菌基因和其它诸如酵母等全染色体基因中所做的。
NCBI软件工具包(Ostell,1996:
见本章末尾的内部资源)包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。
这为图象视角、GenBank结构视角、FASTA视角或对离散数据进行全染色体分析提供了可能。
这种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。
在越来越大的区域进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上处理的思想是完全不现实的。
ASN.1处理方法
NCBI数据模型经常被提到或和“NCBIASN”或“ASN.1数据模型”混淆。
AbstractSyntaxNotation1(ASN.1)是国际标准组织(ISO)的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。
说一个数据模型是用ASN.1写的就象一个计算机程序是用C或FORTRAN写的,指明了语言而不是指程序本身。
从特殊的以DNA为中心的视角来看,熟悉的GenBank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的数据关系的描述。
从这个简单的形式看,我们创造了一系列的人可读的格式如Entrez,GenBank和BLAST数据库。
没有这些一般意义上的格式的存在,Entrez(见第5章)中相邻或连接关系的存在是不可能的。
这一章是关于NCBI数据的结构和内容以及它作为生物药学数据库和工具的作用。
关于这个任务和格式的ASN.1选择参见Ostell,1995。
定义方式
我们已经对NCBI数据模型所定义的序列举了几个例子,可以看出NCBI数据类型相比GenBank更加丰富、描述更加清晰。
该模型的重点是它的细节问题,我们在下面将它进行展开。
在这里我们简单地介绍一下该模型大致的理论和基本原理。
将数据输入计算机的目的有两个:
重现和发现。
重现是基本的能够找回它原来的本身。
尽管这很重要,但如果能比找回本身得到更多的信息,也就是说能从信息中得到发现,这当然是更有价值的。
从识别数据库中完全不相关的两条数据中发现它们之间的关系,或者对数据进行新角度的分析计算,科学家能从中得到发现。
强调NCBI数据模型就是为了促进这种发现,从而定义了能描述信息间的联系和适合计算的数据模型。
对这种模型的第二个考虑是稳定性。
NCBI是美国国家机构而不是由个人赞助的,因此成员对支持生物信息的努力有长远的考虑。
NCBI提供了大规模的能支持科学研究几十年的信息系统。
就所有关于生物药学方面的人士所知,在近几十年内,可能会有许多概念性和技术上的革命,所以NCBI必须适应这些新的观点,适应对软件和数据新的要求。
所以我们尽量选用基本观察或数据点的主要数据元素,不考虑解释的核心和这些元素的命名(这些都很可能会发生变化)。
综合考虑上述原因,NCBI有四个核心元素:
文献出处,DNA序列,蛋白质序列和三维结构。
另外两个项目(分类和基因图)更具解释性,但是不管怎样,它们和组织和联系方面一样重要所以NCBI在这个领域内建立了一个相当大的基础。
出版物
出版物是科学研究的核心。
科学信息从这里进行检查、评价、传播和永久的记录。
出版物可以说是活的连接实际中不同结构或内容域的数据库的桥梁(例如某序列数据库中的一条记录和基因库中的某条记录可能出自同一篇文章)。
它们被当作联系实际数据库的无价之宝(“我读了关于这条记录的文章,现在我想看看这个数据”)。
出版物也是功能的基本注释和实际数据库的上下文,也许是最好的注释。
原因之一是实际数据库有能有效使用该数据库的结构,但缺乏足够的代表性能继续进行完整的生物的、实验的或某记录的历史上下文。
另一方面,发表的文章仅仅受语言的限制,比实际数据库中的记录更包含了更完整和详细的描述信息。
根据发表文章的内容,作者被科学同僚评价,而不是根据数据库中的记录。
即使由于要追求更好的目的,科学家在继续工作,即使关于它们的知识在增长而数据库保持静态的。
很少有繁忙的科学家会有兴趣去学习数据库系统,并能保持个人记录能及时更新。
NCBI有一系列进行中的项目能保证GenBank记录的高可靠性,提供便利和强大的记录更新工具,以及与科学家日常工作习惯相应的有用数据。
不管怎样,与出版物保持可靠的联系能保证及时对数据库记录进行最丰富的注解。
一般来说,实际的数据库并没有对引用的形式和内容进行详细的分析,因此不同数据库之间,引用的质量、格式和内容等有很大的出入。
我们认识到和出版物相互联系的重要性,认识到科学知识相对文献的动态性以及NCBI的优势(因为NCBI是国际健康组织的国际医药图书馆的一部分),我们认为仔细和完整的工作是一项有意义的工作,尽管很多专业人士告诫说这是一项艰巨的任务。
以下是一些数据库的说明,可供对NCBI有兴趣的科学家和使用者参考,完整的说明需要另外一章。
作者
在不同的数据库中作者的姓名是有不同的格式的:
只有姓、姓和首字母、姓-逗号-首字母、姓/名,名首字母和全称姓的作者、带有和不带有称谓(如Ph.D)或尾缀(Jr.,III)。
一些文献数据库(如MEDLINE)可能仅用一个固定的数字代表作者。
尽管这只是不便于读者阅读,但这对数据库系统产生了严重的问题,就象Entrez那样,只能提供按作者姓搜索的简单功能。
由于这个原因,该说明提供了两种可选择的作者姓名代表格式,一个是简单的字符串形式,另一个是包含姓、名和其它等的结构域。
当数据直接被送到NCBI或作者姓名有固定格式的其它数据库(如MEDLINE)时使用结构形式。
当该形式不能破译是则仍然被看成为字符串形式,但这时复现受到限制,但至少还是能用其他的方法复现出一些数据的。
即使是结构形式的作者姓名也必须支持多样性,这是因为一些文献只给首字母,而另一些只给名和中间名。
这时要强调两点:
第一点,NCBI数据格式是为了适合于我们直接阅读以及能和现存数据相一致;第二点,在一个特殊的资源被转化时软件开发者必须了解该格式的意义。
一般说来,NCBI尽量使数据形式满足统一格式,但可能也会使其它的性能下降。
作者的社会关系(如作者的工作地点等)就更加复杂了。
至于作者姓名对于支持结构形式和字符串形式也还有一些问题。
然而,即使对那些有统一格式作者姓名的文献来源,也不能将社会关系分解成结构形式。
而且,也有很多作者是属于相同的机构或一个作者参与了几个机构。
NCBI数据模型支持以上情况。
尽管在写本文时,MEDLINE或GenBank只支持前一种格式,而两种格式都出现在出版物上。
文章
最常见的生物科学的文献标题是期刊文献,所以对于生物数据库的引用格式缺省为期刊文献。
然而,文章也可能出现在书、手稿以及电子期刊上,数据模型应该能引用书、期刊或手稿。
文章出处占有一个域,其它域用于存储其它的能唯一确定其在书、期刊或手稿中的有用信息,如文章的作者(对应与书的作者或编辑者)、文章的标题、页码等等。
那些能辨识文章出处的域以及对数据库使用者有用的能识别相同文章的域是完全不同的。
NCBI出处比对服务(见本章末)使用出处域来区分定位文献的出处,这个比对过程包含能同时配合相同的期刊名、年份、文章的首页以及文章作者的姓。
其他的信息(例如文章标题、页数、全部页数、作者名单)仅用于观看而对输入来源不起作用。
作为出处的数据模型要容许最小信息集能作用,和MEDLINE比对后,被从MEDLINE中得到的完整的域所替代,从而满足科学研究精确的需要。
专利权
随着专利的出现,我们需要将专利而不是文章当作文献条目进行引用。
NCBI支持由美国专利局合作的完整的专利引用顺序。
实际上,专利说明书倾向于限制科学的作用,理由如下:
专利是合法的文献而不是科学的文献,它的目的是支持专利的声明和存在,而不是完全描述生物的过程。
这是为在律师办公室的情况,不是为做研究的科学家。
所以存在的说明书只是解释专利中的一些方面,而不是文章的核心。
只要不是基因的专利,组织信息、生物特征位点等等根本不可能出现。
不管怎样大多数出现在专利说明书中的序列也以一些更有用的格式(对科学家)出现在公共数据库中。
从NCBI的观点,GenBank列出专利说明中的序列的目的是能复现序列本身(通过相似性比较),用以定位和某序列相关的专利。
这种情况下要实现合法的确定,我们必须检查专利的全文。
要评价生物序列,人们必须定位专利中没有包含的信息。
这里的联系是序列和专利号之间的联系。
其它在专利定位中使用的域是诸如专利名称和发明者的姓名等。
引用电子数据
和GenBank类似,这是一类相对新的包含了数据提交数据库的方法的方案,这也是一种形式但又和一般期刊不完全相同的出版物。
在一般情况下,文章的出版需要经过相当长的时间,而且从来没有数据库的积累会赶在发表之前,因此数据的积累会有一定的间隔。
提交的数据由于是一种形式的出版物可能包含了在本记录中工作过的科学家的姓名,这和真正出版物列出的名单可能不一致。
大多数情况下提交数据给数据库的科学家是提交数据的作者,但也不完全是,特别是大序列中心。
最终NCBI提出了也引用修改的记录,在记录的修改栏里做简单的注释,注释记录的变化,所有的提交数据都在记录中保存留下编辑的历史记录。
MEDLINE和PubMedUIDs
一旦文章的出处和MEDLINE中的匹配,最简单和最可靠的方法去找到该篇文章的方法是MEDLINE唯一辨识器(MUID),这是一个简单的整数。
NCBI提供了许多服务去使用MUID来恢复出处和从MUID获得摘要、将数据和文章联系起来或者提供WWW的网上连接。
最近根据和MEDLINE以及许多出版者的协定,NCBI提出了PubMed。
和直接由出版者提供类似,PubMed包含了所有的MEDLINE,而且PubMed还包含了最近出版的文章,还包括了一些由于它们的主题原因将永远不能在MEDLINE中出现的文章。
这时,NCBI提出了一种新的文章辨识器叫PubMed辨识器(PMID)。
出现在MEDLINE中的文章将同时有PMID和MUID。
只出现在PubMed中的文章则只有PMID。
PMID和MUID提供了相同的目的是提供一种简单可靠的和出处的连接或一种方法建立网上热连接。
NCBI现在正将所有的服务转向使用PMID。
NCBI数据模型存储了大部分的出处,即所谓的出版等价物,是由一系列的出处等价物组成,包括可靠的辨识器(PMID或MUID)和出处本身。
出处格式的存在使得不用从数据库中特别恢复,因为辨识器提供了一个可靠的记录的出处的联系或是说索引。
Seq-IdS:
序列标识
NCBI数据模型定义了一类对象,被称为序列辨识器(SeqId)。
需要这类对象是因为NCBI合成了许多用不同方法命名的数据源并且这些名字具有不同的含义。
例如一个简单的情况:
PIR,SWISS-PROT和核甘酸序列数据库都使用有类似格式的序列号,光说“Achmetcnvstyle="BACKGROUND-POSITION:
leftbottom;BACKGROUND-IMAGE:
url(res:
//ietag.dll/#34/#1001);BACKGROUND-REPEAT:
repeat-x"tabIndex=0w:
st="on"UnitName="”"SourceValue="10234"HasSpace="False"Negative="False"NumberType="1"TCSC="0">10234”
chmetcnv>是不能唯一地从所有这些数据库集合中找到序列记录的。
我们必须区别从SWISS-PORT和从PIR中的A10234。
(DDBJ/EMBL/GenBank核酸数据库共用一套序列号,所以从EMBL中的A12345和从GenBank中的A12345是相同的。
)这些形式也可能是不相同的,因此当序列数据库处理仅考虑包含一序列的一条记录时,PDB记录只有一个简单的结构,该结构有可能包含不只一个序列。
所以PDB的SeqId包含了分子名称和链状ID去标识一个唯一的序列。
下面一部分就叙述通常使用的几种SeqId的格式以及使用。
LOCUS名称
LOCUS出现在GenBank中的LOCUS行以及DDBJ记录(EMBLE的ID行)是GenBank中最初的辨识器。
就象基因LOCUS名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。
由于LOCUS行是有固定的格式,LOCUS的名称限制在少于或等于10个数字或大写字母。
在GenBank中,名字的前三个字母是组织码,剩下的字母是基因码(如:
HUMHBB代表人体Symbol">b-球蛋白区域)。
然而,当该区域的功能和原先设想的功能不同时,LOCUS中的基因码会发生变化。
这种不稳定性显然是复现中的一个问题。
另一个问题是GenBank中的序列和组织随时间呈几何指数增长,这使得发明或修改记忆名称是不可能的。
基于以上几点使得LOCUS名称在GenBank中不再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。
序列号
由于使用LOCUS(或ID)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们(DDBJ/EMBL/GenBank)引入了序列号。
开始时它不具有生物意义是为了保证其相对的稳定性。
它是由一个大写字母和五个数字组成。
(新的序列号是由两个大写字母和六个数字组成。
)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。
序列号是对LOCUS/ID号的改进,但实际使用中,问题和不足是显然的。
例如,当序列