生物分子信息数据库.docx-资源下载

生物分子信息数据库.docx

1、生物分子信息数据库第4章生物分子数据库国际上已建立起许多公共生物分子数据库，包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。这些数据库由专门的机构建立和维护，他们负责收集、组织、管理和发布生物分子数据，并提供数据检索和分析工具，向生物学研究人员提供大量有用的信息，最大限度地满足他们研究和应用的需要，为他们的研究服务。4.1 引言建立生物分子数据库的动因是由于生物分子数据的高速增长，而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。生物分子信息分析已经成为分子生物学研究必备的一种方法。如果说理论分析和算法模拟是生物信息学实验方法的话，

2、那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。数据库及其相关的分析软件是生物信息学研究和应用的重要基础，也是分子生物学研究必备的工具。从数据库使用的角度来看，公共生物分子数据库应满足以下5个方面的主要需求：（1）时间性对于新发表的数据，应该能够在很短的时间内（几个小时至几天）通过国际互连网访问。（2）注释对于每一个基本数据（如序列），应附加一致的、深层次的辅助说明信息。（3）支撑数据在有些情况下，数据库使用者需要得到原始的实验数据，因而要提供访问原始数据的方法。数据库中应包含原始数据，或者能够通过交叉索引访问实验数据库中的原始数据。（4）数据质量必须保证数据

3、库中数据的质量，数据库管理机构应对数据来源进行检查，并且关注数据库用户和专家提出的意见。（5）集成性三种基本生物分子数据库（核酸序列、蛋白质序列、蛋白质结构）的集成对于用户来说是非常重要的。对于数据库中的每一个数据对象，必须与其它数据库中的相关数据联系起来，这样可以从某些分子数据出发得到一系列的相关信息。例如，从某个核酸序列出发，通过交叉索引，可进一步得到对应的基因、蛋白质序列、蛋白质结构，甚至得到蛋白质功能的信息。分子生物学研究领域虽各有重点，但是研究对象之间存在着密切的联系，比如DNA序列与蛋白质序列之间的联系，基因调控信息与基因表达数据之间的联系。因而实验数据之间就必然存在着关联，一个

4、方面的相关数据可能会影响或促进另一个方面的研究工作。现有的各类数据库已经成为分子生物学各方面交叉研究的桥梁。生物分子数据库目前的发展状况有几个明显的特征：（1）生物分子数据库最突出的特征就是数据库的更新速度不断加快，数据量呈指数增长趋势。例如，核酸序列数据的年增长幅度为100%。（2）数据库使用频率增长更快。人们越来越感到生物分子数据的重要性，也认识到它们的价值，因此各种数据库的使用人员在不断增加。据统计，数据库的平均使用频率每年增长幅度接近于500%。（3）数据库的复杂程度不断增加。数据库中除了基本数据之外，还包括大量的注释、链接、参考文献等信息，例如，在SWISS-PROT数据库中，注释

5、项涉及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性、与该蛋白质关联的疾病、序列变化等。（4）数据库网络化。几乎所有的数据库都可以在国际互联网上访问，并且公共数据库之间相互链接，使用户可以迅速得到大量的相关生物分子信息。有的系统则将多个生物分子数据库整合在一起，形成集成的数据库系统。（5）面向应用。首先，各个数据库服务器除了提供数据之外，还提供许多分析工具，如核酸数据库提供的序列搜索、基因识别程序等，生物大分子结构数据库提供的结构比较程序、结构模拟程序等。此外，还在原始数据库的基础上开发了许多面向特殊应用的二级数据库，如蛋白质分类数据库、蛋白质二级结构数据

6、库等。（6）先进的软硬件配置。从计算机硬件方面来看，许多数据库服务器已从工作站升级到大型服务器，使数据库能够高效地管理数据和为用户服务，并在专门的硬件（如并行机）上运行服务程序。而在系统软件方面，使用大型数据库管理系统，面向对象的数据库管理方法正在逐步取代旧的模式，数据库服务广泛采用服务器客户式结构。一般而言，生物分子数据库可以分为一级数据库和二级数据库。一级数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释；二级数据库是对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。与蛋白质相关的二级数据库比较多。4.2 核酸

7、序列数据库 DNA测序技术迅速发展，使得人类已知的DNA核酸序列不断增长。本节着重介绍与核酸相关的序列数据库。4.2.1 GenBank / EMBL-Bank / DDBJ核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个，分别是美国生物技术信息中心（NCBI）的GenBank (http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html)，欧洲分子生物学实验室的EMBL-Bank（简称EMBL，http:/www.ebi.ac.uk/embl/index.html)，日本遗传研究所的DDBJ (http:/www.d

8、dbj.nig.ac.jp/）。三个组织相互合作，各数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库，其数据来源于众多的研究机构和核酸测序小组，来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。数据库中的每条记录代表一个单独、连续、附有注释的DNA或RNA片段。由于DNA测序能力的极大提高，DNA序列增长的速度也非常快，图4.1是GenBank数据库中近几年数据量的统计，这张图反映出DNA序列数据迅速增长的趋势。图4.1 核酸序列数据的增长趋势（取自http:/www.ncbi.nl

9、m.nih.gov/Genbank/genbankstats.html）下面着重介绍EMBL数据库。EMBL是最早的DNA序列数据库，于1982年建立。目前EMBL数据库中的数据按照每年约60%的速率增长。截止2000年3月底，EMBL数据库中的核酸序列总长度达70亿个碱基，覆盖2/3的人类基因组序列。对于每个序列，相关数据包括序列名称、序列、位点、关键字、来源、生物种、参考文献、注释、序列中具有重要生物学意义的位点等。而到2004年2月，数据库中的核酸序列数超过3000万条，总的数据量近400亿bp。随着分子生物学技术的不断发展，数据的增长速度将会不断地提高。EMBL的数据来源主要有两条途径

10、。一是由序列发现者直接提交。几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ，得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。EMBL核酸数据库由关系数据库管理系统ORACLE来维护，在DEC alpha VMS系统下运行，数据库中的每一个序列数据被赋予一个登录号，它是一个永久性的唯一标识。EMBL的序列数据用外在的ASCII文本文件来表示（见图4.2），而每一个文件分都为文件头和文件体两大部分。文件头由一系列的信息描述行所组成，描述信息有序列的标识符、序列的功能、种属、参考文献等。每一行的起始位置有一

11、个标志，该标志由两个字母组成，标志后面是相关的正文信息。“ID”为序列的标识符行，包括登录号、类型、分子的长度；“AC”为登录号行，如图4.2所表示的序列登录号为AB000888；“SV”为序列版本行，其数据的形式为“登录号.版本号”，例如，AB000888.1表示序列的登录号为AB000888，并且该序列数据是第一版本；“XX”为分隔符号行；“DT”为创建和更新日期行；“DE”为序列描述行；“KW”为关键字行；“OG”行描述非核序列的亚细胞定位，表明该序列来自于线粒体、叶绿体等；“OS”行描述生物体种属；“OC”行描述生物体分类信息；“RN”、“RP”、“RA”、“RT”、“RL”、“RC

12、”分别描述参考文献的编号、页码、作者、题目、参考文献出处和注解；“RX”行是到其他文献数据库的链接，如“MEDLINE；97450990”表示对应参考文献在MEDLINE数据库的标示号为97450990；“DR”行是到其他生物信息数据库的链接，如到基因组数据库、蛋白质序列数据库、蛋白质结构数据库的链接，通过这些链接可以找到更多与本序列相关的数据；“FH” 为特征表开始符号；“FT”为特征表行。FT行具体的信息有：序列的长度，序列来自于何种生物体、何种组织，在染色体上的定位，蛋白质编码序列片段在整个序列中的位置，外显子和内含子的位置，与基因对应的蛋白质序列等。FT行主要有三项：（1）Featur

13、e Key，它是描述特征的关键字，如“source”、“CDS”等；（2）Location，指明特征在序列中的特定位置；（3）Qualifiers，描述关于一个特征的辅助信息。文件头实际上对应于一个序列的注释（annotation）。文件体由序列本身所组成，由“SQ”标志的行开始。序列结束的标记是“/”。科研工作者可以将新发现的核酸序列数据提交给EMBL。但是，为保证每一条序列数据都有较高的质量，在提交数据之间必须利用EMBL 提供的工具进行检查与核实。如果必要，数据库管理人员可以直接与序列的提交者讨论，澄清有关问题。早期提交数据的方式是编辑电子表格，用任何正文编辑工具编辑固定格式的提交表格。

14、编辑任务比较复杂，也容易出错，特别是对于没有经验的用户。另外，由于没有实时的数据校验，用户当时不能得到错误信息的反馈。后来利用Authorin程序提交数据。Authorin是欧洲生物信息学研究所（EBI）提供的一个交互的序列输入程序，用以帮助用户填写提交表格，该程序可在Macintosh和IBM兼容机上运行。Authorin与用户交互，并进行数据有效性的检查。它最后根据用户的输入形成一个特定格式的文本文件，作为结果提交给EMBL。目前主要利用基于WWW网络环境的序列提交系统WEBIN，这是一种基于Internet网3W服务器的序列数据提交系统，它使用户提交序列数据的过程更直接、容易、简便。该系

15、统具有序列检查、更新和恢复等功能。对于用户端的要求是安装3W浏览器。这个系统具有很大的优点。首先，与单机输入程序相比，用户不必每次从EBI取回高版本的程序，用户总是使用服务器上最新版本的序列输入程序。第二，如果用户机器上已经安装了标准的3W客户端程序，则用户不必再花时间、精力和磁盘空间去安装单机输入程序。第三，由于直接和数据库所在的服务器相连，用户可以直接使用数据库资源，如查看数据库中已有的序列，查看期刊、作者等信息，以避免重复工作。ID AB000888 standard; mRNA; HUM; 937 BP.XXAC AB000888;XXSV AB000888.1XXDT 07-OCT-

16、1997 (Rel. 52, Created)DT 07-OCT-1997 (Rel. 52, Last updated, Version 1)XXDE Homo sapiens mRNA for phosphatidic acid phosphatase 2a, complete cds.XXKW phosphatidic acid phosphatase 2a.XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria;

17、Primates; Catarrhini; Hominidae; Homo.XXRN 1RP 1-937RA Kai M.;RT ;RL Submitted (05-FEB-1997) to the EMBL/GenBank/DDBJ databases.RL Masahiro Kai, Sapporo Medical University, Department of Biochemistry;RL South-1, West-17, Chuo-ku, Sapporo 060, Japan (E-mail:*.jp,RL Tel:011-611-2111)XXRN 2RX MEDLINE;

18、97450990.RX PUBMED; 9305923.RA Kai M., Wada I., Imai S., Sakane F., Kanoh H.;RT Cloning and characterization of two human isozymes of Mg2+ independentRT phosphatidic acid phosphatases;RL J. Biol. Chem. 272(39):24572-24578(1997).XXDR GDB; GDB:9956025.DR GOA; O14494.DR TrEMBL; O14494; O14494.XXFH Key

19、Location/QualifiersFHFT source 1.937FT /db_xref=taxon:9606FT /mol_type=mRNAFT /organism=Homo sapiensFT /cell_line=HepG2FT CDS 48.902FT /codon_start=1FT /db_xref=GOA:O14494FT /db_xref=TrEMBL:O14494FT /note=similar to DDBJ Accession Number D84376 : mouseFT PAP-2FT /transl_table=1FT /product=phosphatid

20、ic acid phosphatase 2aFT /protein_id=BAA22593.1FT /translation=MFDKTRLPYVALDVLCVLLAGLPFAILTSRHTPFQRGVFCNDESIFT KYPYKEDTIPYALLGGIIIPFSIIVIILGETLSVYCNLLHSNSFIRNNYIATIYKAIGTFT FLFGAAASQSLTDIAKYSIGRLRPHFLDVCDPDWSKINCSDGYIEYYICRGNAERVKEGFT RLSFYSGHSSFSMYCMLFVALYLQARMKGDWARLLRPTLQFGLVAVSIYVGLSRVSDYKFT HHW

21、SDVLTGLIQGALVAILVAVYVSDFFKERTSFKERKEEDSHTTLHETPTTGNHYPSNFT HQPXXSQ Sequence 937 BP; 240 A; 218 C; 209 G; 270 T; 0 other; accgcagctc agtccatcgc ccttgccggg cagcccgggc agagaccatg ttcgacaaga 60 cgcggctgcc gtacgtggcc ctcgatgtgc tctgcgtgtt gctggctgga ttgccttttg 120 caattcttac ttcaaggcat acccccttcc aacgagg

22、agt attctgtaat gatgagtcca 180 tcaagtaccc ttacaaagaa gacaccatac cttatgcgtt attaggtgga ataatcattc 240 cattcagtat tatcgttatt attcttggag aaaccctgtc tgtttactgt aaccttttgc 300 actcaaattc ctttatcagg aataactaca tagccactat ttacaaagcc attggaacct 360 ttttatttgg tgcagctgct agtcagtccc tgactgacat tgccaagtat tcaat

23、aggca 420 gactgcggcc tcacttcttg gatgtttgtg atccagattg gtcaaaaatc aactgcagcg 480 atggttacat tgaatactac atatgtcgag ggaatgcaga aagagttaag gaaggcaggt 540 tgtccttcta ttcaggccac tcttcgtttt ccatgtactg catgctgttt gtggcacttt 600 atcttcaagc caggatgaag ggagactggg caagactctt acgccccaca ctgcaatttg 660 gtcttgttgc

24、 cgtatccatt tatgtgggcc tttctcgagt ttctgattat aaacaccact 720 ggagcgatgt gttgactgga ctcattcagg gagctctggt tgcaatatta gttgctgtat 780 atgtatcgga tttcttcaaa gaaagaactt cttttaaaga aagaaaagag gaggactctc 840 atacaactct gcatgaaaca ccaacaactg ggaatcacta tccgagcaat caccagcctt 900 gaaaggcagc agggtgccca ggtgaagc

25、tg gcctgtt 937/图4.2 EMBL核酸数据库每个条目的文件格式早期用户主要通过发行的CD-ROM使用EMBL。EMBL数据库随时更新，但CD-ROM每隔三个月发布一个最新的版本。CD-ROM上包含了所有的数据，包括序列数据、相关的索引文件以及信息检索程序。后来用户可以通过ftp服务器访问EMBL，下载相关的数据及各种程序。随着Internet的不断发展，现在用户主要通过互联网访问EMBL，直接利用本地计算机上的3W浏览器查询EMBL的有关数据，并将所需要的数据取回。查询时，用户根据自己的要求，按照服务程序的提示填写查询条件，并将查询条件通过Internet发送给EMBL的服务器。

26、服务程序根据用户的查询条件搜索数据库，然后将满足查询条件的有关核酸序列数据传送给用户。EMBL数据库服务器提供序列查询和序列搜索服务。最简单的查询就是通过序列的登录号（如X58929）或序列名称（如SCARGC）直接查询。虽然这种方式需要用户事先知道登录项的标识，但这确实是从数据库取得序列的最快方式。当然，也可以通过其它渠道查询，如通过物种、序列功能等进行查询。如果找到所查询的序列，则服务器将查询结果以HTML文件返回给用户。如果数据库中该序列有到MEDLINE的交叉索引，则系统同时返回与包含参考文献摘要等信息的MEDLINE链接。如果该序列有到其它数据库的交叉索引，也返回相应的链接。例如，

27、登录号为J00231的核酸序列具有这样一个交叉索引行：DR SWISS-PROT：P01860；GC3_HUMAN表示该核酸序列有一个到数据库SWISS-PROT的交叉索引，链接到其P01860文件。这时，用户只要点击返回的超文本链接，就可以进一步访问SWISS-PROT数据库中的相关数据。EMBL 服务器支持用户使用程序FastA或BLAST 进行核酸序列搜索，它们根据给定的目标序列在数据库中搜索其同源序列。目前EMBL主要通过SRS服务器提供核酸序列查询服务，详见4.7.2。GenBank是国际上最著名的核酸数据库。GenBank数据库140.0版（2004年2月）含有3000多万条序列，

28、总长度接近400亿对碱基。其序列数据组织方式采用ASCII文本文件，主要存放核酸序列数据，同时还有一些辅助文件，存放于序列相关的辅助信息，如作者名、基因名、关键字、参考文献、其他数据库链接等。4.2.2 基因组数据库随着核酸测序技术的迅速发展，人类已经得到一部分生物的全基因组数据，如人、小鼠、大鼠等。这些数据对于我们认识基因组信息组织的奥秘、了解生物体的生长发育的规律是非常重要的。国际上有专门的组织收集和管理这些数据。NCBI基因组数据库Entrez Gonomes （http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome）所收集的基因组数

29、据量非常大，至2004年，该数据库包括1000多个病毒基因组、100多个微生物基因组以及部分真核生物基因组。该数据库还提供了一个基因组数据浏览工具Map Viewer，利用这个工具，用户可以很方便地得到所需要的数据。例如，通过Map Viewer浏览人基因组的24条染色体和线粒体，下载基因组序列，查看染色体或线粒体上的基因。GDB(http:/www.gdb.org/）是一个比出现比较早的基因组数据库。GDB于1990年建立于美国Johns Hopkins 大学，该数据库中的内容主要是人类基因组计划所得到的图谱数据。建立GDB数据库的目的是为科学家提供一部关于人类基因组的百科全书。GDB包含对

30、下述三种对象的描述：（1）人类基因组区域，包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等；（2）人类基因组图谱，包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；（3）人类基因组中的变化，包括基因突变和基因多态性，加上等位基因频率数据。目前国际上有一些专门的模式生物基因组数据库，这些数据库侧重于收集某种生物基因组的相关数据。如酵母基因组数据库SGD（http:/www.yeastgenome.org/）、小鼠基因组信息学数据库MGI（http:/www.informatics.j

31、ax.org/）、果蝇基因组数据库FlyBase（http:/flybase.bio.indiana.edu/）、线虫基因组数据库WormBase（http:/www.wormbase.org/）等。Ensembl (http:/www.ensembl.org/）是一个综合基因组数据库，它是由EMBL-EBI和Sanger研究所共同开发的一个系统。Ensembl产生并维护关于各种后生动物基因组的自动注释，如人类基因组、小鼠基因组、大鼠基因组、黑猩猩基因组等。Ensembl试图跟踪这些基因组的序列片段，并将序列片段组装成单个长序列，进而分析这些经过组装的DNA序列，搜索其中的基因，发现生物学家

32、或医学工作者感兴趣的特征。Ensembl包括所有公开的基因组DNA序列，通过注释形成的关于序列的特征。基因就是一种特征，基因或者是通过实验发现的，或者是通过Ensembl的程序预测的。Ensembl所用的基因预测程序为GenScan。其他的特征包括单核苷酸多态性（SNP）、重复序列与其它序列高度相似（或同源）的序列。此外，Ensembl 数据库还提供疾病、细胞等方面的信息，并且提供数据搜索、数据下载、统计分析等服务，详见图4.3。Ensembl提供多种查询方式，如用BLAST进行相似序列的搜索，通过序列号进行查询，通过基因名称查询，以及通过遗传疾病查询。另一种更直观的方式是显示各染色体，用户可以在染色体水平上选择感兴趣的位点，然后逐层放大，从而浏览整个基因组，分析DNA序列，分析基因。图4.3 Ensembl 数据库结构图4.2.3 表达序列标

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？