分子生物信息数据库与.docx

资源描述

分子生物信息数据库与.docx

《分子生物信息数据库与.docx》由会员分享，可在线阅读，更多相关《分子生物信息数据库与.docx（34页珍藏版）》请在冰豆网上搜索。

分子生物信息数据库与.docx

分子生物信息数据库与

数据挖掘工具

第三章

§3.1

引言

生物分子数据

高速增长

分子生物学

及相关领域研究人员

迅速获得最新实验数据

建立生物分子数据库

1960年代，第一个分子生物学数据库

——FredSanger的胰岛素序列测定（1955）

——蛋白质数据库PSD（ProteinSequenceDatabase）

——MargaretDayhoff：

1960年代，创立PSD，即PIR的前身

1978，scoringmatrices——PAM

PioneerinBioinformatics

Dr.MargaretO.Dayhoff

（1925-1983）

FredSangerattheSangerInstitute

1982年，第一个核酸序列数据库GenBank（LosAlamos）

——1982年，606条序列，长度680,338bp

——2004年，约43,322,756条序列，长度约7.11010bp

2005：

Internationalsequencedatabasesexceed100gigabases！

生物分子数据库应满足5个方面的主要需求

（1）时间性

（2）注释

（3）支撑数据

（4）数据质量

（5）集成性

一级数据库

直接来源于实验获得的原始数据，只经过简单的归类、整理和注释。

一级核酸数据库：

GenBank数据库、EMBL数据库、DDBJ数据库

一级蛋白质序列数据库：

SWISS-PROT库、PIR库

一级蛋白质结构数据库：

PDB数据库

二级数据库

在一级数据库、实验数据和理论分析的基础上，针对不同的研究内容和需要，对生物学知识和信息的进一步整理得到的数据库。

人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。

建立分子生物信息数据库的流程图

一个数据库记录（entry）一般由两部分组成：

1.原始序列数据（sequencedata）

2.描述这些数据生物学信息的注释（annotation）

注释中包含的信息与相应的序列数据同样重要和有应用价值

数据的完整性和注释工作量：

1.序列数据广，序列注释不够完整

2.库数据面窄，序列注释全面

数据库的动态更新：

1.不断增加

2.不断修正

生物分子数据库几个明显的特征：

（1）数据库的更新速度不断加快，数据量呈指数增长趋势

（2）数据库使用频率增长更快

（3）数据库的复杂程度不断增加

（4）数据库网络化

（5）面向应用

（6）先进的软硬件配置

人类遗传信息数据与科学家的社会责任

“如果你们想使你们一生的工作对人类有益，那么你们只了解应用科学本身还是不够的。

关心人本身必须始终成为一切技术努力的目标，要关心如何组织人的劳动和商品分配，从而以这样的方式保证我们科学思维的结果可以造福于人类，而不致成为诅咒的祸害。

当你们沉思你们的图表和方程式时，永远不要忘记这一点！

”

——爱因斯坦

人类遗传数据国际宣言纲要（修正稿）

联合国教科文组织国际生命伦理学委员会

2003年1月，巴黎

“…它们关系到对人权和基本自由的保护，关系到在收集、处理和储存科学数据以及医疗数据、个人数据和敏感数据时对人类尊严的尊重，承认人类遗传数据因其敏感的性质所拥有的特殊地位，因为它们既可以提供医学信息又可以提供关系一生的个人信息，而且可能含有关于家庭的信息，包括子孙后代，或者在某种情况下涉及到当事人所属社群的信息，考虑到人类遗传数据的收集、处理、使用和储存对于科学与医学的进步，以及对于把它们用于非医学目的、特别用于司法目的是至关重要的。

”

“尽管如此，意识到人类遗传数据的收集、处理、使用和储存，对于人权和基本自由的行使与遵守，以及对于人类尊严的尊重有着潜在的风险，重申世界人类基因组与人权宣言制定的原则，以及平等、公正、团结、尊重人类尊严、人权和基本自由的原则，既有研究的自由又有对隐私的保护，这些必须是人类遗传数据的收集、处理、使用和储存的基础，宣布遵循这些原则，并采用目前的宣言。

”

术语的含义

人类遗传数据：

指通过核酸分析或其它科学分析获得的有关个人遗传特性的不明显信息。

生物学样本：

指含有核酸并且包含个人特有的遗传组成的任何生物学材料（例如，血液、皮肤和骨细胞或血浆）。

基于人群的遗传学研究：

指以了解种群内个体间和/或跨种群个体间遗传变异的性质和程度为目的的研究。

行为遗传学研究：

指以建立遗传特征和行为之间的可能联系为目的的研究。

纲要摘要

个人身份——每个人都有一套独特的基因结构。

尽管如此，一个人的身份不应被归结为基因特性，因为它是由复杂的教育和其它环境因素以及与他人的情感、社会、精神和文化纽带决定的。

特殊意义——人类遗传数据和用于产生它们的生物学样本可能对个人或者群体有特殊的文化意义，因此需要给予它们特殊的考虑和尊重。

研究目的——人类遗传数据只能以诊断和卫生保健目的，医学和其它科学研究，包括流行病学研究目的、法医学目的，在民事和刑事诉讼中的司法目的，以及任何其它与有关基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。

程序——人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集、处理、使用和储存，这些程序使社会作为一个整体知情参加。

不歧视和不羞辱——人类遗传数据不应用于歧视目的，其使用也不应可能导致对一个人、一个家庭或者一个群体的羞辱。

应该特别关注以人群为基础的遗传学研究和行为遗传学研究的结果以及对这些结果的解释。

同意——对于人类遗传数据的收集应该要求得到事先的、自由的、知情的和明确表达的同意，这种收集或者通过侵入性或者通过非侵入性的程序，以及对于它们随后的处理、使用和储存也应该如此，不管这些是由公立机构还是私人机构进行。

决定是否被告知研究结果的权利——当为了医学和科学研究目的，包括流行病学和以人群为基础的遗传学研究，或者为了遗传筛查的目的收集人类遗传数据的时候，同意应包括让个人做出是否被告知研究或筛查检测结果的选择。

利益分享——为了医学和科学研究，包括以人群为基础的遗传学研究而收集的人类遗传数据，通过使用它们产生的利益应该由整个国际社会分享，可以采取以下形式：

对参加研究的个人和群体的特殊援助；

获得医疗保健；

为源于研究的新的治疗方法或药物提供便利；

为卫生服务提供支持；

符合本宣言提出的原则的任何其它形式；

§3.2

生物信息学资源

§3.2.1一级数据库

世界三大核酸序列数据库

（公共序列数据库，PublicSequenceDatabase）

GenBank（美国）

EMBL（欧洲）

DDBJ（日本）

GenBank

DDBJ

EMBL

A）核酸（DNA）序列数据库

三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。

这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。

GenBank（美国国家生物技术信息中心，NCBI）

1980s

NIH（NationalInstituteofHealth）

LosAlamosNationalLab

NCBI（NationalCenterforBiotechnologyInformation）

NLM（NationalLibraryofMedicine）

GenBank是NIH遗传序列数据库，一个所有可以公开获得的DNA序列的注释过的收集。

GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。

这三个组织每天交换数据。

GenBank以指数形式增长，核酸碱基数目大概每14个月就翻一个倍。

最近，GenBank拥有来自47,000个物种的30亿个碱基。

GenBank网址http:

//http:

//www.ncbi.nlm.nih.gov/Genbank/

EMBL（欧洲分子生物学实验室，EMBL）

1982

EuropeanMolecularBiologyLaboratory

EBI（EuropeanBioinformaticsInstitute）

EMBL（The　European　Molecular　BiologyLaboratory）于1974年由欧洲14个国家加上亚洲的以色列共同发起建立，包括一个位于德国Heidelberg的核心实验室，及三个位于德国Hamburg，法国Grenoble及英国Hinxton的研究分部。

由于具有开放和创新的良好学术氛围，EMBL已发展成欧洲最重要和最核心的分子生物学基础研究和教育培训机构。

EMBL网址http:

//www.ebi.ac.uk/embl

DDBJ（日本国家遗传学研究所，NIG）

1986

DatabankofJapan

NIG（NationalInstituteofGenetics）

收录了所有已知的公共核酸与蛋白质序列数据，作为序列数据库国际合作组织InternationalNucleotideSequenceDatabaseCollaboration（简称INSDC）成员，同时与GenBank和EMBL相互合作，互通有无，同步更新。

目前，DDBJ由日本国立遗传学研究所的生物信息中心（CIB/DDBJ）维护。

DDBJ网址http:

//www.ddbj.nig.ac.jp/search/top-e.html

EMBL数据库序列记录增长趋势

568

43,322,756

EMBL数据库序列总长增长趋势

5.8105bp

7.11010bp

EMBL2003年8月数据状况（Release76）

DivisionEntriesNucleotides

表达序列标签（ESTs）18,001,3329,172,848,447

真菌（Fungi）81,533124,814,006

基因组检测序列（GSSs）5,951,5523,541,699,334

高通量cDNA（HTC）148,033198,301,795

高通量基因组（HTG）69,07011,827,270,957

人（Human）253,1223,999,942,455

无脊椎动物（Invertebrates）126,656618,391,776

其它哺乳动物（OtherMammals）51,211117,048,169

鼠（Musmusculus）79,1681,331,593,999

细胞器（Organelles）217,902180,804,604

专利（Patents）1,326,009717,107,725

噬菌体（Bacteriophage）2,3219,413,526

植物（Plants）214,323700,212,325

原核生物（Prokaryotes）200,833690,274,487

啮齿动物（Rodents）25,45964,607,453

序列标签位点（STSs）239,292114,379,671

合成（Synthetic）9,19616,869,561

未分类（Unclassified）1,8602,167,222

病毒（Viruses）196,817175,615,411

其它脊椎动物（OtherVertebrates）52,583282,545,232

总计27,248,47533,885,908,155

EMBL2004年8月数据状况（Release80）

来源于人类基因组计划及各种模式生物基因组计划

1977年，最早获得的生物基因组全序列是噬菌体（53kb）

1995年，第一个自由生物体流感嗜血菌（H.inf）被完全测序

B）基因组数据库

部分生物基因组计划网址

老鼠（Mouse）http:

//www.informatics.jax.org/mgd.html

小鼠（Rat）http:

//ratmap.gen.gu.se

狗（Dog）http:

//mendel.berkeley.edu/dog.html

牛（Cow）http:

//locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl

猪（Pig）http:

//www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html

羊（Sheep）http:

//dirk.invermay.cri.nz

鸡（Chicken）http:

//www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html

斑马鱼（Zebrafish）http:

//zfish.uoregon.edu

线虫（C.elegans）http:

//www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html

果蝇（Drosophila）http:

//morgan.harvard.edu

蚊子（Mosquito）http:

//klab.agsci.colostate.edu

拟南芥（Arabidopsis）http:

//genome-www.stanford.edu/Arabidopsis

棉花（Cotton）http:

//algodon.tamu.edu

玉米（Maize）http:

//www.agron.missouri.edu

水稻（Rice）http:

//www.staff.or.jp

大豆（Soya）http:

//mendel.agron.iastate.edu:

8000/main.html

树（Trees）http:

//s27w007.pswfs.gov

GDB（美国、加拿大）

1990年，JohnHopkins大学建立，后由加拿大儿童医院生物信息中心管理，2003年起，GDB-relatedsoftwareandpublicdataweretransferredtoRTIInternational.

数据内容：

基因组结构数据、基因组图谱、基因多态性数据

与其它分子生物信息网络资源（EMBL、GenBank…）的链接

GDB网址http:

//www.gdb.org/

AceDB

线虫基因组数据库。

既是一个数据库，又是一个数据库管理系统。

提供很好的图形界面，用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。

数据内容：

限制性图谱，基因结构信息，质粒图谱，序列数据，参考文献…

AceDB网址http:

//www.acedb.org

SWISS－PROT（欧洲）

PIR（美国）

C）蛋白质序列数据库

SWISS－PROT

1.日内瓦大学医学生物化学系和欧洲生物信息学研究所（EBI）合作维护（1986年）；

2.在EMBL和GenBank数据库上均建立了镜像站点;

3.数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释；

4.数据记录包括两部分：

序列

注释（结构域、功能位点、跨膜区域、二硫键位置、翻

译后的修饰、突变体等）

5.数据存在滞后性TrEMBL数据库的建立

包含从EMBL核酸数据库中根据编码序列（CDS）翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。

TrEMBL有两个部分：

（1）SP-TrEMBL（SWISS-PROTTrEMBL）

包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。

（2）REM-TrEMBL（REMainingTrEMBL）

包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。

SWISS-PROT的网址：

http:

//cn.expasy.org/sprot

TrEMBL的网址：

http:

//www.ebi.ac.uk/trembl/index.html

PIR（proteininformationresource）

1.由美国NCBI翻译自GenBank的DNA序列（1984年）；

2.在EMBL和GenBank数据库上均建立了镜像站点；

3.数据依据注释的质量分为4类。

PIR数据库的分类情况（Release51.03）

PIR网址：

http:

//www-nbrf.georgetown.edu/

PDB（proteindatabank）

1.目前最主要的蛋白质分子结构数据库；

2.1970年代建立，美国Brookhaven国家实验室维护管理;

3.1988年，由美国RCSB（researchcollaboratoryforstructuralbiology）管理；

4.以文本格式存放数据，包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等；

5.PDBsum数据库：

PDB注释信息综合数据库，具有检索、分析、可视化的功能。

（已移至EBI）

D）蛋白质结构数据库

PDB网址：

http:

//www.rcsb.org/pdb（美国）

PDBsum网址：

http:

//www.ebi.ac.uk/thornton-srv/databases/pdbsum/

SCOP（StructuralClassificationofProtein）

英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统；

SCOP的网址：

http:

//scop.mrc-lmb.cam.ac.uk/scop/

CATH（class,architecture,topology,homology）

英国伦敦大学开发维护；

CATH的网址：

http:

//www.biochem.ucl.ac.uk/bsm/cath

E）蛋白质结构分类数据库

SCOP网址：

http:

//scop.mrc-lmb.cam.ac.uk/scop/

CATH网址：

http:

//www.biochem.ucl.ac.uk/bsm/cath

§3.2.2二级数据库简介

二级数据库的形式：

大多以web界面为基础，具有文字信息、表格、图形、图表等方式显示数据库内容；

一级数据库与二级数据库之间并无明确的界限。

（例如：

GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色）

E.coli基因组数据库Colibri

德国Pastear研究所建立。

除具有浏览、检索、搜寻功能外，还对环状基因组实现可视化。

网址：

http:

//genolist.pasteur.fr/Colibri/

TransFac（真核生物基因转录调控因子数据库）

德国生物工程研究所开发维护，始建于1988年。

包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布6个子库。

TransFac的网址：

http:

//transfac.gbf.de/

A）基因组信息二级数据库

ColiBri网址：

TransFac网址：

Ensembl（http:

//www.ensembl.org/）

3、人类基因组数据库Ensembl

Ensembl包括所有公开的人类基因组DNA序列，通过注释形成的关于序列的特征。

现在包括其他基因组，如大鼠、小鼠、线虫、果蝇等。

例如：

基因

通过实验发现的

或者是通过GenScan程序预测的

其他的特征：

单核苷酸多态性（SNP）、重复序列等

通过关键字查询

用BLAST进行相似序列的搜索

另一种更直观的方式是显示各染色体

用户可以在染色体水平上选择感兴趣的位点，逐层放大浏览整个基因组。

Prosite（蛋白质序列功能位点数据库）

始建于1990年代初，由瑞典生物信息学研究所SIB负责维护。

基于对蛋白质家族中同源序列多重序列比对得到的保守区域，这些区域通常与生物学功能相关。

数据库包括两个数据库文件：

数据文件Prosite；说明文件PrositeDoc。

B）蛋白质序列二级数据库

Prosite网址：

http:

//cn.expasy.org/prosite

DSSP（DefinitionofSecondaryStructureofProteins）

蛋白质二级结构构象参数数据库

DSSP的网址：

http:

//www.cmbi.kun.nl/gv/dssp/

FSSP（FamiliesofStructuralSimilarProteins）

蛋白质家族数据库

FSSP的网址：

http:

//www2.embl-ebi.ac.uk/dall/fssp/

HSSP（HomologyDerivedSecondaryStructureofProteins）

同源蛋白质数据库

HSSP的网址：

http:

//www.cmbi.kun.nl/gv/hssp/

C）蛋白质结构二级数据库

DSSP网址：

http:

//www.cmbi.kun.nl/gv/dssp

FSSP网址：

http:

//www2.embl-ebi.ac.uk/dall/fssp

HSSP网址：

http:

//www.cmbi.kun.nl/gv/hssp

《NucleicAcidsResearch》每年第一期为数据库专辑《Databaseissue》

§3.2.3数据库格式简介

历史原因：

没有完全统一的数据库格式；

了解所用数据库格式的重要性

一般由两部分组成：

文字注释

内容（序列，……）

EMBL和GenBank数据库的主要内容和格式

序列名称、长度、日期

序列说明、编号、版本号

物种来源、学名、分类学位置

相关文献作者、题目、刊物、日期

序列特征表

碱基组成

序列（每行60个碱基）

实例：

E.colik-12全基因组序列文件

例子：

EMBL和GenBank数据库的格式

LOCUSU00096bpDNAcircularBCT18-NOV-1998

DEFINITIONEscherichiacoliK-12MG1655completegenome.

ACCESSIONU00096

KEYWORDS.

SOURCEEscherichiacoli.

ORGANISMEscherichiacoli

Bacteria;Proteobacteria;gammasubdivision;Enterobacteriaceae;

Escherichia.

REFERENCE1（bases1to）

AUTHORS

展开阅读全文