生物信息学Word文档格式.docx

资源描述

生物信息学Word文档格式.docx

《生物信息学Word文档格式.docx》由会员分享，可在线阅读，更多相关《生物信息学Word文档格式.docx（98页珍藏版）》请在冰豆网上搜索。

生物信息学Word文档格式.docx

参考文献

当前人类基因组研究已进入一个重要时期，2000年将获得人类基因组的全部序列，这是基因组研究的转折点和关键时刻，意味着人类基因组的研究将全面进入信息提取和数据分析阶段，即生物信息学发挥重要作用的阶段。

到1999年12月15日发布的第115版为止，GenBank中的DNA碱基数目已达46亿5千万，DNA序列数目达到535万；

其中EST序列超过339万条；

UniGene的数目已达到7万个；

已有25个模式生物的完整基因组被测序完成，另外的70个模式生物基因组正在测序当中；

到2000年1月28日为止，人类基因组已有16%的序列完成测定，另外37.7%的序列已经初步完成；

同时功能基因组和蛋白质组的大量数据已开始涌现。

如何分析这些数据，从中获得生物结构、功能的相关信息是基因组研究取得成果的决定性步骤。

生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。

生物信息学是内涵非常丰富的学科，其核心是基因组信息学，包括基因组信息的获取、处理、存储、分配和解释。

基因组信息学的关键是“读懂”基因组的核苷酸顺序，即全部基因在染色体上的确切位置以及各DNA片段的功能；

同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行药物设计。

了解基因表达的调控机理也是生物信息学的重要内容，根据生物分子在基因调控中的作用，描述人类疾病的诊断、治疗内在规律。

它的研究目标是揭示"

基因组信息结构的复杂性及遗传语言的根本规律"

，解释生命的遗传语言。

生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。

近来的研究表明，基因组不仅是基因的简单排列，它有其特有的组织结构和信息结构，这种结构是在长期的演化过程中产生的，也是基因发挥其功能所必须的。

弄清楚生物体基因组特有的组织结构和信息结构，解译生命的遗传语言的关键。

目前在数据库中已经有越来越多的模式生物全基因组序列，第一个人类染色体全序列--第22号染色体的测序工作已经在1999年12月完成，整个人类基因组计划工作草图将在最近完成。

这无疑给基因组组织结构和信息结构的研究工作提供了大量的第一手材料，同时也为基因组研究取得突破性进展提供了可能。

人类对基因的认识，将从以往的对单个基因的了解，上升到在整个基因组水平上考察基因的组织结构和信息结构，考察基因之间在位置、结构和功能上的相互关系。

从目前生物信息学的研究情况来看，国际上公认的生物信息学的研究内容，大致包括以下几个方面：

生物信息的收集、存储、管理与提供。

包括建立国际基本生物信息库和生物信息传输的国际联网系统；

建立生物信息数据质量的评估与检测系统；

生物信息的在线服务；

生物信息可视化和专家系统。

基因组序列信息的提取和分析。

包括基因的发现与鉴定，如利用国际EST数据库（dbEST）和各自实验室测定的相应数据，经过大规模并行计算发现新基因和新SNPs以及各种功能位点；

基因组中非编码区的信息结构分析，提出理论模型，阐明该区域的重要生物学功能；

进行模式生物完整基因组的信息结构分析和比较研究；

利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。

功能基因组相关信息分析。

包括与大规模基因表达谱分析相关的算法、软件研究，基因表达调控网络的研究；

与基因组信息相关的核酸、蛋白质空间结构的预测和模拟，以及蛋白质功能预测的研究。

生物大分子结构模拟和药物设计。

包括RNA（核糖核酸）的结构模拟和反义RNA的分子设计；

蛋白质空间结构模拟和分子设计；

具有不同功能域的复合蛋白质以及连接肽的设计；

生物活性分子的电子结构计算和设计；

纳米生物材料的模拟与设计；

基于酶和功能蛋白质结构、细胞表面受体结构的药物设计；

基于DNA结构的药物设计等。

生物信息分析的技术与方法研究。

包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具，诸如电子网络等远程通讯工具；

改进现有的理论分析方法，如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等；

创建一切适用于基因组信息分析的新方法、新技术。

包括引入复杂系统分析技术、信息系统分析技术等；

建立严格的多序列比较方法；

发展与应用密码学方法以及其他算法和分析技术，用于解释基因组的信息，探索DNA序列及其空间结构信息的新表征；

发展研究基因组完整信息结构和信息网络的研究方法等；

发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。

应用与发展研究。

汇集与疾病相关的人类基因信息，发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术，建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。

利用生物信息学方法进行结构功能预测要注意的是同一问题采用不同算法，可能产生相同或不同的结果。

因此，必要弄清楚某种方法的基本原理，而不是仅把算法当作一个“黑箱”。

因为一种方法可能对特定实例很合适，而对另一个则完全不对。

因此，本章采用原理和实用方法并重的原则进行介绍。

因生物信息学覆盖面广，限于篇幅，本章并未将生物信息学的全部内容详细加以讲述，仅针对与目前分子生物学实验数据分析密切相关的生物信息学策略及实用工具进行扼要介绍，文中涉及问题的更详细信息可参考相关网站。

生物信息学是新兴发展中的学科，该领域的研究日新月异，书中的描述可能滞后于生物信息学的最新发展为在所难免，作者期望本章的介绍对读者的研究工作有所助益

2生物信息数据库与查询

近年来大量生物学实验的数据积累，形成了当前数以百计的生物信息数据库。

它们各自按一定的目标收集和整理生物学实验数据，并提供相关的数据查询、数据处理的服务。

随着因特网的普及，这些数据库大多可以通过网络来访问，或者通过网络下载。

一般而言，这些生物信息数据库可以分为一级数据库和二级数据库。

一级数据库的数据都直接来源于实验获得的原始数据，只经过简单的归类整理和注释；

二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步整理。

国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等；

蛋白质序列数据库有SWISS-PROT、PIR等；

蛋白质结构库有PDB等。

国际上二级生物学数据库非常多，它们因针对不同的研究内容和需要而各具特色，如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。

下面将顺序简要介绍一些著名和有特色的生物信息数据库。

1.Genbank

Genbank库包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献著作和生物学注释。

它是由美国国立生物技术信息中心（NCBI）建立和维护的。

它的数据直接来源于测序工作者提交的序列；

由测序中心提交的大量EST序列和其它测序数据；

以及与其它数据机构协作交换数据而来。

Genbank每天都会与欧洲分子生物学实验室（EMBL）的数据库，和日本的DNA数据库（DDBJ）交换数据，使这三个数据库的数据同步。

到1999年8月，Genbank中收集的序列数量达到460万条，34亿个碱基，而且数据增长的速度还在不断加快。

Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库，或下载积累的新数据。

NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务，用户可以从NCBI的主页上找到这些服务。

Genbank库里的数据按来源于约55,000个物种，其中56%是人类的基因组序列（所有序列中的34%是人类的EST序列）。

每条Genbank数据记录包含了对序列的简要描述，它的科学命名，物种分类名称，参考文献，序列特征表，以及序列本身。

序列特征表里包含对序列生物学特征注释如：

编码区、转录单元、重复区域、突变位点或修饰位点等。

所有数据记录被划分在若干个文件里，如细菌类、病毒类、灵长类、啮齿类，以及EST数据、基因组测序数据、大规模基因组序列数据等16类，其中EST数据等又被各自分成若干个文件。

（1）Genbank数据检索

NCBI的数据库检索查询系统是Entrez。

Entrez是基于Web界面的综合生物信息数据库检索系统。

利用Entrez系统，用户不仅可以方便地检索Genbank的核酸数据，还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库（MMDB）的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。

Entrez提供了方便实用的检索服务，所有操作都可以在网络浏览器上完成。

用户可以利用Entrez界面上提供的限制条件（Limits）、索引（Index）、检索历史（History）和剪贴板（Clipboard）等功能来实现复杂的检索查询工作。

对于检索获得的记录，用户可以选择需要显示的数据，保存查询结果，甚至以图形方式观看检索获得的序列。

更详细的Entrez使用说明可以在该主页上获得。

（2）向Genbank提交序列数据

测序工作者可以把自己工作中获得的新序列提交给NCBI，添加到Genbank数据库。

这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。

BankIt是一系列表单，包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。

用户提交序列后，会从电子邮件收到自动生成的数据条目，Genbank的新序列编号，以及完成注释后的完整的数据记录。

用户还可以在BankIt页面下修改已经发布序列的信息。

BankIt适合于独立测序工作者提交少量序列，而不适合大量序列的提交，也不适合提交很长的序列，EST序列和GSS序列也不应用BankIt提交。

BankIt使用说明和对序列的要求可详见其主页面。

大量的序列提交可以由Sequin程序完成。

Sequin程序能方便的编辑和处理复杂注释，并包含一系列内建的检查函数来提高序列的质量保证。

它还被设计用于提交来自系统进化、种群和突变研究的序列，可以加入比对的数据。

Sequin除了用于编辑和修改序列数据记录，还可以用于序列的分析，任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。

在不同操作系统下运行的Sequin程序都可以在ftp:

//ncbi.nlm.nih.gov/sequin/下找到，Sequin的使用说明可详见其网页。

NCBI的网址是：

http:

//www.ncbi.nlm.nih.gov。

Entrez的网址是：

//www.ncbi.nlm.nih.gov/entrez/。

BankIt的网址是：

//www.ncbi.nlm.nih.gov/BankIt。

Sequin的相关网址是：

//www.ncbi.nlm.nih.gov/Sequin/。

2.EMBL核酸序列数据库

EMBL核酸序列数据库由欧洲生物信息学研究所（EBI）维护的核酸序列数据构成，由于与Genbank和DDBJ的数据合作交换，它也是一个全面的核酸序列数据库。

该数据库由Oracal数据库系统管理维护，查询检索可以通过通过因特网上的序列提取系统（SRS）服务完成。

向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具，也可以用Sequin软件来完成。

数据库网址是：

//www.ebi.ac.uk/embl/。

SRS的网址是：

//srs.ebi.ac.uk/。

WEBIN的网址是：

//www.ebi.ac.uk/embl/Submission/webin.html。

3.DDBJ数据库

日本DNA数据仓库（DDBJ）也是一个全面的核酸序列数据库，与Genbank和EMBL核酸库合作交换数据。

可以使用其主页上提供的SRS工具进行数据检索和序列分析。

可以用Sequin软件向该数据库提交序列。

DDBJ的网址是：

//www.ddbj.nig.ac.jp/。

4.GDB

基因组数据库（GDB）为人类基因组计划（HGP）保存和处理基因组图谱数据。

GDB的目标是构建关于人类基因组的百科全书，除了构建基因组图谱之外，还开发了描述序列水平的基因组内容的方法，包括序列变异和其它对功能和表型的描述。

目前GDB中有：

人类基因组区域（包括基因、克隆、amplimersPCR标记、断点breakpoints、细胞遗传标记cytogeneticmarkers、易碎位点fragilesites、EST序列、综合区域syndromicregions、contigs和重复序列）；

人类基因组图谱（包括细胞遗传图谱、连接图谱、放射性杂交图谱、contentcontig图谱和综合图谱等）；

人类基因组内的变异（包括突变和多态性，加上等位基因频率数据）。

GDB数据库以对象模型来保存数据，提供基于Web的数据对象检索服务，用户可以搜索各种类型的对象，并以图形方式观看基因组图谱。

GDB的网址是：

//www.gdb.org。

GDB的国内镜像是：

。

1.PIR和PSD

PIR国际蛋白质序列数据库（PSD）是由蛋白质信息资源（PIR）、慕尼黑蛋白质序列信息中心（MIPS）和日本国际蛋白质序列数据库（JIPID）共同维护的国际上最大的公共蛋白质序列数据库。

这是一个全面的、经过注释的、非冗余的蛋白质序列数据库，包含超过142,000条蛋白质序列（至99年9月），其中包括来自几十个完整基因组的蛋白质序列。

所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。

PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引，以及数据库内部条目之间的索引，这些内部索引帮助用户在包括复合物、酶－底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。

每季度都发行一次完整的数据库，每周可以得到更新部分。

PSD数据库有几个辅助数据库，如基于超家族的非冗余库等。

PIR提供三类序列搜索服务：

基于文本的交互式检索；

标准的序列相似性搜索，包括BLAST、FASTA等；

结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索GeneFIND等。

PIR和PSD的网址是：

//pir.georgetown.edu/。

数据库下载地址是：

ftp:

//nbrfa.georgetown.edu/pir/。

2.SWISS-PROT

SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所（EBI）维护。

数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。

SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

利用序列提取系统（SRS）可以方便地检索SWISS-PROT和其它EBI的数据库。

SWISS-PROT只接受直接测序获得的蛋白质序列，序列提交可以在其Web页面上完成。

SWISS-PROT的网址是：

//www.ebi.ac.uk/swissprot/。

3.PROSITE

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式，并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。

有的情况下，某个蛋白质与已知功能蛋白质的整体序列相似性很低，但由于功能的需要保留了与功能密切相关的序列模式，这样就可能通过PROSITE的搜索找到隐含的功能motif，因此是序列分析的有效工具。

PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；

除了序列模式之外，PROSITE还包括由多序列比对构建的profile，能更敏感地发现序列与profile的相似性。

PROSITE的主页上提供各种相关检索服务。

PROSITE的网址是：

//www.expasy.ch/prosite/。

4.PDB

蛋白质数据仓库（PDB）是国际上唯一的生物大分子结构数据档案库，由美国Brookhaven国家实验室建立。

PDB收集的数据来源于X光晶体衍射和核磁共振（NMR）的数据，经过整理和确认后存档而成。

目前PDB数据库的维护由结构生物信息学研究合作组织（RCSB）负责。

RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务，以及关于PDB数据文件格式和其它文档的说明，PDB数据还可以从发行的光盘获得。

使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。

RCSB的PDB数据库网址是：

//www.rcsb.org/pdb/。

5.SCOP

蛋白质结构分类（SCOP）数据库详细描述了已知的蛋白质结构之间的关系。

分类基于若干层次：

家族，描述相近的进化关系；

超家族，描述远源的进化关系；

折叠子（fold），描述空间几何结构的关系；

折叠类，所有折叠子被归于全α、全β、α/β、α＋β和多结构域等几个大类。

SCOP还提供一个非冗余的ASTRAIL序列库，这个库通常被用来评估各种序列比对算法。

此外，SCOP还提供一个PDB-ISL中介序列库，通过与这个库中序列的两两比对，可以找到与未知结构序列远缘的已知结构序列。

SCOP的网址是：

//scop.mrc-lmb.cam.ac.uk/scop/。

6.COG

蛋白质直系同源簇（COGs）数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白，根据系统进化关系分类构建而成。

COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。

利用COGNITOR程序，可以把某个蛋白质与所有COGs中的蛋白质进行比对，并把它归入适当的COG簇。

COG库提供了对COG分类数据的检索和查询，基于Web的COGNITOR服务，系统进化模式的查询服务等。

COG库的网址是：

//www.ncbi.nlm.nih.gov/COG。

下载COG库和COGNITOR程序在：

//ncbi.nlm.nih.gov/pub/COG。

1.KEGG

京都基因和基因组百科全书（KEGG）是系统分析基因功能，联系基因组信息和功能信息的知识库。

基因组信息存储在GENES数据库里，包括完整和部分测序的基因组序列；

更高级的功能信息存储在PATHWAY数据库里，包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期，还包括同系保守的子通路等信息；

KEGG的另一个数据库是LIGAND，包含关于化学物质、酶分子、酶反应等信息。

KEGG提供了Java的图形工具来访问基因组图谱，比较基因组图谱和操作表达图谱，以及其它序列比较、图形比较和通路计算的工具，可以免费获取。

KEGG的网址是：

//www.genome.ad.jp/kegg/。

2.DIP

相互作用的蛋白质数据库（DIP）收集了由实验验证的蛋白质－蛋白质相互作用。

数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。

用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。

DIP的网址是：

//dip.doe-mbi.ucla.edu/。

3.ASDB

可变剪接数据库（ASDB）包括蛋白质库和核酸库两部分。

ASDB（蛋白质）部分来源于SWISS-PROT蛋白质序列库，通过选取有可变剪接注释的序列，搜索相关可变剪接的序列，经过序列比对、筛选和分类构建而成。

ASDB（核酸）部分来自Genbank中提及和注释的可变剪接的完整基因构成。

数据库提供了方便的搜索服务。

ASDB的网址是：

//cbcg.nersc.gov/asdb。

4.TRRD

转录调控区数据库（TRRD）是在不断积累的真核生物基因调控区结构－功能特性信息基础上构建的。

每一个TRRD的条目里包含特定基因各种结构－功能特性：

转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。

TRRD包括五个相关的数据表：

TRRDGENES（包含所有TRRD库基因的基本信息和调控单元信息）；

TRRDSITES（包括调控因子结合位点的具体信息）；

TRRDFACTORS（包括TRRD中与各个位点结合的调控因子的具体信息）；

TRRDEXP（包括对基因表达模式的具体描述）；

TRRDBIB（包括所有注释涉及的参考文献）。

TRRD主页提供了对这几个数据表的检索服务。

TRRD的网址是：

//wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。

5.TRANSFAC

TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。

由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。

此外，还有几个与TRANSFAC密切相关的扩展库：

PATHODB库收集了可能导致病态的突变的转录因子和结合位点；

S/MARTDB收集了与染色体结构变化相关的蛋白因子和位点的信息；

TRANSPATH库用于描述与转录因子调控相关的信号传递的网络；

CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。

TRANSFAC及其相关数据库可以免费下载，也可以通过Web进行检索和查询。

TRANSFAC的网址是：

//transfac.gbf.de/TRANSFAC/。

1.DBCat

DBCat是生物信息数据库的目录数据库，它收集了500多个生物信息学数据库的信息，并根据它们的应用领域进行了分类。

包括DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。

数据库可以免费下载或在网络上检索查询。

DBCat的网址是：

//www.infobiogen.fr/services/dbcat/。

下载DBCat在：

//ftp.infobiogen.fr/pu

展开阅读全文