生物信息学复习总结.docx

资源描述

生物信息学复习总结.docx

《生物信息学复习总结.docx》由会员分享，可在线阅读，更多相关《生物信息学复习总结.docx（19页珍藏版）》请在冰豆网上搜索。

生物信息学复习总结.docx

生物信息期末总结

1.生物信息学（Bioinformatics）定义：

（第一章）★

生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。

（或：

）

生物信息学是运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。

（NSFC）

2.科研机构及网络资源中心：

NCBI：

美国国立卫生研究院NIH下属国立生物技术信息中心；

EMBnet：

欧洲分子生物学网络；

EMBL-EBI：

欧洲分子生物学实验室下属欧洲生物信息学研究所；

ExPASy:

瑞士生物信息研究所SIB下属的蛋白质分析专家系统；（ExpertProteinAnalysisSystem）

BioinformaticsLinksDirectory；

PDB（ProteinDataBank）；

UniProt数据库

3.生物信息学的主要应用:

1．生物信息学数据库；2．序列分析；3．比较基因组学；4．表达分析；5．蛋白质结构预测；6．系统生物学；7．计算进化生物学与生物多样性。

4.什么是数据库：

★

1、定义：

数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。

（记录record、字段field、值value）

2、生物信息数据库应满足5个方面的主要需求：

（1）时间性；

（2）注释；（3）支撑数据；（4）数据质量；（5）集成性。

3、生物学数据库的类型：

一级数据库和二级数据库。

（国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等；

蛋白质序列数据库有SWISS-PROT等；蛋白质结构库有PDB等。

）

4、一级数据库与二级数据库的区别：

★

1）一级数据库：

包括：

a.基因组数据库----来自基因组作图；

b.核酸和蛋白质一级结构序列数据库；

c.生物大分子（主要是蛋白质）的三维空间结构数据库，（来自X-衍射和核磁共振结构测定）；

2）二级数据库：

是对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

一般说来，一次数据库的数据量大，更新速度快，用户面广，通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。

二次数据库的容量则小得多，更新速度也不像一次数据库那样快，也可以不用大型商业数据库软件支持，这类针对不同问题开发的二次数据库的最大特点是使用方便，特别适用于计算机使用经验不太丰富的生物学家。

5、一个数据库记录（entry）一般由两部分组成：

1）原始序列数据（sequencedata）；

2）描述这些数据生物学信息的注释（annotation）：

注释中包含的信息与相应的

序列数据同样重要和有应用价值。

6、数据的完整性和注释工作量：

1）序列数据广，序列注释不够完整；

2）库数据面窄，序列注释全面.

7、数据库的动态更新：

1）不断增加；2）不断修正.

5、几个大型数据库简介：

NCBI、EBI、SIB（共点：

拥有庞大的一级数椐库、大量工具软件和广泛的外联。

）

1、NCBI（www.ncbi.nlm.nih.gov）:

NCBI是指美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation，NCBI），成立于1988年，其主要工作是开发以GenBank为代表的数据库，进行计算生物学研究，开发用于分析基因组数据的软件工具，发布生物医学信息。

1）Entrez（集成化的数据库）（http:

//www.ncbi.nlm.nih.gov/gquery/）

Entrez是NCBI著名的用于提取序列信息的工具，它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统。

类似于EBI的SRS（见下文），是一个查询、提取和显示系统。

Theoriginalversion（原始版本）（1991）ofEntrezhadjust3nods。

2）可查Protein、PubMed（生物医学文献数据库）、Nucleotide、Genome、Gene、Pathway等相关信息。

2、EMBL-EBI（www.ebi.ac.uk）

EMBLNucleotideSequenceDataLibrary（nowknownasEMBL-Bank）为世界上第一个核酸序列数据库（1980）。

欧洲分子生物学实验室下属欧洲生物信息学研究所（EuropeanBioinformaticsInstitute,EBI，1992，英国）EMBL-EBI核酸数据库提供了序列搜索的服务。

通过它的序列提取系统—SRS6（搜索引擎），我们可以用十几种不同的方法（如用关键字）搜索我们想要的序列。

EBI还资助了Ensembl项目，Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。

欧洲分子生物学实验室EMBL（TheEuropeanMolecularBiologyLaboratory）。

Services、UniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面。

3、SIB（us.expasy.org）

瑞士生物信息研究所（SwissInstitueofBioinformatics,SIB,30March1998 ）。

用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统：

SWISS-PROT，ExPASy（ExpertProteinAnalysisSystem瑞士日内瓦大学专家蛋白质分析系统（http:

//www.expasy.ch/））。

6、核酸序列数据库：

1、国际上权威的核酸序列数据库：

（1）欧洲分子生物学实验室的EMBL；

（2）美国生物技术信息中心的GenBank；

（3）日本遗传研究所的DDBJ，（http:

//www.ddbj.nig.ac.jp/）；

这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。

三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。

2、INSDC国际核酸序列数据库协会：

1998年，GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会（InternationalNucleotideSequenceDatabaseCollaboration,INSDC），三大核酸数据库之间每天将新测定或更新的数据进行交换共享，保证数据信息的完整与同步，每两个月更新一次版本。

（http:

//www.insdc.org/）

7、蛋白质序列数据库：

1）PIR（ProteinInformationResource）；（http:

//pir.georgetown.edu/）

2）SWISS-PROT；（http:

//www.expasy.ch/sprot/sprot-top.html）

3）TrEMBL；（http:

//www.ebi.ac.uk/trembl/index.html）是与SWISS-PROT相关的一个数据库。

包含从EMBL核酸数据库中根据编码序列（CDS）翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中；

4）NCBI美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation，NCBI）；

5）UniProt；通用蛋白质数据库（http:

//www.uniprot.org/）包括：

（Swiss-Prot、TrEMBL、PIR）用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP下载数据。

8、生物大分子结构数据库：

1）PDB（ProteinDataBank）；（http:

//www.rcsb.org/）

2）MMDB（MolecularModelingDatabase）；（www.ncbi.nlm.nih.gov/Structure/）

9、其它生物分子数据库：

1）单碱基多态性数据库dbSNP；2）基因组数据库（GDB）；3）人类基因组数据库Ensembl；4）表达序列标记数据库dbEST；5）序列标记位点数据库dbSTS；6）面向基因聚类数据库UniGene；7）蛋白质结构分类数据库SCOP；8）蛋白质二级结构数据库DSSP；9）蛋白质同源序列比对数据库HSSP；10）OMIM（OnlineMendelianInheritanceinMan），是关于人类基因和遗传疾病的分类数据库。

。

》》》NucleicAcidResearch《《《

附：

1、NCBI和EBI使用的搜索引擎分别是什么？

答：

NCBI使用的是Entrez，EBI使用的是SRS。

2、FASTA格式有哪些部分组成，以什么字符开始？

答：

包含ginumber，Databaseidentifiers，Accessionnumber，Locusname等部分，以>字符开始。

3、NCBI的WEB和离线序列提交软件是什么？

答：

WEB提交工具：

Bankit；离线提交：

Sequin

4、系统生物学：

答：

确定、分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作用关系的一门学科。

10、序列数据的文件格式：

（第二章）

格式主要有三种：

DNA/RNA/氨基酸代码的标识（B、Z）；

GenBank数据格式；

FASTA数据格式。

一、GBFF（GenBankflatfile）—GenBank平面文件格式：

GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，那么它们是怎样交换数据的呢？

这里引入GBFF（GenBankflatfile即GenBank平面文件）格式。

GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一。

GBFF文件分为三部分：

a.头部包含整个记录的信息（描述符）；b.第二部分包含了注释这一记录的特性；c.第三部分是核苷酸序列本身。

（注：

所有序列数据库记录都在最后一行以“//”结尾。

）

1）GBFF：

LOCUS行

（LOCUS，SCU49845，5028bp，DNAlinear，PLN，21-JUN-1999）

所有GBFF都起始于LOCUS行：

第一项：

是LOCUS名称（SCU49845）：

现在唯一的作用是它在数据库中是独一无二的，已不再具有任何实际意义。

大多数情况下，它仅使用检索号码（accesessionnumber）以满足对LOCUS名称的要求；

第二项是序列长度（5028bp）：

规定单条数据库记录的长度不能超过350kb。

除历史原因外，GenBank已经很少接受长度低于50bp的序列了；

第三项表明分子类型（DNA）：

其序列必须是一种单一的分子类型；

第四项是GenBank分类码（PLN）：

由3个字母组成。

现在其作用仅限于在下载数据库时对数据库作简单的分类。

最后一项是其最后修订日期（21-JUN-1999）：

有时也仅表示数据首次公开日期。

2）GBFF：

DEFINITION行（definition）

（DEFINITIONSaccharomyc

展开阅读全文