生物信息学复习总结.docx

资源描述

生物信息学复习总结.docx

《生物信息学复习总结.docx》由会员分享，可在线阅读，更多相关《生物信息学复习总结.docx（17页珍藏版）》请在冰豆网上搜索。

生物信息学复习总结.docx

生物信息学复习总结

生物信息期末总结

1.生物信息学（Bioinformatics）定义：

（第一章）★

生物信息学是一门交叉科学，它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。

（或：

）

生物信息学是运用计算机技术和信息技术开发新的算法和统计方法，对生物实验数据进行分析，确定数据所含的生物学意义，并开发新的数据分析工具以实现对各种信息的获取和管理的学科。

（NSFC）

2.科研机构及网络资源中心：

NCBI：

美国国立卫生研究院NIH下属国立生物技术信息中心；

EMBnet：

欧洲分子生物学网络；

EMBL-EBI：

欧洲分子生物学实验室下属欧洲生物信息学研究所；

ExPASy:

瑞士生物信息研究所SIB下属的蛋白质分析专家系统；（ExpertProteinAnalysisSystem）

BioinformaticsLinksDirectory；

PDB（ProteinDataBank）；

UniProt数据库

3.生物信息学的主要应用:

1．生物信息学数据库；2．序列分析；3．比较基因组学；4．表达分析；5．蛋白质结构预测；6．系统生物学；7．计算进化生物学与生物多样性。

4.什么是数据库：

★

1、定义：

数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。

（记录record、字段field、值value）

2、生物信息数据库应满足5个方面的主要需求：

（1）时间性；

（2）注释；（3）支撑数据；（4）数据质量；（5）集成性。

3、生物学数据库的类型：

一级数据库和二级数据库。

（国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等；

蛋白质序列数据库有SWISS-PROT等；蛋白质结构库有PDB等。

）

4、一级数据库与二级数据库的区别：

★

1）一级数据库：

包括：

a.基因组数据库----来自基因组作图；

b.核酸和蛋白质一级结构序列数据库；

c.生物大分子（主要是蛋白质）的三维空间结构数据库，（来自X-衍射和核磁共振结构测定）；

2）二级数据库：

是对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

一般说来，一次数据库的数据量大，更新速度快，用户面广，通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。

二次数据库的容量则小得多，更新速度也不像一次数据库那样快，也可以不用大型商业数据库软件支持，这类针对不同问题开发的二次数据库的最大特点是使用方便，特别适用于计算机使用经验不太丰富的生物学家。

5、一个数据库记录（entry）一般由两部分组成：

1）原始序列数据（sequencedata）；

2）描述这些数据生物学信息的注释（annotation）：

注释中包含的信息与相应的

序列数据同样重要和有应用价值。

6、数据的完整性和注释工作量：

1）序列数据广，序列注释不够完整；

2）库数据面窄，序列注释全面.

7、数据库的动态更新：

1）不断增加；2）不断修正.

5、几个大型数据库简介：

NCBI、EBI、SIB（共点：

拥有庞大的一级数椐库、大量工具软件和广泛的外联。

）

1、NCBI（www.ncbi.nlm.nih.gov）:

NCBI是指美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation，NCBI），成立于1988年，其主要工作是开发以GenBank为代表的数据库，进行计算生物学研究，开发用于分析基因组数据的软件工具，发布生物医学信息。

1）Entrez（集成化的数据库）（http:

//www.ncbi.nlm.nih.gov/gquery/）

Entrez是NCBI著名的用于提取序列信息的工具，它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统。

类似于EBI的SRS（见下文），是一个查询、提取和显示系统。

Theoriginalversion（原始版本）（1991）ofEntrezhadjust3nods。

2）可查Protein、PubMed（生物医学文献数据库）、Nucleotide、Genome、Gene、Pathway等相关信息。

2、EMBL-EBI（www.ebi.ac.uk）

EMBLNucleotideSequenceDataLibrary（nowknownasEMBL-Bank）为世界上第一个核酸序列数据库（1980）。

欧洲分子生物学实验室下属欧洲生物信息学研究所（EuropeanBioinformaticsInstitute,EBI，1992，英国）EMBL-EBI核酸数据库提供了序列搜索的服务。

通过它的序列提取系统—SRS6（搜索引擎），我们可以用十几种不同的方法（如用关键字）搜索我们想要的序列。

EBI还资助了Ensembl项目，Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。

欧洲分子生物学实验室EMBL（TheEuropeanMolecularBiologyLaboratory）。

Services、UniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面。

3、SIB（us.expasy.org）

瑞士生物信息研究所（SwissInstitueofBioinformatics,SIB,30March1998 ）。

用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统：

SWISS-PROT，ExPASy（ExpertProteinAnalysisSystem瑞士日内瓦大学专家蛋白质分析系统（http:

//www.expasy.ch/））。

6、核酸序列数据库：

1、国际上权威的核酸序列数据库：

（1）欧洲分子生物学实验室的EMBL；

（2）美国生物技术信息中心的GenBank；

（3）日本遗传研究所的DDBJ，（http:

//www.ddbj.nig.ac.jp/）；

这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。

三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。

2、INSDC国际核酸序列数据库协会：

1998年，GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会（InternationalNucleotideSequenceDatabaseCollaboration,INSDC），三大核酸数据库之间每天将新测定或更新的数据进行交换共享，保证数据信息的完整与同步，每两个月更新一次版本。

（http:

//www.insdc.org/）

7、蛋白质序列数据库：

1）PIR（ProteinInformationResource）；（http:

//pir.georgetown.edu/）

2）SWISS-PROT；（http:

//www.expasy.ch/sprot/sprot-top.html）

3）TrEMBL；（http:

//www.ebi.ac.uk/trembl/index.html）是与SWISS-PROT相关的一个数据库。

包含从EMBL核酸数据库中根据编码序列（CDS）翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中；

4）NCBI美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation，NCBI）；

5）UniProt；通用蛋白质数据库（http:

//www.uniprot.org/）包括：

（Swiss-Prot、TrEMBL、PIR）用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP下载数据。

8、生物大分子结构数据库：

1）PDB（ProteinDataBank）；（http:

//www.rcsb.org/）

2）MMDB（MolecularModelingDatabase）；（www.ncbi.nlm.nih.gov/Structure/）

9、其它生物分子数据库：

1）单碱基多态性数据库dbSNP；2）基因组数据库（GDB）；3）人类基因组数据库Ensembl；4）表达序列标记数据库dbEST；5）序列标记位点数据库dbSTS；6）面向基因聚类数据库UniGene；7）蛋白质结构分类数据库SCOP；8）蛋白质二级结构数据库DSSP；9）蛋白质同源序列比对数据库HSSP；10）OMIM（OnlineMendelianInheritanceinMan），是关于人类基因和遗传疾病的分类数据库。

。

》》》NucleicAcidResearch《《《

附：

1、NCBI和EBI使用的搜索引擎分别是什么？

答：

NCBI使用的是Entrez，EBI使用的是SRS。

2、FASTA格式有哪些部分组成，以什么字符开始？

答：

包含ginumber，Databaseidentifiers，Accessionnumber，Locusname等部分，以>字符开始。

3、NCBI的WEB和离线序列提交软件是什么？

答：

WEB提交工具：

Bankit；离线提交：

Sequin

4、系统生物学：

答：

确定、分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作用关系的一门学科。

10、序列数据的文件格式：

（第二章）

格式主要有三种：

DNA/RNA/氨基酸代码的标识（B、Z）；

GenBank数据格式；

FASTA数据格式。

一、GBFF（GenBankflatfile）—GenBank平面文件格式：

GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库，那么它们是怎样交换数据的呢？

这里引入GBFF（GenBankflatfile即GenBank平面文件）格式。

GBFF是GenBank数据库的基本信息单位，是最为广泛使用的生物信息学序列格式之一。

GBFF文件分为三部分：

a.头部包含整个记录的信息（描述符）；b.第二部分包含了注释这一记录的特性；c.第三部分是核苷酸序列本身。

（注：

所有序列数据库记录都在最后一行以“//”结尾。

）

1）GBFF：

LOCUS行

（LOCUS，SCU49845，5028bp，DNAlinear，PLN，21-JUN-1999）

所有GBFF都起始于LOCUS行：

第一项：

是LOCUS名称（SCU49845）：

现在唯一的作用是它在数据库中是独一无二的，已不再具有任何实际意义。

大多数情况下，它仅使用检索号码（accesessionnumber）以满足对LOCUS名称的要求；

第二项是序列长度（5028bp）：

规定单条数据库记录的长度不能超过350kb。

除历史原因外，GenBank已经很少接受长度低于50bp的序列了；

第三项表明分子类型（DNA）：

其序列必须是一种单一的分子类型；

第四项是GenBank分类码（PLN）：

由3个字母组成。

现在其作用仅限于在下载数据库时对数据库作简单的分类。

最后一项是其最后修订日期（21-JUN-1999）：

有时也仅表示数据首次公开日期。

2）GBFF：

DEFINITION行（definition）

（DEFINITIONSaccharomycescerevisiaeTCP1-betagene,partialcds;andAxl2p（AXL2）andRev7p（REV7）genes,completecds.）

LOCUS行的下一行为DEFINITION行：

主要对GenBank记录中所含的生物学意义做出总结。

它的说明内容包括了来源物种、基因/蛋白质名称。

若序列是非编码区，则包含对序列功能的简单描述；若是一段编码区，则标明该序列是部分序列（partialcds）还是全序列（completecds）。

3）GBFF：

ACCESSION行（accession）检索号行

（ACCESSIONU49845）

检索号（accession）是序列记录的惟一指针。

通常由1个字母加5个数字（U12345）或由2个字母加6个数字（AF123456）组成。

它在数据库中是惟一而且不变的。

有时ACCESSION行中可能会出现多个检索号，可能是由于数据提交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录。

我们称第一个检索号为主检索号，其余的统称为二级检索号。

4）GBFF：

VERSION行（version）版本号行

（VERSIONU49845.1GI:

1293613）

VERSION行是版本号，格式为：

检索号.版本号。

版本号用于识别数据库中一条单一的特定核苷酸序列。

在数据库中，如某条序列数据发生了变化，即使是单碱基的改变它的版本号也将增加，而其检索号保持不变。

版本号系统与其后的GI（geninfoidentifier）号系统是平行运行的。

即当一条序列改变后，它将被赋予一个新的GI号，其版本号也将增加。

蛋白质的翻译发生任何变换，核酸序列都将被赋予一个新的GI号。

5）GBFF：

KEYWORDS行（keywords）关键词行

（KEYWORDS.）

关键词行是用来描述序列的。

如果该行没有任何内容，那么就只包含一个“.由于没有对照词汇表，故NCBI/GenBank拒绝接受关键词，它只存在于旧的记录中。

6）GBFF：

OURCE行（source）来源行

（SOURCESaccharomycescerevisiae（baker'syeast）ORGANISMSaccharomycescerevisiaeEukaryota;Fungi;Ascomycota;Saccharomycotina;Saccharomycetes;Saccharomycetales;Saccharomycetaceae;Saccharomyces.）

对来源行（SOURCE）没做特殊的规定，它通常包含序列来源生物的简称，有时也包含分子类型。

在下面以NCBI的分类数据库为依据，指明物种的正式科学名称。

7）GBFF：

REFERENCE行reference参考文献行

（REFERENCE1（bases1to5028）AUTHORSTorpey,L.E.,Gibbs,P.E.,Nelson,J.andLawrence,C.W.TITLECloningandsequenceofREV7,agenewhosefunctionisrequiredforDNAdamage-inducedmutagenesisinSaccharomycescerevisiaeJOURNALYeast10（11）,1503-1509（1994）PUBMED7871890）

参考文献行将与该数据有关的参考文献均收录在内。

将最先发表的文献列于第一位。

如果序列数据没有被相关文献报道，该行将出现“unpublished”或“inpress”。

最后将有一个可能的PUBMED指针。

8）GBFF：

FEATURES行（features）特性表行

（FEATURESLocation/Qualifiers

CDS<1..206

/codon_start=3

/product="TCP1-beta"

/protein_id="AAA98665.1"

/db_xref="GI:

1293614"

/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA

AEVLLRVDNIIRARPRTANRQHM"

gene687..3158

/gene="AXL2"

......）

特性表（features）描述基因和基因的产物以及与序列相关的生物学特性。

特性表提供一个参考词汇表以对合法的特性进行注释。

这些特性包括：

1、该序列是否执行一个生物学功能；2、它是否与一个生物学功能的表达相关；3、它是否与其它分子相互作用；4、它是否影响一条序列的复制；5、它是否与其他序列的重组相关；6、它是否是一条已识别的重复序列；7、它是否有二级或三级结构；8、它是否存在变异或者它是否被修订过。

特性表格式是按表单的方式设计的，分三个主要部分：

1）特性表关键词（feature），简要说明功能组；

2）特性位置（location），指明在特性表中的什么地方可以找到相关特性，在此可以包含操作符（operator）和功能性描述符（descriptor）以指明序列需经过怎样的处理才能得到相应的特性；

3）限定词（qualifier），相关特性的辅助信息，限定词组使用一组标准化的对照词汇表以利于计算机从中提取信息。

（这段序列可以解读为：

该编码序列（CDS）起始于第1碱基，终止于第206碱基，它的产物是TCP1-beta，基因名为“AXL2”。

）

9）GBFF：

ORIGIN（origin）

（ORIGIN

1gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg

61ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct

......

4981tgccatgactcagattctaattttaagctattcaatttctctttgatc）

在GBFF文件的最后，以类似于FASTA格式的方式给出了所记录的序列。

二、FASTA数据格式（FASTAformat）：

Accessionnumbersarelabelsforsequences（检索号）

11、RefSeq资料库：

（NCBIReferenceSequenceDatabase参考序列数据库）

RefSeq资料库是NCBI将GenBank的序列再做详细整理的non-redundent序列资料库，它的序列格式和GenBank几乎完全相同，但因为是完全不同的独立资料库，为与GenBank区别，RefSeq的AccessionNumber（检索号）格式和GenBank的不同。

该数据库所收集的参考序列一直在不断地被修改中，尽管如此，NCBIRefSeq仍是目前最可信赖的序列数据库。

GenBank中一个基因的索引号可能有上百个，但对应一个基因的RefSeq只有一个。

（http:

//www.ncbi.nlm.nih.gov/RefSeq/）

NCBI参考序列数据库（RefSeq）旨在提供一个全面的、集成的、冗余，好的注释组序列，包括基因组DNA、转录和蛋白质。

RefSeq是医学、功能和多样性研究的基础；它们提供一个稳定的参考基因组注释、基因识别和表征，突变和多态性分析（特别是RefSeqGene记录），表达研究和比较分析。

e.g.>数据库检索实例<:

搜索Genbankno.FJ798090，获得序列相关信息

1.进入NCBI网站，选择nucleotide：

FJ798090搜索，得到相关信息；

2.从CDS行可看到有关Aa的信息，从ORIDIN行可看到DNA相关信息；

3.在原网页上选择右边相关信息选择框的PubMed，查看关联文章；

4.主页进入DNA&RNA，选择tools，点第二个BatchEntrez，批量下载序列；

5.提交结果，显示参数与序列下载（Send选项、选File、然后选FASTA格式），下载序列，提交序列。

12、提交序列：

1、提交方式主要有三种：

1）、Bankit逐条提交、需要注册；2）、Sequin10000条以下；3）、Tbl2asn超过1万条、命令行。

2、Bankit提交：

先注册，后点NewSubmission（创建一个新提交），SequencingTechnology（测序技术），nucleotide（核酸），Organism（生物体），SubmissionCategory（提交类别），SourceModifiers（源寄存器修改），Primers（引物），Features（特性），ReviewandCorrect（检查和纠正，3处）。

3、SequinDNA分析软件：

（ADNASequenceSubmissionandUpdateTool）

序列提交：

研究产生的新序列，需要递交到公共数据库保存；需要撰写论文发表新序列时，需要数据库接受号。

4、WEB在线提交工具：

1、NCBI的Bankit；2、EBI的WEBIN；3、DDBJ的SAKURA；

5、离线提交：

NCBI的Sequin。

6、提交比较：

Bankit提交：

使用简单，每个步骤有详细说明。

但一次只能提交一个序列，长度不能太长；Sequin：

安装在用户自己的计算机上，可同时递交若干序列和较长序列，而且整合了许多有用的序列注释工具。

13、引物设计及测序结果分析：

（第三章）

1、引物设计流程：

1）序列查找与下载（GenBank）；

2）序列同源性比较（Blast/alignment）；

3）引物设计与筛选（primer3/其他）；

4）引物加工与修饰（酶切、保护、标签、启动子等）；

5）引物评价分析（Oligo6）；

6）引物二次筛选（blast）；

7）引物最终评估（band）；

2、引物设计原则：

基本原则：

1）引物与模板的序列要紧密互补；2）引物与引物之间避免形成稳定的二聚体或发夹结构；3）引物不能在非靶点引发DNA聚合反应。

注意点：

1、引物长度在15-30bp之间；

2、GC含量为40-60%之间；

3、引物的特异性（3’端不能有连续的GGG或CCC）；

4、3’△G的绝对值不超过9，双链形成所需自由能；

5、密码子的兼并：

3’不要位于密码子的第3位。

3、引物设计软件：

1）在线工具Primer3、Primer-Blast；

2）本地软件PrimerPremier5；

3）引物评估软件Oligo6。

e.g．在线设计引物：

在Primer3界面上将需要设计的序列粘贴复制进入大方框，确定基本参数和结果参数后，点击pick键后出现output页面，将所需的序列即一定要PCR出的序列用中括号括上，再复制进大方框。

这两者的差别是第一个是随机的引物，而第二个选出的引物必然包含你所需的那一段。

KEYS（inorderofprecedence）优选引物:

（******target，>>>>>>leftprimer，

<<<<<

4、Oligo7手工设计引物：

上游ATGGGAAAAGACTATTACAAAATC

下游TCAATTCGGCAGCGTATCGTAGAG

选择引物长度→选定上下游引物→3’△G绝对值不能超过9→DuplexFormation二聚体分析、Hairpinformation发夹分析（△G不能超过4.5）→成分和Tm→错误引发位点分析：

一般在100以下，若正确引发效率达到400，可承受超过100多点→PCR最终分析评价→引物二次筛选（上下游引物在ncbi中进行blast分析（搜索primerncb

展开阅读全文