《生物信息学》学生复习资料.docx-资源下载

《生物信息学》学生复习资料.docx

1、生物信息学学生复习资料生物信息学复习资料陈芳宋东光教材：生物信息学简明教程（钟扬编）1 绪论分子生物学与计算机、信息科学的结合生物信息学(Bioinformatics); Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules. 生物信息学及其分支学科分子生物信息学(molecular informatics)即狭义的生物信息学，指应

2、用信息技术储存和分析基因组测序所产生的分子序列及其相关数据；生物信息学(bioinformatics)广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科，对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释；生物信息学是广义的计算生物学的分支，在为生物学系统建模中应用了量化分析技术；计算分子生物学(computational molecular biology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题，侧重于发展理论模型和有效算法；分子计算(molecular computing)将DNA作为一种信息储存器，应用PCR技术和生物

3、芯片等来进行计算。生物信息学的主要目的不是分子发展最精致的算法，其目的是发现生物体以怎样的方式生存。生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型，到实现数据分析的新算法，以及开发数据库和访问数据库的Web工具。生物信息学的功能是表示、存储和分布数据。开发从数据中发现知识的分析工具处于第二位。生物信息学发展阶段与研究方向前基因组时代数据库建立、检索工具的开发和蛋白质序列分析；基因组时代基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等；后基因组时代大规模基因组分析、蛋白质组分析、各种数据的比较和整合。面临的主要挑战： 1)互操作的生物信息系统及相关

4、数据挖掘技术； 2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法； 3)开发数据转换工具，建立预测模型； 4)开发微阵列和基因芯片等新技术的数据分析工具。我国生物信息学研究的发展方向建立国家生物医学数据库与服务系统人类基因组的信息结构分析功能基因组相关信息分析研究遗传密码起源与生物进化（尤其是分子进化）的过程与机制生物信息学基本方法与前沿技术基本方法 1)建立生物数据库 2)数据库检索 3)序列分析 4)统计模型 5)算法前沿技术 1)数据管理技术 2)数据仓库、数据挖掘与数据库中的知识发现技术 3)图像处理与可视化技术生物信息学的应用生物信息的经济价值与生物信息学市场基因组分

5、析基因芯片药物开发其他应用领域生物信息学的主要研究领域及其应用前景生物信息学(bioinformatics)广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科，对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释；生物信息学是广义的计算生物学的分支，在为生物学系统建模中应用了量化分析技术；生物信息学发展阶段与研究方向前基因组时代数据库建立、检索工具的开发和蛋白质序列分析；基因组时代基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等；后基因组时代大规模基因组分析、蛋白质组分析、各种数据的比较和整合。面临的主要挑战： 1)互操作的生物信息系统

6、及相关数据挖掘技术； 2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法； 3)开发数据转换工具，建立预测模型； 4)开发微阵列和基因芯片等新技术的数据分析工具。我国生物信息学研究的发展方向建立国家生物医学数据库与服务系统人类基因组的信息结构分析功能基因组相关信息分析研究遗传密码起源与生物进化（尤其是分子进化）的过程与机制生物信息学的应用前景生物信息的经济价值与生物信息学市场基因组分析基因芯片药物开发其他应用领域2 生物信息学的计算机基础数据管理与数据库技术数据库是以一种能够保存持久并可以被操作的方式来保存的数据集合。包括文本文件、电子数据表格和图象。数据库系统由一个数据库和周围

7、的环境，包括软件、操作系统、硬件和使用它的用户所组成。计算机网络与Internet计算机网络是为了资源共享和信息交流的目的而互相连接起来的计算机的集合。互联网络(Internetwork)是指通过中间设备连接的多个网络的集合，形成覆盖范围更广的计算机网络。网络分类根据距离分类: 局域网(LAN, Local Area Network)连接小范围内的计算机，一般系统覆盖半径为几百米到几公里，是随着PC机的发展而发展起来的；广域网(WAN, Wide Area Network)可以连接地理位置比较分散的计算机, Internet是最大的WAN，连接了不同大洲的数百万个网络. 介于二者的是城域网(

8、MAN, Metropolitan Area Network). Internet提供的服务Telnet: 主机远程登录；FTP: 文件传输；Email: 电子邮件；Usenet: 新闻组；WWW: 万维网.数据仓库和数据挖掘Data warehouse: 面向主题的、集成的、持久的、历史的数据集合。从各种数据资源中获得原始数据按辅助决策的主题要求形成当前基本数据层按综合决策要求形成综合数据层由时间机制转为历史数据层；KDD: knowledge discovery in database, 从数据中发现有用信息和模式的过程，包括数据选择预处理转换数据挖掘解释或评价knowledge;Data

9、mining:利用算法对KDD过程获得的信息和模式进行提取，对隐藏信息进行预测性的或描述性的模型匹配.数据挖掘的基本技术包括分类(classification), 回归(regression), 时序分析(time series analysis), 预测(prediciton), 聚类(clustering), 概括(summarization), 关联(association), 顺序发现(sequence discovery)等. 3 生物信息学资源与数据挖掘生物信息学资源基因组信息蛋白质信息整合生物学信息分子数据挖掘工具序列相似性查询软件BLAST 序列查询和模式识别数据挖掘

10、工具生物信息学资源查找科学文献几乎每种主要的期刊都有自己的Web站点，网上也有很多文献数据库，如NCBI的Medline数据库(PubMed)等。PubMed介绍PubMed系统是由美国国立生物技术信息中心（NCBI）开发的用于检索MEDLINE、Pre-MEDLINE数据库的网上检索系统(www.ncbi.nlm.nih.gov/entrez)。MEDLINE是美国国立医学图书馆（U.S.National Library of Medicine）最重要的书目文摘数据库，内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。收录了全世界70多个国家和地区的4000余种生物医学期刊，现有书

11、目文摘条目1000万余条，时间起自1966年。虽然是世界范围的，但是大多数记录是从英语资料(87%)或有英文摘要(72%)的文献中获得的。PubMed使用以关键词为基础的搜索策略，允许逻辑运算符AND/OR/NOT,用户可以使用Mesh(Medical Subject Heading)查找。Mesh是一个标准词库，可用来帮助查找用不同名称代表同一概念的文献。可用Mesh浏览器查询相关的Mesh词。基因组信息DNA测序双脱氧测序(ddNTPs)(Sanger 1977) 自动测序(荧光标记引物) 毛细管测序: 提高100倍(2005)基因组测序 1)YAC, BAC(100Kb)文库作图找到

12、重叠片段，测序 2)鸟枪法测序: 对所有克隆进行测序然后通过计算机进行片段重叠连接。cDNA文库测序: ESTs(expressed sequence tags).提交序列到数据库 BankIt: submit to GenBank by Web Sequin: local PC program GenBank Email: gbsubncbi.nlm.nih.govGenBankGenBank是美国国立卫生研究院(NIH)维护的基因序列数据库，汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组：有些按照系统发生学划

13、分，另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表，或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心(NCBI)建立，与日本DNA数据库（DDBJ）以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库（EMBL）一起，都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交，而三个中心之间则逐日交换信息，并制作相同的充分详细的数据库向公众开放分类检索：用accession number，作者姓名，物种

14、，基因/蛋白名字，还有许多其他的文本术语来查询。同源性(homology)：定性。同源序列指从某一共同祖先经趋异进化而形成得不同序列。相似性(similariy):：定量。通过序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。相似性检索：用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。用FTP下载整个的GenBank和更新数据。序列格式GenBank flatfile (GBFF) 是GenBank数据库的基本信息单位. GBFF可以分成三个部分，头部包含关于

15、整个记录的信息（描述符）。第二部分包含了注释这一记录的特性，第三部分是核苷酸序列自身。蛋白质信息蛋白质序列和结构分为3个层次：氨基酸序列-一级数据库，基序(motif)-二级数据库, 结构域(domain)-结构数据库。二级和三级数据库为Derived Databases。蛋白质数据库先于核苷酸数据库。在60年代初，Dayhoff和他的同事们收集了所有当时已知的氨基酸序列，这就是“蛋白质序列与结构图册” 。这一蛋白质数据库后来成为PIR(Protein Information Resource).一级数据库记录了实验结果，以及一些初步的解释。在DNA序列记录中的一种常见的注释是编码序列(CDS

16、).大多数蛋白质序列都不是直接由实验确定的，而是通过DNA序列得到的。蛋白质一级数据库主要包括：PIR, MIPS, SWISS-PROT, TrEMBL, NRDB, OWL, MIPSX等。二级数据库(Secondary DB或Pattern DB): 包括PROSITE, PRINTS, Pfam, BLOCKS, IDENITIFY等。三级数据库: 包括SCOP，CATH，PDBsum等。分子数据挖掘工具大量的序列和文献数据必须经过人工或计算机的处理分析才能提取出有用的信息，因而近年来数据挖掘技术的应用在基因表达分析等领域得到了广泛的开展。数据挖掘不同于传统的数据库查询语言，数据库的数

17、据须经过调整以利于进行知识挖掘，提取的结果不是数据库中的元数据，因此，数据挖掘采用多种算法去完成一定的任务，可以对隐藏信息进行预测性的或描述性的模型匹配。数据挖掘的基本技术包括分类(classification), 回归(regression), 时序分析(time series analysis), 预测(prediciton), 聚类(clustering), 概括(summarization), 关联(association), 顺序发现(sequence discovery)等。序列相似性查询软件Global similar algorithms which optimize over

18、all alignment between two sequences (dynamic programming) Local similar algorithms which see only relatively conserved pieces of sequence (FASTA, BLAST)BLAST: Basic Local Alignment Search ToolBLASTN, BLASTP, BLASTX, tBLASTN, tBLASTPblastn：核酸序列对核酸库的比对，直接比较核酸序列的同源性。blastp：蛋白序列与蛋白库做比对，直接比对蛋白序列的同源性。blas

19、tx：核酸序列对蛋白库的比对，先将核酸序列翻译成蛋白序列（根据相位可以翻译为6种可能的蛋白序列），然后再与蛋白库做比对。tblastn：蛋白序列对核酸库的比对，将库中的核酸翻译成蛋白序列，然后进行比对。tblastx：核酸序列对核酸库在蛋白级别的比对，将库和待查序列都翻译成蛋白序列，然后对蛋白序列进行比对。4 DNA序列分析基因结构与DNA序列分析EST分析 cDNA文库 EST数据库 EST聚类分析电子克隆全长cDNA序列比对分析全局和局部排列CLUSTAL软件基因结构与DNA序列分析电子克隆cDNA全长序列Virtual cloning: 利用重叠EST序列通过计算机EST数据库搜索进

20、行拼接获得全长cDNA. 通常使用BLAST进行检索，然后进行重叠片段拼接。Sequence alignment序列比对是比较两个(pair-wise alignment)或多个序列(multiple sequence alignment)找出单一字符或字符模式在序列中处于相同的顺序。将两序列排成两行，相同字符按列对齐，错配字符亦可按列或以空格对齐。很容易对齐的序列认为是相似的(similiar).全局比对(global alignment): 用于比较十分相似且长度几乎相等的序列，比对大部分碱基.局部比对(local aligment):比较序列中的最高密度配对字符，获得一个或多个亚比对顺

21、序(subalignment), 用于比较有部分相似的序列，其他部分不相似、长度不同、或具有保守区段或结构域的序列。序列比对的重要性序列比对用于发现生物序列的功能、结构和进化的信息，获得最佳比对(optimal alignment)才能做到. 很相似的序列往往可能具有相同的功能，如DNA分子的调控作用，蛋白质分子的相似生化功能或三维结构。来自不同生物相似的两个序列可能具有相同的祖先序列，或称为同源的。新的基因进化认为是通过基因复制(gene duplication)产生前后两个拷贝并发生突变，极少的机会其中的一个拷贝的新突变功能上可能更有利，然后沿不同途径进化，形成的两个基因家族仍是相关的且很

22、相似因为具有共同的祖先，由于基因重排(gene rearrangement)会引起蛋白质结构域进行重新配对而导致形成更复杂的蛋白质其进化关系可能难以辨认。Orthologs(垂直进化直系同源): 具有共同祖先及功能的同源基因但找不到基因如何复制的证据(有复制证据而同源基因来自一个具有相同功能的拷贝时亦称Orthologs)；Paralogs(平行进化并系同源): 复制产生的两个拷贝及其各自进化的后裔；Analogous(类似): 不具有相同祖先但通过独立进化途径而聚合了相同的功能称为聚合进化(convergent evolution), 如chymotrypsin和subtilisin的空间结

23、构和折叠完全不同但其活性部位具有相似的结构特征；Xenologous(外源的异同源): 通过基因水平转移(共生、病毒转导)而产生的相似序列。Dot Matrix序列比对点阵比对方法应作为序列比对的首选，因为它可以很快反映序列的插入/缺失和正向/反向重复。但多数程序(DOTTER, DNA Strider, DOTPLOT, COMPARE)不能很好确切的表示比对。比对采用对角线来比对两个序列，用滑动窗口来过滤随机的配对，窗口大小可以改变。Dynamic Programming许多计算机科学的问题都可以简化为通过图表寻求最优路径，对每一种路径都有必要对其进行某种意义上的打分，通常是对沿这一途径的

24、每一步的增量进行加和. 假定相同残基加正分,有插入或缺失的残基就加负分(扣分)根据这一定义，最合适的比对方法会得到最高分，也就是我们寻找的最佳路径。动态规划的思想是这样的，如果一条路径终止于最佳路径上的一点，那么这条路径本身就是起点到这个中间点的最佳路径，即任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身.这样，最佳路径就可以通过把各个最佳的次级路径连接而成。Needleman-Wunsch算法:最佳比对必然对每个序列都由始至终，就是说从搜索空间的左上角直至右下角。换句话说,它搜索全程比对。Smith&Waterman算法:把寻找K种最好的但不相互交叉的比对方式为目标

25、，寻求局部比对时可能会发现若干个重要的比对。PAM记分矩阵序列比较往往希望找到序列的共同祖先是如何经过突变和选择的。基本的突变过程认为是取代(substitutions)序列中的残基改变，以及插入或缺失(insertions and deletions). 自然选择过程筛选突变因而某些突变比其他较为常见。PAM120, PAM80，PAM60分别用来比对序列间有40%，50%及60%相似性。PAM250用来比较较远如只有1427%相似性的蛋白质较合适。用PAM矩阵进行比对可以统计地区分偶然或具有生物学意义的比对。通常不需要先知道序列相似程度，而无空格比对在使用合适PAM矩阵时达到最佳。有时可以

26、使用几种矩阵的组合，或使用一个矩阵而调整打分的参数可以比对相距较远序列(主要用于数据库搜索)。PAM矩阵比一些简单的矩阵可能更逊色如基于侧链化学基团的矩阵，而且PAM用于构建进化树关系方面不理想。BLOSUM矩阵用于比较较远蛋白质序列更为有用，因为其基于大量蛋白质的数据。BLOSUM取代矩阵BLOSUM62取代矩阵(Blocks amino acid substitution matrices)基于大量约2000种保守氨基酸patterns(blocks，来自Prosite数据库)中出现的氨基酸取代而获得的记分矩阵(Henikoff 1992)。60%相同的patterns获得的称为BLOSU

27、M60, 80%相同的称为BLOSUM80. BLOSUM62代表了信息含量与数据大小的平衡，即聚类比率升高，区分真实与偶然的比对的能力亦提高。PAM模型用于追溯蛋白质的进化途径，而BLOSUM模型用于发现保守结构域。同源性分析中常常要通过多序列比对来找出序列之间的相互关系，和blast的局部匹配搜索不同，多序列比对大多都是采用全局比对的算法。Clustal的渐进比对：在比对过程中，先对所有的序列进行两两比对并计算它们相似性分值，然后根据相似性分值将它们分成若干组，并在每组之间进行比对，计算相似性分值。根据相似性分值继续分组比对，直到得到最终比对结果。在比对过程中，相似性程度较高的序列先进行比

28、对而距离较远的序列添加在后面。CLUSTAL是一种渐进的比对方法，先将多个序列两两比对构建距离矩阵，反映序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权；然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。世界上最权威的三大生物数据平台GenBank数据库：1979年欧洲分子生物学实验室(EMBL)：1982年日本核酸序列数据库(DDBJ): 1984年5 分子系统发育分析分子进化的基本概念核酸或蛋白质谱系的系统发育分析是推测同一谱系是如何通过进化而来的。序列的进化关系可以描述为树的分枝，枝条反应进化关系远近，很相似的两

29、个序列放在邻近并由共同祖先分枝连接。这个进化树描述了同一谱系的进化关系，包括了分子进化（基因树）、物种进化以及分子进化和物种进化的综合。同源性当两个序列具有进化关系时,两序列同源(homologous).类群(group) 祖先类群(ancestral group) 单系类群(monophyletic group) 并系/复系类群(paraphyletic/polyphyletic group) 内/外类群(ingroup/outgroup) 姊妹群(sister group)基因组复杂性与系统发育分析进行系统发育分析时，需考虑大多数基因组的起源是很复杂的，基因组的部分可能是通过正常生殖循

30、环垂直进化的，其他部分可能由遗传物质的水平转移如病毒、DNA转化、共生和其他转移机制而来的。进行发育树分析时，选择的基因应该在所有生物体中出现且在多数物种中可以通过序列保守性来辨认，同时有足够的序列变异将不同生物体划分为相同系统发育的类群，另外最好该基因不处在选择压力下即不易丢失变异.符合以上条件的序列只有小rRNA亚基和线粒体序列。其他基因家族的系统发育分析则复杂些因而提出了不同的模型。进化树: 是一个反映生物体或不同生物体的某些基因的进化关系的二维图。进化树均是二分树(binary)，分开的序列称为类群(taxa)，是系统发育树的明确单位。树由向外伸展的枝条或叶片代表taxa，节点和枝干代

31、表taxa间的关系。每个节点代表基因经过分开的进化途径进入两个不同生殖隔离的物种。枝干长度代表序列的差异数目. 建树方法常用的有: maximum parsimony(简约法), distance(距离法), maximum likelihood(最大似然法).Maximum parsimony method(MP, 最大简约法) 也称最小进化法(minimum evolution method)，通过减少产生序列观察差异的步骤来预测进化树。多序列比对是必要的，利用尽可能少比对序列上各个位置的改变预测发育树，并找到最好的发育树。主要用于序列数较少且很相似的序列。Distance method(距离法)距离法根据一组序列中的每对序列差异的数目产生发育树。具有最小差异的序列对称为“邻居(neighbors)”，它们在树上的同一节点或具有相同祖先，分别以树枝表示。距离法找到组内最近的邻居的方法亦是multiple sequence alignment使用的第一步。距离法最早由Feng&Doolittle (1991)提出，可以同时产生蛋白质序列的比对和发育树。CLUSTALW程序利用neighbor-joining distance metho

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？