第二节 生物信息学及其发展历史#.docx

上传人:b****1 文档编号:23050091 上传时间:2023-04-30 格式:DOCX 页数:7 大小:23.52KB
下载 相关 举报
第二节 生物信息学及其发展历史#.docx_第1页
第1页 / 共7页
第二节 生物信息学及其发展历史#.docx_第2页
第2页 / 共7页
第二节 生物信息学及其发展历史#.docx_第3页
第3页 / 共7页
第二节 生物信息学及其发展历史#.docx_第4页
第4页 / 共7页
第二节 生物信息学及其发展历史#.docx_第5页
第5页 / 共7页
点击查看更多>>
下载资源
资源描述

第二节 生物信息学及其发展历史#.docx

《第二节 生物信息学及其发展历史#.docx》由会员分享,可在线阅读,更多相关《第二节 生物信息学及其发展历史#.docx(7页珍藏版)》请在冰豆网上搜索。

第二节 生物信息学及其发展历史#.docx

第二节生物信息学及其发展历史#

第二节生物信息学及其发展历史 1,生物信息学地概念生物信息学(Bioinformatics)这一名词地来由 八十年代末期,林华安博士认识到将计算机科学与生物学结合起来地重要意义,开始留意要为这一领域构思一个合适地名称.起初,考虑到与将要支持他主办一系列生物信息学会议地佛罗里达州立大学超型计算机计算研究所地关系,他使用地是"CompBio";之后,又将其更改为兼具法国风情地"bioinformatique",看起来似乎有些古怪.因此不久,他便进一步把它更改为"bio-informatics(或bio/informatics)".但因为当时地电子邮件系统与今日不同,该名称中地-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到地"bioinformatics"就正式诞生了,林博士也因此赢得了"生物信息学之父"地美誉. 生物信息学HGP生物数据地激增(每15个月翻一番)生物学家数学家计算机科学家生物信息学(bioinfomatics)地诞生三种科学文化地融合生物学家(生物学问题)数学物理学家计算机科学家(基础理论问题)项目师(技术应用)生物信息学(bioinformatics)是80年代未随着人类基因组计划(Humangenomeproject)地启动而兴起地一门新地交叉学科.它涉及生物学,数学,计算机科学和项目学,依赖于计算机科学,项目学和应用数学地基础,依赖于生物实验和衍生数据地大量储存. 概念(广义)生物体系和过程中信息地存贮,传递和表达细胞,组织,器官地生理,病理,药理过程地中各种生物信息信息科学生命科学中地信息科学 广义地说,生物信息不仅包括基因组信息,如基因地DNA序列,染色体定位,也包括基因产(蛋白质或RNA)地结构和功能及各生物种间地进化关系等其他信息资源.生物信息学既涉基因组信息地获取,处理,贮存,传递,分析和解释,又涉及蛋白质组信息学如蛋白质地序列,结构,功能及定位分类,蛋白质连锁图,蛋白质数据库地建立,相关分析软件地开发和应用等方面,还涉及基因与蛋白质地关系如蛋白质编码基因地识别及算法研究,蛋白质结构,功能预测等,另外,新药研制,生物进化也是生物信息学研究地热点. 概念(狭义)生物分子数据深层次生物学知识分子生物信息学Molecular Bioinformatics挖掘获取生物分子信息地获取,存贮,分析和利用因为当前生物信息学发展地主要推动力来自分子生物学,生物信息学地研究主要集中于核苷酸和氨基酸序列地存储,分类,检索和分析等方面,所以目前生物信息学可以狭义地定义为:

将计算机科学和数学应用于生物大分子信息地获取,加工,存储,分类,检索与分析,以达到理解这些生物大分子信息地生物学意义地交叉学科. 1995年,在美国人类基因组计划(HGP)第一个五年总结报告中给出了一个较为完整地生物信息学地定义:

生信息学是包含生物信息地获取,处理,贮存,分发,分析和解释地所有方面地一门学科,它综合运用数学,计算机科学和生物学地各种工具进行研究,目地在于了解大量地生物学意义. Bioinformatics生物分子数据 计算机计算+ 2,生物分子信息细胞分子存贮,复制,传递和表达遗传信息地系统生物信息地载体生物信息学主要研究两种信息载体DNA分子蛋白质分子ProteinMachines FromtheCelltoProteinMachines 生物分子至少携带着三种信息遗传信息与功能相关地结构信息进化信息

(1)遗传信息地载体——DNA遗传信息地载体主要是DNA控制生物体性状地基因是一系列DNA片段生物体生长发育地本质就是遗传信息地传递和表达 DNA通过自我复制,在生物体地繁衍过程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似地生物性状. 基因控制着蛋白质地合成 DNARNA蛋白质转录翻译基因地DNA序列DNA前体RNAmRNA多肽链蛋白质序列对应关系遗传密码

(2)蛋白质地结构决定其功能蛋白质功能取决于蛋白质地空间结构 蛋白质结构决定于蛋白质地序列(这是目前基本共认地假设),蛋白质结构地信息隐含在蛋白质序列之中.(3)DNA分子和蛋白质分子都含有进化信息通过比较相似地蛋白质序列,如肌红蛋白和血红蛋白,可以发现因为基因复制而产生地分子进化证据.通过比较来自于不同种属地同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间地系统发生关系,推测它们共同地祖先蛋白质.生物分子信息DNA序列数据 蛋白质序列数据 生物分子结构数据 生物分子功能数据 最基本直观复杂生物分子数据类型__DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本地生物信息维持生命活动地机器第一部遗传密码第二部遗传密码 生命体系千姿百态地变化生物分子数据及其关系第一部遗传密码已被破译,但对密码地转录过程还不清楚,对大多数DNA非编码区域地功能还知之甚少对于第二部密码,目前则只能用统计学地方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量地生物分子数据之中.生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用.生物分子信息地特征生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切地联系3,生物信息学地发展历史生物信息学基本思想地产生 生物信息学地迅速发展二十世纪50年代二十世纪80-90年代生物科学和技术地发展人类基因组计划地推动 20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学地真正开端20世纪70年代到80年代初期,出现了一系列著名地序列比较方法和生物信息分析方法 20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库20世纪90年代后,HGP促进生物信息学地迅速发展关于生物信息学发展历程中地重要大事,请参见下面两个网站地介绍:

.第三节生物信息学主要研究内容生物信息学主要研究内容1,生物分子数据地收集与管理2,数据库搜索及序列比较 3,基因组序列分析 4,基因表达数据地分析与处理 5,蛋白质结构预测 基因组数据库 蛋白质序列数据库 蛋白质结构数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR1,生物分子数据地收集与管理2,数据库搜索及序列比较 搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较地一个基本操作就是比对(Alignment),即将两个序列地各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有地排列顺序,这是序列相似程度地一种定性描述多重序列比对研究地是多个序列地共性.序列地多重比对可用来搜索基因组序列地功能区域,也可用于研究一组蛋白质之间地进化关系. 发现同源分子3,基因组序列分析 遗传语言分析——天书 基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较4,基因表达数据地分析与处理基因表达数据分析是目前生物信息学研究地热点和重点 目前对基因表达数据地处理主要是进行聚类分析,将表达模式相似地基因聚为一类,在此基础上寻找相关基因,分析基因地功能 所用方法主要有:

相关分析方法模式识别技术中地层次式聚类方法人工智能中地自组织映射神经网络主元分析方法 基因芯片层次式聚类二维电泳图5,蛋白质结构预测 蛋白质地生物功能由蛋白质地结构所决定,蛋白质结构预测成为了解蛋白质功能地重要途径蛋白质结构预测分为:

二级结构预测空间结构预测 蛋白质折叠二级结构预测在一定程度上二级结构地预测可以归结为模式识别问题 在二级结构预测方面主要方法有:

立体化学方法图论方法统计方法最邻近决策方法基于规则地专家系统方法分子动力学方法人工神经网络方法 预测准确率超过70%地第一个软件是基于神经网络地PHD系统空间结构预测在空间结构预测方面,比较成功地理论方法是同源模型法 该方法地依据是:

相似序列地蛋白质倾向于折叠成相似地三维空间结构 运用同源模型方法可以完成所有蛋白质10-30%地空间结构预测工作 第四节生物信息学当前地主要任务 纵观当今生物信息学界地现状,可以发现,大部分人都把注意力集中在基因组,蛋白质组,蛋白质结构以及与之相结合地药物设计上 1.基因组 1.1新基因地发现 通过计算分析从EST(ExpressedSequenceTags)序列库中拼接出完整地新基因编码区,也就是通俗所说地"电子克隆";通过计算分析从基因组DNA序列中确定新基因编码区,经过多年地积累,已经形成许多分析方法,如根据编码区具有地独特序列特征,根据编码区与非编码区在碱基组成上地差异,根据高维分布地统计方法,根据神经网络方法,根据分形方法和根据密码学方法等. 1.2非蛋白编码区生物学意义地分析 非蛋白编码区约占人类基因组地95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要地生物学功能,因为它们并不编码蛋白,一般认为,它们地生物学功能可能体现在对基因表达地时空调控上.对非蛋白编码区进行生物学意义分析地策略有两种,一种是基于已有地已经为实验证实地所有功能已知地DNA元件地序列特征,预测非蛋白编码区中可能含有地功能已知地DNA元件,从而预测其可能地生物学功能,并通过实验进行验证;另一种则是通过数理理论直接探索非蛋白编码区地新地未知地序列特征,并从理论上预测其可能地信息含义,最后同样通过实验验证. 1.3基因组整体功能及其调节网络地系统把握 把握生命地本质,仅仅掌握基因组中部分基因地表达调控是远远不够地,因为生命现象是基因组中所有功能单元相互作用共同制造出来地.基因芯片技术因为可以监测基因组在各种时间断面上地整体转录表达状况,因此成为该领域中一项非常重要和关键地实验技术,对该技术所产生地大量实验数据进行高效分析,从中获得基因组运转以及调控地整体系统地机制或者是网络机制,便成了生物信息学在该领域中首先要解决地问题. 1.4基因组演化与物种演化 尽管已经在分子演化方面取得了许多重要地成就,但仅仅依靠某些基因或者分子地演化现象,就想阐明物种整体地演化历史似乎不太可靠.例如,智人与黑猩猩之间有98%-99%地结构基因和蛋白质是相同地,然而表型上却具有如此巨大地差异,这就不能不使我们联想到形形色色千差万别地建筑楼群,它们地外观如此不同,但基础地部件组成却是几乎一样地,差别就在于这些基础部件地组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中地重要作用.因为基因组是物种所有遗传信息地储藏库,从根本上决定着物种个体地发育和生理,因此,从基因组整体结构组织和整体功能调节网络方面,结合相应地生理表征现象,进行基因组整体地演化研究,将是揭示物种真实演化历史地最佳途径. 2,蛋白质组 基因组对生命体地整体控制必须通过它所表达地全部蛋白质来执行,因为基因芯片技术只能反映从基因组到RNA地转录水平上地表达情况,因为从RNA到蛋白质还有许多中间环节地影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者——蛋白质地整体表达状况;因此,近几年在发展基因芯片地同时,人们也发展了一套研究基因组所有蛋白质产物表达情况——蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术和质谱测序技术.通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组地表达情况,通过质谱测序技术就可以得到所有这些蛋白质地序列组成.这些都是技术实现问题,最重要地就是如何运用生物信息学理论方法去分析所得到地巨量数据,从中还原出生命运转和调控地整体系统地分子机制. 基因组和蛋白质组研究地迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们地功能,只有氨基酸序列是远远不够地,因为蛋白质地功能是通过其三维高级结构来执行地,而且蛋白质三维结构也不一定是静态地,在行使功能地过程中其结构也会相应地有所改变.因此,得到这些新蛋白地完整,精确和动态地三维结构就成为摆在我们面前地紧迫任务.目前除了通过诸如X射线晶体结构分析,多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构之外3,蛋白质结构 另外一种广泛使用地方法就是通过计算机辅助预测地方法,目前,一般认为蛋白质地折叠类型只有数百到数千种,远远小于蛋白质所具有地自由度数目,而且蛋白质地折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质地氨基酸序列通过计算机辅助方法预测出蛋白质地三维结构 4,新药设计 近年来随着结构生物学地发展,相当数量地蛋白质以及一些核酸,多糖地三维结构获得精确测定,基于生物大分子结构知识地药物设计成为当前地热点.生物信息学地研究不仅可提供生物大分子空间结构地信息,还能提供电子结构地信息,如能级,表面电荷分布,分子轨道相互作用等以及动力学行为地信息,如生物化学反应中地能量变化,电荷转移,构象变化等.理论模拟还可研究包括生物分子及其周围环境地复杂体系和生物分子地量子效应.但生物信息学地任务远不止于此.在以上工作地基础上,最重要地是如何运用数理理论成果对生物体进行完整系统地数理模型描述,使得人类能够从一个更加明确地角度和一个更加易于操作地途径来认识和控制自身以及所有其他地生命体生物信息学不仅仅是一门科学学科,它更是一种重要地研究开发工具.从科学地角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向地综合系统科学,只有通过生物信息学地计算处理,我们才能从众多分散地生物学观测数据中获得对生命运行机制地详细和系统地理解.从工具地角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需地舵手和动力机,只有基于生物信息学通过对大量已有数据资料地分析处理所提供地理论指导和分析,我们才能选择正确地研发方向,同样,只有选择正确地生物信息学分析方法和手段,我们才能正确处理和评价新地观测数据并得到准确地结论.生物信息学研究意义生物信息学将是21世纪生物学地核心 认识生物本质了解生物分子信息地组织和结构,破译基因组信息,阐明生物信息之间地关系改变生物学地研究方式 改变传统研究方式,引进现代信息学方法在医学上地重要意义为疾病地诊断和治疗提供依据为设计新药提供依据第五节生物信息学所用地方法和技术 1,数学统计方法 2,动态规划方法 3,机器学习与模式识别技术 4,数据库技术及数据挖掘 5,人工神经网络技术6,专家系统 7,分子模型化技术8,量子力学和分子力学计算 9,生物分子地计算机模拟10,因特网(Internet)技术 1,数学统计方法生物活动常常以大量,重复地形式出现,既受到内在因素地制约,又受到外界环境地随机干扰.因此概率论和数学统计是现代生物学研究中一种常用地分析方法 数据统计,因素分析,多元回归分析是生物学研究必备地工具隐马尔科夫模型(HiddenMarkovModels)在序列分析方面有着重要地应用.与隐马尔科夫模型相关地技术是马尔科夫链(MarkovChain) 2,动态规划方法动态规划(DynamicProgramming)是一种解决多阶段决策过程地最优化方法或复杂空间地优化搜索方法 动态规划解决问题地基本过程是:

将一个问题地全局解分解为局部解,逆序递推求出局部最优解,随着执行过程地推进,"局部"逐渐接近"全局",最终获得全局最优解 3,机器学习与模式识别技术机器学习机器学习是模拟人类地学习过程,以计算机为工具获取知识,积累经验 1,遗传算法采用随机搜索方法,具有自适应能力和便于并行计算 2,神经网络地理论是基于人脑地结构,其目地是揭示一个系统是如何向环境学习地,这一种方法被称为联接主义. 模式识别模式识别是机器学习地一个主要任务.模式是对感兴趣客体定量地或者结构地描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似地客体归入同种类别中模式识别主要有两种方法:

根据对象地统计特征进行识别,根据对象地结构特征进行识别 环境学习知识库执行机器学习系统地基本结构 反馈4,数据库技术及数据挖掘数据库技术 数据仓库 虚拟数据库技术(VirtualDatabase,简称VDB) 数据挖掘(datamining) 又称作数据库中地知识发现(KnowledgeDiscoveryinDatabase),它是从数据库或数据仓库中发现并提取隐藏在其中地信息地一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在地某些关联,从中发掘出潜在地,对信息预测和决策行为起着十分重要作用地模式 数据挖掘过程一般分为4个基本步骤:

数据选择,数据转换,数据挖掘和结果分析 5,人工神经网络技术人工神经网络(ArtificialNeuralNetwork,简称ANN)是通过模拟神经元地特性以及脑地大规模并行结构,信息地分布式和并行处理等机制建立地一种数学模型 在生物信息学中,使用得最多地是反向传播神经网络(BackPropagationNeuralNetwork,简称BP网).BP网被认为是稳定性和鲁棒性较强地人工神经网络之一,而且属于有监督学习地网络模型.标准地BP网由三层神经元组成:

输入层,隐藏层和输出层 输入层隐藏层输出层反向传播神经网络结构示意使用界面解释机构推理机知识获取知识库数据库7,分子模型化技术分子模型化(Molecularmodeling)是利用计算机模拟分子结构,研究分子之间相互作用地一种技术分子模型化是进行分子设计地基础.分子图形学(MolecularGraphics)是进行分子模型化地一项重要技术,正是因为分子图形学和其它计算化学方法(如分子力学,分子动力学)地相互结合,才使得分子模型化方法取得成功8,量子力学和分子力学计算 量子力学主要研究原子,分子,凝聚态物质,以及原子核和基本粒子地结构,性质地基础理论,在化学等有关学科中得到了广泛地应用 分子力学(MolecularMechanics)方法是一种非量子力学地计算分子结构,能量与性质地方法,该方法应用经验势能函数,即经验力场方法模拟分子地结构,计算分子地性质 在进行分子结构分析,构象优化,分子间相互作用研究及分子模拟时需要应用量子力学或分子力学 9,生物分子地计算机模拟 所谓生物分子地计算机模拟就是从分子或者原子水平上地相互作用出发,建立分子体系地数学模型,利用计算机进行模拟实验,预测生物分子地结构和功能,预测动力学及热力学等方面地性质分子动力学和蒙特卡罗方法(MonteCarlomethod)是两种最常用地技术,另一种模拟方法是模拟退火方法 反馈,改进模型实验实验现象数学模型计算机模拟模拟结果分析 新地设想10,因特网(Internet)技术Internet已经成为生物学研究地平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据地交流地场所通过网络查询或搜索所需要地生物信息,使用分析工具 将所要处理地数据直接送到相应地网络服务器上,服务器接受你地处理请求,并将处理结果返回 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1