东南大学生物电子学国家重点室Word文档格式.docx
《东南大学生物电子学国家重点室Word文档格式.docx》由会员分享,可在线阅读,更多相关《东南大学生物电子学国家重点室Word文档格式.docx(40页珍藏版)》请在冰豆网上搜索。
生物学也是一门发现科学,通过实验发现新的现象、新的生物学规律,经过分析和归纳总结,提炼出新的生物学知识。
在这个过程中,需要对实验数据进行处理和理论分析,在此基础上解释实验现象,认识实验现象发生的本质,探索固有的生物学规律,进而了解和掌握生命的物质基础和生命的本质。
随着生物科学和技术的迅速发展,生物数据积累速度不断加快,因此,也就对生物数据的科学分析方法和实用分析工具提出了更新、更高的要求。
1.1.1生物信息学概念
人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。
人类基因组计划顺利实施,产生了大量的生物分子数据。
据权威机构统计,目前生物分子数据量每15个月翻一翻,生物分子数据发展的速度超过了摩尔定律(即半导体芯片上的晶体管数量每18个月翻一翻)。
这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识。
充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,得到对人类有用的信息,是生物学家、数学家和计算机科学家所面临的一个严峻的挑战。
生物信息学就是为迎接这种挑战而发展起来的一门新型学科,它是由生物学、应用数学、计算机科学相互交叉所形成的学科,是当今生命科学和自然科学的重大前沿领域之一,也将是21世纪自然科学的核心领域之一。
生物信息学(Bioinformatics)这个名词有许多不同的定义。
从字面上来看,生物信息学是将信息科学和技术应用于生物学。
生物信息学广义的概念是指应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程的中各种生物信息,或者说是生命科学中的信息科学。
狭义的概念是指应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
通过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用相关信息;
通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生物世界的认识;
在生物学、医学研究和应用中,利用生物分子数据及其分析结果,可以大大提高研究和开发的科学性及效率,如根据基因功能分析结果检测与疾病相关的基因,根据蛋白质分析结果进行新药设计。
一般提到的“生物信息学”是指这个狭义的概念,更准确地说,应该是分子生物信息学(MolecularBioinformatics)。
生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和技术去研究生物大分子,其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能。
生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。
与生物信息学相关的概念还有计算分子生物学(ComputationalMolecularBiology),计算分子生物学主要研究分析方法,开发分析工具,促进生物分子数据的分析。
与生物信息学相关的另一个名词是生物计算(Biocomputing),生物计算特指用计算机技术分析和处理生物分子数据。
生物信息学的产生一方面是由于生物科学和技术的发展,另一方面是由于人类基因组计划的实施。
其实,在20世纪50年代生物信息学就已经形成萌芽,20世纪70年代就已经产生生物信息学的基本思想,但是生物信息学的真正发展则是在20世纪的90年代,在人类基因组计划的推动下,生物信息学得以迅速发展。
人类基因组计划产生的生物分子数据是生物信息学的源泉,而人类基因组计划所需要解决的问题则是生物信息学发展的动力。
1.1.2生物分子信息
生物体是一个复杂的系统,生命过程是一个极端复杂的过程,需要物质和能量的支持。
生物体也是一个信息系统,该系统控制着生物的遗传、生长和发育。
所有的信息存贮在生物体内,存贮在遗传物质中。
在生命科学研究方面,人们已经逐渐认识到,不仅需要用物理、化学和生物学方法研究生命的物质基础、能量转换、代谢过程等,还需要用信息科学方法研究生命信息特别是遗传信息的组织、复制、传递、表达及其作用,否则难以理解生命的工作机制,难以揭示生命的奥秘。
从生物学的观点来看,细胞是生命的基本单位,而从信息科学的观点来看,细胞则是存贮、复制和传递遗传信息的系统。
生物系统通过存贮、修改、解读遗传信息和执行遗传指令形成特定的生命活动,生长发育,产生生物进化。
从信息学的角度来看,生物分子是生物信息的载体,生物信息学主要研究两种载体,即DNA分子和蛋白质分子。
生物分子至少携带着三种信息,即遗传信息、与功能相关的结构信息、进化信息。
DNA是遗传信息的载体。
DNA的核苷酸序列上存储着蛋白质的氨基酸序列编码信息,存储着基因表达调控的信息,存储着遗传信息。
遗传信息存储在DNA四种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表达。
因此,可以说DNA序列包含着最基本的生命信息。
存储在DNA中的信息使无活力的分子组织成有功能的活细胞,进而构成能进行新陈代谢、生长和繁殖的生物体。
人们已经认识到遗传信息的载体主要是DNA[在少数情况下核糖核酸(RNA)也充当遗传信息的载体],控制生物体性状的基因是一系列DNA片段。
一方面,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息。
另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。
在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质。
基因控制着蛋白质的合成,基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的第一遗传密码。
蛋白质分子在生物体内执行着各项重要任务,如生化反应的催化、营养物质的输运、信号的识别与传递等。
蛋白质的功能多种多样,但是必须注意一点,即蛋白质功能取决于蛋白质的空间结构。
要了解和掌握蛋白质的功能必须首先分析蛋白质的结构,对于其它生物大分子也一样。
因此,蛋白质结构是一种重要的生物分子信息。
然而,而蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。
作为信息的载体,DNA分子和蛋白质分子都打上了进化的烙印。
通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。
比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。
生物分子信息具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据等。
序列数据、结构数据是非常直观的,但是功能数据却是多变复杂的,如关于蛋白质功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网络等。
在所有类型的数据中,序列是最基本的数据,而且也是目前最多的数据。
对生物分子数据及其关系的概括见图1.1。
遗传信息从DNA序列向蛋白质序列的传递是人类已经基本了解的第一部遗传密码,然而蛋白质序列与蛋白质结构也存在着一定的对应关系,蛋白质序列决定蛋白质结构,因此有人将从蛋白质序列到蛋白质结构的关系称为第二部遗传密码。
第一部遗传密码已被破译,但是,对于密码究竟处于DNA序列的哪些区域还了解得不全面,对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少,对DNA遗传语言还有待于进一步探索。
对于第二部密码,目前则只能用统计学的方法进行分析。
无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。
生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。
与一般信息相比,生物分子信息具有明显的特征。
首先,生物分子信息数据量大,如DNA序列以千兆碱基(Gigabase,Gb)为单位。
随着信息处理技术进入现代生物学研究领域,随着互联网在全球的贯通,各种生物信息学数据库迅速发展,生物分子数据积累速度成倍增长。
其次,生物分子信息复杂,既有生物分子序列的信息,又有结构和功能的信息,既有生命本质信息,如基因,又有生命表象信息,如基因表达信息。
生物分子信息另一个重要的特征是,生物分子信息之间存在着密切的联系,例如,基因序列与蛋白质序列之间的关系,生物分子序列与结构之间的关系,结构与功能之间的关系,基因变异与疾病之间的关系。
对于生物分子信息,靠人工难以完成数据处理和分析的任务,更谈不上发现隐藏在这些信息之中的内在规律。
同时,对于生物分子信息,仅靠某一学科的专家,也无法进行分析研究,因此,在生物信息学研究领域中,要求生物学家、数学家和计算机科学工作者协力合作,发展新的分子生物学计算理论和方法,运用先进的计算机技术收集、集成和分析处理生物信息。
1.1.3生物信息学的研究目标和任务
揭示生物分子数据的内涵是生物信息学的长远目标。
生物分子数据具有深刻的内涵,数据之间存在着复杂的联系,这些数据中蕴涵着丰富的生物学知识和生物学规律。
生物信息学的发展将揭示生物分子信息的本质,使人类彻底了解、掌握遗传信息的编码、传递及表达,从而加快人类了解自身的进程。
目前生物信息学的主要任务是研究生物分子数据的获取、存贮和查询,发展数据分析方法。
主要包括三个方面。
第一是收集和管理生物分子数据,使得生物学研究人员能够方便地使用这些数据,并为信息分析和数据挖掘打下基础。
生物分子数据来自于生物学实验,应用信息学技术收集和管理这些数据,将各种数据以一定的表示形式存放在计算机中,建立数据库系统,并提供数据查询、搜索和数据通讯工具。
第二是进行数据处理和分析。
通过数据分析,发现数据之间的关系,认识数据的本质,进而上升为生物学知识。
在此基础上,解释与生物分子信息复制、传递和表达有关的生物过程,解释生物过程中出现的信息变化与疾病的关系,帮助发现新的药物作用目标,设计新的药物分子,为进一步的研究和应用打下基础。
生物分子信息处理流程见图1.2。
目前生物信息学的主要研究对象是DNA和蛋白质。
在DNA分析方面,着重分析DNA序列中的基因信息及基因表达调控信息,分析基因表达数据,分析基因之间的相互作用关系,比较不同种属的基因组,研究基因组中非编码区域的生物学功能。
在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能之间的关系,预测蛋白质的结构和功能,研究蛋白质的进化关系。
生物信息学的研究第三个方面是开发分析工具和实用软件,解决具体的问题,为具体的生物信息学应用服务,例如,开发生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具等。
随着生物技术特别是分子生物学技术的发展,目前已经积累了大量的生物信息学数据,表1.1列出目前已经得到的各类数据量及生物信息学对各类数据处理的基本任务。
生物分子数据类型的不断增多及数据量的不断膨胀促进了生物信息学的研究与应用,生物信息学研究成果不断涌现,各种生物信息源如雨后春笋层出不穷,而各种生物信息分析算法和工具也日益更新。
表1.1至2004年初已经得到的各类数据及基本