生物信息学学习心得.docx

资源描述

生物信息学学习心得.docx

《生物信息学学习心得.docx》由会员分享，可在线阅读，更多相关《生物信息学学习心得.docx（17页珍藏版）》请在冰豆网上搜索。

生物信息学学习心得.docx

生物信息学学习心得

生物信息学是上世纪90年代初人类基因组计划（hgp）依赖，随着基因组学、蛋白组学等新兴学科的建立，逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。

目前生物信息学的研究领域主要包括基于生物序列数据的和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。

生物信息学作为新型交叉应用学科，可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势，充分展现投入少、见效快、起点高的特色，推动学校学科建设和本科水平。

本实验指导书中的8个实验均设计为综合性开发实验，面向生物信息学院全体本科学生和研究生，以及全校对生物信息学感兴趣的其他专业学生开放。

生物信息学实验室将提供系统的保障，包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。

限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验，并不少于8个学时，即为课程要求的0.5个学分。

其他选修者按照课时和学校相关规定计算创新学分。

实验一熟悉生物信息学网站及其数据的生物学意义

实验目的：

培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力，熟悉生物信息学相关的一些重要国内外网站，及其核酸序列、蛋白质序列及代谢途径等功能相关数据库，学会下载生物相关的信息数据，了解不同的数据文件格式和其中重要的生物学意义。

实验原理：

利用互联网资源检索相关的国内外生物信息学相关网站，如：

ncbi、sanger、tigr、kegg、swissport、ensemble、中科院北京基因组研究所、北大生物信息

学中心等，下载其中相关的数据，如fasta、genbank格式的核算和蛋白质序列、pathway等数据，理解其重要的生物学意义。

实验内容：

1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站，并描

述网站特征；

2.下载各网站的代表性数据各10条（组）以上，并说明其生物学意义；

3.讨论各网站适合做何种生物信息学研究的平台，并设计一个研究设想。

实验报告：

1.各网站网址及特征描述；

2.代表性数据的下载和生物学意义的描述；

3.讨论：

这些生物信息学相关网站的信息资源，可以被那些生物信息学

研究所利用。

参考书目：

《生物信息学概论》罗静初等译，北京大学出版社，xx；《生物信息学手册》郝柏林等著，上海科技出版社，xx；

《生物信息学实验指导》胡松年等著，浙江大学出版社，xx。

实验二利用blast进行序列比对

实验目的：

了解blast及其子程序的原理和基本参数，熟练地应用网络平台和linux计算平台进行本地blast序列比对，熟悉blast结果的格式和内容并能描述其主要意义，同时比较网上平台和本地平台的优缺点。

实验原理：

利用实验一下载的核算和蛋白质序列，提交到ncbi或者其他拥有blast运算平台的网页上，观察其基本参数设定库文件类型，并得到计算结果；同时在本地服务器上学会用formatdb格式化库文件，并输入blast命令进行计算，获得结果文件。

实验内容：

1.向网上blast服务器提交序列，得到匹配结果；

2.本地使用blast，格式化库文件，输入命令行得到匹配结果；

3.对结果文件进行简要描述，阐述生物学意义。

实验报告：

1.阐述blast原理和比对步骤；

2.不同类型blast的结果及其说明；

3.讨论：

不同平台运行blast的需求比较。

参考书目：

《生物信息学概论》罗静初等译，北京大学出版社，xx；

《生物信息学实验指导》胡松年等著，浙江大学出版社，xx；。

实验三利用clustalx（w）进行

多序列联配

实验目的：

掌握用clustalx（w）工具及其基本参数，对具有一定同源性和相似性的核酸与蛋白质序列进行联配和聚类分析，由此对这些物种的亲缘关系进行判断，并且对这些序列在分子进化过程中的保守性做出估计。

实验原理：

首先对于输入的每一条序列，两两之间进行联配，总共进行n*（n-1）/2次联配，这一步通过一种快速的近似算法实现，其得分用来计算指导树，系统树图能用于指导后面进行的多序列联配的过程。

系统树图是通过upgma方法计算的。

在系统树图绘制完以后，输入的所有序列按照得分高低被分成n-1个组，然后再对组与组之间进行联配，这一步用myers和miller算法实现。

实验内容：

1.明确软件所支持的输入文件格式，搜集出合适的数据；

2.在windows环境运行clustalx，在linux环境运行clustalw；

3.实验结果及分析，用treev32或njplotwin95生成nj聚类图。

实验报告：

1.好的符合clustal的序列数据；

2.提交数据网页记录和各步骤记录；

3.提供聚类图和多序列联配图，并说明意义。

参考书目：

《生物信息学概论》罗静初等译，北京大学出版社，xx；

《生物信息学实验指导》胡松年等著，浙江大学出版社，xx。

实验四ests分析

实验目的：

释和代谢途径分析做好准备。

实验原理：

首先用crossmatch程序去除ests原始序列中的载体成分和引物成分，然后用phrap生成congtig和singlet，用blast程序进一步将有同源性的contig和singlet进行功能聚类，最后通过blast对聚类获得的cluster进行功能注释。

在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。

实验内容：

1.运行codoncodealigner程序，并用它建立工程文件，导入例子文件

夹里面的数据；练习对序列的各种查看方式。

2.使用codoncodealigner程序里的clipends,trimvector,assemble

等功能，完成序列的剪切、去杂质、组装工作。

实验报告：

1.实验各步骤记录和中间结果文件；

2.举例简要说明结果文件中数据的生物学意义。

参考书目：

《生物信息学概论》罗静初等译，北京大学出版社，xx；

《基因表达序列标签（est）数据分析手册》胡松年等著，浙江大学出版社，xx。

实验五利用primerpremier5.0设计

race引物

实验目的：

熟悉pcr引物设计工具primerpremier5.0的一些基本功能，能够根据实验需要选择相应的引物设计方法设计pcr引物。

实验原理：

pcr实验是当代分子生物学的基本实验之一，由于目标序列和实验目的的不同，相应设计引物的要求也不一样。

本实验延续ests分析结果，对于其中需要获得全长的基因进行race引物的设计，及5’和3’race引物，配合接头序列设计单向引物，并模拟练习通过连接获得全长的基因cds序列。

最后设计已知全长基因序列的pcr扩增引物。

实验内容：

1.从网站下载并安装primerpremier5.0；

2.从genbank中任意获取一个dna序列，设计出该序列的合适引物；实验报告：

1.实验各步骤使用的数据、运算平台、结果文件记录；

2.比较不同引物设计平台和不同pcr实验的差别；

参考书目：

《生物信息学概论》罗静初等译，北京大学出版社，xx；《生物信息学实验指导》胡松年等著，浙江大学出版社，xx;。

实验八perl程序的安装、编写、调试实验目的：

培养学生能在windows和linux两种平台安装perl解释器、编写perl程序以及debug和运行的能力，熟悉perl语言基本语法，学会熟练编写和运用perl程序进行基础生物信息学研究。

实验原理：

perl语言是一门通用的脚本语言，具有强大的字符串处理功能，是生物信息学研究的强大帮手，学会了perl语言，就能方便地处理生物信息学研究中遇到的各种字符串文本，促进研究的快速进行。

实验内容：

1.下载perl程序在windows和linux下的安装包并进行安装；

2.编写简单的perl程序，并学会debug；

3.编写具有简单功能的碱基处理perl程序。

实验报告：

1.perl解释器安装方法；

2.perl解释器debug方法；

3.讨论：

perl语言在生物信息学研究中所起到的积极作用。

参考书目：

《perl编程24学时教程》（美）皮尔斯著王建华等译，机械工业出版社，xx；

《生物信息学手册》郝柏林等著，上海科技出版社，xx；《生物信息学实验指导》胡松年等著，浙江大学出版社，xx

生物信息学（bioinformatics）是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。

它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。

其研究重点主要体现在基因组学（genomics）和蛋白质组学（proteomics）两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。

具体而言，生物信息学作为一门新的学科领域，它是把基因组dna序列信息分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。

基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。

从生物信息学研究的具体内容上看，生物信息学应包括这3个主要部分：

（1）新算法和统计学方法研究；

（2）各类数据的分析和解释；（3）研制有效利用和管理数据新工具。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。

目前的生物信息学基本上只是分子生物学与信息技术（尤其是因特网技术）的结合体。

生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（、、管理和显示）及利用（计算、模拟）。

1990年代以来，伴随着各种基因组测序计划的展开和分子结构测定技术的突破和inter的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。

对生物信息学工作者提出了严峻的挑战：

数以亿计的acgt序列中包涵着什么信息？

基因组中的这些信息怎样控制有机体的发育？

基因组本身又是怎样进化的？

生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。

这个难题已困扰理论生物学家达半个多世纪，如今找到问题答案要求正变得日益迫切。

诺贝尔奖获得者w.gilbert在1991年曾经指出：

“传统生物学解决问题的方式是实验的。

现在，基于全部基因都将知晓，并以电子可操作的方式驻留在数据库中，新的生物学研究模式的出发点应是理论的。

一个科学家将从理论推测出发，然后再回到实验中去，追踪或验证这些理论假设”。

生物信息学的主要研究方向：

基因组学-蛋白质组学-系统生物学-比较基因组学，1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议，生物信息学发展到了计算生物学、计算系统生物学的时代。

姑且不去引用生物信息学冗长的定义，以通俗的语言阐述其核心应用即是：

随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展，由此产生的包括生物体生老病死的生物数据以前所未有的速度递增，目前已达到每14个月翻一番的速度。

同时随着互联网的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。

然而这些仅仅是原始生物信息的获取，是生物信息学产业发展的初组阶段，这一阶段的生物信息学企业大都以出售生物数据库为生。

以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。

原始的生物信息资源挖掘出来后，生命科学工作者面临着严峻的挑战：

数以亿计的acgt序列中包涵着什么信息？

基因组中的

展开阅读全文