ImageVerifierCode 换一换
格式:DOCX , 页数:69 ,大小:99.18KB ,
资源ID:5406212      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/5406212.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第三章转录组学文字复习版.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

第三章转录组学文字复习版.docx

1、第三章转录组学文字复习版生物信息学(Bioinformatics)第1章:概论一、生物信息学产生的背景/人类基因组计划 二、生物信息学定义三、生物信息学的研究目标及内容 四、生物信息学的发展五、生物信息学研究方法的新进展 六、国内外生物信息学研究现状七、生物信息学的意义和展望 八、生物信息学与生物实验的关系HGP的最初目标:通过国际合作,用15年时间(19902006)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。 HGP的终极目标:阐明人类基因组全部DNA序列; 识别基因; 建立储存这些信息的数据库; 开发

2、数据分析工具; 研究HGP实施所带来的伦理、法律和社会问题HGP的研究特色:1、大协作研究: 以学科为中心 以问题为中心,多学科合作2、研究的计划性和有序性: 多方共同参与,制定更科学、更全面的研究计划3、商业竞争促进基础研究: 1998年Celera公司的加入4、政府与国家的作用: 美:领导与推动 英:始于1989年2月,贡献为1/3左右 法:始于1990年6月,贡献为3左右 日:始于1990年,贡献为7左右 德:始于1995年,贡献为7左右 中:始于1999年9月,贡献为1左右1、生物信息学的定义 生物信息学(Bioinformatics)的来源 :Dr. Hwa A. Lim (林华安)

3、1987年提出 “Bio-informatique” “Bioinformatics” 1955年出生于马来西亚。联合国Bioinformatics专家,30岁取得佛罗里达州立大学终生教授。1997年,创立结合软件与数据分析的专业顾问公司D Trends,服务生物技术、制药及卫生保健等机构。他认为信息学与生物学相结合时未来科学研究的一个潮流,所以他构思了一个新的名称为这个新学科命名。 生物信息学主要研究两种信息载体:DNA分子 蛋白质分子生物分子至少携带着三种信息 :遗传信息 与功能相关的结构信息 进化信息 概念(狭义):生物分子信息的获取、存贮、分析和利用概念(广义):生物体系和过程中信息的

4、存贮、传递和表达 细胞、组织、器官的生理、病理 、药理过程的中各种生物信息目前为止,尚没有一个标准定义? 首先,该学科仍然是一门处于高速发展的学科,学科知识每天都在发生着细微的变化,这样使得科学家难以给出一个长久不被动摇的定义; 另一方面,生物信息学是一门多学科交叉的新生学科,不同学科的科学家对生物信息学有着不同的侧重点,给出的定义也有不同的局限性,且这种学科的交叉极有可能会随着生物信息学发展的需要而进一步升级。 美国国家基因组研究中心的定义: Bioinformatics (Bioinformatics is an emerging scientific discipline represe

5、nting the combined power of biology, mathematics, and computers .) 生物信息学是一个代表生物学,数学和计算机的综合力量的新兴学科 美国乔治亚理工大学:Bioinformatics is an integration of mathematical, statistical and computer methods to analyze biological, biochemical and biophysical data生物信息学时采用数学,统计学和计算机等方法分析生物学,生物化学和生物物理学数据的一门综合性学科。美国密苏里大

6、学:Bioinformatics is the science and technology about learning, managing and processing biological information 生物信息学时获知,管理和处理生物信息的科学技术美国国家卫生研究院(NIH)的定义: Bioinformatics (Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral

7、 or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.) 为拓展生物学、医学、行为学和卫生学数据的用途而进行有关计算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、归档、分析与可视化。 生物信息学: 存储、修复、分析、整合生物数据的学科 分子生物学与信息技术的结合体 研究材料与结果:各种生物学数据 研究工具:网络、计算机 包括生物学和计算两部分 现代生物研究的核心对生物信息学定义的归纳:生物信息学 是现代生命科学与信息科学、计算机

8、科学、数学、统计学、物理学和化学等相互渗透而形成的交叉学科。是应用计算机技术和信息论方法采集、储存、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息,以帮助了解生物学和遗传学信息的科学。分子生物信息学(Molecular Bioinformatics):与生物信息学的定义相对而言,分子生物信息学可以说是一种狭义的生物信息学概念,它专指对于基因组测序中产生的DNA序列进行生物信息学分析,揭示序列中的遗传信息。 DNA计算(DNA Computing):是将DNA作为一种信息存储器,应用PCR技术、DNA测序技术、生物芯片等进行计算。它也常常被看作是生物信息学的一个分支学科。 计算生物学(Co

9、mputational Biology):为生物学、行为学和社会系统的研究发展和应用数据提供分析方法、数学建模以及计算机模拟技术。 生物信息学研究的目标:通过认识生命的起源,进化,遗传,和发育的本质,破译隐藏在DNA序列中的遗传语言,并揭示基因组信息结构的复杂性及遗传语言的根本规律,以及人体生理和病理过程的分子基础,为人类疾病的诊断,预防和治疗提供最合理且有效的方法和途径研究内容:1 生物信息的收集,储存,管理和提供 2 基因组序列信息的提取和分析3 生物信息分析技术和方法的研究 开发分析工具和实用软件 4 功能基因组相关信息分析5 生物大分子结构模拟和药物模拟1.大规模基因组分析研究主要集中

10、在核苷酸序列的存储、分类、检索和分析等方面 新基因的发现 非蛋白编码区生物学意义的分析 基因组整体功能及其调节网络的系统把握2 基因单核苷酸多态性(SNP)分析 单核苷酸多态性也就是相同基因在不同个体中存在的单个碱基上的变异所造成的基因差异表现。现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。 3在基因组水平研究生物进化 基因组在研究物种演化历史中,具有重要作用的是基因组整体组织方式而不仅仅是个别基因。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的

11、发育和生理。因此,从基因组整体结构组织和整体功能调节网络方面,并结合相应的生理表征现象来进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。 4蛋白质与蛋白质组分析 1 蛋白质结构:新蛋白的完整、精确和动态的三维结构 计算机辅助结构模拟 2理解蛋白质的氨基酸序列和三维结构之间的关系 3蛋白质序列及特性分析 4 蛋白质组学 5、芯片数据分析 6 新药设计 :相当数量的蛋白质、核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为热点; 根据靶标分子与药物分子相结合的活性部位的几何形状和化学特征,设计出与其相匹配的具有新颖结构的药物分子。四、生物信息学的发展1、前基因组时

12、代的生物信息学 属于生物物理学范畴的传统生物信息学可以追溯到很久以前,如研究生物发光、生物电、生物磁和激素等信息物质的传递现象及其相应测定技术。 以研究序列比对为标志的现代生物信息学则起源于20世纪7080年代。 这一阶段的主要成就包括核酸和蛋白质序列的初步分析、生物学数据库的建立以及检索工具的开发。例如替换矩阵、序列比对(sequence alignment)及GenBank(由美国国立生物技术信息中心建立和维护的核酸与蛋白质序列数据库)等大型数据库的建立,形成了生物信息学的雏形。 2、基因组时代的生物信息学 以基因组计划的实施为标志(20世纪80年代至20世纪末),这一时期生物信息学确立了

13、自身的研究领域和学科特征,成为生命科学的热点学科和重要前沿领域之一。 这一阶段的主要成就包括大分子序列以及表达序列标签(expressed sequence tag,EST)数据库的高速发展、BLAST(basic local alignment search tool)和FASTA(fast alignment)等工具软件的研制和相应新算法的提出、基因的寻找与识别技术等,大大提高了管理和利用海量数据的能力。3、后基因组时代的生物信息学 在后基因组时代(21世纪初至今),这一时期的生物信息学确立了以综合为特征的相互作用网络分析方法,是生物信息学日趋成熟的时期,已经成为当今生命科学乃至整个自然科

14、学的重大前沿研究领域之一。今后的主要研究目标是对基因组数据的大规模分析、比较与综合,从基因组信息来揭示生物体的系统功能信息,以推进人们对生命活动基本规律的认识。五、生物信息学的研究方法的新进展 六、国内外生物信息学研究现状七、生物信息学的主要意义和展望科学意义:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等等的深入理解。 生物信息学的发展不光对生命科学产生了革命性的影响;且其影响已经超出了生命科学领域,?掀起新的产业革命应用价值:在生物医药研究和生物技术相关产业(生物制药、农、林、牧、渔、环保等)的发展中将发挥越来越重要的作用。 21世纪生命科学研究最有力的工具 产业潜力:自身产业发

15、展潜力很大:1997年1.5亿美元,1998年2.7亿美元, 1999年4.6亿美元,2000年已达7.4亿美元;预测2010年将达千亿美元。 例子:只有50名员工的德国Lion生物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点,以一亿美元的价格预售给德国Bayer公司。 产业尚处于萌芽发展阶段 生物信息学是生命科学与信息技术交叉融合的新学科,也是当今全球最具发展前途的学科之一。生命科学已从一种以实验为基础的科学转向以信息为基础的科学,其成功将大大依靠信息科学与生命科学的联姻、依赖于生物信息技术的发展。 基因信息现在正推动着生物制药革命。破译人类基因组给我们带来了打开

16、这个星球上最有价值的图书馆的钥匙,但我们现在阅读这些图书还处在非常初级的水平,科学家的下一步工作将是如何把信息从这些图书中挖掘出来。 目前美国缺少有能力阅读这部人类基因“天书”并使用其中信息的人。这个领域有非常多的机会,有非常大的需要。据估计,这一领域所需要的研究人员数量将是现有人数的50倍。培养这种人才就像破译人类基因组一样重要。 生物信息学研究面临的挑战: 未来生物学领域的高效研究发现将有赖于生物信息学的发展,而目前生物信息学存在不少的难题有待解决: 1、生物信息学理论研究明显薄弱 生物信息学对许多学科都提出了巨大的挑战,包括分子进化遗传学、群体遗传学、统计生物学、基因组学以及计算机科学和

17、应用数学等相关学科。如果基础理论研究得不到应有的发展,生物信息学的发展将受到严重制约。 2、生物学领域中各种不同来源数据的有效整合处理将面临三方面的挑战:计算基础设施、数据模式和预测分析模式。计算基础设施包含了数据存储和数据处理能力两个方面。数据建模的挑战是如何建立一个可用的、可发展的生物学数据模式。而预测分析模式的挑战则是如何高效、自动化地获取有用的科学假设。 3、如何监控生物数据的质量是摆在生物信息学家面前的另一大难题。监控已有生物数据的可信度对于生物遗传、物理图谱的构建具有十分重要的意义。 8、生物信息学与生物实验的关系 研究起点第2章 生物学基础生物起源和分子进化 生物的分类 分子生物

18、学生物“界”的划分三界说、四界说、五界说、六界说六界说: 真细菌 古细菌 原生生物 真菌 植物 动物原核生物(真细菌、古细菌) 原核生物(prokaryote):由原核细胞构成的单细胞生物DNA分子无核膜包裹,遗传信息量小; 细胞小,直径为0.210 m,有细胞壁;细胞内无细胞器。真核生物(原生生物、真菌、植物、动物) 真核生物(eukaryote):由真核细胞构成的单细胞、多细胞生物有核膜包裹的完整细胞核,核内DNA借助组蛋白形成多个染色体;细胞体积较大,直径为10100 m; 细胞内有功能专一的细胞器。生物学基础: 分子生物学生物信息的载体主要是1 核酸 2 蛋白质 核酸:1 核酸:包括核

19、糖核酸RNA和脱氧核糖核酸DNA。是一种线性多聚核苷酸。2 DNA 的三级结构 3 RNA 的分类 4核酸性质:变性;复性;杂交蛋白质: 1基本组成单位为氨基酸。 2 蛋白质的四级结构 3蛋白质的性质:两性电解质;变性、复性。 4 蛋白质结构与功能的关系氨基酸(amino acid) : 是蛋白质的结构单体; 天然存在于蛋白质中的氨基酸只有20种;结构特点:在与羧基-COOH相连的 -碳原子上都连着氨基,侧链R的不同决定了氨基酸的特性。蛋白质结构与功能的关系蛋白质的生物学功能:是蛋白质分子的天然构象所具有的性质。功能与结构密切相关。只有当蛋白质以特定的空间构象存在时才具有生物活性。 不同的蛋白

20、质,由于结构不同而具有不同的生物学功能。 基本假设(Anfinsen,1961):序列决定构象即折叠所需信息完全包含在氨基酸排列的一维序列中三联遗传密码的普遍性与特殊性1、普遍性:对大多数病毒、原核生物、真菌、植物、动物都适用;2、特殊性: 支原体:UGA 色氨酸(Trp) 嗜热四膜虫:UAA 谷氨酰胺(Gln) 线粒体:与核DNA编码的氨基酸有部分差异第三章 生物信息数据库及其信息检索近年来生命科学的发展突飞猛进,采集到的数据浩如烟海,我们得到了大量的生物学数据。我们必须改变原有的数据处理方法,将生物学数据按照一定的目标与功能分类收集整理,形成了生物信息数据库。一个数据库记录(entry)一

21、般由两部分组成: 1. 原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释(annotation) 注释中包含的信息与相应的序列数据同样重要和有应用价值数据库的动态更新: 1. 不断增加 2. 不断修正1982年,第一个核酸序列数据库GenBank(Los Alamos) 1982年,606条序列,长度680,338bp 2004年,约43,322,756条序列,长度约7.1 1010bp按分子生物学研究层次及实际应用可将现有的800多个数据库分为8类:核酸序列数据库,蛋白质序列数据库,结构数据库,基因组数据库,蛋白质数据库,代谢组数据库,疾病数据库,药物与分子设计

22、数据库,分析与记载方式数据库。基因组数据库:来源于人类基因组计划及各种模式生物基因组计划从1995年,第一个自由生物体流感嗜血菌(H. inf)被完全测序收集开始,收集了多种生物(主要是模式生物)的全基因组数据,方便直接对该生物的多个方面的基因活动及相关性质进行研究。 如人类基因与基因组图谱数据库GDB,大肠杆菌基因组数据库Colibri人类基因组相关数据库 测序中心:美国国家人类基因组研究所 英国人类基因组Sanger中心是世界上最大的DNA测序中心之一,承担人类基因组测序三分之一的任务:华盛顿大学基因中心:http:/www.genome.washington.edu/UWGC/index

23、.cfm法国人类基因组中心:http:/www.genethon.fr/index.php?id=162生物学数据库:按照一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理等服务。这些数据库大多可以通过网络进行访问或下载。 一级数据库 二级数据库一级数据库:直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。二级数据库:在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。一级数据库 核酸序列数据库:GenBank、EMBL、DDBJ 蛋白质序列数据库:SWISS-PROT、PIR 蛋白质结构数据库:PDB(一)

24、 核酸(DNA)序列数据库 世界三大核酸序列数据库 (公共序列数据库,Public Sequence Database) GenBank(美国 EMBL(欧洲) DDBJ(日本)(二) 蛋白质序列数据库 Swiss-prot(欧洲):最大的蛋白质序列数据库 TrEMBL(欧洲): 未挑选的蛋白质数据库 PIR(美国):最早的数据库 UniProt(欧洲):蛋白质数据仓库1 Swiss-prot 1. 日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI) 合作维护(1986年) 2. 只有实际存在的蛋白质才被收入,所有数据都经过检验并查阅,对有关文献资料进行仔细核实 3. 数据库包括了从EM

25、BL翻译而来的蛋白质序列,这些序列经过检验和注释 4. 数据记录包括两部分 序列 注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体、文献等以及与其它数据库的连接)2 TrEMBL 大多数蛋白质是从EMBL库中的DNA序列翻译映射得到,并非由实验获得。包括两部分:SP-TrEMBL:作为Swiss-prot的预备库 REM-TrEMBL:不放入Swiss-prot,主要包括一些人工合成的蛋白、伪基因对应的蛋白3 PIR(protein information resource) 1. 1960年左右由Dayhoff和其同事最早搜集了已知蛋白质序列;2. 由美国NCBI翻译自Ge

26、nBank的DNA序列(1984年);3. 是一个全面的、经过注释的、非冗余的数据库,支持有关分子进化、功能基因组学和计算生物学方面的研究。1、能够快速查询、比较蛋白质序列并对其进行特征序列的模式匹配;2、可给出蛋白质的功能位点,如磷酸化、糖基化位点、细胞黏附位点等;3、可进行多种方式的序列比较,如两两比较和多序列比对等,可通过关键词、特征序列或序列接受号等进行查询。4 UniProt 集成了Swiss-Prot,TrEMBL和PIR的数据信息。 将蛋白质序列数据库分为三个部分UniProt:Protein knowledgebase, consists of two sections: Sw

27、iss-Prot, which is manually annotated and reviewed. TrEMBL, which is automatically annotated and is not reviewed.(蛋白质序列,功能,分类等信息存取中心) UniParc:Sequence archive(存储大量蛋白质研究的历史信息). UniRef:Sequence clusters, used to speed up similarity searches.(为提高检索速度,将紧密相关的蛋白质序列合并到同一条记录中) 1 PDB 1.1970年代建立,美国Brookhaven国

28、家实验室维护管理;2. 988年,由美国RCSB(research collaboratory for structural biology)管理;3. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等; 4. PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。(已移至EBI)2 SCOP 英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统; 可按照结构和进化关系进行分类;对每个蛋白提供到PDB库的连接、序列、参考文献总体上分为:all-,all-, + ,/,多域蛋白,膜与细

29、胞表面蛋白,小蛋白二级数据库 在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。(例如:SCOP、CATH等都已经具有二级数据库的特色)1)DNA二级数据库转录因子数据库(TRANSFAC): 真核启动子数据库(EPD):转录调控序列数据库(TRRD): 大肠杆菌调控数据库(RegulonDB):2)protein二级数据库蛋白模体数据库(PROSITE): 蛋白二级结构数据库(DSSP): 指纹

30、数据库(PRINTS):3)其它数据库 人类遗传数据库(OMIM): 单碱基多态性数据库(dbSNP): 表达序列标记数据库(dbEST): 细胞器基因组数据库(GOBASE):二 数据库格式 历史原因:没有完全统一的数据库格式 数据一般由两部分组成: 文本注释 序列主体文件格式:FASTA 数据库flat file 格式FASTA格式(Pearson格式) FASTA是一种表示序列数据的平面文件格式,是比较简单而使用最多的序列格式。主要由两部分组成: 第一行由“”开头的序列说明文字(注释行),指明序列的名称与来源等信息; 第二行开始是序列本身,采用标准的核苷酸符号或标准的单字符氨基酸符号。(

31、每行60-80个字符),序列结尾处用“*”终止,也可缺省。EMBL, GenBank和DDBJ数据库的格式EMBL,GenBank和DDBJ数据库的主要内容和格式1 描述符:序列名称、长度、日期 序列说明、编号、版本号 物种来源、学名、分类学位置 相关文献作者、题目、刊物、日期2 特征表 3 碱基组成序列,每行60个碱基三 数据库的信息检索 Entrez 用于对GenBank, EMBL, DDBJ, PIR, Swiss-Prot and PDB数据库中的核酸和蛋白的序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMed MEDLINE的访问。 【NCBI】 SRS检索

32、系统【EBI】 【CIB】ExPASy 用于获取蛋白质及其相关数据【 SIB】(Swiss-prot)Entrez是NCBI开发的生命科学搜索引擎,也是NCBI所有数据库的核心查询系统,管理NCBI的核酸序列数据库(Necleotide)、蛋白质序列数据库(Protein)、生物医药文献数据库(PubMed)、大分子三维结构数据库(Structure)等大型生物信息数据库。Entrez提供了对上述各个数据库的全面检索功能,同时也提供序列和染色体图谱的视图,还具有检索参考文献的功能,有的甚至包含了出版商网络资源的文献全文的链接。Entrez 的高级检索功能短语自动匹配 范围检索:使用Limits选项菜单,对具体查询范围进行限定使用检索词 限定范围形式,

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1