ImageVerifierCode 换一换
格式:DOCX , 页数:23 ,大小:32.75KB ,
资源ID:30435318      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/30435318.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(罗静初分子生物信息数据库与生物信息学基本问题.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

罗静初分子生物信息数据库与生物信息学基本问题.docx

1、罗静初分子生物信息数据库与生物信息学基本问题第三讲 分子生物信息数据库与生物信息学基本问题人类获取信息的能力在不断进步之中 人类获取信息的能力在不断进步之中永乐大典 永乐大典 明永乐元年至六年( 明永乐元年至六年(1403 1408)翰林学士解缙等奉 翰林学士解缙等奉 旨编纂, 旨编纂,共22877卷,目录 卷 60卷,11095册,总字数约 卷 册 3.7亿。是中国古代最大的 亿 百科全书” “百科全书”。中国国家 图书馆现藏永乐大典 图书馆现藏永乐大典 仅221册。 册3.1 分子生物信息数据库简介3.1.1 分子生物信息数据库概述1960年代,第一个分子生物学数据库 年代, 年代Fred

2、 Sanger的胰岛素序列测定(1955) 的胰岛素序列测定( 的胰岛素序列测定 ) 蛋白质数据库 蛋白质数据库PSD(Protein Sequence Database) 蛋白质数据库 ( ) Margaret Dayhoff: : 1960年代,创立 年代, 年代 创立PSD,即PIR的前身 , 的前身 1978,scoring matricesPAM ,Fred Sanger at The Wellcome Trust Sanger InstitutePioneer in Bioinformatics Dr. Margaret O. Dayhoff (1925-1983)1982年,第一

3、个核酸序列数据库GenBank(Los Alamos) 年 第一个核酸序列数据库 ( )1982年,606条序列,长度 年 条序列, 条序列 长度680,338bp 2004年,约43,322,756条序列,长度约 1010bp 条序列, 年 条序列 长度约7.12005: : International sequence databases exceed 100 gigabases !一级数据库 只经过简单的归类、 直接来源于实验获得的原始数据,只经过简单的归类、整理 和注释。 和注释。 一级核酸数据库: 数据库、 数据库、 一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ 数

4、据库 数据库 数据库 一级蛋白质序列数据库: 一级蛋白质序列数据库:SWISS-PROT库、PIR库 库 库 一级蛋白质结构数据库: 一级蛋白质结构数据库:PDB数据库 数据库 二级数据库 在一级数据库、实验数据和理论分析的基础上, 在一级数据库、实验数据和理论分析的基础上,针对不同的 研究内容和需要, 研究内容和需要,对生物学知识和信息的进一步整理得到的数 据库。 据库。 人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、 人类基因组图谱库 、 蛋白质序列功能位点数据库Prosite等。 蛋白质序列功能位点数据库 等建立分子生物信息数据库的流程图一个数据库记录(entry)一般由

5、两部分组成: 一般由两部分组成: 一个数据库记录 一般由两部分组成 1. 原始序列数据 原始序列数据(sequence data) 2. 描述这些数据生物学信息的注释 描述这些数据生物学信息的注释(annotation) 注释中包含的信息与相应的序列数据同样重要和有应用价值数据的完整性和注释工作量: 数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整 序列数据广, 2. 库数据面窄,序列注释全面 库数据面窄,数据库的动态更新: 数据库的动态更新: 1. 不断增加 2. 不断修正人类遗传信息数据与科学家的社会责任“如果你们想使你们一生的工作对人 如果你们想使你们一生的工作对人 类有益

6、, 类有益,那么你们只了解应用科学 本身还是不够的。 本身还是不够的。关心人本身必须 始终成为一切技术努力的目标, 始终成为一切技术努力的目标,要 关心如何组织人的劳动和商品分配, 关心如何组织人的劳动和商品分配, 从而以这样的方式保证我们科学思 维的结果可以造福于人类, 维的结果可以造福于人类,而不致 成为诅咒的祸害。 成为诅咒的祸害。当你们沉思你们 的图表和方程式时, 的图表和方程式时,永远不要忘记 这一点! 这一点!” 爱因斯坦 爱因斯坦人类遗传数据国际宣言纲要(修正稿) 人类遗传数据国际宣言纲要(修正稿)联合国教科文组织国际生命伦理学委员会 2003年1月,巴黎 年 月它们关系到对人权

7、和基本自由的保护, “它们关系到对人权和基本自由的保护,关系到在收集、处理和储存科学 它们关系到对人权和基本自由的保护 关系到在收集、 数据以及医疗数据、个人数据和敏感数据时对人类尊严的尊重, 数据以及医疗数据、个人数据和敏感数据时对人类尊严的尊重,承认人类遗 传数据因其敏感的性质所拥有的特殊地位, 传数据因其敏感的性质所拥有的特殊地位,因为它们既可以提供医学信息又 可以提供关系一生的个人信息,而且可能含有关于家庭的信息, 可以提供关系一生的个人信息,而且可能含有关于家庭的信息,包括子孙后 或者在某种情况下涉及到当事人所属社群的信息, 代,或者在某种情况下涉及到当事人所属社群的信息,考虑到人类

8、遗传数据 的收集、处理、使用和储存对于科学与医学的进步, 的收集、处理、使用和储存对于科学与医学的进步,以及对于把它们用于非 医学目的、特别用于司法目的是至关重要的。 医学目的、特别用于司法目的是至关重要的。” 尽管如此,意识到人类遗传数据的收集、处理、使用和储存, “尽管如此,意识到人类遗传数据的收集、处理、使用和储存,对于人权和 基本自由的行使与遵守,以及对于人类尊严的尊重有着潜在的风险, 基本自由的行使与遵守,以及对于人类尊严的尊重有着潜在的风险,重申世 界人类基因组与人权宣言制定的原则,以及平等、公正、团结、 界人类基因组与人权宣言制定的原则,以及平等、公正、团结、尊重人类尊 人权和基

9、本自由的原则,既有研究的自由又有对隐私的保护, 严、人权和基本自由的原则,既有研究的自由又有对隐私的保护,这些必须 是人类遗传数据的收集、处理、使用和储存的基础,宣布遵循这些原则, 是人类遗传数据的收集、处理、使用和储存的基础,宣布遵循这些原则,并 采用目前的宣言。 采用目前的宣言。”术语的含义人类遗传数据: 人类遗传数据:指通过核酸分析或其它科学分析获得的有关个人遗传特性的不明显信 息。 生物学样本:指含有核酸并且包含个人特有的遗传组成的任何生物学材料(例如, 生物学样本:指含有核酸并且包含个人特有的遗传组成的任何生物学材料(例如,血 皮肤和骨细胞或血浆)。 液、皮肤和骨细胞或血浆)。 基于

10、人群的遗传学研究:指以了解种群内个体间和 或跨种群个体间遗传变异的性质和 基于人群的遗传学研究:指以了解种群内个体间和/或跨种群个体间遗传变异的性质和 程度为目的的研究。 程度为目的的研究。 行为遗传学研究:指以建立遗传特征和行为之间的可能联系为目的的研究。 行为遗传学研究:指以建立遗传特征和行为之间的可能联系为目的的研究。纲要摘要个人身份每个人都有一套独特的基因结构。尽管如此,一个人的身份不应被归结 每个人都有一套独特的基因结构。尽管如此, 每个人都有一套独特的基因结构 为基因特性,因为它是由复杂的教育和其它环境因素以及与他人的情感、社会、 为基因特性,因为它是由复杂的教育和其它环境因素以及

11、与他人的情感、社会、精神 和文化纽带决定的。 和文化纽带决定的。 特殊意义人类遗传数据和用于产生它们的生物学样本可能对个人或者群体有特殊 人类遗传数据和用于产生它们的生物学样本可能对个人或者群体有特殊 的文化意义,因此需要给予它们特殊的考虑和尊重。 的文化意义,因此需要给予它们特殊的考虑和尊重。 研究目的人类遗传数据只能以诊断和卫生保健目的,医学和其它科学研究,包括 人类遗传数据只能以诊断和卫生保健目的,医学和其它科学研究, 人类遗传数据只能以诊断和卫生保健目的 流行病学研究目的、法医学目的,在民事和刑事诉讼中的司法目的, 流行病学研究目的、法医学目的,在民事和刑事诉讼中的司法目的,以及任何其

12、它与 有关基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。 有关基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。程序人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集、处理、使 人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集、处理、 人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集 用和储存,这些程序使社会作为一个整体知情参加。 用和储存,这些程序使社会作为一个整体知情参加。 不歧视和不羞辱人类遗传数据不应用于歧视目的,其使用也不应可能导致对一个 人类遗传数据不应用于歧视目的, 人类遗传数据不应用于歧视目的 一个家庭或者一

13、个群体的羞辱。 人、一个家庭或者一个群体的羞辱。应该特别关注以人群为基础的遗传学研究和行为 遗传学研究的结果以及对这些结果的解释。 遗传学研究的结果以及对这些结果的解释。 同意对于人类遗传数据的收集应该要求得到事先的、自由的、知情的和明确表达 对于人类遗传数据的收集应该要求得到事先的、自由的、 对于人类遗传数据的收集应该要求得到事先的 的同意,这种收集或者通过侵入性或者通过非侵入性的程序, 的同意,这种收集或者通过侵入性或者通过非侵入性的程序,以及对于它们随后的处 使用和储存也应该如此,不管这些是由公立机构还是私人机构进行。 理、使用和储存也应该如此,不管这些是由公立机构还是私人机构进行。 决

14、定是否被告知研究结果的权利当为了医学和科学研究目的,包括流行病学和以 当为了医学和科学研究目的, 当为了医学和科学研究目的 人群为基础的遗传学研究,或者为了遗传筛查的目的收集人类遗传数据的时候, 人群为基础的遗传学研究,或者为了遗传筛查的目的收集人类遗传数据的时候,同意 应包括让个人做出是否被告知研究或筛查检测结果的选择。 应包括让个人做出是否被告知研究或筛查检测结果的选择。 利益分享为了医学和科学研究,包括以人群为基础的遗传学研究而收集的人类遗 为了医学和科学研究, 为了医学和科学研究 传数据,通过使用它们产生的利益应该由整个国际社会分享,可以采取以下形式: 传数据,通过使用它们产生的利益应

15、该由整个国际社会分享,可以采取以下形式: 对参加研究的个人和群体的特殊援助; 对参加研究的个人和群体的特殊援助; 获得医疗保健; 获得医疗保健; 为源于研究的新的治疗方法或药物提供便利; 为源于研究的新的治疗方法或药物提供便利; 为卫生服务提供支持; 为卫生服务提供支持; 符合本宣言提出的原则的任何其它形式; 符合本宣言提出的原则的任何其它形式;3.1.2 一级数据库A) 核酸(DNA)序列数据库 核酸(DNA)序列数据库世界三大核酸序列数据库(公共序列数据库,Public Sequence Database) 公共序列数据库, 公共序列数据库GenBank(美国) GenBank(美国) E

16、MBL(欧洲 EMBL 欧洲) 欧洲 DDBJ(日本 DDBJ 日本 日本) GenBank DDBJEMBLGenBank(美国国家生物技术信息中心, GenBank(美国国家生物技术信息中心,NCBI) )1980s NIH(National Institute of Health) Los Alamos National Lab NCBI(National Center for Biotechnology Information) NLM(National Library of Medicine)GenBank网址 网址http:/www.ncbi.nih.gov/Genbank/EMB

17、L(欧洲分子生物学实验室, EMBL 欧洲分子生物学实验室,EMBL) 欧洲分子生物学实验室1982 European Molecular Biology Laboratory EBI(European Bioinformatics Institute) ( )EMBL网址 http:/www.ebi.ac.uk/embl 网址DDBJ(日本国家遗传学研究所, DDBJ 日本国家遗传学研究所,NIG) 日本国家遗传学研究所1986 Databank of Japan NIG(National Institute of Genetics)DDBJ网址 http:/www.ddbj.nig.ac.

18、jp 网址EMBL数据库序列记录增长趋势 EMBL数据库序列记录增长趋势43,322,756568EMBL数据库序列总长增长趋势 EMBL数据库序列总长增长趋势7.11010bp 5.8105 bp EMBL2003年 月数据状况(Release EMBL2003年8月数据状况(Release 76)Division Entries 表达序列标签(ESTs) 18,001,332 表达序列标签 真菌(Fungi) 81,533 真菌 基因组检测序列(GSSs) 5,951,552 基因组检测序列 高通量cDNA(HTC) 148,033 高通量 高通量基因组(HTG) 69,070 高通量基因

19、组 253,122 人(Human) 无脊椎动物(Invertebrates) 126,656 无脊椎动物 其它哺乳动物(Other Mammals) 51,211 其它哺乳动物 79,168 鼠(Mus musculus) 细胞器(Organelles) 217,902 细胞器 专利(Patents) 1,326,009 专利 噬菌体(Bacteriophage) 2,321 噬菌体 植物(Plants) 214,323 植物 原核生物(Prokaryotes) 200,833 原核生物 啮齿动物(Rodents) 25,459 啮齿动物 序列标签位点(STSs) 239,292 序列标签位

20、点 合成(Synthetic) 9,196 合成 未分类(Unclassified) 1,860 未分类 病毒(Viruses) 196,817 病毒 其它脊椎动物(Other Vertebrates) 52,583 其它脊椎动物 27,248,475 总计 Nucleotides 9,172,848,447 124,814,006 3,541,699,334 198,301,795 11,827,270,957 3,999,942,455 618,391,776 117,048,169 1,331,593,999 180,804,604 717,107,725 9,413,526 700,2

21、12,325 690,274,487 64,607,453 114,379,671 16,869,561 2,167,222 175,615,411 282,545,232 33,885,908,155EMBL2004年 EMBL2004年8 月数据状况 (Release 80)B) 基因组数据库来源于人类基因组计划及各种模式生物基因组计划 1977年 最早获得的生物基因组全序列是噬菌体(53kb) 1977年,最早获得的生物基因组全序列是噬菌体(53kb) 1995年 第一个自由生物体流感嗜血菌( inf) 1995年,第一个自由生物体流感嗜血菌(H. inf)被完全测序部分生物基因组计划网

22、址老鼠(Mouse) http:/www.informatics.jax.org/mgd.html 老鼠 小鼠(Rat) http:/ratmap.gen.gu.se 小鼠 http:/mendel.berkeley.edu/dog.html 狗(Dog) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 牛(Cow) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 猪(Pig) http:/dirk.invermay.cri.nz 羊(Sheep) http:/www.ri.bbsrc

23、.ac.uk/chickmap/chickbase/manager.html 鸡(Chicken) 斑马鱼(Zebra fish) http:/zfish.uoregon.edu 斑马鱼 线虫(C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 线虫 果蝇(Drosophila) http:/morgan.harvard.edu 果蝇 蚊子(Mosquito) http:/klab.agsci.colostate.edu 蚊子 拟南芥(Arabidopsis) http:/genome-www.stanf

24、ord.edu/Arabidopsis 拟南芥 棉花(Cotton) http:/algodon.tamu.edu 棉花 玉米(Maize) http:/www.agron.missouri.edu 玉米 水稻(Rice) http:/www.staff.or.jp 水稻 大豆(Soya) http:/mendel.agron.iastate.edu:8000/main.html 大豆 http:/s27w007.pswfs.gov 树(Trees)GDB(美国、加拿大) GDB(美国、加拿大)1990年,John Hopkins大学建立,后由加拿大儿童医院生物信息中心管 年 大学建立, 大学

25、建立 年起, 理,2003年起,GDB-related software and public data were transferred to 年起 RTI International .数据内容: 数据内容:基因组结构数据、基因组图谱、基因多态性数据 基因组结构数据、基因组图谱、 与其它分子生物信息网络资源( 与其它分子生物信息网络资源(EMBL、GenBank)的链接 、 )GDB网址 http:/www.gdb.org/ 网址AceDB线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。 提供很好的图形界面, 提供很好的

26、图形界面,用户能够从大到整个基因组小到序列的各个层 次观察和分析基因组数据。 次观察和分析基因组数据。数据内容: 数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献 限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献AceDB网址 http:/www.acedb.org 网址C) 蛋白质序列数据库SWISSPROT(欧洲 SWISSPROT 欧洲 欧洲) PIR(美国 PIR 美国) 美国SWISS SWISSPROT 1. 日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI)合作维护(1986年); 合作维护( 合作维护 年 2. 在EMBL和GenBank数据库上均

27、建立了镜像站点 数据库上均建立了镜像站点; 和 数据库上均建立了镜像站点 3. 数据库包括了从 数据库包括了从EMBL翻译而来的蛋白质序列,这些序 翻译而来的蛋白质序列, 翻译而来的蛋白质序列 列经过检验和注释; 列经过检验和注释; 4. 数据记录包括两部分: 数据记录包括两部分: 序列 注释(结构域 功能位点、跨膜区域、二硫键位置、 结构域、 注释 结构域、功能位点、跨膜区域、二硫键位置、翻 译后的修饰、突变体等) 译后的修饰、突变体等 5. 数据存在滞后性 TrEMBL数据库的建立 数据库的建立SWISS-PROT的网址: http:/cn.expasy.org/sprot 的网址: 的网

28、址TrEMBL的网址: http:/www.ebi.ac.uk/trembl/index.html 的网址: 的网址PIR(protein information resource) 1. 由美国 由美国NCBI翻译自 翻译自GenBank的DNA序列 序列(1984年); 翻译自 的 序列 年; 2. 在EMBL和GenBank数据库上均建立了镜像站点; 数据库上均建立了镜像站点; 和 数据库上均建立了镜像站点 3. 数据依据注释的质量分为 类。 数据依据注释的质量分为4类PIR数据库的分类情况 PIR数据库的分类情况(Release 51.03) 数据库的分类情况(Release分类名称

29、(Name) PIR1 PIR2 PIR3 PIR4 说明 (Comment) 已分类、 已分类、已注释 (Classified and annotated) 已注释(Annotated) 已注释 未核实(Unverified) 未核实 未翻译(Unencoded or 未翻译 untranslated) 记录数 (Number of entries) 13572 69368 7508 196PIR网址: http:/www-nbrf.georgetown.edu/ 网址: 网址D) 蛋白质结构数据库PDB( PDB(protein data bank) bank) 1. 目前最主要的蛋白质分

30、子结构数据库; 目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,美国 年代建立, 国家实验室维护管理; 年代建立 美国Brookhaven国家实验室维护管理 国家实验室维护管理 3. 1988年,由美国 年 由美国RCSB(research collaboratory for structural biology)管理; 管理; 管理 4. 以文本格式存放数据,包括原子坐标、物种来源、测定 以文本格式存放数据,包括原子坐标、物种来源、 方法、提交者信息、一级结构、二级结构等; 方法、提交者信息、一级结构、二级结构等; 5. PDBsum数据库:PDB注释信息综合数据库,具有检索、

31、数据库: 注释信息综合数据库, 数据库 注释信息综合数据库 具有检索、 分析、可视化的功能。(已移至EBI) 。(已移至 分析、可视化的功能。(已移至 )PDB网址:http:/www.rcsb.org/pdb(美国 网址: 美国) 网址 美国PDBsum网址:http:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/ 网址: 网址E) 蛋白质结构分类数据库SCOP( SCOP(Structural Classification of Protein) Protein)英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于 web的蛋白质结构数据

32、库分类、检索和分析系统; 的蛋白质结构数据库分类、 的蛋白质结构数据库分类 检索和分析系统; SCOP的网址 的网址:http:/scop.mrc-lmb.cam.ac.uk/scop/ 的网址CATH(class, architecture, topology, homology)英国伦敦大学开发维护; 英国伦敦大学开发维护; CATH的网址:http:/www.biochem.ucl.ac.uk/bsm/cath 的网址: 的网址SCOP网址 网址:http:/scop.mrc-lmb.cam.ac.uk/scop/ 网址CATH网址:http:/www.biochem.ucl.ac.uk/bsm/cath 网址: 网址3.1.3 二级数据库简介二级数据库的形式:大多以 界面为基础, 二级数据库的形式:大多以web界面为基础,具有文字信 界面为基础 息、表格、图形、图表等方式显示数据库内容; 表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1