罗静初分子生物信息数据库与生物信息学基本问题.docx

上传人:b****8 文档编号:30435318 上传时间:2023-08-15 格式:DOCX 页数:23 大小:32.75KB
下载 相关 举报
罗静初分子生物信息数据库与生物信息学基本问题.docx_第1页
第1页 / 共23页
罗静初分子生物信息数据库与生物信息学基本问题.docx_第2页
第2页 / 共23页
罗静初分子生物信息数据库与生物信息学基本问题.docx_第3页
第3页 / 共23页
罗静初分子生物信息数据库与生物信息学基本问题.docx_第4页
第4页 / 共23页
罗静初分子生物信息数据库与生物信息学基本问题.docx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

罗静初分子生物信息数据库与生物信息学基本问题.docx

《罗静初分子生物信息数据库与生物信息学基本问题.docx》由会员分享,可在线阅读,更多相关《罗静初分子生物信息数据库与生物信息学基本问题.docx(23页珍藏版)》请在冰豆网上搜索。

罗静初分子生物信息数据库与生物信息学基本问题.docx

罗静初分子生物信息数据库与生物信息学基本问题

第三讲分子生物信息数据库与生物信息学基本问题

人类获取信息的能力在不断进步之中……人类获取信息的能力在不断进步之中……

《永乐大典》永乐大典》明永乐元年至六年(明永乐元年至六年(1403-1408)翰林学士解缙等奉翰林学士解缙等奉旨编纂,旨编纂,共22877卷,目录卷60卷,11095册,总字数约卷册3.7亿。

是中国古代最大的亿百科全书”“百科全书”。

中国国家图书馆现藏《永乐大典》图书馆现藏《永乐大典》仅221册。

§3.1分子生物信息数据库简介

§3.1.1分子生物信息数据库概述

1960年代,第一个分子生物学数据库年代,年代

——FredSanger的胰岛素序列测定(1955)的胰岛素序列测定(的胰岛素序列测定)——蛋白质数据库蛋白质数据库PSD(ProteinSequenceDatabase)蛋白质数据库()——MargaretDayhoff:

1960年代,创立年代,年代创立PSD,即PIR的前身,的前身1978,scoringmatrices——PAM,

FredSangeratTheWellcomeTrustSangerInstitute

PioneerinBioinformaticsDr.MargaretO.Dayhoff(1925-1983)

1982年,第一个核酸序列数据库GenBank(LosAlamos)年第一个核酸序列数据库()

——1982年,606条序列,长度年条序列,条序列长度680,338bp——2004年,约43,322,756条序列,长度约×1010bp条序列,年条序列长度约7.1×

2005:

Internationalsequencedatabasesexceed100gigabases!

一级数据库只经过简单的归类、直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。

和注释。

一级核酸数据库:

数据库、数据库、一级核酸数据库:

GenBank数据库、EMBL数据库、DDBJ数据库数据库数据库一级蛋白质序列数据库:

一级蛋白质序列数据库:

SWISS-PROT库、PIR库库库一级蛋白质结构数据库:

一级蛋白质结构数据库:

PDB数据库数据库二级数据库在一级数据库、实验数据和理论分析的基础上,在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。

据库。

人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、人类基因组图谱库、蛋白质序列功能位点数据库Prosite等。

蛋白质序列功能位点数据库等

建立分子生物信息数据库的流程图

一个数据库记录(entry)一般由两部分组成:

一般由两部分组成:

一个数据库记录一般由两部分组成1.原始序列数据原始序列数据(sequencedata)2.描述这些数据生物学信息的注释描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值

数据的完整性和注释工作量:

数据的完整性和注释工作量:

1.序列数据广,序列注释不够完整序列数据广,2.库数据面窄,序列注释全面库数据面窄,

数据库的动态更新:

数据库的动态更新:

1.不断增加2.不断修正

人类遗传信息数据与科学家的社会责任

“如果你们想使你们一生的工作对人如果你们想使你们一生的工作对人类有益,类有益,那么你们只了解应用科学本身还是不够的。

本身还是不够的。

关心人本身必须始终成为一切技术努力的目标,始终成为一切技术努力的目标,要关心如何组织人的劳动和商品分配,关心如何组织人的劳动和商品分配,从而以这样的方式保证我们科学思维的结果可以造福于人类,维的结果可以造福于人类,而不致成为诅咒的祸害。

成为诅咒的祸害。

当你们沉思你们的图表和方程式时,的图表和方程式时,永远不要忘记这一点!

这一点!

”——爱因斯坦爱因斯坦

人类遗传数据国际宣言纲要(修正稿)人类遗传数据国际宣言纲要(修正稿)

联合国教科文组织国际生命伦理学委员会2003年1月,巴黎年月

它们关系到对人权和基本自由的保护,“…它们关系到对人权和基本自由的保护,关系到在收集、处理和储存科学它们关系到对人权和基本自由的保护关系到在收集、数据以及医疗数据、个人数据和敏感数据时对人类尊严的尊重,数据以及医疗数据、个人数据和敏感数据时对人类尊严的尊重,承认人类遗传数据因其敏感的性质所拥有的特殊地位,传数据因其敏感的性质所拥有的特殊地位,因为它们既可以提供医学信息又可以提供关系一生的个人信息,而且可能含有关于家庭的信息,可以提供关系一生的个人信息,而且可能含有关于家庭的信息,包括子孙后或者在某种情况下涉及到当事人所属社群的信息,代,或者在某种情况下涉及到当事人所属社群的信息,考虑到人类遗传数据的收集、处理、使用和储存对于科学与医学的进步,的收集、处理、使用和储存对于科学与医学的进步,以及对于把它们用于非医学目的、特别用于司法目的是至关重要的。

医学目的、特别用于司法目的是至关重要的。

”尽管如此,意识到人类遗传数据的收集、处理、使用和储存,“尽管如此,意识到人类遗传数据的收集、处理、使用和储存,对于人权和基本自由的行使与遵守,以及对于人类尊严的尊重有着潜在的风险,基本自由的行使与遵守,以及对于人类尊严的尊重有着潜在的风险,重申世界人类基因组与人权宣言制定的原则,以及平等、公正、团结、界人类基因组与人权宣言制定的原则,以及平等、公正、团结、尊重人类尊人权和基本自由的原则,既有研究的自由又有对隐私的保护,严、人权和基本自由的原则,既有研究的自由又有对隐私的保护,这些必须是人类遗传数据的收集、处理、使用和储存的基础,宣布遵循这些原则,是人类遗传数据的收集、处理、使用和储存的基础,宣布遵循这些原则,并采用目前的宣言。

采用目前的宣言。

术语的含义

人类遗传数据:

人类遗传数据:

指通过核酸分析或其它科学分析获得的有关个人遗传特性的不明显信息。

生物学样本:

指含有核酸并且包含个人特有的遗传组成的任何生物学材料(例如,生物学样本:

指含有核酸并且包含个人特有的遗传组成的任何生物学材料(例如,血皮肤和骨细胞或血浆)。

液、皮肤和骨细胞或血浆)。

基于人群的遗传学研究:

指以了解种群内个体间和或跨种群个体间遗传变异的性质和基于人群的遗传学研究:

指以了解种群内个体间和/或跨种群个体间遗传变异的性质和程度为目的的研究。

程度为目的的研究。

行为遗传学研究:

指以建立遗传特征和行为之间的可能联系为目的的研究。

行为遗传学研究:

指以建立遗传特征和行为之间的可能联系为目的的研究。

纲要摘要

个人身份——每个人都有一套独特的基因结构。

尽管如此,一个人的身份不应被归结每个人都有一套独特的基因结构。

尽管如此,每个人都有一套独特的基因结构为基因特性,因为它是由复杂的教育和其它环境因素以及与他人的情感、社会、为基因特性,因为它是由复杂的教育和其它环境因素以及与他人的情感、社会、精神和文化纽带决定的。

和文化纽带决定的。

特殊意义——人类遗传数据和用于产生它们的生物学样本可能对个人或者群体有特殊人类遗传数据和用于产生它们的生物学样本可能对个人或者群体有特殊的文化意义,因此需要给予它们特殊的考虑和尊重。

的文化意义,因此需要给予它们特殊的考虑和尊重。

研究目的——人类遗传数据只能以诊断和卫生保健目的,医学和其它科学研究,包括人类遗传数据只能以诊断和卫生保健目的,医学和其它科学研究,人类遗传数据只能以诊断和卫生保健目的流行病学研究目的、法医学目的,在民事和刑事诉讼中的司法目的,流行病学研究目的、法医学目的,在民事和刑事诉讼中的司法目的,以及任何其它与有关基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。

有关基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。

程序——人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集、处理、使人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集、处理、人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集用和储存,这些程序使社会作为一个整体知情参加。

用和储存,这些程序使社会作为一个整体知情参加。

不歧视和不羞辱——人类遗传数据不应用于歧视目的,其使用也不应可能导致对一个人类遗传数据不应用于歧视目的,人类遗传数据不应用于歧视目的一个家庭或者一个群体的羞辱。

人、一个家庭或者一个群体的羞辱。

应该特别关注以人群为基础的遗传学研究和行为遗传学研究的结果以及对这些结果的解释。

遗传学研究的结果以及对这些结果的解释。

同意——对于人类遗传数据的收集应该要求得到事先的、自由的、知情的和明确表达对于人类遗传数据的收集应该要求得到事先的、自由的、对于人类遗传数据的收集应该要求得到事先的的同意,这种收集或者通过侵入性或者通过非侵入性的程序,的同意,这种收集或者通过侵入性或者通过非侵入性的程序,以及对于它们随后的处使用和储存也应该如此,不管这些是由公立机构还是私人机构进行。

理、使用和储存也应该如此,不管这些是由公立机构还是私人机构进行。

决定是否被告知研究结果的权利——当为了医学和科学研究目的,包括流行病学和以当为了医学和科学研究目的,当为了医学和科学研究目的人群为基础的遗传学研究,或者为了遗传筛查的目的收集人类遗传数据的时候,人群为基础的遗传学研究,或者为了遗传筛查的目的收集人类遗传数据的时候,同意应包括让个人做出是否被告知研究或筛查检测结果的选择。

应包括让个人做出是否被告知研究或筛查检测结果的选择。

利益分享——为了医学和科学研究,包括以人群为基础的遗传学研究而收集的人类遗为了医学和科学研究,为了医学和科学研究传数据,通过使用它们产生的利益应该由整个国际社会分享,可以采取以下形式:

传数据,通过使用它们产生的利益应该由整个国际社会分享,可以采取以下形式:

对参加研究的个人和群体的特殊援助;对参加研究的个人和群体的特殊援助;获得医疗保健;获得医疗保健;为源于研究的新的治疗方法或药物提供便利;为源于研究的新的治疗方法或药物提供便利;为卫生服务提供支持;为卫生服务提供支持;符合本宣言提出的原则的任何其它形式;符合本宣言提出的原则的任何其它形式;

§3.1.2一级数据库

A)核酸(DNA)序列数据库核酸(DNA)序列数据库

世界三大核酸序列数据库

(公共序列数据库,PublicSequenceDatabase)公共序列数据库,公共序列数据库

GenBank(美国)GenBank(美国)EMBL(欧洲EMBL欧洲)欧洲DDBJ(日本DDBJ日本日本)GenBankDDBJ

EMBL

GenBank(美国国家生物技术信息中心,GenBank(美国国家生物技术信息中心,NCBI))

1980sNIH(NationalInstituteofHealth)LosAlamosNationalLabNCBI(NationalCenterforBiotechnologyInformation)NLM(NationalLibraryofMedicine)

GenBank网址网址

http:

//www.ncbi.nih.gov/Genbank/

EMBL(欧洲分子生物学实验室,EMBL欧洲分子生物学实验室,EMBL)欧洲分子生物学实验室

1982EuropeanMolecularBiologyLaboratoryEBI(EuropeanBioinformaticsInstitute)()

EMBL网址http:

//www.ebi.ac.uk/embl网址

DDBJ(日本国家遗传学研究所,DDBJ日本国家遗传学研究所,NIG)日本国家遗传学研究所

1986DatabankofJapanNIG(NationalInstituteofGenetics)

DDBJ网址http:

//www.ddbj.nig.ac.jp网址

EMBL数据库序列记录增长趋势EMBL数据库序列记录增长趋势

43,322,756

568

EMBL数据库序列总长增长趋势EMBL数据库序列总长增长趋势

7.1×1010bp×

5.8×105bp×

EMBL2003年月数据状况(ReleaseEMBL2003年8月数据状况(Release76)

DivisionEntries表达序列标签(ESTs)18,001,332表达序列标签真菌(Fungi)81,533真菌基因组检测序列(GSSs)5,951,552基因组检测序列高通量cDNA(HTC)148,033高通量高通量基因组(HTG)69,070高通量基因组253,122人(Human)无脊椎动物(Invertebrates)126,656无脊椎动物其它哺乳动物(OtherMammals)51,211其它哺乳动物79,168鼠(Musmusculus)细胞器(Organelles)217,902细胞器专利(Patents)1,326,009专利噬菌体(Bacteriophage)2,321噬菌体植物(Plants)214,323植物原核生物(Prokaryotes)200,833原核生物啮齿动物(Rodents)25,459啮齿动物序列标签位点(STSs)239,292序列标签位点合成(Synthetic)9,196合成未分类(Unclassified)1,860未分类病毒(Viruses)196,817病毒其它脊椎动物(OtherVertebrates)52,583其它脊椎动物27,248,475总计Nucleotides9,172,848,447124,814,0063,541,699,334198,301,79511,827,270,9573,999,942,455618,391,776117,048,1691,331,593,999180,804,604717,107,7259,413,526700,212,325690,274,48764,607,453114,379,67116,869,5612,167,222175,615,411282,545,23233,885,908,155

EMBL2004年EMBL2004年8月数据状况(Release80)

B)基因组数据库

来源于人类基因组计划及各种模式生物基因组计划1977年最早获得的生物基因组全序列是噬菌体(53kb)1977年,最早获得的生物基因组全序列是噬菌体(53kb)1995年第一个自由生物体流感嗜血菌(inf)1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测序

部分生物基因组计划网址

老鼠(Mouse)http:

//www.informatics.jax.org/mgd.html老鼠小鼠(Rat)http:

//ratmap.gen.gu.se小鼠http:

//mendel.berkeley.edu/dog.html狗(Dog)http:

//locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl牛(Cow)http:

//www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html猪(Pig)http:

//dirk.invermay.cri.nz羊(Sheep)http:

//www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html鸡(Chicken)斑马鱼(Zebrafish)http:

//zfish.uoregon.edu斑马鱼线虫(C.elegans)http:

//www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html线虫果蝇(Drosophila)http:

//morgan.harvard.edu果蝇蚊子(Mosquito)http:

//klab.agsci.colostate.edu蚊子拟南芥(Arabidopsis)http:

//genome-www.stanford.edu/Arabidopsis拟南芥棉花(Cotton)http:

//algodon.tamu.edu棉花玉米(Maize)http:

//www.agron.missouri.edu玉米水稻(Rice)http:

//www.staff.or.jp水稻大豆(Soya)http:

//mendel.agron.iastate.edu:

8000/main.html大豆http:

//s27w007.pswfs.gov树(Trees)

GDB(美国、加拿大)GDB(美国、加拿大)

1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息中心管年大学建立,大学建立年起,理,2003年起,GDB-relatedsoftwareandpublicdataweretransferredto年起RTIInternational.

数据内容:

数据内容:

基因组结构数据、基因组图谱、基因多态性数据基因组结构数据、基因组图谱、与其它分子生物信息网络资源(与其它分子生物信息网络资源(EMBL、GenBank…)的链接、)

GDB网址http:

//www.gdb.org/网址

AceDB

线虫基因组数据库。

既是一个数据库,又是一个数据库管理系统。

线虫基因组数据库。

既是一个数据库,又是一个数据库管理系统。

提供很好的图形界面,提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。

次观察和分析基因组数据。

数据内容:

数据内容:

限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献

AceDB网址http:

//www.acedb.org网址

C)蛋白质序列数据库

SWISS-PROT(欧洲SWISS-PROT欧洲欧洲)PIR(美国PIR美国)美国

SWISS-SWISS-PROT1.日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);合作维护(合作维护年2.在EMBL和GenBank数据库上均建立了镜像站点数据库上均建立了镜像站点;和数据库上均建立了镜像站点3.数据库包括了从数据库包括了从EMBL翻译而来的蛋白质序列,这些序翻译而来的蛋白质序列,翻译而来的蛋白质序列列经过检验和注释;列经过检验和注释;4.数据记录包括两部分:

数据记录包括两部分:

序列注释(结构域功能位点、跨膜区域、二硫键位置、结构域、注释结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)译后的修饰、突变体等5.数据存在滞后性TrEMBL数据库的建立数据库的建立

SWISS-PROT的网址:

http:

//cn.expasy.org/sprot的网址:

的网址

TrEMBL的网址:

http:

//www.ebi.ac.uk/trembl/index.html的网址:

的网址

PIR(proteininformationresource)1.由美国由美国NCBI翻译自翻译自GenBank的DNA序列序列(1984年);翻译自的序列年;2.在EMBL和GenBank数据库上均建立了镜像站点;数据库上均建立了镜像站点;和数据库上均建立了镜像站点3.数据依据注释的质量分为类。

数据依据注释的质量分为4类

PIR数据库的分类情况PIR数据库的分类情况(Release51.03)数据库的分类情况(Release

分类名称(Name)PIR1PIR2PIR3PIR4说明(Comment)已分类、已分类、已注释(Classifiedandannotated)已注释(Annotated)已注释未核实(Unverified)未核实未翻译(Unencodedor未翻译untranslated)记录数(Numberofentries)13572693687508196

PIR网址:

http:

//www-nbrf.georgetown.edu/网址:

网址

D)蛋白质结构数据库

PDB(PDB(proteindatabank)bank)1.目前最主要的蛋白质分子结构数据库;目前最主要的蛋白质分子结构数据库;2.1970年代建立,美国年代建立,国家实验室维护管理;年代建立美国Brookhaven国家实验室维护管理国家实验室维护管理3.1988年,由美国年由美国RCSB(researchcollaboratoryforstructuralbiology)管理;管理;管理4.以文本格式存放数据,包括原子坐标、物种来源、测定以文本格式存放数据,包括原子坐标、物种来源、方法、提交者信息、一级结构、二级结构等;方法、提交者信息、一级结构、二级结构等;5.PDBsum数据库:

PDB注释信息综合数据库,具有检索、数据库:

注释信息综合数据库,数据库注释信息综合数据库具有检索、分析、可视化的功能。

(已移至EBI)。

(已移至分析、可视化的功能。

(已移至)

PDB网址:

http:

//www.rcsb.org/pdb(美国网址:

美国)网址美国

PDBsum网址:

http:

//www.ebi.ac.uk/thornton-srv/databases/pdbsum/网址:

网址

E)蛋白质结构分类数据库

SCOP(SCOP(StructuralClassificationofProtein)Protein)

英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统;的蛋白质结构数据库分类、的蛋白质结构数据库分类检索和分析系统;SCOP的网址的网址:

http:

//scop.mrc-lmb.cam.ac.uk/scop/的网址

CATH(class,architecture,topology,homology)

英国伦敦大学开发维护;英国伦敦大学开发维护;CATH的网址:

http:

//www.biochem.ucl.ac.uk/bsm/cath的网址:

的网址

SCOP网址网址:

http:

//scop.mrc-lmb.cam.ac.uk/scop/网址

CATH网址:

http:

//www.biochem.ucl.ac.uk/bsm/cath网址:

网址

§3.1.3二级数据库简介

二级数据库的形式:

大多以界面为基础,二级数据库的形式:

大多以web界面为基础,具有文字信界面为基础息、表格、图形、图表等方式显示数据库内容;表格、图形、图表等方式显示数据库内容;一级数据库与二级数据

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 临床医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1