NCBI 功能详介.docx

上传人:b****5 文档编号:6601881 上传时间:2023-01-08 格式:DOCX 页数:21 大小:37.85KB
下载 相关 举报
NCBI 功能详介.docx_第1页
第1页 / 共21页
NCBI 功能详介.docx_第2页
第2页 / 共21页
NCBI 功能详介.docx_第3页
第3页 / 共21页
NCBI 功能详介.docx_第4页
第4页 / 共21页
NCBI 功能详介.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

NCBI 功能详介.docx

《NCBI 功能详介.docx》由会员分享,可在线阅读,更多相关《NCBI 功能详介.docx(21页珍藏版)》请在冰豆网上搜索。

NCBI 功能详介.docx

NCBI功能详介

GenBankOverview

基本信息

∙什么是GenBank?

GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。

每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。

GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。

∙纪录样本-关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。

∙访问GenBank-通过EntrezNucleotides来查询。

用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。

关于Entrez更多的信息请看下文。

用BLAST来在GenBank和其他数据库中进行序列相似搜索。

用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。

另外一种选择是可以用FTP下载整个的GenBank和更新数据。

∙增长统计-参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。

∙公布通知,最新-最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。

∙公布通知,旧-同上相同,是过去公布的统计。

∙遗传密码-15个遗传密码的概要。

用来确保GenBank中纪录的编码序列被正确的翻译。

(向)GenBank提交(数据)

∙关于提交序列数据,收到accessionnumber,和对纪录作更新的一般信息。

∙BankIt-用于一条或者少数条提交的基于WWW的提交工具软件。

(请在提交前用VecScreen去除载体)

∙Sequin-提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。

可以独立使用,或者用基于TCP/IP的“networkaware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。

(请在提交前用VecScreen去除载体)

∙ESTs-表达序列标签,短的、单次(测序)阅读的cDNA序列。

也包括来自于差异显示和RACE实验的cDNA序列。

∙GSSs-基因组调查序列,短的、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC末端,及其他。

∙HTGs-来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。

(注意:

完成的人类的HTG序列可以同时在GenBank和HumanGenomeSequencing页面上访问。

∙STSs-序列标签位点。

短的在基因组上可以被唯一操作的序列,用于产生作图位点。

∙注:

SNPs-人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。

国际核苷酸序列数据库合作组织

∙GenBank,DDBJ,EMBL-合作计划的概述,并链接到相应的主页。

GenBank,DDBJ(DNADataBankofJapan),andEMBL(EuropeanMolecularBiologyLaboratory)数据库共享的数据是每天都交换的,因此他们是相等的。

数据纪录的格式和搜索方式可能会不一样,但是accessionnumber,序列数据和注解都是一模一样的。

即,你可以用accessionnumberU12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。

∙DDBJ/EMBJ/GenBank特性表—特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。

FTPGenBankandDailyUpdates

∙GenBank普通文件格式—参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。

∙ASN.1格式—摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。

∙FASTA格式—定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST,STS,GSS,orHTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z,gss.Z,htg.Z,sts.Z,和其它文件。

分子数据库概览

核酸序列

∙Entrez核酸—用accessionnumber,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenBank+PDB中)。

更多的关于Entrez的信息见下。

如果要检索大量数据,也可使用BatchEntrez(批量Entrez)。

∙RefSeq—NCBI数据库的参考序列。

校正的,非冗余集合,包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。

Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。

∙dbEST—表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。

也包括来自于差异显示和RACE实验的cDNA序列。

∙dbGSS—基因组调查序列的数据库,短的、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC末端,及其他。

∙dbSTS—序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。

∙dbSNP—单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。

完整的基因组

∙参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。

∙UniGene—被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。

序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。

o人类UniGene

o小鼠UniGene

o大鼠UniGene

o斑马鱼UniGene

∙BLAST—将你的序列同核酸库中的的序列比较,检索相似的序列。

(更详细的信息见下面Tools/Sequence相似搜索部分)

蛋白序列

∙Entrez蛋白—用accessionnumber,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在GenPept+Swiss-Prot+PIR+RPF+PDB中)。

更多的关于Entrez的信息见下。

如果要检索大量数据,也可使用BatchEntrez(批量Entrez)。

∙RefSeq—NCBI数据库的参考序列。

Curated,非冗余集合包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。

Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。

∙FTPGenPept—下载“genpept.fsa.Z”文件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。

完整基因组

∙参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。

∙Entrez基因组—提供了一个编码区的概要和各种物种的分类表(TaxTable)。

编码区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。

分类表总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面'Genomes和Maps,'部分Entrez基因组的一般描述)

∙FTP基因组蛋白—从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。

参见readme文件。

蛋白表也可以在Entrez基因组中看到。

∙PROW—Web上的蛋白资源,关于大约200种人类的CD细胞表面分子的简短官方向导。

互相检索,为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等)

∙BLAST—将你的序列同蛋白库中的的序列比较,检索相似的序列。

(更详细的信息见下面Tools/Sequence相似搜索部分)

结构

∙结构主页—关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。

∙MMDB:

分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。

MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些理论模型。

MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。

数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。

利用将化学,序列,和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。

MMDB的记录以ASN.1格式存储,可以用Cn3D,Rasmol,或Kinemage来显示。

另外,数据库中类似的结构已经被用VAST确认,新的结构可以用VASTsearch来同数据库进行比较。

∙Cn3D—“Seein3-D”,一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列—结构或结构—结构同源比较。

Cn3D用起来就象你浏览器上的一个帮助工具。

∙VAST—矢量同源比较搜索工具—一个在NCBI开发的计算算法,用于确定相似的蛋白三维结构。

每一个结构的“结构邻居”都是预先计算好的,而且可以通过MMDB的结构概要页面的链接访问。

这些邻居可以用来确认那些不能被序列比较识别的远的同源性。

∙VAST搜索—结构—结构相似搜索服务。

比较一个新解出的蛋白结构和在MMDB/PDB数据库中的结构的三维坐标。

VAST搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和同源相似。

分类学

∙NCBI的分类数据库主页—关于分类计划的一般信息,包括分类资源和同NCBI分类学家合作的外部管理者的列表。

∙分类浏览器—搜索NCBI的分类数据库,包括大于70000个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。

可以检索一个特定种或者更高分类(如属,科)的核酸,蛋白,和结构记录。

如果有新物种的序列数据被放到数据库中,这个物种就北加到(分类)数据库中。

NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。

文献数据库概要

∙PubMed—一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。

它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。

PubMed包括MEDLINE和PREMEDLINE的完整内容。

它还包括一些被MEDLINE认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。

因此PubMed是比MEDLINE的更大的集合。

∙杂志浏览器—允许你去查找收录到PubMed系统的杂志的名字,MEDLINE的缩写,或ISSN号码。

∙PubRef(开发中)—一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网址的全文。

PubRef包含了PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。

因此它是比PubMed更大的集合。

这个计划的启动是因为NAS要求为科学领域的电子杂志提供一个“白皮书”服务。

∙PubMed中心(开发中)—PubMed中心是一个无障碍的NIH资源,用于在生命科学领域中同业互查的基础研究报告。

从2000年一月开始接受杂志文章。

所有在PubMed中心的材料将由目前任一主要的摘要和索引服务中列出的杂志提供,或者在编辑委员会中拥有3个以上有主要资金机构的研究经费的拥有人的杂志提供。

∙OMIM—在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。

∙书籍—同书籍出版商合作NCBI为网络改编了教科书,并把他们链接到PubMed—生物医药书目数据库。

这是为了给PubMed提供背景信息,这样使用者可以探究在PubMed搜索结果中不熟悉的概念。

目前收录的书有:

∙MolecularBiologyoftheCell,3rded.AlbertsB.,BrayD.,LewisJ.,RaffM.,RobertsK.,WatsonJ.D.,1994,GarlandPublishing.

∙外部链接—一个登记服务,用于建立从在Entrez中的特定的文章,杂志,或生物数据到外部网址的链接。

第三方可以提供一个URL,资源名字,关于他们网址的简要的描述,和关于从NCBI数据的哪里他们希望建立链接的详细说明。

这个详细说明可以用对Entrez有效的布尔查询来写,也可以用特定的文章或序列的标志列表来写。

这样NCBIPubMed的用户将可以通过“NCBI小房间”服务(开发中)来选择哪个外部链接在他们的搜索中是可见的。

∙引用匹配—允许你找到任何一篇在PubMed数据库中的文章的PubMedID或MEDLINEUID,给出书目信息(杂志,卷,页码等)。

∙单篇文章的引用匹配。

∙许多文章的批量引用匹配。

∙E-mail引用匹配也是可以的,也可以用于单篇或许多文章。

如果要获得帮助文件,给citation_matcher@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。

∙GenomesandMapsOverview

∙Entrez基因组:

人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒,和真核细胞器。

∙Entrez基因组(各种物种)

∙Entrez基因组—超过800种在GenBank中被完整测序的物种,包括大于500种病毒,〉25种细菌,酵母,和许多viroids,质粒,和细胞器。

还包括正在进行中的基因组,比如人,小鼠,线虫,疟原虫,果蝇,利什曼原虫,水稻,和玉米。

提供完成的基因组/染色体的图形概览,并可以探究那些逐步细化的区域。

也提供那些已经被NCBI工作人员分析过的物种的编码区的摘要和TaxTables。

另外,EntrezMapViewer,Entrez基因组的一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱)和人类(细胞遗传学,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览。

∙通过每个物种的Entrez基因组页面来下载〈350kb的基因组。

∙通过NCBIftp站点来下载〉350kb的基因组—参见在genbank/genomes目录下的readme文件,ftp链接在每个物种的Entrez基因组页面上也有。

∙NCBI站点地图---HumanGenome人类基因组数据介绍

∙》》》NCBI资源介绍

∙向导

∙人类基因组资源向导—可用的人类基因组数据资源概览。

包括关于人类基因组的公告和进展报告和提供对以前分离的数据的集中访问。

∙人类基因组序列数据的状态—描述了目前在GenBank中的数据的范围,包括完成的和草图高通量基因组序列数据的讨论。

∙染色体

∙人类基因组测序—每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。

提供对基因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因信息,和选择出的参考文献。

列出完成的contig的大小和位置。

Contig可以被显示出来,以表示组成他们的GenBank中的记录的成分,或者那些由e-PCR确定的位于其上的STS标记。

Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang,etal描述的过程,并给于一个NT_*的accessionnumber,作为RefSeq计划的一部分。

关于各期HTG序列的详细说明见HTG网页。

∙Entrez图谱浏览器—整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图谱。

在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其它的图谱。

Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。

∙FTP—每个染色体都有一个文件目录包含各种格式的完成的基因组contig(NT_*记录):

∙hs_chr*.asnASN.1格式(descriptionabove)

∙hs_chr*.fna.gzFASTA格式(descriptionabove)

∙hs_chr*.gbk.gzGenBankflatfile格式

∙(目前注解包括STS标记,已知和预期的基因将被在将来几个月中加入)

∙hs_chr*.gbsGenBanksummary格式

∙(这个格式不含有序列数据,但是包含一个“CONTIG”字段,表明这个contig是如何有独立的GenBank记录组装起来的。

∙BLAST人类基因组序列数据

∙BLAST人类染色体—将一个核酸或蛋白序列同已经完成的HTGcontig比较。

Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang,etal描述的过程,并给于一个NT_*的accessionnumber,作为RefSeq计划的一部分。

关于各期HTG序列的详细说明见HTG网页。

同人类染色体作BLAST是人类基因组测序页面的一个组成部分。

∙BLASThtgs数据库—将一个核酸或蛋白序列同未完成的HTG序列(第0,1,2期)进行比较(关于各期HTG序列的详细说明见HTG网页)。

尽管htgs数据库包含有来自许多物种的序列,你可以使用AdvancedBLAST页面来限定你的搜索只在人类。

∙BLASTgss数据库—将一个核酸或蛋白序列同随机的“单次(测序)阅读”的基因组调查序列比较,如同cosmid/BAC/YAC末端序列,exontrap获得的基因组序列,和AluPCR序列。

尽管gss数据库包含有来自许多物种的序列,你可以使用AdvancedBLAST页面来限定你的搜索只在人类。

∙基因

∙位点链接(LocusLink)—为校正过的序列和遗传位点的描述信息提供一个单次查询界面。

LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,同名,序列accesssionnumber,表型,EC号码,OMIM号码,Unigene簇,图谱信息,和相关的网址。

LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。

LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。

∙OMIM—在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。

∙RefSeq—NCBI数据库的参考序列。

校正的,非冗余集合,包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。

Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。

∙UniGene—被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。

序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。

∙序列

∙人类基因组测序—每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。

提供对基因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因信息,和选择出的参考文献。

列出完成的contig的大小和位置。

Contig可以被显示出来,以表示组成他们的GenBank中的记录的成分,或者那些由e-PCR确定的位于其上的STS标记。

Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang,etal描述的过程,并给于一个NT_*的accessionnumber,作为RefSeq计划的一部分。

关于各期HTG序列的详细说明见HTG网页。

∙RefSeq—NCBI数据库的参考序列。

校正的,非冗余集合,包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。

Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。

∙Entrez—对GenBank,EMBL,DDBJ,PIR-International,PRF,Swiss-Prot,andPDB数据库中的核酸和蛋白序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMedMEDLINE的访问。

Entrez包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,结构,和MEDLINE记录的表。

包括了来自〉70000个物种的序列数据,可以用物种字段来限制记录只在人类搜索。

∙UniGene—被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。

序列数据可以以cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。

∙DbEST—表达序列标签数据库—短的(300—500bp)的cDNA序列,代表mRNA的单次(测序)阅读。

常常有大量的EST被测序,并代表了在一个给定的组织或一个给定的发育阶段的基因表达的快照。

同时包含了由CGAP计划产生的ESTs,和来自差异显示及RACE实验的序列。

∙克隆

∙克隆登记—由多方人类基因组测序中心使用的数据库,用来记录哪些克隆已经被选来测序,哪些正在被测序,哪些已经完成,哪些已经被送到GenBank中去了。

包括BACs,PACs,cosmids,fosmids。

使用统一的克隆名字表示克隆在微量板上的位置(板号,行,和列),位置前面加上库的缩写,来产生唯一的名字。

包括了克隆定购的信息。

∙基因组图谱

∙Entrez基因组—链接到人类基因组测序站点的人类染色体视图。

Entrez基因组同时包括了一个人类线粒体的视图(通过真核细胞器来访问),可以查看完整情况或查看逐步详细的信息。

∙Entrez图谱浏览器—整合的染色体图谱—图谱浏览器是Entrez基

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1