NCBI的利用.docx

资源描述

NCBI的利用.docx

《NCBI的利用.docx》由会员分享，可在线阅读，更多相关《NCBI的利用.docx（14页珍藏版）》请在冰豆网上搜索。

NCBI的利用.docx

NCBI的利用

怎么使用NCBI

NCBI（NationalCenterforBiotechnologyInformation）,美国国家生物技术信息中心

[url]http:

//www.ncbi.nlm.nih.gov/[/url]

NCBI是NIH的国立医学图书馆（NLM）的一个分支。

NCBI提供检索的服务包括：

1．GenBank（NIH遗传序列数据库）：

一个可以公开获得所有的DNA序列的注释过的收集。

GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库（EMBL和DDBJ）交换数据建立起数据库的。

它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。

这三个组织每天交换数据。

其中的数据以指数形式增长，最近的数据为它已经有来自47000个物种的30亿个碱基。

2．MolecularDatabases（分子数据库）：

NucleotideSequence（核酸序列库）：

从NCBI其他如Genbank数据库中收集整理核酸序列，提供直接的检索。

ProteinSequence（蛋白质序列库）：

与核酸类似，也是从NCBI多个不同资源中编译整理的，方便研究者的直接查询。

Structure（结构）-——关于NCBI结构小组的一般信息和他们的研究计划，另外也可以访问三维蛋白质结构的分子模型数据库（MMDB）和用来搜索和显示结构的相关工具。

MMDB：

分子模型数据库—一个关于三维生物分子结构的数据库，结构来自于X-ray晶体衍射和NMR色谱分析。

Taxonomy（分类学）——NCBI的分类数据库，包括大于7万余个物种的名字和种系，这些物种都至少在遗传数据库中有一条核酸或蛋白序列。

其目的是为序列数据库建立一个一致的种系发生分类学。

3．LiteratureDatabases（文献数据库）

（1）PubMed是NLM提供的一项服务，能够对MEDLINE上超过1200万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问，并可以连接到参与的出版商网络站点的全文文章和其他相关资源。

（2）PMC/PubMedCenter：

也是NLM的生命科学期刊文献的数字化存储数据库，用户可以免费获取PMC的文章全文，除了部分期刊要求对近期的文章付费。

（3）OMIM（孟德尔人类遗传）：

有关人类基因和无序基因的目录数据库由VictorA.McKusick和他的同事共同创造和编辑的，由NCBI网站负责开发，其中也包括对MEDINE众多资源和Entrez系统的序列记录，以及NCBI中其他有关资源的链接。

（4）Books：

NCBI的书库不断收集生物医学方面的书籍，提供这些书籍的出版信息、摘要、目录和全文的连接，用户可以直接在检索文本框内输入一个观念就可以查询。

4．NCBI提供的附加的软件工具有：

开放阅读框寻觅器（ORFFinder），电子PCR，和序列提交工具Sequin和BankIt。

所有的NCBI数据库和软件工具可以从WWW或FTP来获得。

NCBI还有E-mail服务器，提供用文本搜索或序列相似搜索访问数据库一种可选方法。

NCBI网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、联系方式等信息，还提供了到NIH、NLM等的链接。

使用方法:

用户可以免费登陆NCBI的网站，NCBI为使用者提供了方便的检索系统和检索方法：

1．Entrez是NCBI为用户提供整合所有数据库的访问序列，定位，分类，和结构数据的搜索和检索工具系统，同时也提供序列和染色体图谱的图形视图。

用户进入系统或者进入任意一个数据库，都会看到简单检索的界面，选择数据库输入关键词即可进行查询。

Entrez也提供条件限制和高级检索、布尔逻辑查询。

使用新的Linkout服务，外部资源可以被链接到Entrez记录。

2．BLAST是一个NCBI开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

NCBIEducation

[url]http:

//www.ncbi.nlm.nih.gov/Education/index.html[/url]

网址详情:

这是NCBI在线教育资源的索引页，从这里出发你会找到NCBI提供的教学资源，这些教程不仅囊括了NCBI网站提供的最常用的工具和数据库（BLAST，Entrez，PubMed，NCBINews，Resourcepublications，MapViewerexercises，Structure，NCBIHandbook）的使用方法和信息,还有一些相关的分子生物学的基础入门知识（NCBIscienceprimer...）。

教程大多不仅有文字图片还有动画，直观易懂，目的就是一个让大家尽可能快而有效的掌握好NCBI的使用，在这个聚宝盆里淘到真金。

当然您如果想对所有NCBI的数据库和工具有更透彻深入的了解，请绝对不要错过共24章的NCBI手册（NCBIHandbook）

[url]http:

//www.ncbi.nlm.nih.gov/books/bv.fcgi?

rid=handbook[/url]

小何 2007-9-709:

GenBank数据库简介

[color=green][i]不错的内容，我来补充下[/i][/color][color=red]GenBank数据库简介[/color]

[b]基本信息：

[/b]

1.GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

是NIH遗传序列数据库，一个所有可以公开获得的DNA序列的注释过的收集。

GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。

唯一人类基因序列集合（UniGene），人类基因组基因图谱，分类学浏览器，同国立癌症研究所合作的癌症基因组剖析计划（CGAP）等数据库。

GenBank以指数形式增长，核酸碱基数目大概每14个月就翻一个倍。

2.纪录样本-关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

3.访问GenBank-通过EntrezNucleotides来查询。

用accessionnumber，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。

关于Entrez更多的信息请看下文。

用BLAST来在GenBank和其他数据库中进行序列相似搜索。

用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。

另外一种选择是可以用FTP下载整个的GenBank和更新数据。

4.增长统计-参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank增长）小节。

5.公布通知，最新-最近和即将有的变化，GenBank的分类，数据增长统计，GenBank的引用。

6.公布通知，旧-同上相同，是过去公布的统计。

7.遗传密码-15个遗传密码的概要。

用来确保GenBank中纪录的编码序列被正确的翻译。

[b]向GenBank提交数据：

[/b]

1.关于提交序列数据，收到accessionnumber，和对纪录作更新的一般信息。

2.BankIt-用于一条或者少数条提交的基于WWW的提交工具软件。

（请在提交前用VecScreen去除载体）

3.Sequin-提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。

可以独立使用，或者用基于TCP/IP的“networkaware”模式，可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。

（请在提交前用VecScreen去除载体）

4.ESTs-表达序列标签，短的、单次（测序）阅读的cDNA序列。

也包括来自于差异显示和RACE实验的cDNA序列。

5.GSSs-基因组调查序列，短的、单次（测序）阅读的cDNA序列，exontrap获得的序列，cosmid/BAC/YAC末端，及其他。

6.HTGs-来自于大规模测序中心的高通量基因组序列，未完成的（阶段0，1，2）和完成的（阶段3）序列。

（注意：

完成的人类的HTG序列可以同时在GenBank和HumanGenomeSequencing页面上访问。

）

7.STSs-序列标签位点。

短的在基因组上可以被唯一操作的序列，用于产生作图位点。

8.注：

SNPs-人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中（dbSNP）。

[b]国际核苷酸序列数据库合作组织：

[/b]

1.GenBank，DDBJ，EMBL-合作计划的概述，并链接到相应的主页。

GenBank，DDBJ（DNADataBankofJapan），andEMBL（EuropeanMolecularBiologyLaboratory）数据库共享的数据是每天都交换的，因此他们是相等的。

数据纪录的格式和搜索方式可能会不一样，但是accessionnumber，序列数据和注解都是一模一样的。

即，你可以用accessionnumberU12345在GenBank，DDBJ或EMBL中查找相应纪录，得到的结果是完全一样的序列数据，参考内容等等

2.DDBJ/EMBJ/GenBank特性表—特性表格式和标准被合作数据库用在序列记录的注释上，使得数据共享成为可能，包括详细的描述生物特性和特性限定语的附录，以及IUPAC规定的核苷酸和氨基酸的代号。

[b]FTPGenBankandDailyUpdates：

[/b]

1.GenBank普通文件格式—参见GenBank记录样本和在GenBank公布通知中的详细描述，下载大多数最近的完全公告和日常积累或非积累更新数据。

2.ASN.1格式—摘要句法记号1，国际标准组织（ISO）数据表示格式，下载大多数最近的完全公告和日常积累或非积累更新数据。

3.FASTA格式—定义行号后只跟随序列数据（示例），参见描述数据库的readme文件，包括nt.Z（每天更新的非冗余BLAST核酸数据库，包括GenBank+EMBL+DDBJ+PDB序列，但是不包括EST,STS,GSS,orHTGS序列），nr.Z（每日更新的非冗余蛋白质），est.Z,gss.Z,htg.Z,sts.Z,和其它文件。

[b]分子数据库：

[/b]

1.核酸序列

1、Entrez核酸：

用accessionnumber,作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索核酸序列记录（在GenBank+PDB中）。

更多的关于Entrez的信息见下。

如果要检索大量数据，也可使用BatchEntrez（批量Entrez）。

2、RefSeq：

NCBI数据库的参考序列。

校正的，非冗余集合，包括基因组DNAcontigs，已知基因的mRNAs和蛋白，在将来，整个的染色体。

Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。

3、dbEST：

表达序列标签数据库，短的、单次（测序）阅读的cDNA序列。

也包括来自于差异显示和RACE实验的cDNA序列。

4、dbGSS：

基因组调查序列的数据库，短的、单次（测序）阅读的cDNA序列，exontrap获得的序列，cosmid/BAC/YAC末端，及其他。

5、dbSTS：

序列标签位点的数据库，短的在基因组上可以被唯一操作的序列，用于产生作图位点。

6.、dbSNP：

单核苷酸多态性数据库，包括SNPs，小范围的插入/缺失，多态重复单元，和微卫星变异。

2.完整的基因组：

1、参见下面Genome和Maps部分，包括各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。

2、发UniGene：

被整理成簇的EST和全长mRNA序列，每一个代表一种特定已知的或假设的人类基因，有定位图和表达信息以及同其它资源的交叉参考。

序列数据可以以cluster形式在Unigene网页下载，完整的数据可以从FTP站点repository/UniGene目录下下载。

1）人类：

UniGene

2）小鼠：

UniGene

3）大鼠：

UniGene

4）斑马鱼：

UniGene

3、BLAST：

将你的序列同核酸库中的的序列比较，检索相似的序列。

（更详细的信息见下面Tools/Sequence相似搜索部分）

[b]蛋白序列：

[/b]

1、Entrez蛋白：

用accessionnumber,作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索蛋白序列记录（在GenPept+Swiss-Prot+PIR+RPF+PDB中）。

更多的关于Entrez的信息见下。

如果要检索大量数据，也可使用BatchEntrez（批量Entrez）。

RefSeq—NCBI数据库的参考序列。

Curated,非冗余集合包括基因组DNAcontigs,已知基因的mRNAs和蛋白，在将来，整个的染色体。

Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。

FTPGenPept—下载“genpept.fsa.Z”文件，这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA格式的氨基酸序列，这些记录都有一到两个CDS特性的描述。

2、完整基因组：

参见下面Genome和Maps部分，包括各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。

1）Entrez基因组：

提供了一个编码区的概要和各种物种的分类表（TaxTable）。

编码区概要列出了在基因组中所有的的蛋白，并提供链接到FASTA文件和BLAST。

分类表总结了蛋白BLAST分析的结果，建议他们的可能功能，并用颜色编码的图来显示物种同其它物种之间的关系（参见下面'Genomes和Maps,'部分Entrez基因组的一般描述）

2）FTP基因组蛋白：

从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa和蛋白表文件*.ptt。

参见readme文件。

蛋白表也可以在Entrez基因组中看到。

3、PROW：

Web上的蛋白资源，关于大约200种人类的CD细胞表面分子的简短官方向导。

互相检索，为每个CD抗原提供大约20中标准信息的分类（生化功能，配体，等等）

4、BLAST：

将你的序列同蛋白库中的的序列比较，检索相似的序列。

（更详细的信息见下面Tools/Sequence相似搜索部分）

[b]结构：

[/b]

1、结构主页—关于NCBI结构小组的一般信息和他们的研究计划，另外也可以访问分子模型数据库（MMDB）和用来搜索和显示结构的相关工具。

2、MMDB：

分子模型数据库—一个关于三维生物分子结构的数据库，结构来自于X-ray晶体衍射和NMR色谱分析。

MMDB是来源于Brookhaven蛋白数据库（PDB）三维结构的一部分，排除了那些理论模型。

MMDB重新组织和验证了这些信息，从而保证在化学和大分子三维结构之间的交叉参考。

数据的说明书包括生物多聚体的空间结构，这个分子在化学上是如何组织的，以及联系两者的一套指针。

利用将化学，序列，和结构信息整合在一起，MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。

MMDB的记录以ASN.1格式存储，可以用Cn3D,Rasmol,或Kinemage来显示。

另外，数据库中类似的结构已经被用VAST确认，新的结构可以用VASTsearch来同数据库进行比较。

3、Cn3D—“Seein3-D”，一个用于NCBI数据库的结构和序列相似显示工具，它允许观察3-D结构和序列—结构或结构—结构同源比较。

Cn3D用起来就象你浏览器上的一个帮助工具。

4、VAST—矢量同源比较搜索工具—一个在NCBI开发的计算算法，用于确定相似的蛋白三维结构。

每一个结构的“结构邻居”都是预先计算好的，而且可以通过MMDB的结构概要页面的链接访问。

这些邻居可以用来确认那些不能被序列比较识别的远的同源性。

5、VAST搜索—结构—结构相似搜索服务。

比较一个新解出的蛋白结构和在MMDB/PDB数据库中的结构的三维坐标。

VAST搜索计算一系列可能会被交互浏览的结构邻居，用分子图形来观察重叠和同源相似。

[b]分类学：

[/b]

1、NCBI的分类数据库主页—关于分类计划的一般信息，包括分类资源和同NCBI分类学家合作的外部管理者的列表。

2、分类浏览器—搜索NCBI的分类数据库，包括大于70000个物种的名字和种系，这些物种都至少在遗传数据库中有一条核酸或蛋白序列。

可以检索一个特定种或者更高分类（如属，科）的核酸，蛋白，和结构记录。

如果有新物种的序列数据被放到数据库中，这个物种就北加到（分类）数据库中。

NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。

[b]文献数据库概要：

[/b]

1、PubMed—一个关于生物医药科学的检索系统，包括引用，摘要，和杂志的索引术语。

它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。

PubMed包括MEDLINE和PREMEDLINE的完整内容。

它还包括一些被MEDLINE认为超出范围的文章和杂志，（这些文章或杂志）由于内容或在某一时期不在索引范围内。

因此PubMed是比MEDLINE的更大的集合。

2、杂志浏览器—允许你去查找收录到PubMed系统的杂志的名字，MEDLINE的缩写，或ISSN号码。

3、PubRef（开发中）—一个关于来自于广大范围的科学杂志的数目记录，和链接到出版商网址的全文。

PubRef包含了PubMEd，加上了来自其它学科的杂志出版商提供的引用和摘要。

因此它是比PubMed更大的集合。

这个计划的启动是因为NAS要求为科学领域的核心刊物提供一个“白皮书”服务。

4、PubMed中心（开发中）—PubMed中心是一个无障碍的NIH资源，用于在生命科学领域中同业互查的基础研究报告。

从2000年一月开始接受杂志文章。

所有在PubMed中心的材料将由目前任一主要的摘要和索引服务中列出的杂志提供，或者在编辑委员会中拥有3个以上有主要资金机构的研究经费的拥有人的杂志提供。

5、OMIM—在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录，有链接到其它相关的文献参考，序列记录，和相关数据库。

6、书籍—同书籍出版商合作NCBI为网络改编了教科书，并把他们链接到PubMed—生物医药书目数据库。

这是为了给PubMed提供背景信息，这样使用者可以探究在PubMed搜索结果中不熟悉的概念。

目前收录的书有：

7、MolecularBiologyoftheCell,3rded.AlbertsB.,BrayD.,LewisJ.,RaffM.,RobertsK.,WatsonJ.D.,1994,GarlandPublishing.

8、外部链接—一个登记服务，用于建立从在Entrez中的特定的文章，杂志，或生物数据到外部网址的链接。

第三方可以提供一个URL，资源名字，关于他们网址的简要的描述，和关于从NCBI数据的哪里他们希望建立链接的详细说明。

这个详细说明可以用对Entrez有效的布尔查询来写，也可以用特定的文章或序列的标志列表来写。

这样NCBIPubMed的用户将可以通过“NCBI小房间”服务（开发中）来选择哪个外部链接在他们的搜索中是可见的。

9、引用匹配—允许你找到任何一篇在PubMed数据库中的文章的PubMedID或MEDLINEUID，给出书目信息（杂志，卷，页码等）。

10、单篇文章的引用匹配。

11、许多文章的批量引用匹配。

12、E-mail引用匹配也是可以的，也可以用于单篇或许多文章。

如果要获得帮助文件，给[email=citation_matcher@ncbi.nlm.nih.gov]citation_matcher@ncbi.nlm.nih.gov[/email]写一封只有内容为HELP的E-Mail。

[b]GenomesandMapsOverview：

[/b]

1、Entrez基因组：

人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒，和真核细胞器。

2、Entrez基因组（各种物种）

3、Entrez基因组—超过800种在GenBank中被完整测序的物种，包括大于500种病毒，〉25种细菌，酵母，和许多viroids，质粒，和细胞器。

还包括正在进行中的基因组，比如人，小鼠，线虫，疟原虫，果蝇，利什曼原虫，水稻，和玉米。

提供完成的基因组/染色体的图形概览，并可以探究那些逐步细化的区域。

也提供那些已经被NCBI工作人员分析过的物种的编码区的摘要和TaxTables。

另外，EntrezMapViewer，Entrez基因组的一个软件组成部分，提供整合的果蝇（细胞遗传学和序列图谱）和人类（细胞遗传学，遗传连锁，序列，放射杂交，和其它图谱）的染色体图谱的浏览。

4、通过每个物种的Entrez基因组页面来下载〈350kb的基因组。

5、通过NCBIftp站点来下载〉350kb的基因组—参见在genbank/genomes目录下的readme文件，ftp链接在每个物种的Entrez基因组页面上也有。

[b]NCBI站点地图---其他基因组数据介绍：

[/b]

1、小鼠基因组

1）小鼠基因组资源向导：

把从各个中心来的各种小鼠相关的资源整合在一起，包括序列，图谱，和克隆信息以及指向小鼠种系和突变资源的指针。

2）小鼠基因组测序：

小鼠基因组计划的测序进展，HTG序列contigs（可以用大小和染色体号来浏览）由测序中心的数据建立，可以contig或染色体的形式来下载。

3）小鼠UniGene：

被整理成簇的EST和全长mRNA序列，每一个代表一种特定已知的或假设的基因，有定位图和表达信息以及同其它资源的交叉参考。

序列数据可以以cluster形式在Unigene网页下载，完整的数据可以从FTP站点repository/UniGene目录下下载

4）位点链接（LocusLink）：

为校正过的序列和遗传位点的描述信息提供一个单次查询界面。

LocusLink给每个位点发布一个稳定的ID，并提供官方的命名，序列accesssionnumber，Unigene簇，图谱信息，和相关的网址。

LocusLink是NCBI，人类基因命名委员会，OMIM和其它组织的合作结果。

LocusLink目前包含人类，小鼠，大鼠，斑马鱼，和果蝇的位点，物种可以被分开或合在一起查询。

5）Entrez：

包括了来自〉70000个物种的序列数据，可以用物种字段来限制记录只在小鼠搜索。

6）人类/小鼠同源图：

UniversityofCaliforniaatDavis的M.F.Seldin建立，一张比较人和老鼠在同源区段DNA上基因的表，按在每个基因组上的位置排列。

2、大鼠基因组

1）大鼠UniGene：

被整理成簇的EST和全长mRNA序列，每一个代表一种特定已知的或假设的基因，有定位图和表达信息以及同其它资源的交叉参考。

序列

展开阅读全文