一步一步教你使用NCBI数据库资源Word格式.docx
《一步一步教你使用NCBI数据库资源Word格式.docx》由会员分享,可在线阅读,更多相关《一步一步教你使用NCBI数据库资源Word格式.docx(11页珍藏版)》请在冰豆网上搜索。
用户在给出DNA模板的同时还可以限定正向引物或反向引物,这样,NCBI就只会给出另一条引物。
如果用户给出了模板DNA和两条引物序列,Primer-BLAST就只会运行BLAST程序,帮助用户对引物进行分析。
用户也可以只给出两条引物而不给出模板序列,这时Primer-BLAST会通过BLAST程序分析出与这对引物最匹配的模板序列。
Primer-BLAST进行BLAST搜索的数据库包括RefSeqmRNA、BLASTnr和12种模式生物基因组数据库。
1.3BLAST的改进及更新
NCBI对BLAST进行了全新的改版,推出了最新的webBLASTreport。
在最新的BLAST比对结果页面中,“图形化概要(GraphicSummary)”、“具体描述(Descriptions)”以及“序列比对(Alignments)”等部分页面都可以展开和收起。
此外,网页上还提供了“结果输出格式选项(Formatting)”和“结果下载选项(download)”,在下载选项中还新增了CSV格式下载。
这样,读者可以轻松地将BLAST的比对结果输入到表格处理软件中去。
另外,BLAST比对结果页面上的“Alignments”部分还提供了每一条命中序列在EntrezGENE中的相关信息,这些信息包括基因名称、来源物种以及在PubMed数据库中与该基因有关条目的数目等。
“BLASTtree”
1.4EntrezGene改进及更新
基因组注释工作当中有一项重要的工作就是定位基因重叠群序列(contigsequences),即在染色体中找出某个基因的定位。
实际上基因组测序工作就是将许多基因重叠序列彼此拼接,最后拼出“完整(中间会有一些缝隙)”的基因组图谱。
这项工作可以直接将某个基因与某段基因重叠群序列对应起来,但不能直接将该基因与染色体联系起来,而这恰恰是生物学家最感兴趣的地方。
因此,为了能让用户在搜索基因的同时,也能了解到一些该基因在染色体中的定位情况,EntrezGene推出了新的“Limits”服务,用户可以使用该服务在基因组范围内进行基因搜索。
用户可以在某个物种染色体的某个区域里进行基因搜索。
EntrezGene会按以下三种顺序对搜索出的基因进行排序:
1.按照基因名排序。
2.按照相关性排序,即按照结果与用户搜索所使用的关键词,例如基因名称等的匹配程度排序。
3.按照基因重要性排序,即按照该基因在PubMed、Homologene、ProteinClusters、OnlineMendelianInheritanceinMan(OMIM)或Bookshelf中文献数量的多少进行排序。
2ENTREZ搜索系统
2.1Entrez
Entrez数据库是一个整合了多个数据库的综合检索系统,它包含了35个不同数据库的信息,共收录有超过350,000,000条记录(表1)。
Entrez数据库支持使用简单的布尔查询(Booleanqueries)方式进行文本搜索,可以下载不同格式的数据资料,还可以按照生物学关系提供与其它相关记录的链接。
这些链接给出的都是最简要的信息,例如会给出一条序列和报道该序列的论文摘要,或者会给出一条蛋白质序列的编码DNA序列或该蛋白质的3D结构图。
这种通过计算机运算,即基于比较序列相似性或PubMed中摘要的相似性,所给出的相关链接信息可以以最快的速度提供给用户大量的相关信息。
还有一种叫做“LinkOut”的功能将这种链接功能扩展到了与外部数据库,例如各物种基因组数据库之间的链接。
Entrez中搜索到的数据可以以多种格式输出,也可以打包下载或逐个下载。
2.2MyNCBI
MyNCBI功能是为了方便用户储存个人配置信息,例如搜索条件、LinkOut参数或文件出处等而设的。
用户登陆自己的MyNCBI帐户后,就可以进行保存搜索设置、管理邮件等操作了。
MyNCBI中有一种称作“Collections”的功能可以让用户储存搜索结果和文献结果。
BLAST中也设有类似的功能,这样用户就可以使用同一条件进行多次比对了。
2.3Entrezprogrammingutilities(E-Utilities)
E-Utilities(Entrez应用程序)由8种服务器程序组成,借助E-Utilities可以设置一套标准参数进行搜索、链接和下载数据(表2)。
用户可以到NCBI主页上的‘EntrezTools’链接中了解更多有关E-Utilities的信息。
2.4Taxonomy
NCBITaxonomy(分类)数据库在Entrez生物学数据库中起到了组织中心的作用。
该数据库为每一个分类学上的节点,从超界节点(superkingdoms)到亚种节点(subspecies),提供数据链接服务。
分类数据库以每月增加2200个新分类单位的速度在增长,共收录有将近300,000种物种信息,这些信息为“属(genus)”级别,或者虽然未达到“属(genus)”级别,但在Entrez至少收录有一条该物种的核酸序列或蛋白质序列信息。
使用Taxonomy网页可以了解该物种在分类学上的地位,也可以在某一物种范围内对Entrez数据库进行搜索。
3BLAST序列相似性搜索程序
BLAST程序是一种进行序列相似性搜索的程序,它可以对核酸序列或蛋白质序列进行分析。
经过BLAST程序比对之后会得到各种序列结果,例如转录体序列(UniGene)信息、基因序列(Gene)信息、3D结构信息(MMDB)或芯片信息(GEO)等。
用户也可以使用MyNCBI功能保留BLAST中设定的搜索题目、近期搜索结果和搜索参数等信息。
还有一种BLAST程序——
3.1BLAST
BLAST默认的比对信息数据库包括NCBI中的人类基因组数据库和人类RefSeq数据库。
比对之后,BLAST会按照评分高低、序列相似度对结果进行排序,另外BLAST还可以对小鼠数据库以及其它数据库进行比对。
蛋白质序列的默认数据库包括GenBank非冗余数据库、RefSeq、Swiss-Prot、PDB、PIR和PRF等。
此外,还包括这些数据库下的子数据库以及其它一些专利数据库和诸如核酸数据库等环境样品数据库(environmentalsamples)。
3.2BLASToutputformats
标准的BLAST输出格式包括默认的配对比对格式(defaultpairwisealignment)、搜索定位的多序列比对格式(query-anchoredmultiplesequencealignmentformats)、简单的可解析的HitTable格式以及按照分类学给出的报告格式等。
一种叫做“按照同一性进行配对(Pairwisewithidentities)”的格式能更好地突出目标序列与检索序列之间的差别。
而WebBLAST中提供的树状浏览格式则会按照搜索出的目标序列与检索序列之间的距离不同将这些目标序列进行聚类,形成一幅树状图来显示结果。
BLAST比对之后给出的每一种格式的比对结果都会有一个分值和E值。
用户也可以设定一个E值的阈值来筛选比对结果。
3.3MegaBLAST
MegaBLAST也是一种BLAST程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。
使用者通过网页使用MegaBLAST进行批量比对操作,这比使用标准的BLAST程序要快10倍。
MegaBLAST在NCBI基因组BLAST页面下是默认的搜索工具,借助它能对增长迅速的TraceArchives数据库和标准BLAST使用的数据库进行快速检索。
NCBI还为跨物种核酸序列快速搜索提供了DiscontiguousMegaBLAST,它使用非重叠群字段匹配算法(noncontiguouswordmatch)来进行核酸比对。
DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。
3.4GenomicBLAST
NCBI在MapViewer中还为100多个物种设有GenomicBLAST。
通过默认的GenomicBLAST既能对某个物种的基因组序列进行搜索,也能对其它的数据库进行搜索,比如RefSeqs数据库、EST数据库等。
4文献资源
4.1PubMed数据库
目前,PubMed数据库中收录有自1860年以来20,400种生命科学类杂志、刊物刊登过的超过1800万条的文献记录。
这些文献中有980万条摘要信息,最早的记录可追溯至19世纪80年代,其中有870万条可以检索到全文。
PubMed数据库与其它Entrez数据库都保持着密切联系,这样可以在不同的数据库之间架起一座连接的桥梁。
PubMed数据库还会通过计算机自动检索出包含相近MeSH词汇、文献题目以及摘要的相关文献信息提供给用户。
默认的“AbstractPlus”输出格式给出了该文献的摘要信息和五篇与该文献相关信息的简单介绍,这样用户就可以获得更多的有关资讯了。
4.2PubMedCentral
PubMedCentral是一个收录生命科学领域同行评审期刊(PeerReviewedJournals)文献的数据库,现收录超过160万条全文文献,并且仅去年一年就增长了51%。
而且,包括《核酸研究》(NucleicAcidsResearch)在内的480多种期刊会为PubMedCentral提供全文文献。
所有参与PubMedCentral的出版商也都必须在文献出版后12个月之内免费为PubMedCentral提供全文文献。
由于NIH于2008年4月7日开始执行向公众免费开放使用的政策,故而PubMedCentral也必须免费向公众开放使用。
如此一来,用户使用Entrez就可以搜索到PubMed和PubMedCentral中的所有文献信息了。
4.3NCBIBookshelf、NLMCatalog以及Journalsdatabase
NCBIBookshelf通过与作者和出版商合作,收录了86种在线教科书和生物医药类图书。
NCBIBookshelf作为独立于Entrez数据库的一个单独数据库,它里面的信息也可以通过文本搜索或Entrez数据库,例如PubMed、PubMedCentral、Gene和OMIM中的链接搜索到。
NCBIBookshelf中的图书不是象普通图书那样一本一本的存放的,而是按照内容将它们分成了230,000个不同的部分、章节进行储存的。
用户浏览其中一个内容的时候也可以跳到该书的其它部分或者直接搜索这本书中的特定内容进行阅读。
NLMCatalog为藏书超过130万册的美国国立卫生图书馆(NLM)记录设立目录信息,包括杂志、图书、手稿、计算机软件、录音文件和其它电子资源。
每一条记录都可链接到NLMLocatorPlus和具有相近题目或MeSH词汇的相关文件目录信息。
Journalsdatabase(期刊数据库)包含了每一个Entrez数据库中的所有期刊信息。
目前共收录有超过22,000条记录,期刊数据库为每一份期刊都建立了ISO刊名缩写索引、出版日期索引和NLMcatalog链接索引以及Entrez中引用该期刊中文献的索引。
5基因序列信息以及相关序列信息
5.1数据库
5.1.1EntrezGene
EntrezGene数据库为用户提供基因序列注释和检索服务,还会链接到NCBI的MapViewer、EvidenceViewer、ModelMaker、BLASTLink(Blink)、proteindomainsfromtheConservedDomainDatabase(CDD)等数据库资源以及其它与基因相关的资源。
EntrezGene数据库收录了来自5300多个物种的430万条基因记录。
而且,NCBI除了拥有自己的注释工作人员之外,还在不断从许多其它国际合作组织那里获取新的基因注释记录信息。
5.1.2UniGene和ProtEST
UniGene从属于GenBank的一部分,专门收集转录体序列数据,包括EST序列和非冗余序列,每一条UniGene记录都代表一个潜在的基因。
UniGene收录了GenBank中来自所有物种的将近70,000条EST序列,这些物种中包括58种动物、43种植物和真菌以及6种真核生物。
现在,在构建基因表达谱芯片时都是参考UniGene中的数据来进行设计的。
UniGene数据库每周都会更新EST信息,每两个月会更新序列信息。
ProtEST作为UniGene序列的辅助确认工具会预先对序列进行BLAST比对,它所使用的比对方式是将UniGene核酸序列的6种可能翻译蛋白质序列与模式生物蛋白质序列进行比对。
5.1.3HomoloGene数据库
HomoloGene数据库是一个在20种完全测序的真核生物基因组中自动检索同源基因的系统,包括直系同源与旁系同源。
HomoloGene的结果报告包括基因同源性和来自OMIM、小鼠基因组信息学(MouseGenomeInformatics,MGI)、斑马鱼信息网络(ZebrafishInformationNetwork,ZFIN)、酵母基因组数据库(SaccharomycesGenomeDatabase,SGD)、直系同源基因簇(ClustersofOrthologousGroups,COG)和果蝇数据库(FlyBase)的基因表型信息。
HomoloGene下载功能能下载HomoloGene中的转录体、蛋白质和基因组序列信息,还能下载基因组中特定基因的上游和下游序列。
5.1.4ReferenceSequences
ReferenceSequences(RefSeq)数据库是一个收录注释过的非冗余转录体、蛋白质和基因组序列数据库。
2008年,ReferenceSequences数据库收录的记录增加了40%。
同年7月公布的ReferenceSequences数据库30共收录了来自5400种不同物种的300万条核酸序列和560万条蛋白质序列。
用户可以通过Entrez核酸和蛋白质数据库搜索到RefSeq序列,也可以通过NCBIFTP站点进入RefSeq数据库。
5.1.5GenBank和其它数据库来源的序列
用户可以通过三个Entrez数据库——Nucleotide、EST和GenomeSurveySequence(GSS)(这三个数据库在E-Utilities中分别称作nuccore、nucest和nucgss)搜索到GenBank中的序列。
EntrezNucleotide数据库含有除了收录之外的GenBank中所有的序列,它还收录有全基因组鸟枪法测序序列、第三方注释序列(ThirdPartyAnnotationsequences)和Entrez结构数据库中的序列。
对这些记录中编码序列概念上的翻译信息都收录在了Entrez蛋白质数据库中。
EST数据库收录了GenBankEST中的所有数据和没有生物学注释信息的“单分子识别首次通过(first-passsingle-read)”的cDNA序列。
同样,GenBank中的GSS数据库也收录了没有生物学注释信息的单分子识别首次通过的基因组序列。
5.2分析工具
5.2.1ORFFinder、Spidey和Splign
NCBI提供了几种分析工具可以帮助用户在基因组内发现编码序列。
OpenReadingFrame(ORF)Finder程序可以将一段DNA序列按照6种进行翻译,然后返回某一段DNA序列中可能的ORF。
Spidey工具将一组真核生物的mRNA序列与一个基因组序列进行比对,使用4种物种的RNA剪切模型(脊椎动物、果蝇、秀丽隐杆线虫和植物)来预测RNA剪切位点。
Splign是一种通过比对cDNA和基因组序列来发现剪切位点的工具,它可以在测序出现错误的情况下使用,还可以进行跨物种的比对。
Splign使用了一种Needleman-Wunsch算法,与区域化算法(compartmentizationalgorithm)一起使用能发现可能的基因位点。
用户可以在Splign网页上下载单独为大批量分析而专门设计的Splign工具使用。
5.2.2ElectronicPCR(e-PCR)
5.2.3ConservedCDSdatabase(CCDS)
不同的科研小组使用他们各自的方法研究同一物种基因组时,对于基因组中的基因定位可能会得到相似但不完全相同的结论。
这样,就会对其它的科研工作者造成困扰。
在所有的模式生物中,目前对人类和小鼠的基因组序列研究得最多也最透彻,因此它们最适合用来作为“标准的(consensus)”基因注释的“实验材料”。
6基因组信息
6.1数据库
6.1.1EntrezGenome
EntrezGenome数据库收录了850多种微生物、3100多种病毒以及1600多种真核生物细胞器的完整基因组数据以及将近50种动物、绿色植物和真菌的700多条染色体信息,总共收录有6200多条序列,其中有882条是去年新增的序列信息。
而对于更高等的真核生物基因组,EntrezGenome数据库会直接链接到NCBIMapViewer。
原核生物、病毒和真核生物细胞器的基因组则可以链接到专门的页面和BLAST页面。
另外还专门设有植物基因组页面(PlantGenomesCentralWebpage),在上面可以查询到完整的植物基因组测序计划、植物基因组BLAST或者MapViewer等信息。
6.1.2EntrezGenomeProject
EntrezGenomeProject数据库(Entrez基因组计划数据库)向用户提供了一个有关正在进行中的大规模植物基因组测序、组装、注释和作图工作的全面概况。
目前,该数据库显示,一共对2200种植物进行了测序工作,其中750种已经完成了所有工作,700种正处于草图组装阶段。
该数据库的规模还在不断扩大,以至于还囊括了多个单独的测序项目,例如病毒群体计划(viralpopulationprojects)、对16S核糖体RNA元基因库(16SribosomalRNAmetagenomic)等靶位点的测序计划(targetedlocussequencingprojects)以及转录组计划等。
Entrez基因组计划数据库与其它Entrez数据库,例如Entrez核酸数据库和Entrez基因组数据库以及NCBI内部或者外部资源都有广泛的联系。
Entrez基因组计划还为原核生物的某些特点,例如表型、活力、致病性和对生存盐浓度、温度、氧气浓度、pH值等环境因素设置了索引,这对于研究原核生物的生物学家们来说无疑是一项非常有用的功能。
NCBI鼓励各个测序中心在开始他们的测序项目之前提前登记自己的项目安排,这样就能更好的统筹安排,共享资源了。
6.1.3NCBITraceArchives
TraceArchives数据库储存了由凝胶/毛细血管测序平台(例如AppliedBiosystemsABI3730)测序获得的序列数据。
至今,TraceArchives数据库包含有4500个品种的共计超过19亿(12%为人类数据)的序列数据。
6.1.4ShortReadArchive
ShortReadArchive(SRA)数据库里收录的数据都是由新一代测序仪(例如Roche-454、IlluminaGenomeAnalyzer、AppliedBiosystemsSOLiDSystemplatforms)测序产生的基因序列信息。
从2007年开始,SRA已经迅速累积到了1.3Tbp,共180亿条小片段,约占人类基因组序列总长度的85%。
SRA的出现为大家进行数据挖掘提供了更多的机会。
出于方便广大用户使用的考虑NCBI还将为SRA数据建立索引,同时更多的辅助工具,例如搜索及比对等功能也将陆续开发出来。
6.2分析工具及资源
6.2.1MapViewer
6.2.2ModelMaker以及EvidenceViewer
ModelMaker(MM)是用来构建转录模型的一种工具,它将通过由从头预测法(abinitiopredictions)预测出来的外显子以及通过与GenBank中的转录体数据库EST和RefSeq比对之后得来的外显子,与NCBI的人类基因组数据库结合在一起来构建转录模型。
EvidenceViewer(EV)则将所有能支持基因注释信息正确性的序列信息证据进行了归纳总结,它采用的是将RefSeq、EST等GenBank中的转录体信息与基因组重叠群进行比对的方法。
EV显示了每一个外显子的详细比对结果,并突出显示了其中不匹配的部分。
6.2.3EntrezcancerChromosomes
EntrezcancerChromosomes(Entrez癌症染色体)数据库包含了与人类癌症有关的人类染色体畸变信息,例如基因缺失或转位等。
Entrez癌症染色体数据库由三个部分组成,即NCI/NCBISKY(SpectralKaryotyping)/M-FISH(Multiplex-FISH)和CGH(ComparativeGenomicHybridization)数据库;
美国国立癌症研究院(NCI)为癌症染色体畸变信息设立的Mitelman数据库以及NCI为再发癌症染色体畸变设立的数据库。
每一个畸变都以图形的形式表现出来,并附之相关临床病例信息和文献信息。
6.2.4TaxPlot、GenePlot和gMap
TaxPlot可以同时给出来自两个物种蛋白质之间的相似性以及原核生物或真核生物参考物种的完整基因组信息。
与其相关的另一个工具GenePlot则可