1、NCBI中各符号代表的意思GenBank 中字符的意思Nucleotide 数据库分为三个子数据库:EST :表达序列标记数据库GSS :基因组测序序列数据库CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列 MeSH: 查询缩写基因的全称3、RefSeq(Reference Sequence)序列接受号:(1)mRNA 记录(NM_*): e.g.:NM_000492(2)基因组的DNA重叠群(NT_*): e.g.:NT_000347(3)完整的基因组或染色体(NC_*): e.g.:NC_000907(4)基因组的局部区域(NG_*): e.g.:NG_0000
2、19(5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*): e.g.:XM_000483 GenBank记录中特性表中的主要关键词:关键词解 释关键词解 释misc_feature生物学特性无法用特性表关键词描述的序列promoter转录起始区misc_difference序列特性无法用特性表关键词描述的序列CAAT_signal真核启动子上游的CAAT盒,与RNA结合相关conflict同一序列在不同的研究中在位点或区域上有差异TATA_signal真核启动子的TATA盒unsure序列不能确定的区域-35_signal原核启动子中的-35框old_sequence该序列
3、对以前的版本做过修订-10_signal原核启动子的Pribow盒variation包含稳定突变的序列GC_signal真核启动子的GC盒modified_base修饰过的核苷酸RBS核糖体结合位点gene已识别为基因或已命名的序列区域polyA_signalRNA转录本的剪切识别位点misc_signal无法用信号特性关键词描述的信号序列enhancer增强子关键词解 释关键词解 释attenuator与转录终止有关的序列CDS蛋白质编码序列terminator转录终止序列sig_peptide编码信号肽的序列rep_origin双链DNA复制起始区transit_peptide转运蛋白编码
4、序列misc_RNA无法用RNA关键词描述的转录物或RNA产物mat_peptide编码成熟肽的序列prim_transcript初始转录本intron内含子precursor_RNA前体RNApolyA_siteRNA转录本的多聚腺苷酸化位点mRNA信使RNArRNA核糖体RNA5clip前体转录本中被剪切掉的5端序列tRNA转运RNA3 clip前体转录本中被剪切掉的3端序列scRNA小细胞质RNA5UTR5非翻译区snRNA小核RNA3UTRexon3非翻译区外显子snoRNA加工和修饰rRNA的小核RNA关键词解 释关键词解 释immunoglobulin_relatedrepeat_
5、unit单个的重复元件C_region免疫相关蛋白上的不变区LTR长末端重复序列D_segment免疫球蛋白重链的可变区,T细胞受体链Satellite卫星重复序列J_ segment免疫球蛋白重链、轻链以及T细胞、的结合链misc_binding无法描述的核酸序列结合位点N_ region插入重排免疫球蛋白片段间的核苷酸primer_bind复制、转录的引物结合位点S_ region免疫球蛋白重链的开关区protein_bind蛋白质结合区V_ region编码免疫球蛋白的可变区N末端的序列STS测序标签位点V_ segment编码免疫球蛋白的可变区的序列misc_recomb无法用重组特性
6、关键词描述的重组事件repeat_region基因组中所包含的重复序列iDNA通过重组所消除的DNAmisc_structure无法用结构关键词描述的核酸序列高级结构或构型stem_loop发夹结构D_loop线粒体中DNA中的取代环GenBank记录中特性表中的限定词:限定词含 义限定词含 义/allele=给定基因的等位基因/codon_start=相对于序列第一个碱基,编码序列密码子的偏移量/bound_moiety=嵌合范围/country=DNA样本的来源国/cell_type=获得序列的细胞类型/db_xref=其他数据库信息的交叉索引号/citation=已被引用的参考文献数/d
7、irection=DNA复制方向/clone_lib=获得序列的克隆文库/environmental_sample=序列直接从环境材料中获得而没有指明来源物种限定词含 义限定词含 义/exception=指明DNA序列未按通常的生物学规律翻译,如RNA编辑/PCR_conditi-ons=描述PCR的反应条件/frequency=在种群中发生变异的频率/pop_variant=获得序列的群体变异种名称/germline如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA/product=序列编码产物的名称/insertion_seq=序列来源于某种插入元件/anticodon
8、=tRNA反义密码子的位置及它所编码的氨基酸/isolate=序列来源的生物个体/cell_line=获得序列的细胞系/lab_host=为扩增序列来源物种所用的实验室宿主/chromosome=获得序列的染色体/macronuclear指明DNA来源于染色体分化的大核期/clone=获得序列的克隆子/note=评论及附加信息/codon=指出与参考密码子不同的密码子/organelle=获得序列的细胞器/EC_number=序列产物的酶学编号/sub_strain=获得序列的来源微生物亚种/transl_table=描述在翻译中与通用密码表不同的密码表/tissue_type=获得序列组织类
9、型/usedin=表明该特性在其他检索中也被使用/translation=按通用或指定的密码子表翻译的氨基酸序列/virion病毒颗粒限定词含 义限定词含 义/cons_splice=区分内含子剪切位点和“5-GT.AG-3”剪切位点/map=相关特性在基因图谱上的位置/cultivar=所获序列植物的栽培变种/mod_base=被修饰碱基的简写/dev_stage=序列来源于某种生物的特定发育阶段/number=从53注明遗传元件的顺序/evidence=序列特性来源于实验还是推理/organism=提供测序用遗传物质的物种的科学名称/focus指出在记录中的来源特性在其他物种中还有不同的来
10、源特性/phenotype=序列特性所导致的表型/function=序列所代表的功能/plasmid=获得序列的质粒名称/haplotype=序列来源于某种物种的单倍体/protein_id=蛋白质的检索号/isolation_sou-rce=描述序列来源物种的生理、环境和地理信息/proviral整合在基因组中的前病毒/label=序列特性的俗名/rearranged如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA限定词含 义限定词含 义/rpt_family=重复序列/transposon=转座子/rpt_unit=指明重复区域的重复元件构成/variety=获得序列的
11、生物变种/serotype=同一物种的不同血清学特征/pseudo假基因/sex=获得序列的物种性别/replace=表明特性间的间隔序列已被替换/specimen_vou-cher=指明来源物种保存于什么地方/rpt_type=重复序列的组织方式/strain=获得序列的菌珠/sequenced_m-ol=获得序列的分子类型/sub_species=获得序列的来源物种的亚种/serovar=同一原核生物的血清学特征/tissue_lib=获得序列组织库/specific_host=获得序列的天然宿主/transgenic指明物种的来源特性是否是转基因受体/standard-name=特性的通
12、用名称/transl_except=标明序列中未按指定密码子表翻译的氨基酸的位置/sub_clone=获得序列的亚克隆 BLAST1.blastn (nucleotide blast)是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。2.blastp (protein blast)是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。3.blastx是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。4.tblastn是蛋白序列到
13、核酸库中的一种查询。与blastx相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。5.tblastx是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。AccessionMoleculeMethodNoteAC_123456GenomicMixedAlternate complete genomic molecule. This prefix is used for records that are provided to reflect an alternat
14、e assembly or annotation. Primarily used for viral, prokaryotic records.AP_123456ProteinMixedProtein products; alternate protein record. This prefix is used for records that are provided to reflect an alternate assembly or annotation. The AP_ prefix was originally designated for bacterial proteins b
15、ut this usage was changed.NC_123456GenomicMixedComplete genomic molecules including genomes, chromosomes, organelles, plasmids.NG_123456GenomicMixedIncomplete genomic region; supplied to support the NCBI genome annotation pipeline. Represents either non-transcribed pseudogenes, or larger regions rep
16、resenting a gene cluster that is difficult to annotate via automatic methods.NM_123456NM_123456789mRNAMixedTranscript products; mature messenger RNA (mRNA) transcripts.NP_123456NP_123456789ProteinMixedProtein products; primarily full-length precursor products but may include some partial proteins an
17、d mature peptide products.NR_123456RNAMixedNon-coding transcripts including structural RNAs, transcribed pseudogenes, and others.NT_123456GenomicAutomatedIntermediate genomic assemblies of BAC and/or Whole Genome Shotgun sequence data.NW_123456NW_123456789GenomicAutomatedIntermediate genomic assembl
18、ies of BAC or Whole Genome Shotgun sequence data.NZ_ABCD12345678GenomicAutomatedA collection of whole genome shotgun sequence data for a project. Accessions are not tracked between releases. The first four characters following the underscore (e.g. ABCD) identifies a genome project.XM_123456XM_123456
19、789mRNAAutomatedTranscript products; model mRNA provided by a genome annotation process; sequence corresponds to the genomic contig.XP_123456XP_123456789ProteinAutomatedProtein products; model proteins provided by a genome annotation process; sequence corresponds to the genomic contig.XR_123456RNAAu
20、tomatedTranscript products; model non-coding transcripts provided by a genome annotation process; sequence corresponds to the genomic contig.YP_123456YP_123456789ProteinMixedProtein products; no corresponding transcript record provided. Primarily used for bacterial, viral, and mitochondrial records.
21、ZP_12345678ProteinAutomatedProtein products; annotated on NZ_ accessions (often via computational methods).NS_123456GenomicAutomatedGenomic records that represent an assembly which does not reflect the structure of a real biological molecule. The assembly may represent an unordered assembly of unplaced scaffolds, or it may represent an assembly of DNA sequences generated from a biological sample that may not represent a single organism.
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1