NCBI中各符号代表的意思.docx

上传人:b****7 文档编号:8726968 上传时间:2023-02-01 格式:DOCX 页数:10 大小:19.68KB
下载 相关 举报
NCBI中各符号代表的意思.docx_第1页
第1页 / 共10页
NCBI中各符号代表的意思.docx_第2页
第2页 / 共10页
NCBI中各符号代表的意思.docx_第3页
第3页 / 共10页
NCBI中各符号代表的意思.docx_第4页
第4页 / 共10页
NCBI中各符号代表的意思.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

NCBI中各符号代表的意思.docx

《NCBI中各符号代表的意思.docx》由会员分享,可在线阅读,更多相关《NCBI中各符号代表的意思.docx(10页珍藏版)》请在冰豆网上搜索。

NCBI中各符号代表的意思.docx

NCBI中各符号代表的意思

GenBank中字符的意思

Nucleotide数据库分为三个子数据库:

·EST:

表达序列标记数据库

·GSS:

基因组测序序列数据库

·CoreNucleotide:

包含所有未被以上两个子数据库收录的核苷酸序列

●MeSH:

查询缩写基因的全称

3、RefSeq(ReferenceSequence)序列接受号:

(1)mRNA记录(NM_*):

e.g.:

NM_000492

(2)基因组的DNA重叠群(NT_*):

e.g.:

NT_000347

(3)完整的基因组或染色体(NC_*):

e.g.:

NC_000907

(4)基因组的局部区域(NG_*):

e.g.:

NG_000019

(5)从人类基因组注释、加工得到的序列模型(XM,XP,orXR_*):

e.g.:

XM_000483

●GenBank记录中特性表中的主要关键词:

关键词

解释

关键词

解释

misc_feature

生物学特性无法用特性表关键词描述的序列

promoter

转录起始区

misc_difference

序列特性无法用特性表关键词描述的序列

CAAT_signal

真核启动子上游的CAAT盒,与RNA结合相关

conflict

同一序列在不同的研究中在位点或区域上有差异

TATA_signal

真核启动子的TATA盒

unsure

序列不能确定的区域

-35_signal

原核启动子中的-35框

old_sequence

该序列对以前的版本做过修订

-10_signal

原核启动子的Pribow盒

variation

包含稳定突变的序列

GC_signal

真核启动子的GC盒

modified_base

修饰过的核苷酸

RBS

核糖体结合位点

gene

已识别为基因或已命名的序列区域

polyA_signal

RNA转录本的剪切识别位点

misc_signal

无法用信号特性关键词描述的信号序列

enhancer

增强子

关键词

解释

关键词

解释

attenuator

与转录终止有关的序列

CDS

蛋白质编码序列

terminator

转录终止序列

sig_peptide

编码信号肽的序列

rep_origin

双链DNA复制起始区

transit_peptide

转运蛋白编码序列

misc_RNA

无法用RNA关键词描述的转录物或RNA产物

mat_peptide

编码成熟肽的序列

prim_transcript

初始转录本

intron

内含子

precursor_RNA

前体RNA

polyA_site

RNA转录本的多聚腺苷酸化位点

mRNA

信使RNA

rRNA

核糖体RNA

5’clip

前体转录本中被剪切掉的5’端序列

tRNA

转运RNA

3’clip

前体转录本中被剪切掉的3’端序列

scRNA

小细胞质RNA

5’UTR

5’非翻译区

snRNA

小核RNA

3’UTR

exon

3’非翻译区

外显子

snoRNA

加工和修饰rRNA的小核RNA

关键词

解释

关键词

解释

immunoglobulin_related

 

repeat_unit

单个的重复元件

C_region

免疫相关蛋白上的不变区

LTR

长末端重复序列

D_segment

免疫球蛋白重链的可变区,

T细胞受体β链

Satellite

卫星重复序列

J_segment

免疫球蛋白重链、轻链以及T细胞α、β、γ的结合链

misc_binding

无法描述的核酸序列结合位点

N_region

插入重排免疫球蛋白片段间的核苷酸

primer_bind

复制、转录的引物结合位点

S_region

免疫球蛋白重链的开关区

protein_bind

蛋白质结合区

V_region

编码免疫球蛋白的可变区N末端的序列

STS

测序标签位点

V_segment

编码免疫球蛋白的可变区的序列

misc_recomb

无法用重组特性关键词描述的重组事件

repeat_region

基因组中所包含的重复序列

iDNA

通过重组所消除的DNA

misc_structure

无法用结构关键词描述的核酸序列高级结构或构型

stem_loop

发夹结构

D_loop

线粒体中DNA中的取代环

◆GenBank记录中特性表中的限定词:

限定词

含义

限定词

含义

/allele=

给定基因的等位基因

/codon_start=

相对于序列第一个碱基,编码序列密码子的偏移量

/bound_moiety=

嵌合范围

/country=

DNA样本的来源国

/cell_type=

获得序列的细胞类型

/db_xref=

其他数据库信息的交叉索引号

/citation=

已被引用的参考文献数

/direction=

DNA复制方向

/clone_lib=

获得序列的克隆文库

/environmental_sample=

序列直接从环境材料中获得而没有指明来源物种

限定词

含义

限定词

含义

/exception=

指明DNA序列未按通常的生物学规律翻译,如RNA编辑

/PCR_conditi-ons=

描述PCR的反应条件

/frequency=

在种群中发生变异的频率

/pop_variant=

获得序列的群体变异种名称

/germline

如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA

/product=

序列编码产物的名称

/insertion_seq=

序列来源于某种插入元件

/anticodon=

tRNA反义密码子的位置及它所编码的氨基酸

/isolate=

序列来源的生物个体

/cell_line=

获得序列的细胞系

/lab_host=

为扩增序列来源物种所用的实验室宿主

/chromosome=

获得序列的染色体

/macronuclear

指明DNA来源于染色体分化的大核期

/clone=

获得序列的克隆子

/note=

评论及附加信息

/codon=

指出与参考密码子不同的密码子

/organelle=

获得序列的细胞器

/EC_number=

序列产物的酶学编号

/sub_strain=

获得序列的来源微生物亚种

/transl_table=

描述在翻译中与通用密码表不同的密码表

/tissue_type=

获得序列组织类型

/usedin=

表明该特性在其他检索中也被使用

/translation=

按通用或指定的密码子表翻译的氨基酸序列

/virion

病毒颗粒

限定词

含义

限定词

含义

/cons_splice=

区分内含子剪切位点和“5‘-GT.AG-3'”剪切位点

/map=

相关特性在基因图谱上的位置

/cultivar=

所获序列植物的栽培变种

/mod_base=

被修饰碱基的简写

/dev_stage=

序列来源于某种生物的特定发育阶段

/number=

从5’→3’注明遗传元件的顺序

/evidence=

序列特性来源于实验还是推理

/organism=

提供测序用遗传物质的物种的科学名称

/focus

指出在记录中的来源特性在其他物种中还有不同的来源特性

/phenotype=

序列特性所导致的表型

/function=

序列所代表的功能

/plasmid=

获得序列的质粒名称

/haplotype=

序列来源于某种物种的单倍体

/protein_id=

蛋白质的检索号

/isolation_sou-rce=

描述序列来源物种的生理、环境和地理信息

/proviral

整合在基因组中的前病毒

/label=

序列特性的俗名

/rearranged

如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于重排DNA

限定词

含义

限定词

含义

/rpt_family=

重复序列

/transposon=

转座子

/rpt_unit=

指明重复区域的重复元件构成

/variety=

获得序列的生物变种

/serotype=

同一物种的不同血清学特征

/pseudo

假基因

/sex=

获得序列的物种性别

/replace=

表明特性间的间隔序列已被替换

/specimen_vou-cher=

指明来源物种保存于什么地方

/rpt_type=

重复序列的组织方式

/strain=

获得序列的菌珠

/sequenced_m-ol=

获得序列的分子类型

/sub_species=

获得序列的来源物种的亚种

/serovar=

同一原核生物的血清学特征

/tissue_lib=

获得序列组织库

/specific_host=

获得序列的天然宿主

/transgenic

指明物种的来源特性是否是转基因受体

/standard-name=

特性的通用名称

/transl_except=

标明序列中未按指定密码子表翻译的氨基酸的位置

/sub_clone=

获得序列的亚克隆

◆BLAST

1.blastn(nucleotideblast)是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

2.blastp(proteinblast)是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

3.blastx是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

4.tblastn是蛋白序列到核酸库中的一种查询。

与blastx相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5.tblastx是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

Accession

Molecule

Method

Note

AC_123456

Genomic

Mixed

Alternatecompletegenomicmolecule.Thisprefixisusedforrecordsthatareprovidedtoreflectanalternateassemblyorannotation.Primarilyusedforviral,prokaryoticrecords.

AP_123456

Protein

Mixed

Proteinproducts;alternateproteinrecord.Thisprefixisusedforrecordsthatareprovidedtoreflectanalternateassemblyorannotation.TheAP_prefixwasoriginallydesignatedforbacterialproteinsbutthisusagewaschanged.

NC_123456

Genomic

Mixed

Completegenomicmoleculesincludinggenomes,chromosomes,organelles,plasmids.

NG_123456

Genomic

Mixed

Incompletegenomicregion;suppliedtosupporttheNCBIgenomeannotationpipeline.Representseithernon-transcribedpseudogenes,orlargerregionsrepresentingageneclusterthatisdifficulttoannotateviaautomaticmethods.

NM_123456

NM_123456789

mRNA

Mixed

Transcriptproducts;maturemessengerRNA(mRNA)transcripts.

NP_123456

NP_123456789

Protein

Mixed

Proteinproducts;primarilyfull-lengthprecursorproductsbutmayincludesomepartialproteinsandmaturepeptideproducts.

NR_123456

RNA

Mixed

Non-codingtranscriptsincludingstructuralRNAs,transcribedpseudogenes,andothers.

NT_123456

Genomic

Automated

IntermediategenomicassembliesofBACand/orWholeGenomeShotgunsequencedata.

NW_123456

NW_123456789

Genomic

Automated

IntermediategenomicassembliesofBACorWholeGenomeShotgunsequencedata.

NZ_ABCD12345678

Genomic

Automated

Acollectionofwholegenomeshotgunsequencedataforaproject.Accessionsarenottrackedbetweenreleases.Thefirstfourcharactersfollowingtheunderscore(e.g.'ABCD')identifiesagenomeproject.

XM_123456

XM_123456789

mRNA

Automated

Transcriptproducts;modelmRNAprovidedbyagenomeannotationprocess;sequencecorrespondstothegenomiccontig.

XP_123456

XP_123456789

Protein

Automated

Proteinproducts;modelproteinsprovidedbyagenomeannotationprocess;sequencecorrespondstothegenomiccontig.

XR_123456

RNA

Automated

Transcriptproducts;modelnon-codingtranscriptsprovidedbyagenomeannotationprocess;sequencecorrespondstothegenomiccontig.

YP_123456

YP_123456789

Protein

Mixed

Proteinproducts;nocorrespondingtranscriptrecordprovided.Primarilyusedforbacterial,viral,andmitochondrialrecords.

ZP_12345678

Protein

Automated

Proteinproducts;annotatedonNZ_accessions(oftenviacomputationalmethods).

NS_123456

Genomic

Automated

Genomicrecordsthatrepresentanassemblywhichdoesnotreflectthestructureofarealbiologicalmolecule.Theassemblymayrepresentanunorderedassemblyofunplacedscaffolds,oritmayrepresentanassemblyofDNAsequencesgeneratedfromabiologicalsamplethatmaynotrepresentasingleorganism.

(注:

可编辑下载,若有不当之处,请指正,谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1