转录组RNAseq术语解释.docx

上传人:b****3 文档编号:1920479 上传时间:2022-10-25 格式:DOCX 页数:7 大小:22.12KB
下载 相关 举报
转录组RNAseq术语解释.docx_第1页
第1页 / 共7页
转录组RNAseq术语解释.docx_第2页
第2页 / 共7页
转录组RNAseq术语解释.docx_第3页
第3页 / 共7页
转录组RNAseq术语解释.docx_第4页
第4页 / 共7页
转录组RNAseq术语解释.docx_第5页
第5页 / 共7页
点击查看更多>>
下载资源
资源描述

转录组RNAseq术语解释.docx

《转录组RNAseq术语解释.docx》由会员分享,可在线阅读,更多相关《转录组RNAseq术语解释.docx(7页珍藏版)》请在冰豆网上搜索。

转录组RNAseq术语解释.docx

转录组RNAseq术语解释

RNA-Seq名词解释

1.index

测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。

2•碱基质量值

(QualityScore或Q-score)是碱基识别(BaseCalling)出错的概率的整数映射。

碱基质量值越高

表明碱基识別越可靠,碱基测错的可能性越小。

3.Q30

碱基质量值为Q30代表碱基的精确度在99.9%

4.FPKM(FragmentsPerKilobaseoftranscriptperMillionfragmentsmapped

每1百万个map上的reads中map到外显子的每IK个碱基上的fragment个数。

计算公式为

FPKM二

cDNAFragments

MappedReads(Millions)xtranscriptLength(艮b)

公式中,cDNAFragments表示比对到某一转录本上的片段数目,即双

端Reads数目;MappedReads(Millions)表示MappedReads总数,以10为单位;

TranscriptLength(kb):

转录本长度,以kb个碱基为单位。

5.FC(FoldChange)

即差异表达倍数。

6.FDR(FalseDiscoveryRate)

即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝

的原假设个数的比例的期望值。

通过控制FDR來决定P值的阈值。

7.P值(P-value)

即概率,反映某一事件发生的可能性大小。

统计学根据显著性检验方法所得到的P值,一般以P<0.05

0.05或0.01o

为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于

有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接,alternativesplicing)o可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。

在生物体内,主要存在

7种可变剪接类型:

A)Exonskipping;B)Intronretention;C)Alternative5’splicesite;D)Alternative3’splicesite;E)Alternativefirstexon;F)Alternativelastexon;G)Mutuallyexclusiveexon。

9.外显子跳跃(Exonskipping)

外显子在前体mRNA剪接形成成熟mRNA过程中被跳过,最终没有出现在某些成熟mRNA±,这

种剪接机制被称为外显子跳跃。

10.内含子保留(Intronretention)

前体mRNA在剪接形成成熟mRNA的过程中,部分内含子被保留下来,这种剪接机制被称为内含子保留。

11.5'或3'端可变剪接

前体mRNA在剪接形成成熟mRNA的过程中,5'端或3'端边界发生不同方式的剪接,这种剪接机制被称为5'或3'端可变剪接。

12.基因结构优化

由于使用的软件或数据本身的局限性,导致所选参考基因组的注释往往不够精确,需要对原有注释的基因结构进行修正,这一过程称为基因结构优化。

13.基因间区(intergenic)

指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。

14.UTR:

(UntranslateRegions)

非翻译区域。

是信使RNA(mRNA)分子两端的非编码片段。

5'-UTR从mRNA起点的甲基化鸟瞟

吟核昔酸帽延伸至AUG起始密码子,3,-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)

的前端。

15.ORF(openreadingframe)

开放阅读框或开放读码框。

是结构基因的正常核昔酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间

不存在使翻译中断的终止密码子。

16.CDS(Codingsequenee)

是编码一段蛋白产物的序列,是结构基因组学术语。

DNA转录成mRNA,mRNA经剪接等加工后翻

译岀蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应

的序列,不考虑mRNA加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。

17.插入片段大小(insertsize)

通过检测双端序列在基因组上的起止位置,可以得到插入片段的实际长度,决定了测序的长度,是信息分析的重要参数。

18.分子标记

是遗传标记的一种,直接在DNA分子上检测遗传变异。

分子标记能对不同发育时期的个体、组织器官我至细胞作检测,数量极多,遍及整个基因组,多态性高,遗传稳定,不受环境及基因表达与否的影响。

目前常见分子标记主要有SNP、InDei、SSR等。

19.SNP(SingleNucleotidePolymorphism)

即单核昔酸多态性,主要是指在基因组水平上由单个核昔酸的变异所引起的DNA序列多态性。

SNP

所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)

所引起,也可由碱基的插入或缺失所致。

但通常所说的SNP并不包括后两种情况。

20.SSR(SimpleSequeneeRepeat,SSR)

即简单重复序列,又叫微卫星序列,指的是基因组中由1-6个核昔酸组成的基本单位重复多次构成的一段DNA,广泛分布于基因组的不同位置,长度一般在200bp以下。

21・转换(transition)

同类型(卩票吟和卩票吟,或陀咙和咗啜)碱基之间的相互替换称为转换。

22.颠换(transversion)

不同类型(瞟吟和喀喘)碱基之间的相互替换称为颠换。

23.RNA编辑(RNAediting)

是指在mRNA水平上改变遗传信息的过程。

具体来说,指基因转录产生的mRNA分子中,由于核昔

酸的缺失,插入或置换,基因转录物的序列不与编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。

24.差异表达转录本(D辻ferentiallyExpressedTranscript,DET)

指表达水平存在显著差异的转录本。

25.差异表达基因(DifferentiallyExpressedGene,DEG)

指在两个不同条件(如对照与处理、野生型和突变型、不同时间点、不同组织等)下,表达水平存在显著差异的基因,称之为差异表达基因。

26.生物学重复(BiologicalReplicates)

可以定义为使用来自不同抽提的RNA样本进行杂交,例如,同一来源独立制备的样本,或者不同来

源的样本(不同组织或者一个细胞系的不同培养物)。

27.技术重复

使用同一个抽提的RNA进行实验称为技术重复。

与生物学重复相比,技术重复不是完全独立的,取平均值不能去除共有的系统偏差。

28.皮尔逊相关系数r(Pearson'sCorrelationCoefficient)

用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。

其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。

在高通量测序中,将皮尔逊相关系数作为生物学重复相关性的评估指标。

越接近1,说明两个重复样品相关性越强。

29.Unigene

UniqueGene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库。

30.Contig

高通量测序中利用软件将具有一定长度overlap的reads连成更长的片段,这些通过readsoverlap

关系得到的不含N的组装片段称之为Contigo

31.Scaffold

高通量测序中reads经过拼接获得Contigs,Contig经过确定先后顺序用N连接起来组成Scaffoldo

32.ContigN50

Reads拼接后会得到长度不同的ContigSo将所有Contigs的长度相加后获得一个Contig的总长度。

之后将所有Contig按照序列长度由短到长进行排序,如获得Contigl,Contig2,Contig3。

将Contig

按照这个顺序一次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为

ContigN50。

ponent

TRINITY软件拼接过程中,由于contig的构造方法,使得各个contig之间不可能共享k个以上序列,

因此这些inchwormcontigs不能很好的表征各种可变剪切形式和同源基因等情况,软件中"chrysalis这一

步骤将那些有重叠的contigs聚类,构成componentsocomponent就成为一组可变剪切isoform或同源基因可能的表征的集合。

34・deBruijngraph

使用TRINITY软件拼接时,在uchrysalis步骤中会将component通过overlap关系构建成deBruijn图,便于获取可变剪切的序列。

35.数字基因表达谱(DigitalGeneExpressionProfile,DGE)

利用新一代高通量测序技术和高性能的计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因

表达情况。

36.smallRNA

对长度在18-40bP的短RNA进行序列、结构、表达、功能上的分析,主要进行miRNA,siRNA,

P1RNA儿种类型sRNA的分析;可与mRNA关联分析。

37.ncRNA(non~codingRNA)

非编码RNA。

指不编码蛋白质的RNAo其中包括rRNA,tRNA,snRNA,snoRNA和microRNA等多种已知功能的RNA,及未知功能的RNAo其共同特点是都能从基因组上转录而來,不需要翻译成蛋白即可在RNA水平上行使各自的生物学功能。

38.降解组测序(DegradomeSequencing)

利用高通量测序平台,针对miRNA介导的剪切降解片段进行深度测序,从中筛选miRNA作用的靶

基因,并结合生物信息学分析确定降解片段与miRNA的精确配对信息。

该技术能从细胞或组织中准确高

效的筛选出miRNA的靶基因,为研究miRNA与其对应的靶基因的相互关系提供准确、高效的筛选手段。

39.1ncRNA(longnoncodingRNA)

长链非编码RNA。

在长度200-100000nt之间,不具有编码蛋白功能的转录本。

40.正链/负链(plusstrand/minusstrand)

对于一个基因来说,DNA的两条链中有一条链作为RNA合成时的模板,这条链叫负链,另一条叫正链。

41・反义链/有义链(antisensestrand/sensestrand)

在双链DMA中,用来转录mRNA的DNA链称为模板链(templatestrand),不用于转录的链则称为非模板链(nontemplatestrand)o根据碱基互补配对原则,转录出的mRNA链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的TmRNA链中

全部置换成了U。

正是由

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1