1rnaseq质量控制.docx

上传人:b****8 文档编号:9786369 上传时间:2023-02-06 格式:DOCX 页数:14 大小:635.42KB
下载 相关 举报
1rnaseq质量控制.docx_第1页
第1页 / 共14页
1rnaseq质量控制.docx_第2页
第2页 / 共14页
1rnaseq质量控制.docx_第3页
第3页 / 共14页
1rnaseq质量控制.docx_第4页
第4页 / 共14页
1rnaseq质量控制.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

1rnaseq质量控制.docx

《1rnaseq质量控制.docx》由会员分享,可在线阅读,更多相关《1rnaseq质量控制.docx(14页珍藏版)》请在冰豆网上搜索。

1rnaseq质量控制.docx

1rnaseq质量控制

RNA-seq质量控制

1建库流程

1.1TotalRNA样品检测

1.1.1琼脂糖凝胶电泳分析RNA降解程度以及是否有污染

一句话总结:

琼脂检测主要观察28s和18s。

判断RNA好坏的标准是28s,18s是否清晰,尤其是28S亮度比18s亮度大

28s,主要是剪切前的前体RNA,主要包括不均一核RNA(未剪切成熟的mRNA前体)和主要是28s,18s,5s的前体转录子。

前体存在于细胞核(然后加工剪切成28s,18s,5s和成熟的小片段的mRNA。

这些成熟的RNA进入到胞浆。

有功能的mRNA是存在于胞浆中的成熟的mRNA,前体mRNA是没有翻译功能的(蛋白质翻译机器,核单倍体是位于胞浆中的)。

真正成熟的mRNA,主要集中在28s和18s之间的荧光背景(一般每条基因mRNA量很少,所以,整体一般看不到明显带).如果28s只是比18s稍高,或者亮度差不多,即使条带清晰,也已经提示部分降解了。

大片段开始降解,从28s降解到18s最后降解到5s。

这样降解过程中,28s减少,18s增多,28s:

18s比例就会下降。

如果最容易降解的28s都没有降解,(从比例推断),那么更难降解的mRNA,就推理出肯定是完好的了。

泳道:

123456789

这张图片就是一个离心柱子提取RNA的不同降解情况的典型例子。

泳道1,5,6,7,8,9部分降解了,所以28s是首先降解,28s条带变淡,而部分降解首先是降解成较小的18s左右的片段,所以18s条带明显变粗,造成28s:

18s的比例竟然小于1了。

然后在不该看到条带或者应该是很弱的5s位置,出现了较明显的5s大小的降解带。

3,4是完全降解了,28s,18s已经基本降解光了。

两条带都看不见了。

最后降解成的小片段正好和5s大小一致,所以在5s位置看到了大量的一条浓浓的降解小片段,和5s一样大小。

2就是完全正常提取的RNA,大家可以看到28s:

18s比例大约是2:

1,5s位置也基本见不到带。

这就说明完全正常,无降解。

(2)Nanodrop检测RNA的纯度(OD260/280比值)

一句话总结:

260/280大约在2.0而260/230ration在2.0-2.2.

OD260代表核酸的吸光度,OD280代表蛋白质的吸光度。

280、320、230、260nm下的吸光度分别代表了核酸、背景(溶液浑浊度)、盐浓度和蛋白等有机物的值。

A230测定其它碳源物质,如酚,糖类等;A260是核酸的吸收峰测RNA和DNA,引物等的浓度用的;A280是蛋白质的吸收峰。

一般的,我们只看OD260/OD280(Ratio,R)——1.8~2.0时,我们认为RNA中蛋白或者时其他有机物的污染是可以容忍的,不过要注意,当用Tris作为缓冲液检测吸光度时,R值可能会大于2(一般应该是<2.2的)。

当R<1.8时,溶液中蛋白或者其他有机物的污染比较明显,你可以根据自己的需要决定这份RNA的命运。

当R>2.2时,说明RNA已经水解成单核酸了。

纯RNA的A260/A280的比值为2.0。

OD260/OD230的比值还表明RNA的纯度——其值<2.0表明裂解液中有亚硫氰胍和β-巰基乙醇残留,其值>2.4,需用乙酸盐,乙醇沉淀RNA。

(3)Qubit对RNA浓度进行精确定量

一句话总结:

RNA-seq测序需要至少300ng总RNA

(4)Agilent2100精确检测RNA的完整性

一句话总结:

2100RIN值高好,样品间RIN值相差1-1.5最好。

Agilent2100对文库的insertsize进行检测,RIN值反应的是样品的降解。

RIN=RNAintegritynumber,即RNA分子完整数,从0-10,直接反应了RNA质量的好坏,此数值越大表明RNA质量越好越完整。

1.2建库流程

1.2.1ssRNA-seq建库(针对长非编码RNA分析)

RNA检测合格后,通过epicentreRibo-ZeroTM试剂盒去除rRNA(可以拿到非polyA的转录本)随后加入fragmentationbuffer将RNA打断成150-200bp短片段150-200bp,以短片段RNA为模板,用六碱基随机引物(randomhexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dUTP、dATP、dGTP和dCTP)和DNApolymeraseI合成二链cDNA,随后利用AMPureXPbeads纯化双链cDNA。

纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPureXPbeads进行片段大小选择。

之后用USER酶降解含有U的cDNA第二链,最后进行PCR富集得到链特异性cDNA文库。

图:

lncRNA建库

1.2.2小RNA建库

样品检测合格后,使用SmallRNASamplePreKit构建文库,利用SmallRNA的3’及5’端特殊结构(5’端有完整的磷酸基团,3’端有羟基),以totalRNA为起始样品,直接将SmallRNA两端加上接头,然后反转录合成cDNA。

随后经过PCR扩增,PAGE胶电泳分离目标DNA片段,切胶回收得到的即为cDNA文库。

1.2.3普通转录组建库

样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。

随后加入fragmentationbuffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(randomhexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNApolymeraseI合成二链cDNA,随后利用AMPureXPbeads纯化双链cDNA。

纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPureXPbeads进行片段大小选择,最后进行PCR富集得到最终的cDNA文库。

构建原理图如下:

图RNA-seq建库

1.2.4Chip-seq建库流程

染色体免疫共沉淀(ChIP)是一种用于研究蛋白质与DNA的体内相互作用的经典实验技术。

采用特异性抗体将目的蛋白进行免疫沉淀,由此可以把目的蛋白所结合的基因组DNA片段也富集下来。

方法1:

Cross-likingChromatinImmunoprecipitation(X-ChIP)

甲醛处理细胞,使DNA-protein的相互结合作用被交联固定,裂解细胞,得到全细胞裂解液。

超声处理,将基因组DNA打断至100-500bp。

抗体免疫沉淀:

在细胞裂解液中加入一抗和beads,并进行孵育。

采用合适的实验条件进行洗脱,并解交联。

通过qPCR对ChIP结果进行验证。

准备好的ChIP后的DNA样品可以用于ChIPSequencing建库。

方法2:

NativeChromatinImmunoprecipitation

通过非变性的方式得到核裂解液。

微球菌核酸酶(Micrococcalnuclease)消化染色质,得到单核小体或核小体寡聚体。

抗体免疫沉淀:

在细胞裂解液中前后加入一抗和beads,并进行孵育。

DNA分离。

通过qPCR对ChIP结果进行验证。

6.准备好的ChIP后的DNA样品可以用于ChIPSequencing建库。

最后DNA片段末端修复,3’端加A碱基,连接测序接头公司Paired-EndDNASamplePrepkit)。

PCR扩增及DNA产物的片段大小选择一般为100-300bp,包括接头序列在内合格的文库用于上机测序。

2质量控制相关的变量

2.1readsqualityissue

2.1.1测序错误率BaseQuality

Basequalityindicatestheconfidenceinthebasecall

q=−10*log10(0.01)=20

测序错误率特征

(1)测序错误率会随着测序序列(SequencedReads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的。

(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。

所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合

图前6碱基错误率高,125bp测序错误率高

 

2.1.2CG含量

正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。

因此好的样本中四条线应该平行且接近。

当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresentedsequence的污染。

当所有位置的GC含量一致的表现出bias时,往往代表文库有bias(建库过程或本身特点),或者是测序中的系统误差。

前几个不稳定duetotherandomhexamerprimingduringPCRamplification,属于正常的现象

红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。

曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresentedreads)。

形状接近正态但偏离理论分布的情况提示我们可能有系统偏差

图:

重复序列检测

2.1.3重复序列

理论上出现重复序列的概率是很低的。

如果出现重复的序列,很多是人工的artificiallyPCR扩增。

下图是横坐标是duplication的次数,纵坐标是duplicatedreads的数目,以uniquereads的总数作为100%。

fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。

重复数目大于等于10的reads被合并统计

如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话,fastqc将其记为over-representedk-mer。

出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。

K-mer可以用于检测是否有接头存在。

2.1.4比对统计:

检测对reference的比对情况

检测mappingratio,看比对上的总数,还可以同污染源的基因组进行比对。

2.1.5rRNA/tRNA的污染

组成RNA的污染,如rRNA和tRNA,最高时可以占整个转录组的60-90%。

建库时对这类RNA进行降解。

有2种方法,一种是使用磁珠进行吸附选择有poly-a的转录本。

第二种是对核糖体RNA进行消化。

即使这样,仍然会有大量的核糖体rRNA污染存在。

2.1.6SaturationTestofSequencingDepth

测序深度不同,对低丰度的基因使用FPKM定量也并不稳定,此外做可变剪切,lncRNA需要更高的深度才能检测。

一般认为100*-150*可以饱和。

.

2.1.7生物学重复

RNA-seq通常要求至少2个生物学重复,注意区别生物学重复和技术重复,生物学重复一般建议皮尔逊相关系数0.92以上。

可以通过聚类,计算相关系数,PCA样品研究样品之间的关系。

2.1.8覆盖整齐度CoverageUniformity

RNA-seq测序的结果,理论上每个位点被测序到的机会是相等的,但是由于poly-A选择,3’端往往会具有更高的coverage.此外大多数reads应该位于基因注释区。

2.1.9链特异性StrandSpecificity

转录本可以从正义链和反义链进行转录,大多数基因位于正义链,但仍有部分能从反义链上转录出来,比如天然反义转录本NAT,普通的转录组数据可以通过剪切位点GT/AG区分方向,但是无法定量反义转录本的表达量。

2.2FastQ的数据格式

1.原始序列数据

高通量测序(如IlluminaHiSeqTM2000/MiseqTM)得到的原始图像数据文件经CASAVA碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述,如下:

@HWI-ST1276:

71:

C1162ACXX:

1:

1101:

1208:

24581:

N:

0:

CGATGT

NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT

+

#55?

?

?

BBBBB?

BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH

其中第一行以“@”开头,随后为Illumina测序标识别符(SequenceIdentifiers)和描述文

字(选择性部分);

第二行是碱基序列;

第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);

第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二

行碱基的测序质量值。

Perl代码:

ord$base-33

3软件使用

3.1常用的软件的名称

FastQC:

PRINSEQ做质量检测并可视化

Trimmomatic,Cutadapt,andFastX,Fastx-toolkits

3.2软件的命令和参数

3.2.1对文件进行

fastqcreads.fastq.gz

3.2.2FliterandTrim

java-jartrimmomatic-0.32.jarPE-phred64reads1.fastq.gzreads2.fastq.gzpaired1.fq.gzunpaired1.fq.gzpaired2.fq.gzunpaired2.fq.gzAVGQUAL:

20

prinseq-lite.pl-fastqreads1.fastq-fastq2reads2.fastq-phred64-min_qual_mean20-out_goodqual_filtered-out_badnull–no_qual_header–log–verbose

java-jartrimmomatic-0.32.jarPE-phred64reads1.fastq.gzreads2.fastq.gzpaired1.fq.gzunpaired1.fq.gzpaired2.fq.gzunpaired2.fq.gzTRAILING:

20MINLEN:

50

1.2去掉含有5‘adapter污染的序列的command:

/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper-itest.fltqual.fastq-otest.fltqual.f5.fastq-a"GTTCAGAGTTCTACAGTCCGACGATC"-C-Q33-v

1.3含有3’adapter的序列保留,且trim掉3‘adapter的command:

/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper-itest.fltqual.f5.fastq-otest.fltqual.f5.t3.fastq-a"AGATCGGAAGAGCACACGTCT"-c-Q33-v

整理zhaot

2015-5-9

参考:

https:

//www.huck.psu.edu/content/instrumentation-facilities/genomics-core-facility/samples/rna-seq-samples

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 文学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1