1rnaseq质量控制.docx

资源描述

1rnaseq质量控制.docx

《1rnaseq质量控制.docx》由会员分享，可在线阅读，更多相关《1rnaseq质量控制.docx（14页珍藏版）》请在冰豆网上搜索。

1rnaseq质量控制.docx

1rnaseq质量控制

RNA-seq质量控制

1建库流程

1.1TotalRNA样品检测

1.1.1琼脂糖凝胶电泳分析RNA降解程度以及是否有污染

一句话总结：

琼脂检测主要观察28s和18s。

判断RNA好坏的标准是２8s，18s是否清晰，尤其是28S亮度比18s亮度大

28s，主要是剪切前的前体RNA，主要包括不均一核RNA（未剪切成熟的mRNA前体）和主要是28s，18s,5s的前体转录子。

前体存在于细胞核（然后加工剪切成28s，18s，5s和成熟的小片段的mRNA。

这些成熟的RNA进入到胞浆。

有功能的mRNA是存在于胞浆中的成熟的mRNA，前体mRNA是没有翻译功能的（蛋白质翻译机器，核单倍体是位于胞浆中的）。

真正成熟的mRNA，主要集中在28s和18s之间的荧光背景（一般每条基因mRNA量很少，所以，整体一般看不到明显带）.如果28s只是比18s稍高，或者亮度差不多，即使条带清晰，也已经提示部分降解了。

大片段开始降解，从28s降解到18s最后降解到5s。

这样降解过程中，28s减少，18s增多，28s：

18s比例就会下降。

如果最容易降解的28s都没有降解，（从比例推断），那么更难降解的mRNA，就推理出肯定是完好的了。

泳道：

123456789

这张图片就是一个离心柱子提取RNA的不同降解情况的典型例子。

泳道1,5,6,7,8,9部分降解了，所以28s是首先降解，28s条带变淡，而部分降解首先是降解成较小的18s左右的片段，所以18s条带明显变粗，造成28s：

18s的比例竟然小于1了。

然后在不该看到条带或者应该是很弱的5s位置，出现了较明显的5s大小的降解带。

3,4是完全降解了，28s，18s已经基本降解光了。

两条带都看不见了。

最后降解成的小片段正好和5s大小一致，所以在5s位置看到了大量的一条浓浓的降解小片段，和5s一样大小。

2就是完全正常提取的RNA，大家可以看到28s:

18s比例大约是2:

1,5s位置也基本见不到带。

这就说明完全正常，无降解。

（2）Nanodrop检测RNA的纯度（OD260/280比值）

一句话总结：

260/280大约在2.0而260/230ration在2.0-2.2.

OD260代表核酸的吸光度，OD280代表蛋白质的吸光度。

280、320、230、260nm下的吸光度分别代表了核酸、背景（溶液浑浊度）、盐浓度和蛋白等有机物的值。

A230测定其它碳源物质，如酚，糖类等；A260是核酸的吸收峰测RNA和DNA，引物等的浓度用的；A280是蛋白质的吸收峰。

一般的，我们只看OD260/OD280（Ratio，R）——1.8~2.0时，我们认为RNA中蛋白或者时其他有机物的污染是可以容忍的，不过要注意，当用Tris作为缓冲液检测吸光度时，R值可能会大于2（一般应该是<2.2的）。

当R<1.8时，溶液中蛋白或者其他有机物的污染比较明显，你可以根据自己的需要决定这份RNA的命运。

当R>2.2时，说明RNA已经水解成单核酸了。

纯RNA的A260/A280的比值为2.0。

OD260/OD230的比值还表明RNA的纯度——其值<2.0表明裂解液中有亚硫氰胍和β-巰基乙醇残留，其值>2.4，需用乙酸盐，乙醇沉淀RNA。

（3）Qubit对RNA浓度进行精确定量

一句话总结：

RNA-seq测序需要至少300ng总RNA

（4）Agilent2100精确检测RNA的完整性

一句话总结：

2100RIN值高好，样品间RIN值相差1-1.5最好。

Agilent2100对文库的insertsize进行检测，RIN值反应的是样品的降解。

RIN=RNAintegritynumber，即RNA分子完整数，从0-10，直接反应了RNA质量的好坏，此数值越大表明RNA质量越好越完整。

1.2建库流程

1.2.1ssRNA-seq建库（针对长非编码RNA分析）

RNA检测合格后，通过epicentreRibo-ZeroTM试剂盒去除rRNA（可以拿到非polyA的转录本）随后加入fragmentationbuffer将RNA打断成150-200bp短片段150-200bp，以短片段RNA为模板，用六碱基随机引物（randomhexamers）合成一链cDNA，然后加入缓冲液、dNTPs（dUTP、dATP、dGTP和dCTP）和DNApolymeraseI合成二链cDNA，随后利用AMPureXPbeads纯化双链cDNA。

纯化的双链cDNA再进行末端修复、加A尾并连接测序接头，然后用AMPureXPbeads进行片段大小选择。

之后用USER酶降解含有U的cDNA第二链，最后进行PCR富集得到链特异性cDNA文库。

图：

lncRNA建库

1.2.2小RNA建库

样品检测合格后，使用SmallRNASamplePreKit构建文库，利用SmallRNA的3’及5’端特殊结构（5’端有完整的磷酸基团，3’端有羟基），以totalRNA为起始样品，直接将SmallRNA两端加上接头，然后反转录合成cDNA。

随后经过PCR扩增，PAGE胶电泳分离目标DNA片段，切胶回收得到的即为cDNA文库。

1.2.3普通转录组建库

样品检测合格后，用带有Oligo（dT）的磁珠富集真核生物mRNA（若为原核生物，则通过试剂盒去除rRNA来富集mRNA）。

随后加入fragmentationbuffer将mRNA打断成短片段，以mRNA为模板，用六碱基随机引物（randomhexamers）合成一链cDNA，然后加入缓冲液、dNTPs和DNApolymeraseI合成二链cDNA，随后利用AMPureXPbeads纯化双链cDNA。

纯化的双链cDNA再进行末端修复、加A尾并连接测序接头，然后用AMPureXPbeads进行片段大小选择，最后进行PCR富集得到最终的cDNA文库。

构建原理图如下：

图RNA-seq建库

1.2.4Chip-seq建库流程

染色体免疫共沉淀（ChIP）是一种用于研究蛋白质与DNA的体内相互作用的经典实验技术。

采用特异性抗体将目的蛋白进行免疫沉淀，由此可以把目的蛋白所结合的基因组DNA片段也富集下来。

方法1：

Cross-likingChromatinImmunoprecipitation（X-ChIP）

甲醛处理细胞，使DNA-protein的相互结合作用被交联固定，裂解细胞，得到全细胞裂解液。

超声处理，将基因组DNA打断至100-500bp。

抗体免疫沉淀：

在细胞裂解液中加入一抗和beads，并进行孵育。

采用合适的实验条件进行洗脱，并解交联。

通过qPCR对ChIP结果进行验证。

准备好的ChIP后的DNA样品可以用于ChIPSequencing建库。

方法2：

NativeChromatinImmunoprecipitation

通过非变性的方式得到核裂解液。

微球菌核酸酶（Micrococcalnuclease）消化染色质，得到单核小体或核小体寡聚体。

抗体免疫沉淀：

在细胞裂解液中前后加入一抗和beads，并进行孵育。

DNA分离。

通过qPCR对ChIP结果进行验证。

6.准备好的ChIP后的DNA样品可以用于ChIPSequencing建库。

最后DNA片段末端修复,3’端加A碱基，连接测序接头公司Paired-EndDNASamplePrepkit）。

PCR扩增及DNA产物的片段大小选择一般为100-300bp，包括接头序列在内合格的文库用于上机测序。

2质量控制相关的变量

2.1readsqualityissue

2.1.1测序错误率BaseQuality

Basequalityindicatestheconfidenceinthebasecall

q=−10*log10（0.01）=20

测序错误率特征

（1）测序错误率会随着测序序列（SequencedReads）长度的增加而升高，这是由于测序过程中化学试剂的消耗而导致的。

（2）前6个碱基的位置也会发生较高的测序错误率，而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。

所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合

图前6碱基错误率高，125bp测序错误率高

2.1.2CG含量

正常情况下四种碱基的出现频率应该是接近的，而且没有位置差异。

因此好的样本中四条线应该平行且接近。

当部分位置碱基的比例出现bias时，即四条线在某些位置纷乱交织，往往提示我们有overrepresentedsequence的污染。

当所有位置的GC含量一致的表现出bias时，往往代表文库有bias（建库过程或本身特点），或者是测序中的系统误差。

前几个不稳定duetotherandomhexamerprimingduringPCRamplification，属于正常的现象

红线是实际情况，蓝线是理论分布（正态分布，均值不一定在50%，而是由平均GC含量推断的）。

曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差（overrepresentedreads）。

形状接近正态但偏离理论分布的情况提示我们可能有系统偏差

图：

重复序列检测

2.1.3重复序列

理论上出现重复序列的概率是很低的。

如果出现重复的序列，很多是人工的artificiallyPCR扩增。

下图是横坐标是duplication的次数，纵坐标是duplicatedreads的数目，以uniquereads的总数作为100%。

fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。

重复数目大于等于10的reads被合并统计

如果某k个bp的短序列在reads中大量出现，其频率高于统计期望的话，fastqc将其记为over-representedk-mer。

出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。

K-mer可以用于检测是否有接头存在。

2.1.4比对统计：

检测对reference的比对情况

检测mappingratio,看比对上的总数，还可以同污染源的基因组进行比对。

2.1.5rRNA/tRNA的污染

组成RNA的污染，如rRNA和tRNA,最高时可以占整个转录组的60-90%。

建库时对这类RNA进行降解。

有2种方法，一种是使用磁珠进行吸附选择有poly-a的转录本。

第二种是对核糖体RNA进行消化。

即使这样，仍然会有大量的核糖体rRNA污染存在。

2.1.6SaturationTestofSequencingDepth

测序深度不同，对低丰度的基因使用FPKM定量也并不稳定，此外做可变剪切，lncRNA需要更高的深度才能检测。

一般认为100*-150*可以饱和。

2.1.7生物学重复

RNA-seq通常要求至少2个生物学重复，注意区别生物学重复和技术重复，生物学重复一般建议皮尔逊相关系数0.92以上。

可以通过聚类，计算相关系数,PCA样品研究样品之间的关系。

2.1.8覆盖整齐度CoverageUniformity

RNA-seq测序的结果，理论上每个位点被测序到的机会是相等的，但是由于poly-A选择，3’端往往会具有更高的coverage.此外大多数reads应该位于基因注释区。

2.1.9链特异性StrandSpecificity

转录本可以从正义链和反义链进行转录，大多数基因位于正义链，但仍有部分能从反义链上转录出来，比如天然反义转录本NAT，普通的转录组数据可以通过剪切位点GT/AG区分方向，但是无法定量反义转录本的表达量。

2.2FastQ的数据格式

1.原始序列数据

高通量测序（如IlluminaHiSeqTM2000/MiseqTM）得到的原始图像数据文件经CASAVA碱基识别（BaseCalling）分析转化为原始测序序列（SequencedReads），我们称之为RawData或RawReads，结果以FASTQ（简称为fq）文件格式存储，其中包含测序序列（reads）的序列信息以及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述，如下：

@HWI-ST1276:

71:

C1162ACXX:

1101:

1208:

24581:

CGATGT

NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT

#55?

BBBBB?

BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH

其中第一行以“@”开头，随后为Illumina测序标识别符（SequenceIdentifiers）和描述文

字（选择性部分）；

第二行是碱基序列；

第三行以“+”开头，随后为Illumina测序标识别符（选择性部分）；

第四行是对应碱基的测序质量，该行中每个字符对应的ASCII值减去33，即为对应第二

行碱基的测序质量值。

Perl代码：

ord$base-33

3软件使用

3.1常用的软件的名称

FastQC:

PRINSEQ做质量检测并可视化

Trimmomatic,Cutadapt,andFastX,Fastx-toolkits

3.2软件的命令和参数

3.2.1对文件进行

fastqcreads.fastq.gz

3.2.2FliterandTrim

java-jartrimmomatic-0.32.jarPE-phred64reads1.fastq.gzreads2.fastq.gzpaired1.fq.gzunpaired1.fq.gzpaired2.fq.gzunpaired2.fq.gzAVGQUAL:

prinseq-lite.pl-fastqreads1.fastq-fastq2reads2.fastq-phred64-min_qual_mean20-out_goodqual_filtered-out_badnull–no_qual_header–log–verbose

java-jartrimmomatic-0.32.jarPE-phred64reads1.fastq.gzreads2.fastq.gzpaired1.fq.gzunpaired1.fq.gzpaired2.fq.gzunpaired2.fq.gzTRAILING:

20MINLEN:

1.2去掉含有5‘adapter污染的序列的command：

/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper-itest.fltqual.fastq-otest.fltqual.f5.fastq-a"GTTCAGAGTTCTACAGTCCGACGATC"-C-Q33-v

1.3含有3’adapter的序列保留，且trim掉3‘adapter的command：

/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper-itest.fltqual.f5.fastq-otest.fltqual.f5.t3.fastq-a"AGATCGGAAGAGCACACGTCT"-c-Q33-v

整理zhaot

2015-5-9

参考：

https:

//www.huck.psu.edu/content/instrumentation-facilities/genomics-core-facility/samples/rna-seq-samples

展开阅读全文