ImageVerifierCode 换一换
格式:DOCX , 页数:14 ,大小:635.42KB ,
资源ID:9786369      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9786369.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(1rnaseq质量控制.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

1rnaseq质量控制.docx

1、1rnaseq质量控制RNA-seq 质量控制 1 建库流程1.1 Total RNA样品检测1.1.1 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染一句话总结:琼脂检测主要观察28s和18s。判断RNA好坏的标准是8s,18s是否清晰,尤其是28S亮度比18s亮度大28s,主要是剪切前的前体RNA,主要包括不均一核RNA(未剪切成熟的mRNA前体)和主要是28s,18s,5s的前体转录子。前体存在于细胞核(然后加工剪切成28s,18s,5s和成熟的小片段的mRNA。这些成熟的RNA进入到胞浆。有功能的mRNA是存在于胞浆中的成熟的mRNA,前体mRNA是没有翻译功能的(蛋白质翻译机器,核单

2、倍体是位于胞浆中的)。真正成熟的mRNA,主要集中在28s和18s之间的荧光背景(一般每条基因mRNA量很少,所以,整体一般看不到明显带).如果28s只是比18s稍高,或者亮度差不多,即使条带清晰,也已经提示部分降解了。大片段开始降解,从28s降解到18s最后降解到5s。这样降解过程中,28s减少,18s增多,28s:18s比例就会下降。如果最容易降解的28s都没有降解,(从比例推断),那么更难降解的mRNA,就推理出肯定是完好的了。泳道: 1 2 3 4 5 6 7 8 9这张图片就是一个离心柱子提取RNA的不同降解情况的典型例子。泳道1,5,6,7,8,9 部分降解了,所以28s是首先降解

3、,28s条带变淡,而部分降解首先是降解成较小的18s左右的片段,所以18s条带明显变粗,造成28s:18s的比例竟然小于1了。然后在不该看到条带或者应该是很弱的5s位置,出现了较明显的5s大小的降解带。3,4是完全降解了,28s,18s已经基本降解光了。两条带都看不见了。最后降解成的小片段正好和5s大小一致,所以在5s位置看到了大量的一条浓浓的降解小片段,和5s一样大小。2就是完全正常提取的RNA,大家可以看到28s:18s比例大约是2:1,5s位置也基本见不到带。这就说明完全正常,无降解。(2) Nanodrop检测RNA的纯度(OD260/280比值)一句话总结:260/280 大约在 2

4、.0 而260/230 ration 在 2.0-2.2.OD260代表核酸的吸光度,OD280代表蛋白质的吸光度。280、320、230、260nm下的吸光度分别代表了核酸、背景(溶液浑浊度)、盐浓度和蛋白等有机物的值。A230 测定其它碳源物质,如酚,糖类等;A260 是核酸的吸收峰测 RNA 和 DNA,引物等的浓度用的;A280 是蛋白质的吸收峰。一般的,我们只看 OD260/OD280(Ratio,R)1.82.0时,我们认为 RNA中蛋白或者时其他有机物的污染是可以容忍的,不过要注意,当用 Tris 作为缓冲液检测吸光度时,R 值可能会大于 2(一般应该是2.2的)。当 R2.2时

5、,说明 RNA 已经水解成单核酸了。 纯RNA 的A260/A280的比值为 2.0。OD260/OD230的比值还表明 RNA 的纯度其值 2.4,需用乙酸盐,乙醇沉淀 RNA。 (3) Qubit对RNA浓度进行精确定量一句话总结:RNA-seq测序需要至少300 ng 总RNA(4) Agilent 2100精确检测RNA的完整性一句话总结:2100 RIN值高好,样品间RIN值相差1-1.5最好。Agilent 2100对文库的insert size进行检测,RIN值反应的是样品的降解。RIN=RNA integrity number,即 RNA 分子完整数,从 0-10,直接反应了

6、RNA 质量的好坏,此数值越大表明 RNA 质量越好越完整。1.2 建库流程1.2.1 ssRNA-seq 建库(针对长非编码RNA分析)RNA检测合格后,通过epicentre Ribo-ZeroTM试剂盒去除rRNA(可以拿到非polyA的转录本)随后加入fragmentation buffer将RNA打断成150-200bp短片段150-200bp,以短片段RNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dUTP、dATP、dGTP和dCTP)和DNA polymerase I合成二链cDNA,随后利用AMPure XP be

7、ads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择。之后用USER酶降解含有U的cDNA第二链,最后进行PCR富集得到链特异性cDNA文库。 图:lncRNA建库1.2.2 小RNA建库样品检测合格后,使用 Small RNA Sample Pre Kit 构建文库,利用 Small RNA 的 3 及 5 端特殊结构( 5 端有完整的磷酸基团, 3 端有羟基),以 total RNA 为起始样品,直接将 Small RNA 两端加上接头,然后反转录合成 cDNA 。随后经过 PCR 扩增, PAGE 胶电泳分离

8、目标 DNA 片段,切胶回收得到的即为 cDNA 文库。 1.2.3 普通转录组建库样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。随后加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNA polymerase I合成二链cDNA,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段

9、大小选择,最后进行PCR富集得到最终的cDNA文库。构建原理图如下: 图RNA-seq建库1.2.4 Chip-seq 建库流程染色体免疫共沉淀(ChIP)是一种用于研究蛋白质与 DNA 的体内相互作用的经典实验技术。采用特异性抗体将目的蛋白进行免疫沉淀,由此可以把目的蛋白所结合的基因组 DNA 片段也富集下来。方法1 :Cross-liking Chromatin Immunoprecipitation (X-ChIP) 甲醛处理细胞,使 DNA-protein 的相互结合作用被交联固定, 裂解细胞,得到全细胞裂解液。超声处理,将基因组 DNA 打断至 100-500 bp。抗体免疫沉淀:在

10、细胞裂解液中加入一抗和 beads,并进行孵育。采用合适的实验条件进行洗脱,并解交联。通过 qPCR 对 ChIP 结果进行验证。准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库。方法2:Native Chromatin Immunoprecipitation 通过非变性的方式得到核裂解液。微球菌核酸酶(Micrococcal nuclease)消化染色质,得到单核小体或核小体寡聚体。抗体免疫沉淀:在细胞裂解液中前后加入一抗和 beads,并进行孵育。DNA 分离。通过 qPCR 对 ChIP 结果进行验证。 6. 准备好的 ChIP 后的 DNA 样品可以

11、用于 ChIP Sequencing 建库。最后DNA 片段末端修复,3端加 A 碱基,连接测序接头公司 Paired-End DNA Sample Prep kit)。 PCR 扩增及 DNA 产物的片段大小选择一般为 100-300 bp,包括接头序列在内合格的文库用于上机测序。2 质量控制相关的变量2.1 reads quality issue2.1.1 测序错误率Base QualityBase quality indicates the confidence in the base callq = 10*log 10 (0.01) = 20测序错误率特征(1)测序错误率会随着测序序列

12、(Sequenced Reads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的。(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合图 前6碱基错误率高,125bp测序错误率高2.1.2 CG含量正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的GC

13、含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。前几个不稳定due to the random hexamer priming during PCR amplification,属于正常的现象 红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差 图:重复序列检测2.1.3 重复序列理论上出现重复序列的概率是很低的。如果出现重复的序列,

14、很多是人工的artificiallyPCR 扩增。下图是横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。重复数目大于等于10的reads被合并统计 如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话,fastqc将其记为over-represented k-mer。出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented。K-mer可以用于检测是否有接头存在。2.1

15、.4 比对统计:检测对reference的比对情况检测mapping ratio, 看比对上的总数,还可以同污染源的基因组进行比对。2.1.5 rRNA/tRNA 的污染组成RNA的污染,如rRNA和tRNA, 最高时可以占整个转录组的60-90%。 建库时对这类RNA进行降解。有2种方法,一种是使用磁珠进行吸附选择有poly-a的转录本。第二种是对核糖体RNA进行消化。即使这样,仍然会有大量的核糖体rRNA污染存在。2.1.6 Saturation Test of Sequencing Depth 测序深度不同,对低丰度的基因使用FPKM定量也并不稳定,此外做可变剪切,lncRNA需要更高的

16、深度才能检测。一般认为100*-150*可以饱和。.2.1.7 生物学重复 RNA-seq通常要求至少2个生物学重复,注意区别生物学重复和技术重复,生物学重复一般建议皮尔逊相关系数0.92以上。可以通过聚类,计算相关系数,PCA样品研究样品之间的关系。2.1.8 覆盖整齐度 Coverage Uniformity RNA-seq测序的结果,理论上每个位点被测序到的机会是相等的,但是由于poly-A选择,3端往往会具有更高的coverage. 此外大多数reads应该位于基因注释区。2.1.9 链特异性Strand Specificity 转录本可以从正义链和反义链进行转录,大多数基因位于正义链

17、,但仍有部分能从反义链上转录出来,比如天然反义转录本NAT, 普通的转录组数据可以通过剪切位点 GT/AG 区分方向,但是无法定量反义转录本的表达量。2.2 FastQ的数据格式1.原始序列数据 高通量测序(如 Illumina HiSeqTM2000/MiseqTM)得到的原始图像数据文件经 CASAVA碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为 Raw Data或 Raw Reads,结果以 FASTQ (简称为 fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。 FASTQ 格式文件中每个

18、read 由四行描述,如下: HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT + #55?BBBBB?BADEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH 其中第一行以“”开头,随后为 Illumina 测序标识别符(Sequence Identifiers)和描述文字(选择性部分); 第二行是碱基序列; 第三行以“+”开头,随后为 Illumina 测序标识别符(选择性部分); 第四行是对应碱基的测序质量,

19、该行中每个字符对应的 ASCII 值减去 33,即为对应第二行碱基的测序质量值。Perl代码: ord$base -33 3 软件使用3.1 常用的软件的名称FastQC: PRINSEQ 做质量检测并可视化Trimmomatic, Cutadapt, and FastX, Fastx-toolkits3.2 软件的命令和参数3.2.1 对文件进行fastqc reads.fastq.gz3.2.2 Fliter and Trimjava -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.

20、fq.gz unpaired1.fq.gz paired2.fq.gz unpaired2.fq.gz AVGQUAL:20prinseq-lite.pl -fastq reads1.fastq -fastq2 reads2.fastq -phred64 -min_qual_mean 20 -out_good qual_filtered -out_bad null no_qual_header log verbosejava -jar trimmomatic-0.32.jar PE -phred64 reads1.fastq.gz reads2.fastq.gz paired1.fq.gz u

21、npaired1.fq.gz paired2.fq.gz unpaired2.fq.gz TRAILING:20 MINLEN:501.2去掉含有5 adapter污染的序列的command:/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper -i test.fltqual.fastq -o test.fltqual.f5.fastq -a GTTCAGAGTTCTACAGTCCGACGATC -C -Q 33 -v1.3含有3 adapter的序列保留,且trim掉3adapter的command:/WPS/RNA/pub/software/fastx_toolkit/bin/fastx_clipper -i test.fltqual.f5.fastq -o test.fltqual.f5.t3.fastq -a AGATCGGAAGAGCACACGTCT -c -Q 33 -v 整理zhaot 2015-5-9参考:https:/www.huck.psu.edu/content/instrumentation-facilities/genomics-core-facility/samples/rna-seq-samples

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1