Illumina测序基础知识Word文档格式.docx

上传人:b****6 文档编号:18982533 上传时间:2023-01-02 格式:DOCX 页数:13 大小:29.87KB
下载 相关 举报
Illumina测序基础知识Word文档格式.docx_第1页
第1页 / 共13页
Illumina测序基础知识Word文档格式.docx_第2页
第2页 / 共13页
Illumina测序基础知识Word文档格式.docx_第3页
第3页 / 共13页
Illumina测序基础知识Word文档格式.docx_第4页
第4页 / 共13页
Illumina测序基础知识Word文档格式.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

Illumina测序基础知识Word文档格式.docx

《Illumina测序基础知识Word文档格式.docx》由会员分享,可在线阅读,更多相关《Illumina测序基础知识Word文档格式.docx(13页珍藏版)》请在冰豆网上搜索。

Illumina测序基础知识Word文档格式.docx

然后,我们再在液流池里加入中性液体,主要就是为了中与这个碱液,在加入中与液之后,整个环境变成中性了。

这时侯,DNA链上得另外一端,就会与玻璃板上得第二种引物,发生互补杂交。

接下来,我们加入酶与dNTP,聚合酶就延着第二个引物,合成出一条新链来;

后,我们再加碱,把2条链解链解开;

然后,我们再加中与液,这时侯,DNA链会与

新得引物杂交。

再加酶,再加dNTP,又从新引物合成出新得链来。

连续重复这一过程,DNA链得数量,就会以指数方式增长。

在桥式PCR完成之后,接下来要做得工作,就就是要把合成得双链,变成可以测

序得单链。

办法就是通过一个化学反应,把其中一个引物上得一个特定得基团给切断掉。

然后,再用碱溶液来洗这个芯片。

这时侯,碱让DNA得双链解链,那根被切断了

根得DNA链就被水冲掉了。

留下那根共价键连在(芯片)上面得链。

接下来,再加入中性溶液,然后在这个中性溶液里面加入测序引物。

好,接下来正式得测序工作就开始了。

那么,在测序得时侯,加入进去得,最主要就是2个东西:

一个就是带荧光标记得dNTP0而这个dNTP,它还有一个特点,它得3'

末端就是被一个叠氮基堵住得。

然后,再加一个聚合酶,聚合酶就会选择:

哪一个dNTP就是与原来位置上得那个碱基就是互补得,根据互补性原理,把这个dNTP合成到新得这个DNA链上去因为这个dNTP得3'

端就是被一个叠氮基团堵住了,所以,它一个循环只能延长

一个碱基。

然后,它就停在那儿了。

合成完了之后,就用水把多余得dNTP与酶给冲掉。

冲掉之后,就放到显微镜下,去进行激光扫描。

根据发出来得荧光来判断它就是哪个碱基。

因为4种dNTP,它每一种dNTP上面标得荧光素都不一样,根据红、黄、蓝、

绿,它出来得哪种颜色,那么,就可以倒过来推出来,这个新合成上去得碱基,就是哪种碱基。

因为新合成得碱基,就是与原来位置(得碱基)就是互补得,所以,又推出模板上那个碱基就是哪个。

这一个循环完成之后,就加入一些化学试剂,把叠氮基团与旁边标记得荧光基团切掉。

切完了之后,3'

端得羟基就暴露出来。

再接下来,加入新得dNTP与新得酶,然后,又延长一个碱基。

新延长完一个碱基

之后,把多余得酶与dNTP冲掉,再进行一轮显微得激光扫描,再读一下这个碱基

就是什么。

不断重复这个过程,可以重复上百次,到几百次,就可以把上百个碱基,甚至更多碱基得序列读出来。

那么,什么就是Index明E?

就是因为lllumina得评委会个测序量很大,往往一个样本,用不了那么几亿条DNA。

所以,科学家就想了一个办法。

在文库得接头上做了一些标记,每一个样本,它有一个特定得接头,每个接头里面,它有一段特定得序列。

这段特定得序列,我们就称为Index。

也有人把它叫做Barcode,反正,表达得就是一个意思:

这么一段特定得序列,标记了样本得来源。

那么,要读这个Index得序列,先用碱把上面这根测完“Read1”得序列,把上面这根DNA链给解链掉解链掉之后,再加入中性液,然后,加入“Read2”这个测序引物。

Read2测序引物结合得位点,正好,就在这个Index序列得旁边。

接下来,就进行第2轮测序,—般来说,就是读6到8个碱基。

把这6到8个碱基

读下来,我们就可以知道,这某一个具体得一段DNA,它来自于原始得哪个样本。

这就是lllumina得最核心得另外一个技术,就就是双端测序。

那么双端测序,就就是说,一根DNA链,除了从正向读一遍,还可以从DNA得负向,再读一遍。

这一下子就把lllumina测序得有效长度加了一倍。

这就是非常有实际用途得。

那么这个倒链得过程,就是这样,先让这个DNA先合成,合成出来这根互补链。

有了这个互补链之后,用一个化学试剂,在原来这根链得根上切一下。

切一下,原

来这根模板链就掉了,剩下那根互补链。

再接下来,就进行第2端得测序。

第2端得测序原理,与第一端得测序原理就是

一样得。

加上了“Read3”得这个引物,依次往下,一个一个碱基地往下读。

那么最重要得事情就是什么呢?

一个点,经过几百个循环,就读出了几百个碱基。

但实际上,这个芯片上可以有上亿个点,上亿个“cluster”,也就就是“簇”。

那么上亿个“cluster”,每个循环,它都可以读出地么多序列,这就是川umina测序非常强大得原因。

因为就是成千上万,准确说就是上亿上链都在合成,这个就得到了很大得一个测序数据量。

川uminaHiSeq测序仪得工作原理。

也就就是芯片上发生了这么多变化,HiSeq就是如何把这些信息给读出来,并且把扫描出来得荧光信号,又通过怎样一系列得加工,变成可以识别得“A、C、G、T”得碱基序列得。

HiSeq首先就是一台高精度得显微光学扫描仪。

然后再配上了一整套得液流系统与计算机软硬件,再加温控系统,组成这样一台测序仪。

其中最核心,也就是结构最复杂得,就是它得光学系统。

前一期,我们讲了,Illumina测序仪主要就是靠4种dNTP分别带有不同得荧光

基团,在被激光照了之后,发出不同颜色得荧光。

再通过对光得颜色得分辩,可以判断出到底就是哪个碱基。

这里,我们要说明一下:

感光元件CCD,它本身就是色盲。

所以,它一定要配合滤光片,才能分辩出颜色来。

那我们先来瞧一下,HiSeq得光路图。

左边这两个元器件,就就是激光器。

一个发出红色激光,另一个发出绿色激光。

其中红色激光主要就是激发A与C,这两种碱基上得荧光基团;

而绿色激光主要就是激发G与T,这两种碱基上得荧光基团。

红色与绿色这两束光,通过一面半透半反镜,组成一道激光。

这道激光打在

Flowcell上。

那么请注意,Flowcell就放在这个位置。

在Flowcell里面,结合在DNA上得那个荧光基团在激光得照射下,就发出荧光。

荧光通过3面半透半反镜,与1面全反镜,被分成4条光路,这4道光线,分别通过一道滤光片,这4张滤光片得滤过波长不一样。

这样,这4道光在经过了滤光片之后,就变成了4种颜色不同得光线。

然后,这4条颜色不同得光线,各自照在一面反射镜上,通过反射镜进入到CCDo这4个CCD就记录到不同颜色得光线。

HiSeq得光线扫描就是“线扫描”,与传统得相机不一样,传统得相机就是面扫描。

HiSeq采取了一种特定得叫“TDI”线扫描方式,TDI就是Timedelayintegration

得缩写。

在HiSeq上之所以采取TDI扫描方式,因为它有非常明显得优点。

第一个优点,就就是它得扫描速度非常快,在HiSeq2500上,从Flowcell得一个Lane得一头扫到另外一头,也就就是一个“Swath”得扫描时间,大概只有20

秒种不到。

第二个好处,就就是它得扫描精度非常高。

在最新得HiSeqV4版试剂上,它得光点密度,大概可以达到每平方毫米90万个点,要扫描清楚这么高密度得光点,扫描仪得扫描精度就是可想而知得。

TDI扫描得第三个好处,就是这种方式,可以把Flowcell得上表面、与下表面都扫描到。

接下来,我们再要详细介绍这张Flowcell。

那么,先来瞧一下,这张flowcell有点象一张载玻片,在这一张片子里面,我们可以瞧到,它做了8条通道。

每条通道,我们称为一个Lane。

这8个Lane之间,相互就是隔绝得。

每个Lane得两端各有一个小孔。

这两个小也孔,就就是液流流进、流出得地方。

每个Lane得上表面与下表面,都分别以共价键得方式,种了2种DNA引物。

两种DNA引物,就是与文库接头得两头序列相互补得。

上一期(节目)我们已经说明了这一点。

一个Lane里面,分成2个面,上表面、与下表面。

上表面与下表面,都种了DNA引物,也都就是可以产生测序数据得。

在每一条Lane得每一个面,又被分成了3个扫描通道,每个道被称为一个

“swath”。

每条Swath就是从头到底被连续扫描得。

但就是它得数据,在进行数据分析得时侯,就是被分割成16个小方块。

这每一个小方块,被称为一个

“tile”。

这样一张Flowcell,总共就就是768个Tile。

每个Tile在扫描得时侯,会根据4种颜色,产生4张照片。

扫描完了之后,就要进行图像处理。

扫描出来得最原始得文件,它得格式就是“、tiff”文件。

Tiff文件记录了每个像素点上采集到得光强度。

Tiff文件得优点就是它就是完全无损,保留了所有得原始信息。

但它也有它得不足之处。

它得不足之

处就就是它得这个文件太大了。

它得数据量很大,既不便于数据得传输,也不便于数据得存储。

、BCL”文件

接下来,计算机软件就把图像文件转化成光点文件。

光点文件叫也就就是“Basecalling”得英文缩写。

要把图像文件,转化成BCL文件,就就是把4种颜色得4张照片,组合在一起,变成一张有4种颜色得彩色照片。

这其中首先要解决得,就是4张照片在空间位置上得匹配问题,因为4张照片就

是通过4个CCD分别拍下来得,所以,会有一定得空间上得偏差。

软件要通过对

4张照片上,亮点相互比对,找到最合适得、匹配得位置。

这里,我们要说明一下,如果被测得文库就是碱基不平衡得文库,在这个空间匹配上就会遇到问题。

什么叫碱基平衡呢?

也就就是说,在测序过程当中,每个循环,A、C、G、T四种碱基,都就是比较均匀在存在得。

最典型就是人全基因组文库,这就是一个典型得碱基平衡文库。

那什么就是碱基不平衡文库呢?

最典型得,就就是PCR扩增子产生得文库。

PCR

扩增子得特点:

PCR就是有特定得起始位点得,一个特定得测序循环中,几乎所有

得片段都就是同一种碱基,而剩下得3种碱基,就特别少。

这在反映到照片上去得时侯,就变成:

一张照片特别亮,光点很多。

而其它得三张照片就特别暗,上面得光点就很少。

这时侯,要软件做空间上得比对,软件就会觉得困难,因为对于那几张暗得照片,软件很难判断上面得光点,就是否与那张亮得照片上得光点真正对得上。

结果,就就是判断出来得可靠性变差。

最后,就就是测序得数据质量变差,有效数据量也会变少。

要解决这个问题,办法就是在测序过程中掺入一些碱基平衡得文库。

例如掺人全

基因组文库。

或者也可以掺lllumina提供得标准得PhiX文库,这些都就是碱基平衡文库。

它得作用,就是在每个循环当中,为每一种颜色得照片,都提供足够多得亮点。

这样,它可以弥补那些不平衡得文库当中缺亮点得问题。

当把4种颜色得光点组成一个文件之后,软件就会生成一个“、BCL”文件

“、BCL”文件就就是光点文件,它对每个光点,记录了以下得内容。

首先一个光点处在哪个Lane里面。

其次,这个光点在这个Lane得哪个Tile里面。

第3,就就是这个亮点在这个Tile得X轴与丫轴得座标位置。

第4,就是记录了这个光点当中“红、黄、蓝、绿”四种光得对应得光强。

这个图就是BCL文

件得一个示意图。

实际上,BCL文件就是二进制文件,无法拿来直接阅读。

也正就是因为BCL文件难于阅读,并且很难改动,所以,BCL文件几乎不存在做假得可能。

在测序过程当中,有许多客户会要求测序公司提供原始得测序数据,如果客户就是包Lane、或者包Flowcell得,一般测序公司就是可以提供BCL文件得。

客户在拿到BCL文件之后,可以用“BCL2FASTQ”这个软件,把BCL文件转化成FASTQ序列语文件。

以此,客户可以来验证,测序公司提供得数据就是否就是原始得,就是否就是真实得。

再说一下最初生成得那个tiff文件。

tiff文件实在太大了,所以,测序仪在测序过程中,只把tiff文件作为中间文件。

最后就是把这个tiff文件删掉得。

如果客户想要原始得图像文件,在HiSeqV4之前,可以让测序公司保留“、CIF”文件oCIF文件就是一种彩色图案得向量文件,它得优点就是比tiff文件得数据量小很多。

测序公司把CIF文件给客户之后,客户就可以瞧到原始得图像文件了但就是,请注意:

在HiSeq升级到V4之后,保留CIF文件得这个选项就是被取消掉了。

所以,对于要测V4Lane得客户来说,就是拿不到CIF文件了。

接下来,我们讲一下碱基识别。

我们之前讲:

4种dNTP,各标一种荧光基团,红、黄、蓝、绿,四种颜色,根据颜色来判断碱基种类。

这个实际上就是一种简化了得说法。

实际情况,要比这个复杂得多。

来瞧这个图,这就是2种荧素得荧光得波长图。

我们会发觉,这两种荧光色,它发出来得发射光,它在波长上就是有交叠得。

在X得这个位置,主要就是绿色荧光素得贡献,但就是蓝色荧光素,也有少许贡献。

而在丫这个波长位置,蓝色荧光素就是做了主要贡献,但就是绿色荧光素,也有少

量供献。

在实际测序过程中,就是4种荧光素发出得亮,相互有交叠,相互之间得

交系,变得更加复杂。

那么,现在我们要做得事情,就是把A、C、G、T,4种荧光素得贡献给拆开。

首先,我们就要确定4种荧光素在4个被测波长处得贡献率。

我们可以瞧一下,这个表,就就是4种荧光素,在4个波长分别有不同得贡献率。

这样就组成一个4X4得贡献率表格。

我们在实际得分析当中,等于解一个4元1

次、4联方程。

因为就是4个未知数,又就是4个方程,所以肯定就是可以解出来得。

说解方程,有点复杂。

那么我们来打一个比方。

让大家来理解这个事情。

假设有一家饭店,它有4个熟客:

甲、乙、丙、丁。

它日常又提供4道菜:

猪肉、白菜、黄瓜、花生。

大厨知道:

甲最爱吃猪肉、乙最爱吃白菜、丙最爱吃黄瓜、

丁最爱吃花生,每个人来了饭店之后,主要吃自己最爱吃得,也会吃些别得菜,但别得菜都吃得不就是太多。

那么这个大厨不到前台,瞧不到今天来得客人。

如果,这个大厨想要知道今天来得客人就是谁,她有什么办法呢?

瞧今天哪个菜被吃掉得最多。

如果今天得菜被吃掉得最多得就是猪肉,那她可以大致地判断,今天就是甲来过了;

如果她瞧到今天被吃掉得菜,最多得就是白菜,很可能就是乙来过了;

那么其它得,道理也就是一

样得。

希望这个例子可以帮大家来理解一下,这4个荧光与4种碱基得判读得关系。

接下来,我们再讲一下,Phasing与Prephasing。

在lllumina得测序过程当中,一个簇,大概有5千个到1万个分子。

但就是在边合成、边测序得过程当中,每一步酶反应,理想情况下,应该这5千个分子都延长1个碱基。

但实际情况,总有少量分子没有完成延长反应。

也就就是说,总有少量得分子会掉队,我们称这种掉队得现象叫“phasing”。

Phasing主要就是由于酶活性不足,所引起得。

如图所示,掉队得这个分子,它所发出得荧光信号,与大部队所发出得荧光信号就是不一样得。

这个循环得次数越多,掉队得分子就越多。

所以,测序越到后面,它

Phasing得分子数就越多。

最后,信号得可靠性就越差。

除了掉队得分子,还会有一部分分子,会跑得超前,也就就是在一个循环中,它延

长了2个碱基。

在一个循环中延长了2个碱基得最主要得原因,就是dNTP上标记得那个叠氮基团(N3)掉了。

我们知道,叠氮基团就是非常容易从有机化合物上掉落得。

当叠氮基团掉落之

后,dNTP得3'

端得羟基就暴露出来了。

当丢失了叠氮基团得dNTP加到(合成链得)3'

端之后,它得聚合反应不会终止,而就是会继续往前走。

当再加上了一个带叠氮基团得dNTP之后,这个聚合反应才停下来。

这样得后果,就就是一个循环,某些分子,会合成了2个碱基。

也就就是说比大部

队多走了一步。

那么这个多走了一步得碱基,它所发出来得荧光颜色,也就是与大部队不一样得。

在lllumina测序过程当中,Phasing与Prephasing就是限制测长得最主要原因。

也就就是说,随着循环不断进行,越来越多得分子掉队,还有越来越多得分子超

前。

然后,它们所产生得噪音,掩盖了大部队得信号得时侯,也就就是测序开始测不准得时侯。

在HiSeq测序当中,从第12个循环开始,在计算某个光点就是哪种碱基得时侯,就要把Phasing与Prephasing得影响,纳入考虑。

为了对光点当中荧光素得纯粹程度进行描述,lllumina公司定义了个标准,叫

“chastity”,Chastity得定义,就就是浓度最高得那个荧光素得量,去除以“它自己+排名第二得荧光素得量得与”。

大于0、6就是一个好碱基。

用更加通俗得话来说,也就就是“老大”比“老二”,如果大于、等于“1、5倍”,这就就是个“好”碱基。

如果“老大”比“老二”不足“1、5倍”,这就就是个

“坏碱基”。

Illumina对每个read得质量都要做一个检验,这个检验就叫“passfilter”检验。

检验得标准,就是瞧前25个碱基当中,有几个就是“坏碱基”。

如果只有一个、或者没有坏碱基,则Passfilter就通过;

如果有超过一个以上得坏碱基,Passfilter就不能通过。

那我们平时说,测序服务保证多少“PFdata”,指得就就是PassFilter(PF)得数据。

PassFilter最主要得作用,就就是把那些一个光点当中,含了几个cluster得那些

点,给去掉。

只剩下那些纯粹得单克隆得read,作为合格得数据,提交给客户。

我们平时说“PF率”指得就就是PassFilter得Reads数,占总得、测到得Reads数得比例。

PF率可以从一个侧面反映测序得质量。

一般来说,如果上样密度过高,PF率就可能会下降。

一个碱基得QualityScore,也就就是这个碱基得质量分数(Q值)。

这个就是通过这个碱基被误判得可能性,换算出以10为底得对数,再乘以“-10”得到得这样一个数字。

这个Q值,有点象我们说黄金得纯度,我们说“三九金”,或者说“四九金”,就就是指99、9%得纯度得金子,或者就是99、99%得纯度得金子。

我们平时说Q30,就就是指一个碱基得可靠性达到99、9%。

或者说,它得出错得可能性小于千分之一。

同样道理,我们说Q40,就就是指一个碱基得可靠性就是99、99%。

或者说,它得出错得可能性就是万分之一。

那么,我们经常说Q30比例,所谓得“Q30比例”,就就是在全部PF数据当中,达到、或者超过Q30质量标准以上得数据,占所有PF数据得比例,叫Q30比例。

Q30比例,可以表征一个测序过程得质量得好坏。

一个碱基得质量分数,不就是以数字方式,直接记录到最后得Fastq文件得。

而就是把它得Q值,加上33,再

用ASCII码表转换成一个字母,把这个字母录入Fastq文件这样做,有2个好处。

如果我记2位数字,那么就占2个字节,现在用一个字母来记录,只占一个字节。

那(数据存储)空间就节省了很多。

第二个好处,用ASCII码字母表,一个碱基,只对应一个字母;

如果就是用2位数

字来记录,就有可能发生移码错误。

而用ASCII码,一个字母来记录,就不太容易发生移码错误。

在软件做完上述所有得数据处理之后,就会生成一个Fastq文件。

Fastq文件里,主要包含了3部分内容。

第一个部分,就是每个Read得目录信息。

也就就是这个Read来自于哪台

HiSeq、第几个run、第几个Lane、与第几个Tile,以及在这个Tile得X、Y得什么位置。

接下来,就就是所测到得碱基得序列。

最后,就是这些碱基序列对应得质量分数信息。

这个,就就是Fastq文件。

到Fastq文件之后,测序仪所要完成得工作,就完全完成了。

Pacbio就是目前读长最长得测序技术公司。

它得读长,最长可以达到2万到3万

个碱基,平均可以达到8千多个碱基。

相比于llumina与IonTorrent得几百个

碱基得读长来说,有着明显得优势。

PacBio得测序原理,与别得高通量测序得原理,基本上也就是一样得。

也就是边合成,边测序。

首先,这个聚合酶就是固定在测序小孔得玻璃底板上。

这个聚合酶又与DNA模

板、测序引物就是结合在一起得。

然后加入带4色荧光得dNTP底物,这些dNTP都在其磷酸基团上被标上了荧光基团,四种碱基、各标一种颜色。

当一种与聚合酶正要合成得碱基一致得dNTP被酶抓住得时候,酶就会长时间地抓住这个dNTP,不让这个dNTP漂走。

这时侯,激发光从小孔得底部照进来,打在这个被抓住得dNTP上,就会在较长时间内发出荧光。

仪器根据所拍到得荧光得颜色,就可以来判断,这个碱基就是哪种碱基。

一个循环得聚合反应发生完毕之后,焦磷酸基团就从原来得dNTP上掉下来,因为荧光基团就是连到这个焦磷酸上得,所以这个荧光基团也就一起掉下来了,在溶液中就会漂走。

接下来,进行第二、第三个循环,一直进行下去。

一张芯片上有几万个孔,同时进行测序,这样一次就可以得到几亿个碱基得序列。

接下来,分几个要点,来说明这个测序得过程。

与lllumina—样,PacBio也采用了4色荧光基团来标记dNTP,但就是PacBio得

标记与lllumina得标记有所不同,PacBio得荧光基团直接就是标在dNTP得3'

端得磷酸基团得末端得。

这样标记得好处就是:

当一个聚合反应得循环完成得时侯,dNTP上得那两个磷酸基团就掉下,连在这个磷酸基团上得荧光基团也随一块儿掉下来。

它掉下来之后,

就在溶液中漂走,不会影响接下来得测序过程了。

然后,我们说一下这个测序小孔得设计。

这个测序小孔叫ZeroModel

Waveguide,简称

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1