Bowtie2用法祥解.docx

上传人:b****6 文档编号:4764120 上传时间:2022-12-08 格式:DOCX 页数:8 大小:19.94KB
下载 相关 举报
Bowtie2用法祥解.docx_第1页
第1页 / 共8页
Bowtie2用法祥解.docx_第2页
第2页 / 共8页
Bowtie2用法祥解.docx_第3页
第3页 / 共8页
Bowtie2用法祥解.docx_第4页
第4页 / 共8页
Bowtie2用法祥解.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

Bowtie2用法祥解.docx

《Bowtie2用法祥解.docx》由会员分享,可在线阅读,更多相关《Bowtie2用法祥解.docx(8页珍藏版)》请在冰豆网上搜索。

Bowtie2用法祥解.docx

Bowtie2用法祥解

Bowtie2用法祥解

懒人必看

对参考序列构建index

$bowtie2-buildgenome.fastaindex

尝试使用前10000个reads进行比对

$bowtie2-u10000-p8-xindex-1reads1.fq-2reads2.fq-Sout.sam

使用8个线程进行比对

$bowtie2-p8-xindex-1reads1.fq-2reads2.fq-Sout.sam

比对的sam结果中添加了readgroup信息

$bowtie2-p8--rg-idsample01--rg"PL:

ILLUMINA"--rg"SM:

sample01"-xindex-1reads1.fq-2reads2.fq-Sout.sam

常用的参数进行比对,可以更改其中的参数获得更好的结果

$bowtie2-q--phred33--sensitive--end-to-end-I0-X500--fr--ununpaired--alaligned--un-concunconc--al-concalconc-p6--reorder-x{-1|-U}-S[]

用法:

bowtie2[options]*-x{-1-2|-U}-S[]

bowtie2-build用法

bowtie2-build默认情况下将fasta文件换成index的数据库。

$bowtie2-build<要生存的索引文件前缀名>

必须参数:

-x由bowtie2-build所生成的索引文件的前缀。

首先在当前目录搜寻,然后

在环境变量BOWTIE2_INDEXES中制定的文件夹中搜寻。

-1双末端测寻对应的文件1。

可以为多个文件,并用逗号分开;多个文件必须和-2

中制定的文件一一对应。

比如:

"-1flyA_1.fq,flyB_1.fq-2flyA_2.fq,flyB

_2.fq".测序文件中的reads的长度可以不一样。

-2双末端测寻对应的文件2.

-U非双末端测寻对应的文件。

可以为多个文件,并用逗号分开。

测序文件中的reads的

长度可以不一样。

-S所生成的SAM格式的文件前缀。

默认是输入到标准输出。

以下是可选参数:

输入参数

-q输入的文件为FASTQ格式文件,此项为默认值。

-qseq输入的文件为QSEQ格式文件。

-f输入的文件为FASTA格式文件。

选择此项时,表示--ignore-quals也被选择了。

-r输入的文件中,每一行代表一条序列,没有序列名和测序质量等。

选择此项时,表示--

ignore-quals也被选择了。

-c后直接为比对的reads序列,而不是包含序列的文件名。

序列间用逗号隔开。

选择此项时,

表示—ignore-quals也被选择了。

-s/--skipinput的reads中,跳过前个reads或者pairs。

-u/--qupto只比对前个reads或者pairs(在跳过前个reads或者

pairs后)。

Default:

nolimit.

-5/--trim5剪掉5'端长度的碱基,再用于比对。

(default:

0).

-3/--trim3剪掉3'端长度的碱基,再用于比对。

(default:

0).

--phred33输入的碱基质量等于ASCII码值加上33.在最近的illuminapipiline中

得以运用。

最低碱基质量是“#”。

--phred64输入的碱基质量等于ASCII码值加上64.最低碱基质量是“B”。

--solexa-quals将Solexa的碱基质量转换为Phred。

在老的GAPipeline版本中得以

运用。

Default:

off.

--int-quals输入文件中的碱基质量为用“”分隔的数值,而不是ASCII码。

比如4040

3040...。

Default:

off.

–end-to-end模式下的预设参数

--very-fastSameas:

-D5-R1-N0-L22-iS,0,2.50

--fastSameas:

-D10-R2-N0-L22-iS,0,2.50

--sensitiveSameas:

-D15-R2-N0-L22-iS,1,1.15(defaultin--end-to-endmode)

--very-sensitiveSameas:

-D20-R3-N0-L20-iS,1,0.50

–loca模式下的预设参数

--very-fast-localSameas:

-D5-R1-N0-L25-iS,1,2.00

--fast-localSameas:

-D10-R2-N0-L22-iS,1,1.75

--sensitive-localSameas:

-D15-R2-N0-L20-iS,1,0.75(defaultin--localmode)

--very-sensitive-localSameas:

-D20-R3-N0-L20-iS,1,0.50

比对参数:

-N进行种子比对时允许的mismatch数.可以设为0或者1.Default:

0.

-L设定种子的长度.

************************************************************

功能选项

给bowtie的一些参数设定值的时候,使用一个计算公式代替,于是值的大小与比对序列的长

度成一定关系。

有三部分组成:

(a)计算方法,包括常数(C),线性(L),平方根(S)和

自然对数(G);(b)一个常数;(c)一个系数.

例如:

为L,-0.4,-0.6则计算公式为:

f(x)=-0.4+-0.6*x

为G,1,5.4则计算公式为:

f(x)=1.0+5.4*ln(x)

************************************************************

-i设定两个相邻种子间所间距的碱基数。

************************************************************

例如:

如果read的长度为30,种子的长度为10,相邻种子的间距为6,则提取出的种子如下

所示:

Read:

TAGCTACGCTCTACGCTATCATGCATAAAC

Seed1fw:

TAGCTACGCT

Seed1rc:

AGCGTAGCTA

Seed2fw:

CGCTCTACGC

Seed2rc:

GCGTAGAGCG

Seed3fw:

ACGCTATCAT

Seed3rc:

ATGATAGCGT

Seed4fw:

TCATGCATAA

Seed4rc:

TTATGCATGA

************************************************************

在--end-to-end模式中默认值为”-iS,1,1.15”.即表示f(x)=1+1.15*

sqrt(x).如果read长度为100,则相邻种子的间距为12.

--n-ceil设定read中允许含有不确定碱基(非GTAC,通常为N)的最大数目.

Default:

L,0,0.15.计算公式为:

f(x)=0+0.15*x,表示长度为100的read

最多运行存在15个不确定碱基.一旦不确定碱基数超过15,则该条read会被过滤掉.

--dpadDefault:

15.

--gbar在read头尾个碱基内不允许gap.Default:

4.

--ignore-quals计算错配罚分的时候不考虑碱基质量.当输入序列的模式为-f,-r或

者-c的时候,该设置自动成为默认设置.

--nofw/--norc–nofw设定read不和前导链(forwardreferencestrand)进行比对;

--norc设定不和后随链(reverse-complementreferencestrand)进行比对.

Default:

bothstrandsenabled.

--end-to-end比对是将整个read和参考序列进行比对.该模式--ma的值为0.该模式为

默认模式,--local模式冲突.

--local该模式下对read进行局部比对,从而,read两端的一些碱基不比对,从而使比

对得分满足要求.该模式下–ma默认为2.

得分罚分参数

--ma设定匹配得分.--local模式下每个read上碱基和参考序列上碱基匹配,则

分.在—end-to-end模式中无效.Default:

2.

--mpMX,MN设定错配罚分.其中MX为所罚最高分,MN为所罚最低分.默认设置下罚分与

碱基质量相关.罚分遵循的公式为:

MN+floor((MX-MN)(MIN(Q,40.0)/40.0)).

其中Q为碱基的质量值.如果设置了—ignore-qual参数,则错配总是罚最高分.Default:

MX=6,MN=2.

--np当匹配位点中read,reference上有不确定碱基(比如N)时所设定的罚分值.

Default:

1.

--rdg,设置在read上打开gap罚分,延长gap罚分.

Default:

5,3.

--rfg,设置在reference上打开gap罚分,延长gap罚分

.Default:

5,3.

--score-min设定成为有效比对的最小分值.在—end-to-end模式下默认值为:

L,-0.6,-0.6;在--local模式下默认值为:

G,20,8.

报告参数

-k默认设置下,bowtie2搜索出了一个read不同的比对结果,并报告其中最好的

比对结果(如果好几个最好的比对结果得分一致,则随机挑选出其中一个).而在该模式下,

bowtie2最多搜索出一个read个比对结果,并将这些结果按得分降序报告出来.

-a和-k参数一样,不过不限制搜索的结果数目.并将所有的比对结果都按降序报告出来.

此参数和-k参数冲突.值得注意的是:

如果基因组含有很多重复序列时,该参数会导致程序

运行极其缓慢.

Effort参数

-D比对时,将一个种子延长后得到比对结果,如果不产生更好的或次好的比对结果,

则该次比对失败.当失败次数连续达到次后,则该条read比对结束.Bowtie2才会

继续进行下去.Default:

15.当具有-k或-a参数,则该参数所产生的限制会自动调整.

-R如果一个read所生成的种子在参考序列上匹配位点过多.当每个种子平均匹配超

过300个位置,则通过一个不同的偏移来重新生成种子进行比对.则是重新生成种子

的次数.Default:

2.

Paired-end参数

-I/--minins设定最小的插入片段长度.Default:

0.

-X/--maxins设定最长的插入片段长度.Default:

500.

--fr/--rf/--ff设定上下游reads和前导链paired-end比对的方向.--fr:

匹配时,

read1在5'端上游,和前导链一致,read2在3'下游,和前导链反向互补.或者read2在

上游,read1在下游反向互补;--rf:

read1在5'端上游,和前导链反向互补,read2在

3'端下游,和前导链一致;--ff:

两条reads都和前导链一致.Default:

--fr.默认

设置适合于Illumina的paired-end测序数据;若是mate-paired,则要选择—rf参数.

--no-mixed默认设置下,一对reads不能成对比对到参考序列上,则单独对每个read进

行比对.该选项则阻止此行为.

--no-discordant默认设置下,一对reads不能和谐比对(concordantalignment,

即满足-I,-X,--fr/--rf/--ff的条件)到参考序列上,则搜寻其不和谐比对(discon

cordantalignment,即两条reads都能独一无二地比对到参考序列上,但是不满足-I,

-X,--fr/--rf/--ff的条件).该选项阻止此行为.

--dovetailread1和read2的关系为dovetail的时候,该状况算为和谐比对.默认情况

下dovetail不算和谐比对.

--no-containread1和read2的关系为包含的时候,该状况不算为和谐比对.默认情况

下包含关系算为和谐比对.

--no-overlapread1和read2的关系为有重叠的时候,该状况不算为和谐比对.默认情

况下两个reads重叠算为和谐比对.

输出参数

-t/--time--un将unpairedreads写入到.

--un-gz将unpairedreads写入到,gzip压缩.

--un-bz2将unpairedreads写入到,bz2压缩.

--al将至少能比对1次以上的unpairedreads写入.

--al-gz...,gzip压缩.

--al-bz2...,bz2压缩.

--un-conc将不能和谐比对的paired-endreads写入.

--un-conc-gz...,gzip压缩.

--un-conc-bz2...,bz2压缩.

--al-conc将至少能和谐比对一次以上的paired-endreads写入.

--al-conc-gz...,gzip压缩.

--al-conc-bz2...,bz2压缩.

--quiet安静模式,除了比对错误和一些严重的错误,不在屏幕上输出任何东西.

--met-file将bowtie2的检测信息(metrics)写入文件.用于debug.

Default:

metricsdisabled.

--met-stderr将bowtie2的检测信息(metrics)写入标准错误文件句柄.和上

一个选项不冲突.Default:

metricsdisabled.

--met每隔秒写入一次metrics记录.Default:

1.

Sam参数

--no-unal不记录没比对上的reads.

--no-hd不记录SAMheaderlines(以@开头).

--no-sq不记录@SQ的SAMheaderlines.

--rg-id设定readgroupID为text。

在SAM文件的头中增加一行@RG,在输出的SAM

文件中添加Tag"RG:

Z:

text"。

--rg使用text作为@RG的一列,比如"SM:

Pool1"。

在@RG中加入多列,则多次使用

该参数即可。

在进行Variantcalling的过程中需要@RG头,SM信息和TagRG。

性能参数

-o/--offrate无视index的offrate值,以取代之.Index默认的

值为5.值必须大于index的offrate值,同时越大,耗时越长,耗内存越少.

-p/--threadsNTHREADS设置线程数.Default:

1

--reorder多线程运算时,比对结果在顺序上会和文件中reads的顺序不一致,使用该选

项,则使其一致.

--mm使用内存定位的I/O来载入index,而不是常规的文件I/O.从而使多个bowtie程

序共用内存中同样的index,节约内存消耗.

其它参数:

--qc-filter滤除QSEQfileterfiled为非0的reads.仅当有—qseq选项时有效.

Default:

off.

--seed使用作为随机数产生的种子.Default:

0.

--version打印程序版本并退出

-h/--help打印用法信息并推出

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1