BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx

资源描述

BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx

《BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx》由会员分享，可在线阅读，更多相关《BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx（25页珍藏版）》请在冰豆网上搜索。

BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx

scaffold连接关系分析15

1流程简介15

2使用说明15

非正常插入片段过滤流程15

NCBI要求的fasta及agp文件转换脚本16

1流程简介16

2使用说明16

微生物组装流程V2.0使用说明

1流程简介

微生物组装流程V2.0，可实现的功能（适用于群体或个体组装分析）：

0数据过滤（如果数据已经过滤，可省去这一步，在过滤数据的基础上进行组装）

1Kmer分析；

2组装:

SOAPdenovo（grape）,SRkgf,krskgf,GapClose,alsoinsertSizecanbecorrecteddealingassembly；

组装结果评估：

3Contig分析（分析的组装结果为grape的原始组装结果，因补洞后或过滤短序列后，contig数目太

少了）；

4单碱基纠错；

5GC-depth分析；

6插入片段评估（大小片段都评估，大片段的评估结果将会加入到质控表中）

7NT库blast比对找污染（可自动根据GC-depth聚类结果找到污染序列，也可以设置为全基因组nt

库比对）；

8质粒库blast比对（可自动根据GC-depth聚类结果找到污染序列，也可以设置为全基因组跟质粒库

比对）；

9scaffold链接关系分析（基于soap比对的SE）；

10scaffold排序、共线性、组装覆盖度分析（基于参考序列，可输入多个参考序列，程序会选择覆盖

度最高的参考序列进行下游分析）；

11生成符合NCBI上传的fasta文件和agp文件（2.0版本且包含头信息）；

2使用说明

1）从过滤数据开始运行：

perlAssemply.pl--bmsbms.lst--rawdir/share/fqdata44/data-clean_opts="

--programFCKJ0047_PSEnvrD-data_lim700"

--bms<

str>

BMS数据列表，格式：

样品名文库名插入片段长度，深圳集群支持http

网址输入（使用跟纯测序流程一样）

--rawdir<

下机数据目录

--clean_opts=<

设置Clean_Data.pl的参数，所有的参数写在双引号“”之内，详细参数

说明，请参看纯测序相关帮助文档

--cleandir<

dir>

设置过滤数据输出目录，默认=01.Cleandata

有时候，如果怀疑下机数据有问题，可把-step设置为非1234的数字，只过滤数据，看看是否及格再做下面的操作。

2）已有过滤数据的情况下，运行方式：

perlAssemply.pl<

reads.lst>

[insert.lst][-options]

reads.lst<

file>

所有readsFQ文件所在的路径，如果所有FQ文件所在目录以样品名命名，文件名中包含“L数字_文库名”标记，

这个输入可以直接是所有FQ文件路径列表，否则需要写成如下格式：

样品名插入片段长度reads1FQ路径

样品名插入片段长度reads2FQ路径（一定要是同一对reads按先reads1后reads2的顺序写）

insert.lst<

在reads列表里的路径包含文库名标记的情况下，输入文库长度列表，格式：

文库名插入片段长度。

--assdir<

组装结果输出目录，默认为03.Assembly

--shdir<

运行过程中的shell脚本存放目录，默认为Shell/

--onesample一个样品的组装（就算是一个样品不建议选此参数，后期目录处理不方便）

--sname<

当设置了—onesample时，设置样品名，默认为all

--step<

num>

运行步骤：

1kmer分析,2组装,3组装结果评估,4,contig分析，

5getResultdirectorystructure,默认1234

--evstep<

选择step3的具体内容:

1soap比对,2soap覆盖度分析,3单碱基纠错,

4GC_depth分析,5插入片段分析,6NT库污染分析,7质粒库分析,

8scaffold连接关系分析,9基因参考序列的组装覆盖度及共线性分析,

0生成符合NCBI上传要求格式的文件，默认为0123456789

--reflist<

输入参考序列列表（for--evstep9），格式每一行为：

“Ref名字文件路径”，

如果只输入文件路径，则已basename为参考序列名字

--cdslist<

输入参考序列cds文件列表（for--evstep9），其中的文件顺序，需要与—reflist

中保持一致。

--get_result生产交付目录结构，如果没有选这个参数也可以在程序运行结束后，运行

Shell/Step5_get_result.sh，得到交付目录Result

2.1Kmer分析参数说明：

--kmer_opts<

KmerStat-g-s参数,default='

-g300-s32'

--rekmer<

第2次kmerStat时把-g和-s参数设置为前一次估算的基因组大小的倍数，

默认=32,5，比如kmer估算的基因组大小为4M，这个参数相当于设置了

-g=4*32–s=4*5，如果设置0,0则不做二次kmer分析

--kmer_vf<

KmerStat投任务内存,default=500M

2.2组装参数说明：

组装过程：

1先选一组参数粗略地组装一个版本，用于估算插入片段相关的参数（min_ins/avg_ins/max_ins），

之前的流程配置文件中，没有设置插入片段的最小值和最大值）

2用soapdenovo（grape）进行组装，可以进行多轮组装，每次并行多组不同的参数，选择组装效果最

好的一组参数，这组参数将与下一轮组装中的每一组参数进行组合（取参数的并集，重复的参数以

下一轮的为准），在上一轮的最优组装结果跟这轮所有的结果中，选择最优结果。

组装次数不限，

一般情况下两轮组装，参数的组合已很充分了。

这一步包含soapdenovo（grape）的-F补洞和SRkgf补

洞（这两种补洞策略不能同时使用）

3krskgf或gapclose补洞，补洞次数不限，软件的使用顺序也不限，可根据需要设置参数，但用一次

krskgf+gapclose洞补也差不多了。

4插入片段纠正。

组装效果越好，插入片段纠正结果越可靠，这一步可多次使用，插入到2、3步之

间或内部（一般在第2步的最优结果后，纠正一次，然后再装一次，效果就已经相当好了，补洞

就不需要再纠正了）

--maxL<

reads的最大长度,default=90.

--corr_insert<

选择纠正插入片段长度的方法（计算组装配置文件中插入片段相关的参数）:

1使用组装的log文件，这个不耗时间，但是大片段一般估计不了；

2根据soap比对结果选择正常的insertSize计算插入片段均值及正常范围

3根据soap比对结果，使用soap2_insert.pl计算avg_ins,Rsd/Lsd

方法3用于插入片段评估，但计算设置参数建议用2，默认选方法2.

--soap_opts<

纠正插入片段时，SOAP比对的参数，默认为"

-l32-s40-v3-r1-p6"

--sortsoap对最终的SOAP比对结果进行排序（forcallingSNP）,defaultnotsort

--resoap重新进行soap比对，组装后，第一次soap比对的结果用于覆盖度分析、

GC-depth、单碱基纠错,但单碱基纠错后，soap比对结果会有所不同，如

果soap结果要用于重测序分析，建议选这个参数，defuaultnotrun

--ass_opts<

第一次纠正插入片段时，使用的组装参数,default="

all-K29-F"

--cfg_opt<

第一次组装纠正插入片段时，write_cfg.pl（写组装配置文件的脚步）设置

参数,default='

-x-p3,3'

--c<

计算插入片段正常范围的参数:

min,max_ins=avg_ins-/+c*sd,default=1.96

--cfg_options<

正式组装时，write_cfg.ploptions（optionstowriteassemblycfgfile）,

default='

--ass_options<

str|file>

组装参数，可以是一个配置文件，也可以是字符串，具体见注意事项3,

默认="

all-u-d1-K37:

5-F\nkrskgf\ngapclose-t8"

--object<

选择最优组装结果时，所依据的组装统计表:

500bp以上是数据统计表,

2所有序列数据统计表default=1

--priority<

选最优组装结果时，判断的依据（写前面的优先级更高）：

0scaff_num,

1contig_num,2scaf_N50,3contig_N50,default=0,1,2,3

--stander<

如下数据项达标的标准：

scaff_num,contig_num,scaf_N50,contig_N50,达标

的组装结果被选为最优组装结果的优先级更高，0表示没有达标标准,

default=0,0,0,0

--fill_insert<

标准的插入片段长度纠正策略（自定义的可以在组装的配置参数

--ass_options中设置），默认不使用

1在补洞前，使用最好的grape组装结果纠正插入片段长度

2在补洞前，使用最好的grape组装结果纠正插入片段长度，然后再运行

一次grape

3在补洞前，使用最好的grape组装结果纠正插入片段长度，然后再运行

一次grape，之后再纠正插入片段

--corins_opts<

设置使用—fill_insert时的，插入片段纠正参数，主要包括以下3个参数：

--pe_filter过滤非常范围内的PEreads

-pe_range<

设置小片段、大片段文库正常的insertSize范围（大小片段参数用“；

”隔开），

设置了—pe_filter时，把非正常范围的PE过滤掉，0,0表示不过滤，默认：

0,0;

1000,3i，这里的i表示实验设计的文库插入片段长度，如插入片段是

2000,3i=6000

--lim<

过滤非正常插入片段PEreads时，输出数据量限制（Mbp），默认符合条件的

全部输出

--auto_M在跑完soapdenovo之后，补洞之前运行auto_M

--min_scafn<

当scaffold（>

500bp）的数目大于设定值时，才运行runauto_M,default=50

--autoM_opts<

auto_Moptions,defualt='

-2-m2000-t10-n1'

--autoM_vf<

auto_M投任务内存,defult=2g

--cfg_fill<

补洞时，设置write_cfg.pl参数，重新写配置文件，默认使用跟组装时一样

的配置

--ass_vf<

grape组装投任务申请的内存8G

--fill_vf<

补洞申请内存3G

2.3单碱基纠错与GC-depth分析

--use_result<

选择下游组装评估所用序列:

1所有序列,2只用>

=500bp的序列,default=1

--minscaf<

当选-use_result1时,设置使用的序列长度阈值，默认=200

--revi_opts<

程序base.revision的参数,default='

-m1--cc20'

--dibc输出程序base.revision–d设置的输出文件output.dibc，默认不输出此文件

--gc_opts<

设置GC-depth的参数default='

--gc_range0,100--dep_cut400--cluster5'

--soap_vf<

设置运行soap比对时的内存,defualt=4G

2.4NT库比对

--cluster_range<

被认为是污染的块所占的氛围,default=0.001,0.1（先聚类，如果某个分块的

比例在0.1%~10%，对该块序列进行nt库比对）

--cover_cut<

flo>

污染序列覆盖度阈值，当序列被污染快的序列覆盖度大于阈值时，整条序列

进行污染分析,defaut=0.5

--blast_opts<

blast设置参数,default='

-e1e-5-FF-b5'

--megablast使用megablast进行比对，这个比对速度比blastall快

--mega_opts<

megablast设置参数,default='

-p0.8-b5-v5'

--len_cut<

blastm8结果过滤的比对长度阈值，默认为200

--top<

输出的与每条scaffold比对得最好的物种个数阈值,default=5（最多输出5

个跟某一条scaffold比得最好的物种）

--add_num<

由最大的类（认为是所测样品）里面选择指定数目的scaffold,default=3

-seq_lim<

在最大类里面选取的每条序列截取指定的碱基（单位：

Kbp）跟nt库比对确

定物种名和分类号，default=50

这两个参数是选取样品的代表性序列，跟nt库比对来判断样品的Tax号和物种名，这些信息有两个作用：

如果选取的污染序列最终的物种归类和代表序列一致，则认为gc-depth图的污染块不是污染；

用于写agp文件的头信息。

--wgs忽略上面的设置，整个基因组进行NT库比对（如果要进行样品全面的成

分分析，设这个参数）。

--cpu<

线程数，default=5（nt库比较耗时间，设多线程缩短运行时间，但样品太

多就不要设得太大了，排不上队）

--blast_vf<

blast比对所用内存，默认=8G

--ntdb<

NTdatabase文件路径，默认：

/{ifshk1,ifs1}/pub/database/ftp.ncbi.nih.gov/blast/db/20120619/nt

以下3个是根据gi号来找tax号和物种名的文件，目前使用版本是20120707在网上下载的，比集群上的要全

--gidTaxid<

gi_taxid_nucl.dmpfromNCBItaxonomy,default20120707version

--name<

names.dmpfromNCBItaxonomy,default20120707version

--node<

nodes.dmpfromNCBItaxonomy,default20120707version

2.5其他评估步骤参数

-plams_opts<

Plasmid_analysis.pl参数，默认不设置，详细说明请察看相关子脚本说明

--wgs2整个基因组进行质粒库比对，默认使用找到的污染序列进行比对

--cpu2线程数，default=1

--srelate_opts<

Scafrelation参数,default='

-x5-c500'

--refcover_opts<

Ref_cover.pl参数，默认不设置，详细说明请察看相关子脚本说明

2.6关于NCBIAGP文件头信息的设置

--organism<

设置物种名，默认程序通过nt库比对查找

--tax_id<

设置TAX_ID,通过nt库比对查找

--assembly_name<

设置组装结果的名字，默认为样品名

-nt_ref<

输入参考序列跟nt库比对来确定TAX号和物种名，默认使用样品NT库比

对的分析结果，

如果非常确定参考序列跟组装的样品是同一个物种

可以输入参考序列来确定TAX号和物种名，同时把-add_name设为0，就可少了从组装结果里面

抽部分序列比对确认样品TAX号和物种的工作，而且可跟样品的组装并行，缩短总体时间。

2.7几个供选择的组装参数策略:

--recomend<

供选择的策略如下（细菌精细图组装流程选用5，survey选用6）：

--recommended

参数设置

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="

all-u-d1-F-K37:

6\nkrskgf\ngapclose-t8\n"

all-K37xx-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1\nall-K37:

5–F\nkrskgf\ngapclose-t8\n"

5–F\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1

krskgf\ngapclose-t8\n"

5xx-F|-f,SRkgf\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1

--fill_insert2--use_result2--pe_filter--pe_range="

0.5i,1.5i"

--auto_M--min_scafn50--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="

all-K23:

20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx–F\nkrskgf\nwrite_cfg-x\ngapclose-t8\n"

--fill_insert2--use_result2--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="

20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx-F\n"

2.8其他:

--add_txt<

设置关于调用软件的配置文件,defalt=Bin/Add.txt

--qsub_opts<

qsub参数,default="

-Ptest-qbc.q"

--maxjob<

在线最大任务数，default=400.

--prefix<

设置某些输出文件的前缀，default=all.（建议不要修改）

--verbose输出过程信息（建议使用）

--newversion使用SOAPdenovo_V1.06,默认是使用V1.05

--noclean保留一些无用的中间结果

--help<

输出帮助信息，选择关键词输出需要的帮助信息：

detail整个流程详细的说明（就是这里的说明）

clean过滤流程说明

write_cfg配置文件的脚步说明

grapesoapdenovo（grape）软件说明

SRkgfSRkgf使用说明

krskgfkrskgf使用说明

gapclosegapclose使用说明

evaluate组装评估相关的参数详细说明

3注意事项

1KmerStat会运行两次，第一次用-kmer_opts来设置参数，然后根据估算的基因组大小用--rekmer从新设置–g和–s

格式例子—rekmer32,5，如果第一次预测的基因组大小为G（M），那么第2次的设置为-g32G–s5G，设置为0,0表示不运行2次KmerStat.

2-corr_insert设置<

=0时

展开阅读全文