BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx
《BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx》由会员分享,可在线阅读,更多相关《BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx(25页珍藏版)》请在冰豆网上搜索。
scaffold连接关系分析15
1流程简介15
2使用说明15
非正常插入片段过滤流程15
NCBI要求的fasta及agp文件转换脚本16
1流程简介16
2使用说明16
微生物组装流程V2.0使用说明
1流程简介
微生物组装流程V2.0,可实现的功能(适用于群体或个体组装分析):
0数据过滤(如果数据已经过滤,可省去这一步,在过滤数据的基础上进行组装)
1Kmer分析;
2组装:
SOAPdenovo(grape),SRkgf,krskgf,GapClose,alsoinsertSizecanbecorrecteddealingassembly;
组装结果评估:
3Contig分析(分析的组装结果为grape的原始组装结果,因补洞后或过滤短序列后,contig数目太
少了);
4单碱基纠错;
5GC-depth分析;
6插入片段评估(大小片段都评估,大片段的评估结果将会加入到质控表中)
7NT库blast比对找污染(可自动根据GC-depth聚类结果找到污染序列,也可以设置为全基因组nt
库比对);
8质粒库blast比对(可自动根据GC-depth聚类结果找到污染序列,也可以设置为全基因组跟质粒库
比对);
9scaffold链接关系分析(基于soap比对的SE);
10scaffold排序、共线性、组装覆盖度分析(基于参考序列,可输入多个参考序列,程序会选择覆盖
度最高的参考序列进行下游分析);
11生成符合NCBI上传的fasta文件和agp文件(2.0版本且包含头信息);
2使用说明
1)从过滤数据开始运行:
perlAssemply.pl--bmsbms.lst--rawdir/share/fqdata44/data-clean_opts="
--programFCKJ0047_PSEnvrD-data_lim700"
--bms<
str>
BMS数据列表,格式:
样品名文库名插入片段长度,深圳集群支持http
网址输入(使用跟纯测序流程一样)
--rawdir<
下机数据目录
--clean_opts=<
设置Clean_Data.pl的参数,所有的参数写在双引号“”之内,详细参数
说明,请参看纯测序相关帮助文档
--cleandir<
dir>
设置过滤数据输出目录,默认=01.Cleandata
有时候,如果怀疑下机数据有问题,可把-step设置为非1234的数字,只过滤数据,看看是否及格再做下面的操作。
2)已有过滤数据的情况下,运行方式:
perlAssemply.pl<
reads.lst>
[insert.lst][-options]
reads.lst<
file>
所有readsFQ文件所在的路径,如果所有FQ文件所在目录以样品名命名,文件名中包含“L数字_文库名”标记,
这个输入可以直接是所有FQ文件路径列表,否则需要写成如下格式:
样品名插入片段长度reads1FQ路径
样品名插入片段长度reads2FQ路径(一定要是同一对reads按先reads1后reads2的顺序写)
insert.lst<
在reads列表里的路径包含文库名标记的情况下,输入文库长度列表,格式:
文库名插入片段长度。
--assdir<
组装结果输出目录,默认为03.Assembly
--shdir<
运行过程中的shell脚本存放目录,默认为Shell/
--onesample一个样品的组装(就算是一个样品不建议选此参数,后期目录处理不方便)
--sname<
当设置了—onesample时,设置样品名,默认为all
--step<
num>
运行步骤:
1kmer分析,2组装,3组装结果评估,4,contig分析,
5getResultdirectorystructure,默认1234
--evstep<
选择step3的具体内容:
1soap比对,2soap覆盖度分析,3单碱基纠错,
4GC_depth分析,5插入片段分析,6NT库污染分析,7质粒库分析,
8scaffold连接关系分析,9基因参考序列的组装覆盖度及共线性分析,
0生成符合NCBI上传要求格式的文件,默认为0123456789
--reflist<
输入参考序列列表(for--evstep9),格式每一行为:
“Ref名字文件路径”,
如果只输入文件路径,则已basename为参考序列名字
--cdslist<
输入参考序列cds文件列表(for--evstep9),其中的文件顺序,需要与—reflist
中保持一致。
--get_result生产交付目录结构,如果没有选这个参数也可以在程序运行结束后,运行
Shell/Step5_get_result.sh,得到交付目录Result
2.1Kmer分析参数说明:
--kmer_opts<
KmerStat-g-s参数,default='
-g300-s32'
--rekmer<
第2次kmerStat时把-g和-s参数设置为前一次估算的基因组大小的倍数,
默认=32,5,比如kmer估算的基因组大小为4M,这个参数相当于设置了
-g=4*32–s=4*5,如果设置0,0则不做二次kmer分析
--kmer_vf<
KmerStat投任务内存,default=500M
2.2组装参数说明:
组装过程:
1先选一组参数粗略地组装一个版本,用于估算插入片段相关的参数(min_ins/avg_ins/max_ins),
之前的流程配置文件中,没有设置插入片段的最小值和最大值)
2用soapdenovo(grape)进行组装,可以进行多轮组装,每次并行多组不同的参数,选择组装效果最
好的一组参数,这组参数将与下一轮组装中的每一组参数进行组合(取参数的并集,重复的参数以
下一轮的为准),在上一轮的最优组装结果跟这轮所有的结果中,选择最优结果。
组装次数不限,
一般情况下两轮组装,参数的组合已很充分了。
这一步包含soapdenovo(grape)的-F补洞和SRkgf补
洞(这两种补洞策略不能同时使用)
3krskgf或gapclose补洞,补洞次数不限,软件的使用顺序也不限,可根据需要设置参数,但用一次
krskgf+gapclose洞补也差不多了。
4插入片段纠正。
组装效果越好,插入片段纠正结果越可靠,这一步可多次使用,插入到2、3步之
间或内部(一般在第2步的最优结果后,纠正一次,然后再装一次,效果就已经相当好了,补洞
就不需要再纠正了)
--maxL<
reads的最大长度,default=90.
--corr_insert<
选择纠正插入片段长度的方法(计算组装配置文件中插入片段相关的参数):
1使用组装的log文件,这个不耗时间,但是大片段一般估计不了;
2根据soap比对结果选择正常的insertSize计算插入片段均值及正常范围
3根据soap比对结果,使用soap2_insert.pl计算avg_ins,Rsd/Lsd
方法3用于插入片段评估,但计算设置参数建议用2,默认选方法2.
--soap_opts<
纠正插入片段时,SOAP比对的参数,默认为"
-l32-s40-v3-r1-p6"
--sortsoap对最终的SOAP比对结果进行排序(forcallingSNP),defaultnotsort
--resoap重新进行soap比对,组装后,第一次soap比对的结果用于覆盖度分析、
GC-depth、单碱基纠错,但单碱基纠错后,soap比对结果会有所不同,如
果soap结果要用于重测序分析,建议选这个参数,defuaultnotrun
--ass_opts<
第一次纠正插入片段时,使用的组装参数,default="
all-K29-F"
--cfg_opt<
第一次组装纠正插入片段时,write_cfg.pl(写组装配置文件的脚步)设置
参数,default='
-x-p3,3'
--c<
计算插入片段正常范围的参数:
min,max_ins=avg_ins-/+c*sd,default=1.96
--cfg_options<
正式组装时,write_cfg.ploptions(optionstowriteassemblycfgfile),
default='
default='
'
--ass_options<
str|file>
组装参数,可以是一个配置文件,也可以是字符串,具体见注意事项3,
默认="
all-u-d1-K37:
8:
5-F\nkrskgf\ngapclose-t8"
--object<
选择最优组装结果时,所依据的组装统计表:
1>
500bp以上是数据统计表,
2所有序列数据统计表default=1
--priority<
选最优组装结果时,判断的依据(写前面的优先级更高):
0scaff_num,
1contig_num,2scaf_N50,3contig_N50,default=0,1,2,3
--stander<
如下数据项达标的标准:
scaff_num,contig_num,scaf_N50,contig_N50,达标
的组装结果被选为最优组装结果的优先级更高,0表示没有达标标准,
default=0,0,0,0
--fill_insert<
标准的插入片段长度纠正策略(自定义的可以在组装的配置参数
--ass_options中设置),默认不使用
1在补洞前,使用最好的grape组装结果纠正插入片段长度
2在补洞前,使用最好的grape组装结果纠正插入片段长度,然后再运行
一次grape
3在补洞前,使用最好的grape组装结果纠正插入片段长度,然后再运行
一次grape,之后再纠正插入片段
--corins_opts<
设置使用—fill_insert时的,插入片段纠正参数,主要包括以下3个参数:
--pe_filter过滤非常范围内的PEreads
-pe_range<
设置小片段、大片段文库正常的insertSize范围(大小片段参数用“;
”隔开),
设置了—pe_filter时,把非正常范围的PE过滤掉,0,0表示不过滤,默认:
0,0;
1000,3i,这里的i表示实验设计的文库插入片段长度,如插入片段是
2000,3i=6000
--lim<
过滤非正常插入片段PEreads时,输出数据量限制(Mbp),默认符合条件的
全部输出
--auto_M在跑完soapdenovo之后,补洞之前运行auto_M
--min_scafn<
当scaffold(>
500bp)的数目大于设定值时,才运行runauto_M,default=50
--autoM_opts<
auto_Moptions,defualt='
-2-m2000-t10-n1'
--autoM_vf<
auto_M投任务内存,defult=2g
--cfg_fill<
补洞时,设置write_cfg.pl参数,重新写配置文件,默认使用跟组装时一样
的配置
--ass_vf<
grape组装投任务申请的内存8G
--fill_vf<
补洞申请内存3G
2.3单碱基纠错与GC-depth分析
--use_result<
选择下游组装评估所用序列:
1所有序列,2只用>
=500bp的序列,default=1
--minscaf<
当选-use_result1时,设置使用的序列长度阈值,默认=200
--revi_opts<
程序base.revision的参数,default='
-m1--cc20'
--dibc输出程序base.revision–d设置的输出文件output.dibc,默认不输出此文件
--gc_opts<
设置GC-depth的参数default='
--gc_range0,100--dep_cut400--cluster5'
--soap_vf<
设置运行soap比对时的内存,defualt=4G
2.4NT库比对
--cluster_range<
被认为是污染的块所占的氛围,default=0.001,0.1(先聚类,如果某个分块的
比例在0.1%~10%,对该块序列进行nt库比对)
--cover_cut<
flo>
污染序列覆盖度阈值,当序列被污染快的序列覆盖度大于阈值时,整条序列
进行污染分析,defaut=0.5
--blast_opts<
blast设置参数,default='
-e1e-5-FF-b5'
--megablast使用megablast进行比对,这个比对速度比blastall快
--mega_opts<
megablast设置参数,default='
-p0.8-b5-v5'
--len_cut<
blastm8结果过滤的比对长度阈值,默认为200
--top<
输出的与每条scaffold比对得最好的物种个数阈值,default=5(最多输出5
个跟某一条scaffold比得最好的物种)
--add_num<
由最大的类(认为是所测样品)里面选择指定数目的scaffold,default=3
-seq_lim<
在最大类里面选取的每条序列截取指定的碱基(单位:
Kbp)跟nt库比对确
定物种名和分类号,default=50
这两个参数是选取样品的代表性序列,跟nt库比对来判断样品的Tax号和物种名,这些信息有两个作用:
如果选取的污染序列最终的物种归类和代表序列一致,则认为gc-depth图的污染块不是污染;
用于写agp文件的头信息。
--wgs忽略上面的设置,整个基因组进行NT库比对(如果要进行样品全面的成
分分析,设这个参数)。
--cpu<
线程数,default=5(nt库比较耗时间,设多线程缩短运行时间,但样品太
多就不要设得太大了,排不上队)
--blast_vf<
blast比对所用内存,默认=8G
--ntdb<
NTdatabase文件路径,默认:
/{ifshk1,ifs1}/pub/database/ftp.ncbi.nih.gov/blast/db/20120619/nt
以下3个是根据gi号来找tax号和物种名的文件,目前使用版本是20120707在网上下载的,比集群上的要全
--gidTaxid<
gi_taxid_nucl.dmpfromNCBItaxonomy,default20120707version
--name<
names.dmpfromNCBItaxonomy,default20120707version
--node<
nodes.dmpfromNCBItaxonomy,default20120707version
2.5其他评估步骤参数
-plams_opts<
Plasmid_analysis.pl参数,默认不设置,详细说明请察看相关子脚本说明
--wgs2整个基因组进行质粒库比对,默认使用找到的污染序列进行比对
--cpu2线程数,default=1
--srelate_opts<
Scafrelation参数,default='
-x5-c500'
--refcover_opts<
Ref_cover.pl参数,默认不设置,详细说明请察看相关子脚本说明
2.6关于NCBIAGP文件头信息的设置
--organism<
设置物种名,默认程序通过nt库比对查找
--tax_id<
设置TAX_ID,通过nt库比对查找
--assembly_name<
设置组装结果的名字,默认为样品名
-nt_ref<
输入参考序列跟nt库比对来确定TAX号和物种名,默认使用样品NT库比
对的分析结果,
如果非常确定参考序列跟组装的样品是同一个物种
可以输入参考序列来确定TAX号和物种名,同时把-add_name设为0,就可少了从组装结果里面
抽部分序列比对确认样品TAX号和物种的工作,而且可跟样品的组装并行,缩短总体时间。
2.7几个供选择的组装参数策略:
--recomend<
供选择的策略如下(细菌精细图组装流程选用5,survey选用6):
--recommended
参数设置
1
--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="
all-u-d1-F-K37:
6:
6\nkrskgf\ngapclose-t8\n"
2
all-K37xx-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1\nall-K37:
5–F\nkrskgf\ngapclose-t8\n"
3
5–F\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1
krskgf\ngapclose-t8\n"
4
5xx-F|-f,SRkgf\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1
5
--fill_insert2--use_result2--pe_filter--pe_range="
0.5i,1.5i"
--auto_M--min_scafn50--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="
all-K23:
4:
20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx–F\nkrskgf\nwrite_cfg-x\ngapclose-t8\n"
6
--fill_insert2--use_result2--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="
20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx-F\n"
2.8其他:
--add_txt<
设置关于调用软件的配置文件,defalt=Bin/Add.txt
--qsub_opts<
qsub参数,default="
-Ptest-qbc.q"
.
--maxjob<
在线最大任务数,default=400.
--prefix<
设置某些输出文件的前缀,default=all.(建议不要修改)
--verbose输出过程信息(建议使用)
--newversion使用SOAPdenovo_V1.06,默认是使用V1.05
--noclean保留一些无用的中间结果
--help<
输出帮助信息,选择关键词输出需要的帮助信息:
detail整个流程详细的说明(就是这里的说明)
clean过滤流程说明
write_cfg配置文件的脚步说明
grapesoapdenovo(grape)软件说明
SRkgfSRkgf使用说明
krskgfkrskgf使用说明
gapclosegapclose使用说明
evaluate组装评估相关的参数详细说明
3注意事项
1KmerStat会运行两次,第一次用-kmer_opts来设置参数,然后根据估算的基因组大小用--rekmer从新设置–g和–s
格式例子—rekmer32,5,如果第一次预测的基因组大小为G(M),那么第2次的设置为-g32G–s5G,设置为0,0表示不运行2次KmerStat.
2-corr_insert设置<
=0时