运行过程中的shell脚本存放目录,默认为Shell/--onesample一个样品的组装(就算是一个样品不建议选此参数,后期目录处理不方便)
--sname当设置了—onesample时,设置样品名,默认为all
--step运行步骤:
1kmer分析,2组装,3组装结果评估,4,contig分析,
5getResultdirectorystructure,默认1234
--evstep选择step3的具体内容:
1soap比对,2soap覆盖度分析,3单碱基纠错,
4GC_depth分析,5插入片段分析,6NT库污染分析,7质粒库分析,
8scaffold连接关系分析,9基因参考序列的组装覆盖度及共线性分析,
0生成符合NCBI上传要求格式的文件,默认为0123456789
--reflist输入参考序列列表(for--evstep9),格式每一行为:
“Ref名字文件路径”,
如果只输入文件路径,则已basename为参考序列名字
--cdslist输入参考序列cds文件列表(for--evstep9),其中的文件顺序,需要与—reflist
中保持一致。
--get_result生产交付目录结构,如果没有选这个参数也可以在程序运行结束后,运行
Shell/Step5_get_result.sh,得到交付目录Result
2.1Kmer分析参数说明:
--kmer_optsKmerStat-g-s参数,default='-g300-s32'
--rekmer第2次kmerStat时把-g和-s参数设置为前一次估算的基因组大小的倍数,
默认=32,5,比如kmer估算的基因组大小为4M,这个参数相当于设置了
-g=4*32–s=4*5,如果设置0,0则不做二次kmer分析
--kmer_vfKmerStat投任务内存,default=500M
2.2组装参数说明:
组装过程:
1先选一组参数粗略地组装一个版本,用于估算插入片段相关的参数(min_ins/avg_ins/max_ins),
之前的流程配置文件中,没有设置插入片段的最小值和最大值)
2用soapdenovo(grape)进行组装,可以进行多轮组装,每次并行多组不同的参数,选择组装效果最
好的一组参数,这组参数将与下一轮组装中的每一组参数进行组合(取参数的并集,重复的参数以
下一轮的为准),在上一轮的最优组装结果跟这轮所有的结果中,选择最优结果。
组装次数不限,
一般情况下两轮组装,参数的组合已很充分了。
这一步包含soapdenovo(grape)的-F补洞和SRkgf补
洞(这两种补洞策略不能同时使用)
3krskgf或gapclose补洞,补洞次数不限,软件的使用顺序也不限,可根据需要设置参数,但用一次
krskgf+gapclose洞补也差不多了。
4插入片段纠正。
组装效果越好,插入片段纠正结果越可靠,这一步可多次使用,插入到2、3步之
间或内部(一般在第2步的最优结果后,纠正一次,然后再装一次,效果就已经相当好了,补洞
就不需要再纠正了)
--maxLreads的最大长度,default=90.
--corr_insert选择纠正插入片段长度的方法(计算组装配置文件中插入片段相关的参数):
1使用组装的log文件,这个不耗时间,但是大片段一般估计不了;
2根据soap比对结果选择正常的insertSize计算插入片段均值及正常范围
3根据soap比对结果,使用soap2_insert.pl计算avg_ins,Rsd/Lsd
方法3用于插入片段评估,但计算设置参数建议用2,默认选方法2.
--soap_opts纠正插入片段时,SOAP比对的参数,默认为"-l32-s40-v3-r1-p6"
--sortsoap对最终的SOAP比对结果进行排序(forcallingSNP),defaultnotsort
--resoap重新进行soap比对,组装后,第一次soap比对的结果用于覆盖度分析、
GC-depth、单碱基纠错,但单碱基纠错后,soap比对结果会有所不同,如
果soap结果要用于重测序分析,建议选这个参数,defuaultnotrun
--ass_opts第一次纠正插入片段时,使用的组装参数,default="all-K29-F"
--cfg_opt第一次组装纠正插入片段时,write_cfg.pl(写组装配置文件的脚步)设置
参数,default='-x-p3,3'
--c计算插入片段正常范围的参数:
min,max_ins=avg_ins-/+c*sd,default=1.96
--cfg_options正式组装时,write_cfg.ploptions(optionstowriteassemblycfgfile),
default='default='-x-p3,3''
--ass_options组装参数,可以是一个配置文件,也可以是字符串,具体见注意事项3,
默认="all-u-d1-K37:
8:
5-F\nkrskgf\ngapclose-t8"
--object选择最优组装结果时,所依据的组装统计表:
1>500bp以上是数据统计表,
2所有序列数据统计表default=1
--priority选最优组装结果时,判断的依据(写前面的优先级更高):
0scaff_num,
1contig_num,2scaf_N50,3contig_N50,default=0,1,2,3
--stander如下数据项达标的标准:
scaff_num,contig_num,scaf_N50,contig_N50,达标
的组装结果被选为最优组装结果的优先级更高,0表示没有达标标准,
default=0,0,0,0
--fill_insert标准的插入片段长度纠正策略(自定义的可以在组装的配置参数
--ass_options中设置),默认不使用
1在补洞前,使用最好的grape组装结果纠正插入片段长度
2在补洞前,使用最好的grape组装结果纠正插入片段长度,然后再运行
一次grape
3在补洞前,使用最好的grape组装结果纠正插入片段长度,然后再运行
一次grape,之后再纠正插入片段
--corins_opts设置使用—fill_insert时的,插入片段纠正参数,主要包括以下3个参数:
--pe_filter过滤非常范围内的PEreads
-pe_range设置小片段、大片段文库正常的insertSize范围(大小片段参数用“;”隔开),
设置了—pe_filter时,把非正常范围的PE过滤掉,0,0表示不过滤,默认:
0,0;1000,3i,这里的i表示实验设计的文库插入片段长度,如插入片段是
2000,3i=6000
--lim过滤非正常插入片段PEreads时,输出数据量限制(Mbp),默认符合条件的
全部输出
--auto_M在跑完soapdenovo之后,补洞之前运行auto_M
--min_scafn当scaffold(>500bp)的数目大于设定值时,才运行runauto_M,default=50
--autoM_optsauto_Moptions,defualt='-2-m2000-t10-n1'
--autoM_vfauto_M投任务内存,defult=2g
--cfg_fill补洞时,设置write_cfg.pl参数,重新写配置文件,默认使用跟组装时一样
的配置
--ass_vfgrape组装投任务申请的内存8G
--fill_vf补洞申请内存3G
2.3单碱基纠错与GC-depth分析
--use_result选择下游组装评估所用序列:
1所有序列,2只用>=500bp的序列,default=1
--minscaf当选-use_result1时,设置使用的序列长度阈值,默认=200
--revi_opts程序base.revision的参数,default='-m1--cc20'
--dibc输出程序base.revision–d设置的输出文件output.dibc,默认不输出此文件
--gc_opts设置GC-depth的参数default='--gc_range0,100--dep_cut400--cluster5'
--soap_vf设置运行soap比对时的内存,defualt=4G
2.4NT库比对
--cluster_range被认为是污染的块所占的氛围,default=0.001,0.1(先聚类,如果某个分块的
比例在0.1%~10%,对该块序列进行nt库比对)
--cover_cut污染序列覆盖度阈值,当序列被污染快的序列覆盖度大于阈值时,整条序列
进行污染分析,defaut=0.5
--blast_optsblast设置参数,default='-e1e-5-FF-b5'
--megablast使用megablast进行比对,这个比对速度比blastall快
--mega_optsmegablast设置参数,default='-p0.8-b5-v5'
--len_cutblastm8结果过滤的比对长度阈值,默认为200
--top输出的与每条scaffold比对得最好的物种个数阈值,default=5(最多输出5
个跟某一条scaffold比得最好的物种)
--add_num由最大的类(认为是所测样品)里面选择指定数目的scaffold,default=3
-seq_lim在最大类里面选取的每条序列截取指定的碱基(单位:
Kbp)跟nt库比对确
定物种名和分类号,default=50
这两个参数是选取样品的代表性序列,跟nt库比对来判断样品的Tax号和物种名,这些信息有两个作用:
如果选取的污染序列最终的物种归类和代表序列一致,则认为gc-depth图的污染块不是污染;
用于写agp文件的头信息。
--wgs忽略上面的设置,整个基因组进行NT库比对(如果要进行样品全面的成
分分析,设这个参数)。
--cpu线程数,default=5(nt库比较耗时间,设多线程缩短运行时间,但样品太
多就不要设得太大了,排不上队)
--blast_vfblast比对所用内存,默认=8G
--ntdbNTdatabase文件路径,默认:
/{ifshk1,ifs1}/pub/database/ftp.ncbi.nih.gov/blast/db/20120619/nt
以下3个是根据gi号来找tax号和物种名的文件,目前使用版本是20120707在网上下载的,比集群上的要全
--gidTaxidgi_taxid_nucl.dmpfromNCBItaxonomy,default20120707version
--namenames.dmpfromNCBItaxonomy,default20120707version
--nodenodes.dmpfromNCBItaxonomy,default20120707version
2.5其他评估步骤参数
-plams_optsPlasmid_analysis.pl参数,默认不设置,详细说明请察看相关子脚本说明
--wgs2整个基因组进行质粒库比对,默认使用找到的污染序列进行比对
--cpu2线程数,default=1
--srelate_optsScafrelation参数,default='-x5-c500'
--refcover_optsRef_cover.pl参数,默认不设置,详细说明请察看相关子脚本说明
2.6关于NCBIAGP文件头信息的设置
--organism设置物种名,默认程序通过nt库比对查找
--tax_id设置TAX_ID,通过nt库比对查找
--assembly_name设置组装结果的名字,默认为样品名
-nt_ref输入参考序列跟nt库比对来确定TAX号和物种名,默认使用样品NT库比
对的分析结果,
如果非常确定参考序列跟组装的样品是同一个物种
可以输入参考序列来确定TAX号和物种名,同时把-add_name设为0,就可少了从组装结果里面
抽部分序列比对确认样品TAX号和物种的工作,而且可跟样品的组装并行,缩短总体时间。
2.7几个供选择的组装参数策略:
--recomend供选择的策略如下(细菌精细图组装流程选用5,survey选用6):
--recommended
参数设置
1
--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-F-K37:
6:
6\nkrskgf\ngapclose-t8\n"
2
--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-K37xx-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1\nall-K37:
8:
5–F\nkrskgf\ngapclose-t8\n"
3
--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-K37:
8:
5–F\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1
krskgf\ngapclose-t8\n"
4
--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-K37:
8:
5xx-F|-f,SRkgf\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1
krskgf\ngapclose-t8\n"
5
--fill_insert2--use_result2--pe_filter--pe_range="0,0;0.5i,1.5i"--auto_M--min_scafn50--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="all-K23:
4:
20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx–F\nkrskgf\nwrite_cfg-x\ngapclose-t8\n"
6
--fill_insert2--use_result2--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="all-K23:
4:
20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx-F\n"
2.8其他:
--add_txt设置关于调用软件的配置文件,defalt=Bin/Add.txt
--qsub_optsqsub参数,default="-Ptest-qbc.q".
--maxjob在线最大任务数,default=400.
--prefix设置某些输出文件的前缀,default=all.(建议不要修改)
--verbose输出过程信息(建议使用)
--newversion使用SOAPdenovo_V1.06,默认是使用V1.05
--noclean保留一些无用的中间结果
--help输出帮助信息,选择关键词输出需要的帮助信息:
detail整个流程详细的说明(就是这里的说明)
clean过滤流程说明
write_cfg配置文件的脚步说明
grapesoapdenovo(grape)软件说明
SRkgfSRkgf使用说明
krskgfkrskgf使用说明
gapclosegapclose使用说明
evaluate组装评估相关的参数详细说明
3注意事项
1KmerStat会运行两次,第一次用-kmer_opts来设置参数,然后根据估算的基因组大小用--rekmer从新设置–g和–s
格式例子—rekmer32,5,如果第一次预测的基因组大小为G(M),那么第2次的设置为-g32G–s5G,设置为0,0表示不运行2次KmerStat.
2-corr_insert设置<=0时