BacterialDenovoAssemblyModuleManualV20831.docx

资源描述

BacterialDenovoAssemblyModuleManualV20831.docx

《BacterialDenovoAssemblyModuleManualV20831.docx》由会员分享，可在线阅读，更多相关《BacterialDenovoAssemblyModuleManualV20831.docx（25页珍藏版）》请在冰豆网上搜索。

BacterialDenovoAssemblyModuleManualV20831.docx

BacterialDenovoAssemblyModuleManualV20831

深圳华大基因科技服务有限公司

文件编号：

BGI-TS-SOP02-001

微生物组装流程V2.0及附属程序使用说明

起草人：

王爽

版本号：

起草日期：

受控状态：

审核人：

批准人：

审核日期：

批准日期：

保密级别：

□绝密□机密□秘密

微生物组装流程V2.0使用说明3

1流程简介3

2使用说明3

3注意事项8

完成图评估总流程9

1流程简介9

2使用说明9

contig分析流程11

1流程简介11

2使用说明11

质粒分析流程12

1流程简介12

2使用说明12

NT库分析流程：

1流程简介13

2使用说明13

用参考基因组和基因集对组装结果进行评估（包含共线性分析和参考序列重复序列分析功能）14

1流程简介14

2使用说明14

scaffold连接关系分析15

1流程简介15

2使用说明15

非正常插入片段过滤流程15

1流程简介15

2使用说明15

NCBI要求的fasta及agp文件转换脚本16

1流程简介16

2使用说明16

微生物组装流程V2.0使用说明

1流程简介

微生物组装流程V2.0，可实现的功能（适用于群体或个体组装分析）：

0数据过滤（如果数据已经过滤，可省去这一步，在过滤数据的基础上进行组装）

1Kmer分析；

2组装:

SOAPdenovo（grape）,SRkgf,krskgf,GapClose,alsoinsertSizecanbecorrecteddealingassembly；

组装结果评估：

3Contig分析（分析的组装结果为grape的原始组装结果，因补洞后或过滤短序列后，contig数目太

少了）；

4单碱基纠错；

5GC-depth分析；

6插入片段评估（大小片段都评估，大片段的评估结果将会加入到质控表中）

7NT库blast比对找污染（可自动根据GC-depth聚类结果找到污染序列，也可以设置为全基因组nt

库比对）；

8质粒库blast比对（可自动根据GC-depth聚类结果找到污染序列，也可以设置为全基因组跟质粒库

比对）；

9scaffold链接关系分析（基于soap比对的SE）；

10scaffold排序、共线性、组装覆盖度分析（基于参考序列，可输入多个参考序列，程序会选择覆盖

度最高的参考序列进行下游分析）；

11生成符合NCBI上传的fasta文件和agp文件（2.0版本且包含头信息）；

2使用说明

1）从过滤数据开始运行：

perlAssemply.pl--bmsbms.lst--rawdir/share/fqdata44/data-clean_opts="--programFCKJ0047_PSEnvrD-data_lim700"

--bmsBMS数据列表，格式：

样品名文库名插入片段长度，深圳集群支持http

网址输入（使用跟纯测序流程一样）

--rawdir下机数据目录

--clean_opts=设置Clean_Data.pl的参数，所有的参数写在双引号“”之内，详细参数

说明，请参看纯测序相关帮助文档

--cleandir

设置过滤数据输出目录，默认=01.Cleandata

有时候，如果怀疑下机数据有问题，可把-step设置为非1234的数字，只过滤数据，看看是否及格再做下面的操作。

2）已有过滤数据的情况下，运行方式：

perlAssemply.pl[insert.lst][-options]

reads.lst所有readsFQ文件所在的路径，如果所有FQ文件所在目录以样品名命名，文件名中包含“L数字_文库名”标记，

这个输入可以直接是所有FQ文件路径列表，否则需要写成如下格式：

样品名插入片段长度reads1FQ路径

样品名插入片段长度reads2FQ路径（一定要是同一对reads按先reads1后reads2的顺序写）

insert.lst在reads列表里的路径包含文库名标记的情况下，输入文库长度列表，格式：

文库名插入片段长度。

--assdir

组装结果输出目录，默认为03.Assembly

--shdir

运行过程中的shell脚本存放目录，默认为Shell/

--onesample一个样品的组装（就算是一个样品不建议选此参数，后期目录处理不方便）

--sname当设置了—onesample时，设置样品名，默认为all

--step运行步骤：

1kmer分析,2组装,3组装结果评估,4,contig分析，

5getResultdirectorystructure,默认1234

--evstep选择step3的具体内容:

1soap比对,2soap覆盖度分析,3单碱基纠错,

4GC_depth分析,5插入片段分析,6NT库污染分析,7质粒库分析,

8scaffold连接关系分析,9基因参考序列的组装覆盖度及共线性分析,

0生成符合NCBI上传要求格式的文件，默认为0123456789

--reflist输入参考序列列表（for--evstep9），格式每一行为：

“Ref名字文件路径”，

如果只输入文件路径，则已basename为参考序列名字

--cdslist输入参考序列cds文件列表（for--evstep9），其中的文件顺序，需要与—reflist

中保持一致。

--get_result生产交付目录结构，如果没有选这个参数也可以在程序运行结束后，运行

Shell/Step5_get_result.sh，得到交付目录Result

2.1Kmer分析参数说明：

--kmer_optsKmerStat-g-s参数,default='-g300-s32'

--rekmer第2次kmerStat时把-g和-s参数设置为前一次估算的基因组大小的倍数，

默认=32,5，比如kmer估算的基因组大小为4M，这个参数相当于设置了

-g=4*32–s=4*5，如果设置0,0则不做二次kmer分析

--kmer_vfKmerStat投任务内存,default=500M

2.2组装参数说明：

组装过程：

1先选一组参数粗略地组装一个版本，用于估算插入片段相关的参数（min_ins/avg_ins/max_ins），

之前的流程配置文件中，没有设置插入片段的最小值和最大值）

2用soapdenovo（grape）进行组装，可以进行多轮组装，每次并行多组不同的参数，选择组装效果最

好的一组参数，这组参数将与下一轮组装中的每一组参数进行组合（取参数的并集，重复的参数以

下一轮的为准），在上一轮的最优组装结果跟这轮所有的结果中，选择最优结果。

组装次数不限，

一般情况下两轮组装，参数的组合已很充分了。

这一步包含soapdenovo（grape）的-F补洞和SRkgf补

洞（这两种补洞策略不能同时使用）

3krskgf或gapclose补洞，补洞次数不限，软件的使用顺序也不限，可根据需要设置参数，但用一次

krskgf+gapclose洞补也差不多了。

4插入片段纠正。

组装效果越好，插入片段纠正结果越可靠，这一步可多次使用，插入到2、3步之

间或内部（一般在第2步的最优结果后，纠正一次，然后再装一次，效果就已经相当好了，补洞

就不需要再纠正了）

--maxLreads的最大长度,default=90.

--corr_insert选择纠正插入片段长度的方法（计算组装配置文件中插入片段相关的参数）:

1使用组装的log文件，这个不耗时间，但是大片段一般估计不了；

2根据soap比对结果选择正常的insertSize计算插入片段均值及正常范围

3根据soap比对结果，使用soap2_insert.pl计算avg_ins,Rsd/Lsd

方法3用于插入片段评估，但计算设置参数建议用2，默认选方法2.

--soap_opts纠正插入片段时，SOAP比对的参数，默认为"-l32-s40-v3-r1-p6"

--sortsoap对最终的SOAP比对结果进行排序（forcallingSNP）,defaultnotsort

--resoap重新进行soap比对，组装后，第一次soap比对的结果用于覆盖度分析、

GC-depth、单碱基纠错,但单碱基纠错后，soap比对结果会有所不同，如

果soap结果要用于重测序分析，建议选这个参数，defuaultnotrun

--ass_opts第一次纠正插入片段时，使用的组装参数,default="all-K29-F"

--cfg_opt第一次组装纠正插入片段时，write_cfg.pl（写组装配置文件的脚步）设置

参数,default='-x-p3,3'

--c计算插入片段正常范围的参数:

min,max_ins=avg_ins-/+c*sd,default=1.96

--cfg_options正式组装时，write_cfg.ploptions（optionstowriteassemblycfgfile）,

default='default='-x-p3,3''

--ass_options组装参数，可以是一个配置文件，也可以是字符串，具体见注意事项3,

默认="all-u-d1-K37:

5-F\nkrskgf\ngapclose-t8"

--object选择最优组装结果时，所依据的组装统计表:

1>500bp以上是数据统计表,

2所有序列数据统计表default=1

--priority选最优组装结果时，判断的依据（写前面的优先级更高）：

0scaff_num,

1contig_num,2scaf_N50,3contig_N50,default=0,1,2,3

--stander如下数据项达标的标准：

scaff_num,contig_num,scaf_N50,contig_N50,达标

的组装结果被选为最优组装结果的优先级更高，0表示没有达标标准,

default=0,0,0,0

--fill_insert标准的插入片段长度纠正策略（自定义的可以在组装的配置参数

--ass_options中设置），默认不使用

1在补洞前，使用最好的grape组装结果纠正插入片段长度

2在补洞前，使用最好的grape组装结果纠正插入片段长度，然后再运行

一次grape

3在补洞前，使用最好的grape组装结果纠正插入片段长度，然后再运行

一次grape，之后再纠正插入片段

--corins_opts设置使用—fill_insert时的，插入片段纠正参数，主要包括以下3个参数：

--pe_filter过滤非常范围内的PEreads

-pe_range设置小片段、大片段文库正常的insertSize范围（大小片段参数用“；”隔开），

设置了—pe_filter时，把非正常范围的PE过滤掉，0,0表示不过滤，默认：

0,0;1000,3i，这里的i表示实验设计的文库插入片段长度，如插入片段是

2000,3i=6000

--lim过滤非正常插入片段PEreads时，输出数据量限制（Mbp），默认符合条件的

全部输出

--auto_M在跑完soapdenovo之后，补洞之前运行auto_M

--min_scafn当scaffold（>500bp）的数目大于设定值时，才运行runauto_M,default=50

--autoM_optsauto_Moptions,defualt='-2-m2000-t10-n1'

--autoM_vfauto_M投任务内存,defult=2g

--cfg_fill补洞时，设置write_cfg.pl参数，重新写配置文件，默认使用跟组装时一样

的配置

--ass_vfgrape组装投任务申请的内存8G

--fill_vf补洞申请内存3G

2.3单碱基纠错与GC-depth分析

--use_result选择下游组装评估所用序列:

1所有序列,2只用>=500bp的序列,default=1

--minscaf当选-use_result1时,设置使用的序列长度阈值，默认=200

--revi_opts程序base.revision的参数,default='-m1--cc20'

--dibc输出程序base.revision–d设置的输出文件output.dibc，默认不输出此文件

--gc_opts设置GC-depth的参数default='--gc_range0,100--dep_cut400--cluster5'

--soap_vf设置运行soap比对时的内存,defualt=4G

2.4NT库比对

--cluster_range被认为是污染的块所占的氛围,default=0.001,0.1（先聚类，如果某个分块的

比例在0.1%~10%，对该块序列进行nt库比对）

--cover_cut污染序列覆盖度阈值，当序列被污染快的序列覆盖度大于阈值时，整条序列

进行污染分析,defaut=0.5

--blast_optsblast设置参数,default='-e1e-5-FF-b5'

--megablast使用megablast进行比对，这个比对速度比blastall快

--mega_optsmegablast设置参数,default='-p0.8-b5-v5'

--len_cutblastm8结果过滤的比对长度阈值，默认为200

--top输出的与每条scaffold比对得最好的物种个数阈值,default=5（最多输出5

个跟某一条scaffold比得最好的物种）

--add_num由最大的类（认为是所测样品）里面选择指定数目的scaffold,default=3

-seq_lim在最大类里面选取的每条序列截取指定的碱基（单位：

Kbp）跟nt库比对确

定物种名和分类号，default=50

这两个参数是选取样品的代表性序列，跟nt库比对来判断样品的Tax号和物种名，这些信息有两个作用：

如果选取的污染序列最终的物种归类和代表序列一致，则认为gc-depth图的污染块不是污染；

用于写agp文件的头信息。

--wgs忽略上面的设置，整个基因组进行NT库比对（如果要进行样品全面的成

分分析，设这个参数）。

--cpu线程数，default=5（nt库比较耗时间，设多线程缩短运行时间，但样品太

多就不要设得太大了，排不上队）

--blast_vfblast比对所用内存，默认=8G

--ntdbNTdatabase文件路径，默认：

/{ifshk1,ifs1}/pub/database/ftp.ncbi.nih.gov/blast/db/20120619/nt

以下3个是根据gi号来找tax号和物种名的文件，目前使用版本是20120707在网上下载的，比集群上的要全

--gidTaxidgi_taxid_nucl.dmpfromNCBItaxonomy,default20120707version

--namenames.dmpfromNCBItaxonomy,default20120707version

--nodenodes.dmpfromNCBItaxonomy,default20120707version

2.5其他评估步骤参数

-plams_optsPlasmid_analysis.pl参数，默认不设置，详细说明请察看相关子脚本说明

--wgs2整个基因组进行质粒库比对，默认使用找到的污染序列进行比对

--cpu2线程数，default=1

--srelate_optsScafrelation参数,default='-x5-c500'

--refcover_optsRef_cover.pl参数，默认不设置，详细说明请察看相关子脚本说明

2.6关于NCBIAGP文件头信息的设置

--organism设置物种名，默认程序通过nt库比对查找

--tax_id设置TAX_ID,通过nt库比对查找

--assembly_name设置组装结果的名字，默认为样品名

-nt_ref输入参考序列跟nt库比对来确定TAX号和物种名，默认使用样品NT库比

对的分析结果，

如果非常确定参考序列跟组装的样品是同一个物种

可以输入参考序列来确定TAX号和物种名，同时把-add_name设为0，就可少了从组装结果里面

抽部分序列比对确认样品TAX号和物种的工作，而且可跟样品的组装并行，缩短总体时间。

2.7几个供选择的组装参数策略:

--recomend供选择的策略如下（细菌精细图组装流程选用5，survey选用6）：

--recommended

参数设置

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-F-K37:

6\nkrskgf\ngapclose-t8\n"

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-K37xx-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1\nall-K37:

5–F\nkrskgf\ngapclose-t8\n"

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-K37:

5–F\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1

krskgf\ngapclose-t8\n"

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-K37:

5xx-F|-f,SRkgf\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1

krskgf\ngapclose-t8\n"

--fill_insert2--use_result2--pe_filter--pe_range="0,0;0.5i,1.5i"--auto_M--min_scafn50--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="all-K23:

20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx–F\nkrskgf\nwrite_cfg-x\ngapclose-t8\n"

--fill_insert2--use_result2--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="all-K23:

20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx-F\n"

2.8其他:

--add_txt设置关于调用软件的配置文件,defalt=Bin/Add.txt

--qsub_optsqsub参数,default="-Ptest-qbc.q".

--maxjob在线最大任务数，default=400.

--prefix设置某些输出文件的前缀，default=all.（建议不要修改）

--verbose输出过程信息（建议使用）

--newversion使用SOAPdenovo_V1.06,默认是使用V1.05

--noclean保留一些无用的中间结果

--help输出帮助信息，选择关键词输出需要的帮助信息：

detail整个流程详细的说明（就是这里的说明）

clean过滤流程说明

write_cfg配置文件的脚步说明

grapesoapdenovo（grape）软件说明

SRkgfSRkgf使用说明

krskgfkrskgf使用说明

gapclosegapclose使用说明

evaluate组装评估相关的参数详细说明

3注意事项

1KmerStat会运行两次，第一次用-kmer_opts来设置参数，然后根据估算的基因组大小用--rekmer从新设置–g和–s

格式例子—rekmer32,5，如果第一次预测的基因组大小为G（M），那么第2次的设置为-g32G–s5G，设置为0,0表示不运行2次KmerStat.

2-corr_insert设置<=0时

展开阅读全文