BacterialDenovoAssemblyModuleManualV20831.docx

上传人:b****6 文档编号:4957095 上传时间:2022-12-12 格式:DOCX 页数:25 大小:35.71KB
下载 相关 举报
BacterialDenovoAssemblyModuleManualV20831.docx_第1页
第1页 / 共25页
BacterialDenovoAssemblyModuleManualV20831.docx_第2页
第2页 / 共25页
BacterialDenovoAssemblyModuleManualV20831.docx_第3页
第3页 / 共25页
BacterialDenovoAssemblyModuleManualV20831.docx_第4页
第4页 / 共25页
BacterialDenovoAssemblyModuleManualV20831.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

BacterialDenovoAssemblyModuleManualV20831.docx

《BacterialDenovoAssemblyModuleManualV20831.docx》由会员分享,可在线阅读,更多相关《BacterialDenovoAssemblyModuleManualV20831.docx(25页珍藏版)》请在冰豆网上搜索。

BacterialDenovoAssemblyModuleManualV20831.docx

BacterialDenovoAssemblyModuleManualV20831

深圳华大基因科技服务有限公司

文件编号:

BGI-TS-SOP02-001

 

微生物组装流程V2.0及附属程序使用说明

 

起草人:

王爽

版本号:

起草日期:

受控状态:

审核人:

批准人:

审核日期:

批准日期:

保密级别:

□绝密□机密□秘密

 

微生物组装流程V2.0使用说明3

1流程简介3

2使用说明3

3注意事项8

完成图评估总流程9

1流程简介9

2使用说明9

contig分析流程11

1流程简介11

2使用说明11

质粒分析流程12

1流程简介12

2使用说明12

NT库分析流程:

13

1流程简介13

2使用说明13

用参考基因组和基因集对组装结果进行评估(包含共线性分析和参考序列重复序列分析功能)14

1流程简介14

2使用说明14

scaffold连接关系分析15

1流程简介15

2使用说明15

非正常插入片段过滤流程15

1流程简介15

2使用说明15

NCBI要求的fasta及agp文件转换脚本16

1流程简介16

2使用说明16

微生物组装流程V2.0使用说明

1流程简介

微生物组装流程V2.0,可实现的功能(适用于群体或个体组装分析):

0数据过滤(如果数据已经过滤,可省去这一步,在过滤数据的基础上进行组装)

1Kmer分析;

2组装:

SOAPdenovo(grape),SRkgf,krskgf,GapClose,alsoinsertSizecanbecorrecteddealingassembly;

组装结果评估:

3Contig分析(分析的组装结果为grape的原始组装结果,因补洞后或过滤短序列后,contig数目太

少了);

4单碱基纠错;

5GC-depth分析;

6插入片段评估(大小片段都评估,大片段的评估结果将会加入到质控表中)

7NT库blast比对找污染(可自动根据GC-depth聚类结果找到污染序列,也可以设置为全基因组nt

库比对);

8质粒库blast比对(可自动根据GC-depth聚类结果找到污染序列,也可以设置为全基因组跟质粒库

比对);

9scaffold链接关系分析(基于soap比对的SE);

10scaffold排序、共线性、组装覆盖度分析(基于参考序列,可输入多个参考序列,程序会选择覆盖

度最高的参考序列进行下游分析);

11生成符合NCBI上传的fasta文件和agp文件(2.0版本且包含头信息);

2使用说明

1)从过滤数据开始运行:

perlAssemply.pl--bmsbms.lst--rawdir/share/fqdata44/data-clean_opts="--programFCKJ0047_PSEnvrD-data_lim700"

--bmsBMS数据列表,格式:

样品名文库名插入片段长度,深圳集群支持http

网址输入(使用跟纯测序流程一样)

--rawdir下机数据目录

--clean_opts=设置Clean_Data.pl的参数,所有的参数写在双引号“”之内,详细参数

说明,请参看纯测序相关帮助文档

--cleandir

设置过滤数据输出目录,默认=01.Cleandata

有时候,如果怀疑下机数据有问题,可把-step设置为非1234的数字,只过滤数据,看看是否及格再做下面的操作。

2)已有过滤数据的情况下,运行方式:

perlAssemply.pl[insert.lst][-options]

reads.lst所有readsFQ文件所在的路径,如果所有FQ文件所在目录以样品名命名,文件名中包含“L数字_文库名”标记,

这个输入可以直接是所有FQ文件路径列表,否则需要写成如下格式:

样品名插入片段长度reads1FQ路径

样品名插入片段长度reads2FQ路径(一定要是同一对reads按先reads1后reads2的顺序写)

insert.lst在reads列表里的路径包含文库名标记的情况下,输入文库长度列表,格式:

文库名插入片段长度。

--assdir

组装结果输出目录,默认为03.Assembly

--shdir

运行过程中的shell脚本存放目录,默认为Shell/

--onesample一个样品的组装(就算是一个样品不建议选此参数,后期目录处理不方便)

--sname当设置了—onesample时,设置样品名,默认为all

--step运行步骤:

1kmer分析,2组装,3组装结果评估,4,contig分析,

5getResultdirectorystructure,默认1234

--evstep选择step3的具体内容:

1soap比对,2soap覆盖度分析,3单碱基纠错,

4GC_depth分析,5插入片段分析,6NT库污染分析,7质粒库分析,

8scaffold连接关系分析,9基因参考序列的组装覆盖度及共线性分析,

0生成符合NCBI上传要求格式的文件,默认为0123456789

--reflist输入参考序列列表(for--evstep9),格式每一行为:

“Ref名字文件路径”,

如果只输入文件路径,则已basename为参考序列名字

--cdslist输入参考序列cds文件列表(for--evstep9),其中的文件顺序,需要与—reflist

中保持一致。

--get_result生产交付目录结构,如果没有选这个参数也可以在程序运行结束后,运行

Shell/Step5_get_result.sh,得到交付目录Result

2.1Kmer分析参数说明:

--kmer_optsKmerStat-g-s参数,default='-g300-s32'

--rekmer第2次kmerStat时把-g和-s参数设置为前一次估算的基因组大小的倍数,

默认=32,5,比如kmer估算的基因组大小为4M,这个参数相当于设置了

-g=4*32–s=4*5,如果设置0,0则不做二次kmer分析

--kmer_vfKmerStat投任务内存,default=500M

2.2组装参数说明:

组装过程:

1先选一组参数粗略地组装一个版本,用于估算插入片段相关的参数(min_ins/avg_ins/max_ins),

之前的流程配置文件中,没有设置插入片段的最小值和最大值)

2用soapdenovo(grape)进行组装,可以进行多轮组装,每次并行多组不同的参数,选择组装效果最

好的一组参数,这组参数将与下一轮组装中的每一组参数进行组合(取参数的并集,重复的参数以

下一轮的为准),在上一轮的最优组装结果跟这轮所有的结果中,选择最优结果。

组装次数不限,

一般情况下两轮组装,参数的组合已很充分了。

这一步包含soapdenovo(grape)的-F补洞和SRkgf补

洞(这两种补洞策略不能同时使用)

3krskgf或gapclose补洞,补洞次数不限,软件的使用顺序也不限,可根据需要设置参数,但用一次

krskgf+gapclose洞补也差不多了。

4插入片段纠正。

组装效果越好,插入片段纠正结果越可靠,这一步可多次使用,插入到2、3步之

间或内部(一般在第2步的最优结果后,纠正一次,然后再装一次,效果就已经相当好了,补洞

就不需要再纠正了)

 

--maxLreads的最大长度,default=90.

--corr_insert选择纠正插入片段长度的方法(计算组装配置文件中插入片段相关的参数):

1使用组装的log文件,这个不耗时间,但是大片段一般估计不了;

2根据soap比对结果选择正常的insertSize计算插入片段均值及正常范围

3根据soap比对结果,使用soap2_insert.pl计算avg_ins,Rsd/Lsd

方法3用于插入片段评估,但计算设置参数建议用2,默认选方法2.

--soap_opts纠正插入片段时,SOAP比对的参数,默认为"-l32-s40-v3-r1-p6"

--sortsoap对最终的SOAP比对结果进行排序(forcallingSNP),defaultnotsort

--resoap重新进行soap比对,组装后,第一次soap比对的结果用于覆盖度分析、

GC-depth、单碱基纠错,但单碱基纠错后,soap比对结果会有所不同,如

果soap结果要用于重测序分析,建议选这个参数,defuaultnotrun

--ass_opts第一次纠正插入片段时,使用的组装参数,default="all-K29-F"

--cfg_opt第一次组装纠正插入片段时,write_cfg.pl(写组装配置文件的脚步)设置

参数,default='-x-p3,3'

--c计算插入片段正常范围的参数:

min,max_ins=avg_ins-/+c*sd,default=1.96

--cfg_options正式组装时,write_cfg.ploptions(optionstowriteassemblycfgfile),

default='default='-x-p3,3''

--ass_options组装参数,可以是一个配置文件,也可以是字符串,具体见注意事项3,

默认="all-u-d1-K37:

8:

5-F\nkrskgf\ngapclose-t8"

--object选择最优组装结果时,所依据的组装统计表:

1>500bp以上是数据统计表,

2所有序列数据统计表default=1

--priority选最优组装结果时,判断的依据(写前面的优先级更高):

0scaff_num,

1contig_num,2scaf_N50,3contig_N50,default=0,1,2,3

--stander如下数据项达标的标准:

scaff_num,contig_num,scaf_N50,contig_N50,达标

的组装结果被选为最优组装结果的优先级更高,0表示没有达标标准,

default=0,0,0,0

--fill_insert标准的插入片段长度纠正策略(自定义的可以在组装的配置参数

--ass_options中设置),默认不使用

1在补洞前,使用最好的grape组装结果纠正插入片段长度

2在补洞前,使用最好的grape组装结果纠正插入片段长度,然后再运行

一次grape

3在补洞前,使用最好的grape组装结果纠正插入片段长度,然后再运行

一次grape,之后再纠正插入片段

--corins_opts设置使用—fill_insert时的,插入片段纠正参数,主要包括以下3个参数:

--pe_filter过滤非常范围内的PEreads

-pe_range设置小片段、大片段文库正常的insertSize范围(大小片段参数用“;”隔开),

设置了—pe_filter时,把非正常范围的PE过滤掉,0,0表示不过滤,默认:

0,0;1000,3i,这里的i表示实验设计的文库插入片段长度,如插入片段是

2000,3i=6000

--lim过滤非正常插入片段PEreads时,输出数据量限制(Mbp),默认符合条件的

全部输出

--auto_M在跑完soapdenovo之后,补洞之前运行auto_M

--min_scafn当scaffold(>500bp)的数目大于设定值时,才运行runauto_M,default=50

--autoM_optsauto_Moptions,defualt='-2-m2000-t10-n1'

--autoM_vfauto_M投任务内存,defult=2g

--cfg_fill补洞时,设置write_cfg.pl参数,重新写配置文件,默认使用跟组装时一样

的配置

--ass_vfgrape组装投任务申请的内存8G

--fill_vf补洞申请内存3G

2.3单碱基纠错与GC-depth分析

--use_result选择下游组装评估所用序列:

1所有序列,2只用>=500bp的序列,default=1

--minscaf当选-use_result1时,设置使用的序列长度阈值,默认=200

--revi_opts程序base.revision的参数,default='-m1--cc20'

--dibc输出程序base.revision–d设置的输出文件output.dibc,默认不输出此文件

--gc_opts设置GC-depth的参数default='--gc_range0,100--dep_cut400--cluster5'

--soap_vf设置运行soap比对时的内存,defualt=4G

2.4NT库比对

--cluster_range被认为是污染的块所占的氛围,default=0.001,0.1(先聚类,如果某个分块的

比例在0.1%~10%,对该块序列进行nt库比对)

--cover_cut污染序列覆盖度阈值,当序列被污染快的序列覆盖度大于阈值时,整条序列

进行污染分析,defaut=0.5

--blast_optsblast设置参数,default='-e1e-5-FF-b5'

--megablast使用megablast进行比对,这个比对速度比blastall快

--mega_optsmegablast设置参数,default='-p0.8-b5-v5'

--len_cutblastm8结果过滤的比对长度阈值,默认为200

--top输出的与每条scaffold比对得最好的物种个数阈值,default=5(最多输出5

个跟某一条scaffold比得最好的物种)

--add_num由最大的类(认为是所测样品)里面选择指定数目的scaffold,default=3

-seq_lim在最大类里面选取的每条序列截取指定的碱基(单位:

Kbp)跟nt库比对确

定物种名和分类号,default=50

这两个参数是选取样品的代表性序列,跟nt库比对来判断样品的Tax号和物种名,这些信息有两个作用:

如果选取的污染序列最终的物种归类和代表序列一致,则认为gc-depth图的污染块不是污染;

用于写agp文件的头信息。

--wgs忽略上面的设置,整个基因组进行NT库比对(如果要进行样品全面的成

分分析,设这个参数)。

--cpu线程数,default=5(nt库比较耗时间,设多线程缩短运行时间,但样品太

多就不要设得太大了,排不上队)

--blast_vfblast比对所用内存,默认=8G

--ntdbNTdatabase文件路径,默认:

/{ifshk1,ifs1}/pub/database/ftp.ncbi.nih.gov/blast/db/20120619/nt

以下3个是根据gi号来找tax号和物种名的文件,目前使用版本是20120707在网上下载的,比集群上的要全

--gidTaxidgi_taxid_nucl.dmpfromNCBItaxonomy,default20120707version

--namenames.dmpfromNCBItaxonomy,default20120707version

--nodenodes.dmpfromNCBItaxonomy,default20120707version

2.5其他评估步骤参数

-plams_optsPlasmid_analysis.pl参数,默认不设置,详细说明请察看相关子脚本说明

--wgs2整个基因组进行质粒库比对,默认使用找到的污染序列进行比对

--cpu2线程数,default=1

--srelate_optsScafrelation参数,default='-x5-c500'

--refcover_optsRef_cover.pl参数,默认不设置,详细说明请察看相关子脚本说明

2.6关于NCBIAGP文件头信息的设置

--organism设置物种名,默认程序通过nt库比对查找

--tax_id设置TAX_ID,通过nt库比对查找

--assembly_name设置组装结果的名字,默认为样品名

-nt_ref输入参考序列跟nt库比对来确定TAX号和物种名,默认使用样品NT库比

对的分析结果,

如果非常确定参考序列跟组装的样品是同一个物种

可以输入参考序列来确定TAX号和物种名,同时把-add_name设为0,就可少了从组装结果里面

抽部分序列比对确认样品TAX号和物种的工作,而且可跟样品的组装并行,缩短总体时间。

2.7几个供选择的组装参数策略:

--recomend供选择的策略如下(细菌精细图组装流程选用5,survey选用6):

--recommended

参数设置

1

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-F-K37:

6:

6\nkrskgf\ngapclose-t8\n"

2

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-K37xx-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1\nall-K37:

8:

5–F\nkrskgf\ngapclose-t8\n"

3

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-K37:

8:

5–F\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1

krskgf\ngapclose-t8\n"

4

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="all-u-d1-K37:

8:

5xx-F|-f,SRkgf\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1

krskgf\ngapclose-t8\n"

5

--fill_insert2--use_result2--pe_filter--pe_range="0,0;0.5i,1.5i"--auto_M--min_scafn50--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="all-K23:

4:

20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx–F\nkrskgf\nwrite_cfg-x\ngapclose-t8\n"

6

--fill_insert2--use_result2--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="all-K23:

4:

20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx-F\n"

2.8其他:

--add_txt设置关于调用软件的配置文件,defalt=Bin/Add.txt

--qsub_optsqsub参数,default="-Ptest-qbc.q".

--maxjob在线最大任务数,default=400.

--prefix设置某些输出文件的前缀,default=all.(建议不要修改)

--verbose输出过程信息(建议使用)

--newversion使用SOAPdenovo_V1.06,默认是使用V1.05

--noclean保留一些无用的中间结果

--help输出帮助信息,选择关键词输出需要的帮助信息:

detail整个流程详细的说明(就是这里的说明)

clean过滤流程说明

write_cfg配置文件的脚步说明

grapesoapdenovo(grape)软件说明

SRkgfSRkgf使用说明

krskgfkrskgf使用说明

gapclosegapclose使用说明

evaluate组装评估相关的参数详细说明

3注意事项

1KmerStat会运行两次,第一次用-kmer_opts来设置参数,然后根据估算的基因组大小用--rekmer从新设置–g和–s

格式例子—rekmer32,5,如果第一次预测的基因组大小为G(M),那么第2次的设置为-g32G–s5G,设置为0,0表示不运行2次KmerStat.

2-corr_insert设置<=0时

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 军事

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1