BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx

上传人:b****6 文档编号:17910453 上传时间:2022-12-12 格式:DOCX 页数:25 大小:35.71KB
下载 相关 举报
BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx_第1页
第1页 / 共25页
BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx_第2页
第2页 / 共25页
BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx_第3页
第3页 / 共25页
BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx_第4页
第4页 / 共25页
BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx

《BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx》由会员分享,可在线阅读,更多相关《BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx(25页珍藏版)》请在冰豆网上搜索。

BacterialDenovoAssemblyModuleManualV20831Word文档格式.docx

scaffold连接关系分析15

1流程简介15

2使用说明15

非正常插入片段过滤流程15

NCBI要求的fasta及agp文件转换脚本16

1流程简介16

2使用说明16

微生物组装流程V2.0使用说明

1流程简介

微生物组装流程V2.0,可实现的功能(适用于群体或个体组装分析):

0数据过滤(如果数据已经过滤,可省去这一步,在过滤数据的基础上进行组装)

1Kmer分析;

2组装:

SOAPdenovo(grape),SRkgf,krskgf,GapClose,alsoinsertSizecanbecorrecteddealingassembly;

组装结果评估:

3Contig分析(分析的组装结果为grape的原始组装结果,因补洞后或过滤短序列后,contig数目太

少了);

4单碱基纠错;

5GC-depth分析;

6插入片段评估(大小片段都评估,大片段的评估结果将会加入到质控表中)

7NT库blast比对找污染(可自动根据GC-depth聚类结果找到污染序列,也可以设置为全基因组nt

库比对);

8质粒库blast比对(可自动根据GC-depth聚类结果找到污染序列,也可以设置为全基因组跟质粒库

比对);

9scaffold链接关系分析(基于soap比对的SE);

10scaffold排序、共线性、组装覆盖度分析(基于参考序列,可输入多个参考序列,程序会选择覆盖

度最高的参考序列进行下游分析);

11生成符合NCBI上传的fasta文件和agp文件(2.0版本且包含头信息);

2使用说明

1)从过滤数据开始运行:

perlAssemply.pl--bmsbms.lst--rawdir/share/fqdata44/data-clean_opts="

--programFCKJ0047_PSEnvrD-data_lim700"

--bms<

str>

BMS数据列表,格式:

样品名文库名插入片段长度,深圳集群支持http

网址输入(使用跟纯测序流程一样)

--rawdir<

下机数据目录

--clean_opts=<

设置Clean_Data.pl的参数,所有的参数写在双引号“”之内,详细参数

说明,请参看纯测序相关帮助文档

--cleandir<

dir>

设置过滤数据输出目录,默认=01.Cleandata

有时候,如果怀疑下机数据有问题,可把-step设置为非1234的数字,只过滤数据,看看是否及格再做下面的操作。

2)已有过滤数据的情况下,运行方式:

perlAssemply.pl<

reads.lst>

[insert.lst][-options]

reads.lst<

file>

所有readsFQ文件所在的路径,如果所有FQ文件所在目录以样品名命名,文件名中包含“L数字_文库名”标记,

这个输入可以直接是所有FQ文件路径列表,否则需要写成如下格式:

样品名插入片段长度reads1FQ路径

样品名插入片段长度reads2FQ路径(一定要是同一对reads按先reads1后reads2的顺序写)

insert.lst<

在reads列表里的路径包含文库名标记的情况下,输入文库长度列表,格式:

文库名插入片段长度。

--assdir<

组装结果输出目录,默认为03.Assembly

--shdir<

运行过程中的shell脚本存放目录,默认为Shell/

--onesample一个样品的组装(就算是一个样品不建议选此参数,后期目录处理不方便)

--sname<

当设置了—onesample时,设置样品名,默认为all

--step<

num>

运行步骤:

1kmer分析,2组装,3组装结果评估,4,contig分析,

5getResultdirectorystructure,默认1234

--evstep<

选择step3的具体内容:

1soap比对,2soap覆盖度分析,3单碱基纠错,

4GC_depth分析,5插入片段分析,6NT库污染分析,7质粒库分析,

8scaffold连接关系分析,9基因参考序列的组装覆盖度及共线性分析,

0生成符合NCBI上传要求格式的文件,默认为0123456789

--reflist<

输入参考序列列表(for--evstep9),格式每一行为:

“Ref名字文件路径”,

如果只输入文件路径,则已basename为参考序列名字

--cdslist<

输入参考序列cds文件列表(for--evstep9),其中的文件顺序,需要与—reflist

中保持一致。

--get_result生产交付目录结构,如果没有选这个参数也可以在程序运行结束后,运行

Shell/Step5_get_result.sh,得到交付目录Result

2.1Kmer分析参数说明:

--kmer_opts<

KmerStat-g-s参数,default='

-g300-s32'

--rekmer<

第2次kmerStat时把-g和-s参数设置为前一次估算的基因组大小的倍数,

默认=32,5,比如kmer估算的基因组大小为4M,这个参数相当于设置了

-g=4*32–s=4*5,如果设置0,0则不做二次kmer分析

--kmer_vf<

KmerStat投任务内存,default=500M

2.2组装参数说明:

组装过程:

1先选一组参数粗略地组装一个版本,用于估算插入片段相关的参数(min_ins/avg_ins/max_ins),

之前的流程配置文件中,没有设置插入片段的最小值和最大值)

2用soapdenovo(grape)进行组装,可以进行多轮组装,每次并行多组不同的参数,选择组装效果最

好的一组参数,这组参数将与下一轮组装中的每一组参数进行组合(取参数的并集,重复的参数以

下一轮的为准),在上一轮的最优组装结果跟这轮所有的结果中,选择最优结果。

组装次数不限,

一般情况下两轮组装,参数的组合已很充分了。

这一步包含soapdenovo(grape)的-F补洞和SRkgf补

洞(这两种补洞策略不能同时使用)

3krskgf或gapclose补洞,补洞次数不限,软件的使用顺序也不限,可根据需要设置参数,但用一次

krskgf+gapclose洞补也差不多了。

4插入片段纠正。

组装效果越好,插入片段纠正结果越可靠,这一步可多次使用,插入到2、3步之

间或内部(一般在第2步的最优结果后,纠正一次,然后再装一次,效果就已经相当好了,补洞

就不需要再纠正了)

--maxL<

reads的最大长度,default=90.

--corr_insert<

选择纠正插入片段长度的方法(计算组装配置文件中插入片段相关的参数):

1使用组装的log文件,这个不耗时间,但是大片段一般估计不了;

2根据soap比对结果选择正常的insertSize计算插入片段均值及正常范围

3根据soap比对结果,使用soap2_insert.pl计算avg_ins,Rsd/Lsd

方法3用于插入片段评估,但计算设置参数建议用2,默认选方法2.

--soap_opts<

纠正插入片段时,SOAP比对的参数,默认为"

-l32-s40-v3-r1-p6"

--sortsoap对最终的SOAP比对结果进行排序(forcallingSNP),defaultnotsort

--resoap重新进行soap比对,组装后,第一次soap比对的结果用于覆盖度分析、

GC-depth、单碱基纠错,但单碱基纠错后,soap比对结果会有所不同,如

果soap结果要用于重测序分析,建议选这个参数,defuaultnotrun

--ass_opts<

第一次纠正插入片段时,使用的组装参数,default="

all-K29-F"

--cfg_opt<

第一次组装纠正插入片段时,write_cfg.pl(写组装配置文件的脚步)设置

参数,default='

-x-p3,3'

--c<

计算插入片段正常范围的参数:

min,max_ins=avg_ins-/+c*sd,default=1.96

--cfg_options<

正式组装时,write_cfg.ploptions(optionstowriteassemblycfgfile),

default='

default='

'

--ass_options<

str|file>

组装参数,可以是一个配置文件,也可以是字符串,具体见注意事项3,

默认="

all-u-d1-K37:

8:

5-F\nkrskgf\ngapclose-t8"

--object<

选择最优组装结果时,所依据的组装统计表:

1>

500bp以上是数据统计表,

2所有序列数据统计表default=1

--priority<

选最优组装结果时,判断的依据(写前面的优先级更高):

0scaff_num,

1contig_num,2scaf_N50,3contig_N50,default=0,1,2,3

--stander<

如下数据项达标的标准:

scaff_num,contig_num,scaf_N50,contig_N50,达标

的组装结果被选为最优组装结果的优先级更高,0表示没有达标标准,

default=0,0,0,0

--fill_insert<

标准的插入片段长度纠正策略(自定义的可以在组装的配置参数

--ass_options中设置),默认不使用

1在补洞前,使用最好的grape组装结果纠正插入片段长度

2在补洞前,使用最好的grape组装结果纠正插入片段长度,然后再运行

一次grape

3在补洞前,使用最好的grape组装结果纠正插入片段长度,然后再运行

一次grape,之后再纠正插入片段

--corins_opts<

设置使用—fill_insert时的,插入片段纠正参数,主要包括以下3个参数:

--pe_filter过滤非常范围内的PEreads

-pe_range<

设置小片段、大片段文库正常的insertSize范围(大小片段参数用“;

”隔开),

设置了—pe_filter时,把非正常范围的PE过滤掉,0,0表示不过滤,默认:

0,0;

1000,3i,这里的i表示实验设计的文库插入片段长度,如插入片段是

2000,3i=6000

--lim<

过滤非正常插入片段PEreads时,输出数据量限制(Mbp),默认符合条件的

全部输出

--auto_M在跑完soapdenovo之后,补洞之前运行auto_M

--min_scafn<

当scaffold(>

500bp)的数目大于设定值时,才运行runauto_M,default=50

--autoM_opts<

auto_Moptions,defualt='

-2-m2000-t10-n1'

--autoM_vf<

auto_M投任务内存,defult=2g

--cfg_fill<

补洞时,设置write_cfg.pl参数,重新写配置文件,默认使用跟组装时一样

的配置

--ass_vf<

grape组装投任务申请的内存8G

--fill_vf<

补洞申请内存3G

2.3单碱基纠错与GC-depth分析

--use_result<

选择下游组装评估所用序列:

1所有序列,2只用>

=500bp的序列,default=1

--minscaf<

当选-use_result1时,设置使用的序列长度阈值,默认=200

--revi_opts<

程序base.revision的参数,default='

-m1--cc20'

--dibc输出程序base.revision–d设置的输出文件output.dibc,默认不输出此文件

--gc_opts<

设置GC-depth的参数default='

--gc_range0,100--dep_cut400--cluster5'

--soap_vf<

设置运行soap比对时的内存,defualt=4G

2.4NT库比对

--cluster_range<

被认为是污染的块所占的氛围,default=0.001,0.1(先聚类,如果某个分块的

比例在0.1%~10%,对该块序列进行nt库比对)

--cover_cut<

flo>

污染序列覆盖度阈值,当序列被污染快的序列覆盖度大于阈值时,整条序列

进行污染分析,defaut=0.5

--blast_opts<

blast设置参数,default='

-e1e-5-FF-b5'

--megablast使用megablast进行比对,这个比对速度比blastall快

--mega_opts<

megablast设置参数,default='

-p0.8-b5-v5'

--len_cut<

blastm8结果过滤的比对长度阈值,默认为200

--top<

输出的与每条scaffold比对得最好的物种个数阈值,default=5(最多输出5

个跟某一条scaffold比得最好的物种)

--add_num<

由最大的类(认为是所测样品)里面选择指定数目的scaffold,default=3

-seq_lim<

在最大类里面选取的每条序列截取指定的碱基(单位:

Kbp)跟nt库比对确

定物种名和分类号,default=50

这两个参数是选取样品的代表性序列,跟nt库比对来判断样品的Tax号和物种名,这些信息有两个作用:

如果选取的污染序列最终的物种归类和代表序列一致,则认为gc-depth图的污染块不是污染;

用于写agp文件的头信息。

--wgs忽略上面的设置,整个基因组进行NT库比对(如果要进行样品全面的成

分分析,设这个参数)。

--cpu<

线程数,default=5(nt库比较耗时间,设多线程缩短运行时间,但样品太

多就不要设得太大了,排不上队)

--blast_vf<

blast比对所用内存,默认=8G

--ntdb<

NTdatabase文件路径,默认:

/{ifshk1,ifs1}/pub/database/ftp.ncbi.nih.gov/blast/db/20120619/nt

以下3个是根据gi号来找tax号和物种名的文件,目前使用版本是20120707在网上下载的,比集群上的要全

--gidTaxid<

gi_taxid_nucl.dmpfromNCBItaxonomy,default20120707version

--name<

names.dmpfromNCBItaxonomy,default20120707version

--node<

nodes.dmpfromNCBItaxonomy,default20120707version

2.5其他评估步骤参数

-plams_opts<

Plasmid_analysis.pl参数,默认不设置,详细说明请察看相关子脚本说明

--wgs2整个基因组进行质粒库比对,默认使用找到的污染序列进行比对

--cpu2线程数,default=1

--srelate_opts<

Scafrelation参数,default='

-x5-c500'

--refcover_opts<

Ref_cover.pl参数,默认不设置,详细说明请察看相关子脚本说明

2.6关于NCBIAGP文件头信息的设置

--organism<

设置物种名,默认程序通过nt库比对查找

--tax_id<

设置TAX_ID,通过nt库比对查找

--assembly_name<

设置组装结果的名字,默认为样品名

-nt_ref<

输入参考序列跟nt库比对来确定TAX号和物种名,默认使用样品NT库比

对的分析结果,

如果非常确定参考序列跟组装的样品是同一个物种

可以输入参考序列来确定TAX号和物种名,同时把-add_name设为0,就可少了从组装结果里面

抽部分序列比对确认样品TAX号和物种的工作,而且可跟样品的组装并行,缩短总体时间。

2.7几个供选择的组装参数策略:

--recomend<

供选择的策略如下(细菌精细图组装流程选用5,survey选用6):

--recommended

参数设置

1

--fill_insert2--stander50,50,0,0--priority2,0,1,3--ass_options="

all-u-d1-F-K37:

6:

6\nkrskgf\ngapclose-t8\n"

2

all-K37xx-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1\nall-K37:

5–F\nkrskgf\ngapclose-t8\n"

3

5–F\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1

krskgf\ngapclose-t8\n"

4

5xx-F|-f,SRkgf\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1

5

--fill_insert2--use_result2--pe_filter--pe_range="

0.5i,1.5i"

--auto_M--min_scafn50--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="

all-K23:

4:

20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx–F\nkrskgf\nwrite_cfg-x\ngapclose-t8\n"

6

--fill_insert2--use_result2--stander50,200,0,0--priority0,1,2,3--wgs2--get_result--verbose--ass_options="

20\nall-L65-d1|-L65-u-d1|-L65-R-d1|-L65-R-u-d1|-d1|-u-d1|-R-u-d1xx-F\n"

2.8其他:

--add_txt<

设置关于调用软件的配置文件,defalt=Bin/Add.txt

--qsub_opts<

qsub参数,default="

-Ptest-qbc.q"

.

--maxjob<

在线最大任务数,default=400.

--prefix<

设置某些输出文件的前缀,default=all.(建议不要修改)

--verbose输出过程信息(建议使用)

--newversion使用SOAPdenovo_V1.06,默认是使用V1.05

--noclean保留一些无用的中间结果

--help<

输出帮助信息,选择关键词输出需要的帮助信息:

detail整个流程详细的说明(就是这里的说明)

clean过滤流程说明

write_cfg配置文件的脚步说明

grapesoapdenovo(grape)软件说明

SRkgfSRkgf使用说明

krskgfkrskgf使用说明

gapclosegapclose使用说明

evaluate组装评估相关的参数详细说明

3注意事项

1KmerStat会运行两次,第一次用-kmer_opts来设置参数,然后根据估算的基因组大小用--rekmer从新设置–g和–s

格式例子—rekmer32,5,如果第一次预测的基因组大小为G(M),那么第2次的设置为-g32G–s5G,设置为0,0表示不运行2次KmerStat.

2-corr_insert设置<

=0时

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 育儿理论经验

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1