BacterialDenovoAssemblyModuleManualV20831.docx-资源下载

BacterialDenovoAssemblyModuleManualV20831.docx

1、BacterialDenovoAssemblyModuleManualV20831深圳华大基因科技服务有限公司文件编号：BGI-TS-SOP02-001微生物组装流程V2.0及附属程序使用说明起草人：王爽版本号：起草日期：受控状态：审核人：批准人：审核日期：批准日期：保密级别：绝密机密秘密微生物组装流程V2.0使用说明 31 流程简介 32 使用说明 33 注意事项 8完成图评估总流程 91 流程简介 92 使用说明 9contig分析流程 111 流程简介 112 使用说明 11质粒分析流程 121 流程简介 122 使用说明 12NT库分析流程： 131 流程简介

2、 132 使用说明 13用参考基因组和基因集对组装结果进行评估（包含共线性分析和参考序列重复序列分析功能） 141 流程简介 142 使用说明 14scaffold连接关系分析 151 流程简介 152 使用说明 15非正常插入片段过滤流程 151 流程简介 152 使用说明 15NCBI要求的fasta及agp文件转换脚本 161 流程简介 162 使用说明 16微生物组装流程V2.0使用说明1 流程简介微生物组装流程V2.0，可实现的功能（适用于群体或个体组装分析）：0 数据过滤（如果数据已经过滤，可省去这一步，在过滤数据的基础上进行组装）1 Kmer分析；2 组装: SOAPdenovo

3、(grape),SRkgf,krskgf,GapClose, also insertSize can be corrected dealing assembly；组装结果评估：3 Contig 分析（分析的组装结果为grape的原始组装结果，因补洞后或过滤短序列后，contig数目太少了）；4 单碱基纠错；5 GC-depth分析；6 插入片段评估（大小片段都评估，大片段的评估结果将会加入到质控表中）7 NT库blast比对找污染（可自动根据GC-depth聚类结果找到污染序列，也可以设置为全基因组nt库比对）；8 质粒库blast比对（可自动根据GC-depth聚类结果找到污染序列，也可以

4、设置为全基因组跟质粒库比对）；9 scaffold 链接关系分析（基于soap比对的SE）；10 scaffold排序、共线性、组装覆盖度分析（基于参考序列，可输入多个参考序列，程序会选择覆盖度最高的参考序列进行下游分析）；11 生成符合NCBI上传的fasta文件和agp文件（2.0版本且包含头信息）；2 使用说明1）从过滤数据开始运行：perl Assemply.pl -bms bms.lst -rawdir /share/fqdata44/data -clean_opts=-program FCKJ0047_PSEnvrD -data_lim 700-bms BMS 数据列表，格式：样品

5、名文库名插入片段长度，深圳集群支持http网址输入（使用跟纯测序流程一样）-rawdir 下机数据目录-clean_opts= 设置Clean_Data.pl的参数，所有的参数写在双引号“ ”之内，详细参数说明，请参看纯测序相关帮助文档-cleandir 设置过滤数据输出目录，默认=01.Cleandata有时候，如果怀疑下机数据有问题，可把-step设置为非1234的数字，只过滤数据，看看是否及格再做下面的操作。2）已有过滤数据的情况下，运行方式：perl Assemply.pl insert.lst -optionsreads.lst 所有reads FQ文件所在的路径，如果所有FQ

6、文件所在目录以样品名命名，文件名中包含“L数字_文库名”标记，这个输入可以直接是所有FQ文件路径列表，否则需要写成如下格式：样品名插入片段长度 reads1 FQ路径样品名插入片段长度 reads2 FQ路径（一定要是同一对reads按先reads1后reads2的顺序写）insert.lst 在reads列表里的路径包含文库名标记的情况下，输入文库长度列表，格式：文库名插入片段长度。-assdir 组装结果输出目录，默认为03.Assembly-shdir 运行过程中的shell脚本存放目录，默认为Shell/-onesample 一个样品的组装（就算是一个样品不建议选此参数，后期目录

7、处理不方便）-sname 当设置了onesample时，设置样品名，默认为all-step 运行步骤：1 kmer分析, 2 组装, 3 组装结果评估, 4,contig分析，5 get Result directory structure,默认1234-evstep 选择step3的具体内容: 1 soap比对, 2 soap覆盖度分析, 3 单碱基纠错, 4 GC_depth分析,5 插入片段分析, 6 NT库污染分析, 7 质粒库分析, 8 scaffold连接关系分析,9 基因参考序列的组装覆盖度及共线性分析, 0 生成符合NCBI上传要求格式的文件，默认为0123456789-ref

8、list 输入参考序列列表（for -evstep 9），格式每一行为：“Ref名字文件路径”，如果只输入文件路径，则已basename为参考序列名字-cdslist 输入参考序列cds文件列表（for -evstep 9），其中的文件顺序，需要与reflist中保持一致。-get_result 生产交付目录结构，如果没有选这个参数也可以在程序运行结束后，运行Shell/Step5_get_result.sh，得到交付目录Result2.1 Kmer分析参数说明：-kmer_opts KmerStat -g -s 参数, default=-g 300 -s 32-rekmer 第2次kmer

9、Stat时把-g和-s参数设置为前一次估算的基因组大小的倍数，默认=32,5，比如kmer估算的基因组大小为4M，这个参数相当于设置了-g=4*32 s=4*5，如果设置0,0则不做二次kmer分析-kmer_vf KmerStat投任务内存, default=500M2.2 组装参数说明：组装过程：1 先选一组参数粗略地组装一个版本，用于估算插入片段相关的参数（min_ins/avg_ins/max_ins），之前的流程配置文件中，没有设置插入片段的最小值和最大值）2 用soapdenovo（grape）进行组装，可以进行多轮组装，每次并行多组不同的参数，选择组装效果最好的一组参数，这组参数

10、将与下一轮组装中的每一组参数进行组合（取参数的并集，重复的参数以下一轮的为准），在上一轮的最优组装结果跟这轮所有的结果中，选择最优结果。组装次数不限，一般情况下两轮组装，参数的组合已很充分了。这一步包含soapdenovo(grape)的-F补洞和SRkgf补洞（这两种补洞策略不能同时使用）3 krskgf或gapclose补洞，补洞次数不限，软件的使用顺序也不限，可根据需要设置参数，但用一次krskgf+gapclose洞补也差不多了。4 插入片段纠正。组装效果越好，插入片段纠正结果越可靠，这一步可多次使用，插入到2、3步之间或内部（一般在第2步的最优结果后，纠正一次，然后再装一次，效果就已

11、经相当好了，补洞就不需要再纠正了）-maxL reads的最大长度, default=90.-corr_insert 选择纠正插入片段长度的方法（计算组装配置文件中插入片段相关的参数）: 1 使用组装的log文件，这个不耗时间，但是大片段一般估计不了；2 根据soap比对结果选择正常的insertSize计算插入片段均值及正常范围3 根据soap比对结果，使用soap2_insert.pl计算avg_ins, Rsd/Lsd方法3用于插入片段评估，但计算设置参数建议用2，默认选方法2.-soap_opts 纠正插入片段时，SOAP比对的参数，默认为 -l 32 -s 40 -v 3 -r 1

12、-p 6-sortsoap 对最终的SOAP比对结果进行排序(for calling SNP), default not sort-resoap 重新进行soap比对，组装后，第一次soap比对的结果用于覆盖度分析、GC-depth、单碱基纠错, 但单碱基纠错后，soap比对结果会有所不同，如果soap结果要用于重测序分析，建议选这个参数，defuault not run-ass_opts 第一次纠正插入片段时，使用的组装参数, default=all -K 29 -F-cfg_opt 第一次组装纠正插入片段时，write_cfg.pl（写组装配置文件的脚步）设置参数, default=-x

13、-p 3,3-c 计算插入片段正常范围的参数: min,max_ins = avg_ins -/+ c*sd, default=1.96-cfg_options 正式组装时，write_cfg.pl options(options to write assembly cfgfile), default= default=-x -p 3,3-ass_options 组装参数，可以是一个配置文件，也可以是字符串，具体见注意事项3,默认=all -u -d 1 -K 37:8:5 -Fnkrskgfngapclose -t 8-object 选择最优组装结果时，所依据的组装统计表: 1 500bp以

14、上是数据统计表, 2 所有序列数据统计表 default=1-priority 选最优组装结果时，判断的依据（写前面的优先级更高）：0 scaff_num, 1 contig_num, 2 scaf_N50, 3 contig_N50, default=0,1,2,3-stander 如下数据项达标的标准：scaff_num,contig_num,scaf_N50,contig_N50, 达标的组装结果被选为最优组装结果的优先级更高，0表示没有达标标准, default=0,0,0,0-fill_insert 标准的插入片段长度纠正策略（自定义的可以在组装的配置参数-ass_options中设

15、置），默认不使用1 在补洞前，使用最好的grape组装结果纠正插入片段长度2在补洞前，使用最好的grape组装结果纠正插入片段长度，然后再运行一次grape3在补洞前，使用最好的grape组装结果纠正插入片段长度，然后再运行一次grape，之后再纠正插入片段-corins_opts 设置使用fill_insert时的，插入片段纠正参数，主要包括以下3个参数：-pe_filter 过滤非常范围内的PE reads-pe_range 设置小片段、大片段文库正常的insertSize范围（大小片段参数用“；”隔开），设置了pe_filter时，把非正常范围的PE过滤掉，0,0表示不过滤，默认：0,0

16、;1000,3i，这里的i表示实验设计的文库插入片段长度，如插入片段是2000,3i=6000-lim 过滤非正常插入片段PEreads时，输出数据量限制(Mbp) ，默认符合条件的全部输出-auto_M 在跑完soapdenovo之后，补洞之前运行auto_M -min_scafn 当scaffold(500bp)的数目大于设定值时，才运行 run auto_M, default=50 -autoM_opts auto_M options, defualt=-2 -m 2000 -t 10 -n 1 -autoM_vf auto_M 投任务内存, defult=2g-cfg_fill 补洞时

17、，设置write_cfg.pl 参数，重新写配置文件，默认使用跟组装时一样的配置-ass_vf grape组装投任务申请的内存8G-fill_vf 补洞申请内存3G2.3 单碱基纠错与GC-depth分析-use_result 选择下游组装评估所用序列: 1 所有序列, 2 只用=500bp的序列, default=1-minscaf 当选 -use_result 1时, 设置使用的序列长度阈值，默认=200-revi_opts 程序base.revision 的参数, default=-m 1 -cc 20-dibc 输出程序base.revision d设置的输出文件output.dibc

18、，默认不输出此文件-gc_opts 设置GC-depth 的参数 default=-gc_range 0,100 -dep_cut 400 -cluster 5-soap_vf 设置运行soap比对时的内存, defualt=4G2.4 NT库比对-cluster_range 被认为是污染的块所占的氛围, default=0.001,0.1 （先聚类，如果某个分块的比例在0.1%10%，对该块序列进行nt库比对）-cover_cut 污染序列覆盖度阈值，当序列被污染快的序列覆盖度大于阈值时，整条序列进行污染分析, defaut=0.5-blast_opts blast设置参数, default

19、=-e 1e-5 -F F -b 5-megablast 使用megablast 进行比对，这个比对速度比blastall快-mega_opts megablast设置参数, default=-p 0.8 -b 5 -v 5-len_cut blastm8结果过滤的比对长度阈值，默认为200-top 输出的与每条scaffold比对得最好的物种个数阈值, default=5（最多输出5个跟某一条scaffold比得最好的物种）-add_num 由最大的类（认为是所测样品）里面选择指定数目的scaffold, default=3-seq_lim 在最大类里面选取的每条序列截取指定的碱基（单位：K

20、bp）跟nt库比对确定物种名和分类号，default=50这两个参数是选取样品的代表性序列，跟nt库比对来判断样品的Tax号和物种名，这些信息有两个作用：如果选取的污染序列最终的物种归类和代表序列一致，则认为gc-depth图的污染块不是污染；用于写agp文件的头信息。-wgs 忽略上面的设置，整个基因组进行NT库比对（如果要进行样品全面的成分分析，设这个参数）。-cpu 线程数，default=5（nt库比较耗时间，设多线程缩短运行时间，但样品太多就不要设得太大了，排不上队）-blast_vf blast比对所用内存，默认=8G-ntdb NT database文件路径，默认：/ifshk1

21、,ifs1/pub/database/ftp.ncbi.nih.gov/blast/db/20120619/nt以下3个是根据gi号来找tax号和物种名的文件，目前使用版本是20120707在网上下载的，比集群上的要全-gidTaxid gi_taxid_nucl.dmp from NCBI taxonomy, default 20120707 version-name names.dmp from NCBI taxonomy, default 20120707 version-node nodes.dmp from NCBI taxonomy, default 20120707 versio

22、n2.5 其他评估步骤参数-plams_opts Plasmid_analysis.pl 参数，默认不设置，详细说明请察看相关子脚本说明-wgs2 整个基因组进行质粒库比对，默认使用找到的污染序列进行比对-cpu2 线程数，default=1-srelate_opts Scafrelation参数, default= -x 5 -c 500-refcover_opts Ref_cover.pl 参数，默认不设置，详细说明请察看相关子脚本说明2.6 关于NCBI AGP文件头信息的设置-organism 设置物种名，默认程序通过nt库比对查找-tax_id 设置TAX_ID, 通过nt库比对查找

23、-assembly_name 设置组装结果的名字，默认为样品名-nt_ref 输入参考序列跟nt库比对来确定TAX号和物种名，默认使用样品NT库比对的分析结果，如果非常确定参考序列跟组装的样品是同一个物种可以输入参考序列来确定TAX号和物种名，同时把-add_name 设为0，就可少了从组装结果里面抽部分序列比对确认样品TAX号和物种的工作，而且可跟样品的组装并行，缩短总体时间。2.7 几个供选择的组装参数策略:-recomend 供选择的策略如下（细菌精细图组装流程选用5，survey选用6）：-recommended参数设置1-fill_insert 2 -stander 50,50,0,

24、0 -priority 2,0,1,3 -ass_options=all -u -d 1 -F -K 37:6:6 nkrskgfngapclose -t 8n2-fill_insert 2 -stander 50,50,0,0 -priority 2,0,1,3 -ass_options=all -K 37 xx -L 65 -d 1|-L 65 -u -d 1|-L 65 -R -d 1 |-L 65 -R -u -d 1|-d 1| -u -d 1|-R -u -d 1nall -K 37:8:5 Fnkrskgfngapclose -t 8n3-fill_insert 2 -stand

25、er 50,50,0,0 -priority 2,0,1,3 -ass_options=all -u -d 1 -K 37:8:5 Fnall -L 65 -d 1|-L 65 -u -d 1|-L 65 -R -d 1|-L 65 -R -u -d 1|-d 1| -u -d 1|-R -u -d 1krskgfngapclose -t 8n4-fill_insert 2 -stander 50,50,0,0 -priority 2,0,1,3 -ass_options=all -u -d 1 -K 37:8:5 xx -F|-f,SRkgfnall -L 65 -d 1|-L 65 -u

26、-d 1|-L 65 -R -d 1|-L 65 -R -u -d 1|-d 1| -u -d 1|-R -u -d 1krskgfngapclose -t 8n5-fill_insert 2 -use_result 2 -pe_filter -pe_range=0,0;0.5i,1.5i -auto_M -min_scafn 50 -stander 50,200,0,0 -priority 0,1,2,3 -wgs2 -get_result -verbose -ass_options=all -K 23:4:20nall -L 65 -d 1|-L 65 -u -d 1|-L 65 -R -

27、d 1 |-L 65 -R -u -d 1|-d 1| -u -d 1|-R -u -d 1 xx Fnkrskgfnwrite_cfg -xngapclose -t 8n6-fill_insert 2 -use_result 2 -stander 50,200,0,0 -priority 0,1,2,3 -wgs2 -get_result -verbose -ass_options=all -K 23:4:20nall -L 65 -d 1|-L 65 -u -d 1|-L 65 -R -d 1 |-L 65 -R -u -d 1|-d 1| -u -d 1|-R -u -d 1 xx -F

28、n2.8 其他:-add_txt 设置关于调用软件的配置文件, defalt=Bin/Add.txt-qsub_opts qsub 参数, default= -P test -q bc.q.-maxjob 在线最大任务数，default=400.-prefix 设置某些输出文件的前缀，default=all.（建议不要修改）-verbose 输出过程信息（建议使用）-newversion 使用 SOAPdenovo_V1.06, 默认是使用 V1.05-noclean 保留一些无用的中间结果-help 输出帮助信息，选择关键词输出需要的帮助信息：detail 整个流程详细的说明（就是这里的说明

29、）clean 过滤流程说明write_cfg 配置文件的脚步说明grape soapdenovo（grape）软件说明 SRkgf SRkgf使用说明krskgf krskgf使用说明gapclose gapclose使用说明evaluate 组装评估相关的参数详细说明3 注意事项1 KmerStat会运行两次，第一次用-kmer_opts来设置参数，然后根据估算的基因组大小用-rekmer 从新设置 g和 s格式例子rekmer 32,5，如果第一次预测的基因组大小为G (M)，那么第2次的设置为-g 32G s 5G，设置为0,0 表示不运行2次KmerStat.2 -corr_insert 设置=0时

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？