高通量数据处理的一些经验和建议文档格式.docx-资源下载

高通量数据处理的一些经验和建议文档格式.docx

1、研究生物信息学的来自美国科罗拉多的Rob Knight能够作为ISMEJ的高级主编，方法对于微生物生态学研究的重要性可见一斑。前几天读到阿伯丁大学的 James Prosser 教授在 Nature 上发表的一篇观点文章“ Think before you sequence “，在这里面他讲到，第二代测序只不过是一个工具而已，我们的研究依旧要从扎扎实实的假设出发，设计实验来解决问题和验证假设。高通量测序并不能弥补实验设计的缺陷。我在阅读文章的过程中也发现，设计合理和完整的实验，即使使用传统的 Sanger 测序技术，依旧能够说明和解决问题，并能够发表到高档次期刊上。而如果使用

2、第二代测序技术，但是数据处理有问题，数据质量控制不好，文章也很难得到发表，相当于花钱买罪受。我从 2011 年秋天开始学习 454 数据的处理，在学习的起始阶段，能够和师弟袁超磊一起探讨和交流，并且几乎阅读了 ISMEJ上所有与第二代测序技术有关的文章，所以能够很快的上手。在此我也对师弟袁超磊表示正式的感谢，祝愿他在阿德雷德大学能吃上可口的饭菜。很多朋友的问题我未能一一解答，在此也表示歉意。我经历过学习 454数据处理的漫长和痛苦的过程，我很清楚有时候一句话或者一段话很难解决所问的问题。去年我自己投出的文章经历了很多次的拒稿，十几位审稿人和生物信息学家对数据处理提出了

3、建议，现在经过在悉尼和生物信息学专家的讨论，我也能够更加合理地看待数据处理的问题。摸着石头过河的一些经验和建议，在这里进行分享，希望正在摸索和思考中的你，觉得并不孤单。1. Mothur 和 QIIME 那个软件更好Mothur 是美国密歇根大学的 Patrick Schloss 在 2009 年开发的数据处理平台，它的前身是 Dothur 软件，相信大家都听说过。这两个软件的发音分别为 Mother 和 Daughter ，是 Dr Parick 献给他的妻子和女儿的。另一个被广泛使用的数据处理平台是 QIIME, 也是美国科罗拉多 Rob Knight 等人于 2009 年开

4、发出来的。截至今天， Mothur 的方法文献已经被引用 1229次，而QIIME被引用574次。这说明 Mothur比QIIME有更广泛的群众基础。我刚开始学习使用的就是 Mothur, 我个人非常喜欢这个开源的数据处理平台，基本能够实现我的所有数据处理目的。 Mothur软件无需安装，在 Win dos, Li nix, 和MacOS系统上都可以运行。我研究了 Mothur 每一个中间导出文件的格式和原理，所以我能够将这些中间产生的文件导入其他软件进行处理和做图，比如R语言。很多人不喜欢Mothur，都是因为Mothur不能够直接出图，必须依赖于其他软件。而这正式我所喜欢的原因

5、，我现在也正在进一步学习R语言，R的做图功能是非常强大的，其实大家平时看到文章上那些非常漂亮的图，大都是R语言做出来的。所以，如果将 Mothur和R结合，我认为是一个能正确处理数据并完美展现数据的途径。除了罗氏 454 数据处理之外， Mothur 现在也有了针对 Illumina 数据的处理方式，大家从 Mothur 的网页上就可以读到 Dr. Patick 写的标准数据处理流程。现在QIIME携苹果电脑的时髦，也得到了很多人的青睐。这个软件我本人没有真正使用过，但是知道 QIIME只能在MacOS和Li nix系统上运行，当然也可以通过在 Win dos系统上安装Virtual

6、 Box来运行。这个软件出图的效果比较好，很多人把直接出的图用来发表文章。我所在的悉尼这边的研究所的生物信息学专家也是用 QIIME来处理数据。我就这个软件问题和他讨论了好多次。基本来说，两个软件都可以帮助我们实现正确的数据处理，并不存在哪个更好的问题，只有个人在使用上的喜好。我希望你无论使用那个软件，都仔仔细细阅读软件网页上的教程，并熟悉所有的命令。自己一一试试各个命令，合理组合命令，这样才会通过修改命令来正确处理自己的数据。这个过程没人可以帮你，只有你自己能够救赎自己。2.数据处理难学吗这是一个我一直以来很想告诉所有人的问题。说实话，那两个软件都很好使用，有标准

7、的处理流程在那里等着你，把所有数据处理下来绝对不超过十天时间。但是，为什么我们几个月甚至一年都拿不下来数据处理因为数据处理的难点不在于软件的使用，而在于你对微生物生态学基本概念的了解。我认为我们需要在数据处理之前就应该特别清楚的是 1） a多样性的各种指标。数据条数的多少会直接影响a多样性的计算结果，它们之间是正相关关系。所以计算a多样性必须统一序列条数。而我们知道统一序列条数就会舍弃很多条数不足的样品，这个取舍就涉及到很多的经验问题，需要你阅读很多的文献来了解；2） 3 多样性的表征方式。我研究 3多样性的时候，阅读了很多相关的文献，对 Bray-Curtis 指数， U

8、niFrac 等都非常了解。选择能够最好表现你多样性差异的指数，需要花很多很多的汗水。 3）多元统计方法。这个又是更大的难点了，Mothur不会告诉你，QIIME也不会告诉你。你只有去阅读教材，阅读文章，才能弥补这些缺陷。不然你连那些命令都读不懂，还谈什么数据处理，修改命令。 4）文章的构思。这又是更高一级的知识预储备了。在你的数据处理之前，请阅读所有高质量期刊上的相关文章，至少需要预估计，你可以出哪些图，做哪些分析。其实在数据处理的过程中已经是你不断验证假设和推翻假设的过程。希望你在数据处理之前踏踏实实地做好这些功课，不然你很难完美运行各个命令。另外，要仔细

9、研究各个软件的原理，做到人机合一的效果。因为有时候软件并不能解决所有问题，比如在 alignment 的时候，有时候在部分区域比对效果不好，你需要使用合适的软件打开这些中间文件，手动进行删除，不然会影响后续的多样性计算。所以，你需要把自己练成一台机器。 2010 年我做过同位素超高速离心，尽管已经有很多文献可供参考，我当时还是研究了离心机的原理和等密度梯度离心的原理，所以自己就很清楚应当如何优化实验条件，获得最好的数据。3 细菌和古菌 16S 数据和功能基因数据处理的不同如果你处理的是细菌 16S 数据，那么恭喜你，你应该很容易完成数据处理，因为 Mothur 和 QI

10、IME 都包含了细菌 16S 比对和分类的数据库。因为细菌的研究已经非常多，所以分类的效果也很好，未知的类别一般也很少。如果是古菌16S的话，RDP Greengenes, SILVA等数据库我都用过，分类效果都很差，但是不影响你的多样性分析。因为古菌的纯培养仍然很少，分类问题仍然是处于发展阶段。你基本也可以顺利按照标准流程完成数据处理。但是功能基因的话，就面临很大很大的难题。如果想测序功能基因的同学，一定要三思而后行，我自己在这方面进行了很多的尝试，虽然知道处理的方式，但是解释起来真的很难。就像我在上面所说的，如果你不了解 Mothur和QIIME的文件格式，基本架

11、构，我很难告诉你怎么去实现自己的目的。所以大家也可以看到，现在发表的关于功能基因测序的文章很少很少。大家基本都是 DIY，都是一些很熟悉生物信息学的国外实验室发表的。希望你能认识到功能基因处理的难点 1）第一步是比对 alignment ，一开始就做不了。因为没有可供使用的 alignment reference 数据库。我的经验是自己做一些，从 NCBI 上下载功能基因序列，然后自己通过MUSCL或者ARB比对的很齐，然后作为参比序列；2）分类。这个更难，需要经过 alignment之后，分成不同的 OTU然后从每个 OTU中选择一个代表序列，通过 BLAST进行分类。3）分O

12、TU对于细菌和古菌 16S而言，97%弋表species水平，但是功能基因就完全不一样。以氨氧化微生物研究为例， AOA的species-level OTU 应当是87%而AOB应当是80%所以和16S数据完全不同。对于必须要做功能基因的同学，我建议可以考虑基因芯片（microarray）的方法。现在针对pmoA和 amoA基因的基因芯片都已经开发的非常完善，国际合作也不是难题。 Microarray通过设计的探针合理解决了分类的问题，价格比 454 测序也便宜，数据处理简单。所以我认为是一种更好的方式。以上所写，难免有错误之处。我以分享知识为乐趣，也祝各位同学和朋

13、友数据处理顺利。Mothur命令手册-Mothur命令中文解释（一）这个命令使你计算 16S rRNA基因序列中潜在的错配碱基对数目。如果你对 ARB的编辑窗口熟悉的话，这与计算，#，-和=这些符号的数目相同。用 greengenes的二级结构图谱和esophagus dataset运行这个命令。要运行这个命令，你必须提供 FASTA格式的序列文件。这个命令把用户提供的 FASTA格式的候选序列文件对齐到用户提供的同样格式的模板序列。通用的方法是：1.采用 kmer searching （ apps/mediawiki/kmer/title=Main_Page ），blastn 或 suffi

14、x tree searchi ng找到每个候选序列的最接近模板2.在候选序列文件和空位模板序列之间进行碱基配对，采用 Needleman-Wunsch， Gotoh，或者blastn算法规则。3.重新在候选和模板序列对之间插入间隔（空位），采用 NAST算法，这样候选序列就能与原始模板序列兼容。我们提供了一些16S和18S基因序列的数据库，这些是与greengenes和SILVA队列兼容的。然而，自定义的任何DNA序列的排列都可以用作模板，所以鼓励用户分享他们的排列供其他人使用。普遍来说，进行排列是很快的-我们能在3小时内将超过186000个的全长序列排序到SILVA排列中，而且质量像 SINA aligner 做的一样好。另外，这个速率可以由多个处理器加倍。Amova分子方差分析（Analysis of molecular varianee ）是一种传统方差分析的非参数模拟。这种方法被广泛应用在种群遗传学以检测关于两个种群的遗传多样性不是显著不同于由这两个种群的共同联合导致的多样性这

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？