1、用MEGA构建进化树如何用MEGA构建进化树MEGA3.1是一个关于序列分析以及比较统计的工具包,其中包括有距离建树法和MP建树法;可自动或手动进行序列比对,推断进化树,估算分子进化率,进行进化假设测验,还能联机的Web数据库检索。下载后可直接使用,主要包括几个方面的功能软件:i)DNA和蛋白质序列数据的分析软件。ii)序列数据转变成距离数据后,对距离数据分析的软件。 iii)对基因频率和连续的元素分析的软件。iv)把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。v)绘制和修改进化树的软件,进行网上blast搜索。 用MEGA构建进化树有以下步骤:1.
2、 16S rDNA测序和参考序列选取从环境中分离到单克隆,去重复后扩增16S rDNA序列并测序,然后与数据库http:/www.ncbi.nlm.nih.gov/blast/Blast.cgi比对,找到相似度最高的几个序列,确定一下你分离的细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个,然后找一到两个同科的,再找一到两个同目的,再找一到两个同纲的细菌,把序列全部下下来,以FSATA形式整合在TXT文档中,如TS1GCAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGGGT
3、GATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGATAGGACCTCGGGATGCATGTTCCGGGGTGGAAAGGTTTTCCGGTGCAGGATGGGCCgi|117572706|gb|EF028124.1| Rhodococcus sp. Atl25 16S ribosomal RNA gene, partial sequenceCGATTAGAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGATTAGTGGCGAACG
4、GGTGAGTAACACGTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCGGATTS2TGCAAGTCGAGCGAATGGATTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGATAACTCCGGGAAACCGGGGCTAATACCGGATAACATTTTGAACTGCATGGTTCGAAATTGAAAGGCGGCTTCGGCTGTCACTgi|56383044|emb|AJ809498.1| Bacillus cereus partial
5、16S rRNA gene, strain TMW 2.383GATGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAATGGATTAAGAGCTTGCTCTTATGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGACTGGGATAACTCCGGGAAACCGGGGCTAATACCGGATAACATTTTGAACYGCATGGTTC.参考序列选择有几个原则:a,不选非培养(unclutured)微生物为参比;b,所选参考序列要正确,里面无错误碱基;c,在保证同属的前提下,优先选择16S rDNA全长测序或全基因组测序的
6、种;d,每个种属选择一个参考序列,如果自己的序列中同一属的较多,可适当选择两个参考序列。2. 序列比对将整理好的序列导入clustalx1.83,如图接着程序自动运行,得出结果,自动输出 .aln 和 .dnd 为后缀的两个文件。序列比对也可以直接用MEGA来做。3. 打开程序MEGA,如下图所示: 4. MEGA3.1只能打开meg格式的文件,但是它可以把其他格式的多序列比对文件转换过来,用.aln格式(Clustal的输出文件)转换.meg文件。点File:Convert to MEGA Format,打开转换文件对话框,从目的文件夹中选中Clustal 对比分析后所产生的.aln文件,点
7、击打开。 5. 转换好的meg文件,会弹出一个提示信息,点击ok。 查看meg序列文件最后是否正常,若存在clustal. *行,即可删除。点存盘保存meg文件,meg文件会和aln文件保存在同一个目录。6. 关闭转换窗口,回到主窗口,现在点面板上的“Click me to activate a data file”打开刚才的meg文件。 如果为蛋白质序列,选择“protein sequence”,电击“OK”,得到以下图示,数据输入之后的样子,窗口下面有序列文件名和类型。 而在另外一个窗口内,出现以下数据文件点击选择和编辑数据分类图标, 可对所选择的序列进行编辑,完成后点击close即可。序
8、列编辑完成后,可进行保存,点击保存后出现以下界面,点击ok即可。 7. 构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。
9、独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。 (1) phylogenyUPGMA (2)用Bootstrap构建进化树,MEGA的主要功能就是做Bootstrap验证的进化树分析,Bootstrap验证是对进化树进行统计验证的一种方法,可以作为进化树可靠性的一个度量。各种算法虽然不同,但是操作方法基本一致。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果
10、我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。 过程如下 参数的设置:phylogenybootstrap test of phylogenyNJ系统进化树的测
11、试方法,可以选择用Bootstrap,也可以选择不进行测试。重复次数(Replications)通常设定至少要大于100比较好,随机数种子可以自己随意设定,不会影响计算结果。一般选择500或1000。有许多Model供选择,默认为Kimura 2-parameter,不同的Model有不同的算法,具体请参考专业的生物信息学书籍。设定完成,点compute,开始计算。 结果输出:这个过程所耗时间和序列的数量和长短成正比,程序就会产生这么一个树,该窗口中有两个属性页,一个是原始树,一个是bootstrap验证过的一致树。树枝上的数字表示bootstrap验证中该树枝可信度的百分比。 结果如下: 8
12、. 进化树的优化: )利用该软件可得到不同树型,如下图所示: 除此之外,还可以有多种树型,根据需要来选择。 )显示建树的相关信息:点击图标i。 )点击优化图标,可进行各项优化: Tree栏中,可以进行树型选择:rectangular tree/circle tree/radiation tree。每种树都可以进行长度,宽度或角度等的设定 Branch:可对树枝上的信息进行修改。 Lable:可对树枝的名字进行修改。 Scale:标尺设置 Cutoff:cut off for conse
13、nsus tree。一般为50%。 9、进化树的分类优化 Place root on branch:可以来回转换。 Flip subtree:180度翻转分枝,名字翻转180度。 Swab subtree:交换分枝,名字不翻转。 Compress/expand subtree与Set divergent time:可以把同一分枝的基因压缩或扩展。 点击Compress/expand subtree后,在要压缩的分枝处点击,出现以下界面,在name/caption 中输入文件名(例如wwww),其他还有很多的选项,设置好了,点击OK。 所得到的结果,可以在压缩和扩展之间转换。10. 调整进化树根据所的进化树的效果,要进行调整,包括多余序列删除、不足序列添加、种属名称标注等等,还要根据投稿杂志要求在PHOTOSHOP中修改等。完成后的进化树应包含充足的信息。本人所做进化树完成图如下:
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1