1、第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。分子进化研究的基本方法对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型
2、性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。用于构建系统进化树的数据有二种类型:一种是特征数据(character data),它提供了基因、个体、群体或物种的信息;二是距离数据(distance data)或相似性数据(sim
3、ilarity data),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distance matrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。一clustal X建树1) 打开clustal X,载入上述序列,“load sequences”“output format options”: “CLASTAL FORMAT”; CLASTAL SEQUENCES NUMBERS:ON;ALIGN
4、MENT PARAMETERS:“RESET NEW GAPS BEFOR ALIGNMENT” “MULTIPLE ALIGNMENT PARAMETERS”设置相关参数2)“DO COMPLETE ALIGNMENT”FILESAVE AS,掐头去尾。3) 打开MEGA 4,FILECONVERT TO MEGA FORMATESAVEFILEOPEN DATACONTAINING PROTAIN SEQUENCES NO PHYLOGENYBOOTSTRAP TEST OF PHYLOGENYN J 设置相关参数。最后看到系统发育树二这里要介绍的是Bioedit-Mega建树法,简单实用
5、,极易上手。1 将所测得的序列在NCBI上进行比对,这个就不多讲了。2 选取序列保存为text格式。3 运行Bioedit,使用其中的CLUSTAL W进行比对。4 运用MEGA 4 建树,首先将前面的文件转化格式为mega格式,然后进行激活,最后进行N-J建树。此法简单实用,树形美观。构建系统进化树的详细步骤1.建树前的准备工作1.1相似序列的获得BLASTBLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意为“基本局部相似性比对搜索工具”(Altschuletal.,199062;199763)。国际著名生物信息中心都提供基于Web
6、的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“”符号开始,后面是序列的名称、说明等,其中“”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA
7、序列,一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义):gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identi
8、ties = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc-ggggt 58 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 59 acacgagcggcgaacgggtga
9、gtaacacgtgggtgatctgcctcgtactctgggataagc 118Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似; Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,就比对很好了,多数情况下为0;Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同;Gaps:一般翻译成空位,指的是对不上的碱基数目;Strand:链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,如果是Plus / Plus则二者皆为正向。1.2 序列格式:F
10、ASTA格式 由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“”开头,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示:E.coli 1 aaattgaaga gtttgatcat ggctcagatt gaacgctggc ggcaggccta acacatgcaa 61 gtcgaacggt aacaggaaga agcttgcttc tttgctgacg agtggcggac
11、 AY631071 Jiangella gansuensis YIM 002 1 gacgaacgct ggcggcgtgc ttaacacatg caagtcgagc ggaaaggccc tttcgggggt 61 actcgagcgg cgaacgggtg agtaacacgt gggtaacctg ccttcagctc tgggataagc 其中的为Clustal X默认的序列输入格式,必不可少。其后可以是种属名称,也可以是序列在Genbank中的登录号(Accession No.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时C
12、lustal X程序只默认前几位为该序列名称。回车换行后是序列。将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件(例:C:tempjc.txt),即可导入Clustal X等程序进行比对建树。2. 构建系统树的相关软件和操作步骤构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。鉴于以上对于构建系统树的评价,结合本实验室实际情况,以下主要介绍N-J Tree构建的相关软件和操作步骤。2.1 用Clustal X构建N-J系统树的过程(1) 打开Clustal X程序,载入源文件. File-Load sequences- C:tempjc.txt. (2) 序列
13、比对Alignment - Output format options - Clustal format; CLUSTALW sequence numbers: ON Alignment - Do complete alignment (Output Guide Tree file, C:tempjc.dnd;Output Alignment file, C:tempjc.aln;) Align waiting 等待时间与序列长度、数量以及计算机配置有关。(3) 掐头去尾 File-Save Sequence as Format: CLUSTAL GDE output case: Lower
14、CLUSTALW sequence numbers: ON Save from residue: 39 to 1504 (以前后最短序列为准) Save sequence as: C:tempjc-a.aln OK 将开始和末尾处长短不同的序列剪切整齐。这里,因为测序引物不尽相同,所以比对后序列参差不齐。一般来说,要“掐头去尾”,以避免因序列前后参差不齐而增加序列间的差异。剪切后的文件存为ALN格式。(4) File-Load sequences-Replace existing sequences?-Yes- C:重新载入剪切后的序列。(5) Trees-Output Format Options Output Files : CLUSTAL format tree Phylip format tree Phylip distance matrix Bootstrap labels on: NODE CLOSE Trees-Exclude positions with gaps
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1