基于全基因组结构域信息的进化树构建.docx-资源下载

基于全基因组结构域信息的进化树构建.docx

1、基于全基因组结构域信息的进化树构建基于全基因组结构域信息的进化树构建陈治伟，李晓琴*【摘要】摘要:重建生物进化树一直以来都是进化生物学家的梦想。大量物种全基因组的测序使得我们可以从全基因组水平上构建进化树，来研究各个物种之间的进化关系。本文采用2种统计方法和3种距离计算方法，在全基因组水平上建立基于蛋白质结构的进化树。选取93个物种的全基因组作为分析对象，涵盖了3个超界:真核生物，细菌和古细菌。而结果也正确地将这些物种分为三个大类，每个大分支内部的物种聚类情况也基本和这些物种的形态学分类相吻合。并将这些方法的聚类结果与物种分类的结果相比较，得出丰度的统计方法和基于两向量夹角的距离计算方法这

2、种组合在构建进化树上比其他组合更好。【期刊名称】生物信息学【年(卷),期】2012(010)001【总页数】6【关键词】关键词:全基因组;进化树;蛋白质结构在前基因组时期，人们用单个基因来构建进化树，解决了一些不清楚、或者有争议的物种或类群的进化位置。一些保守性高而且在物种中广泛存在的基因甚至被当作构建进化树的分子标准1，2。但是基于不同的基因所得出的结果会不相同3，4，原因可能是因为每个基因代表着不同的进化历程、基因的横向转移等57。解决问题的一个办法就是使用基因组中尽可能多的基因8，9，而且有研究表明使用的基因越多，得到的结果也越准确10。使用这类方法的前提条件是:所研究的物种中必须同时存

3、在这些基因或蛋白，否则无法进行研究，这是该类方法的局限性。近些年来，大量的基因组被测序，这些丰富的数据可以使得我们在全基因组水平来研究各个物种之间的进化关系，并且出现了很多方法。一是基于基因组一级序列的方法:Bansal等人11通过基因组的直接比较来构建进化树，还有基于基因的特征12，13、基因的产物14、各个基因在基因组中的顺序等的物种进化研究15，16。二是基于蛋白质组序列的方法:Tekaia等人17直接通过蛋白质组的比较来研究进化，而Caetano等人18则通过结构域内容的比较来研究进化。三是基于蛋白质结构方法:由于一个新的蛋白结构的产生远比一个新的序列的产生要慢得多，更比一个新的基因的

4、产生要慢，所以基于蛋白质结构的进化研究比较可靠19。Deeds等人20基于结构域用MP方法建立了59种真核生物的进化树;Yang等人19在超家族水平上用超家族在不同基因组里的出现情况建立了174个物种的进化树;Fukami等人21把基因组里的几个结构域连同他们之间的基因片段作为一个单位，根据这些单位在不同基因组里的出现情况建立了167个物种的进化树;Lin等人22基于一些直系同源的折叠子在8种生物的出现情况建立了进化树，但是效果和传统小亚基核糖体RNA进化树一致性较差。1 数据物种的基因组信息来自SUPERFAMILY数据库23，包含1 063个物种，其中真核生物266个，细菌719个，古细菌

5、78个。1 063个物种的进化树过于庞大，为便于分析和比较，我们随机选取其中的93个物种作为研究对象，包括33种真核生物、50种细菌和10种古细菌，物种名称采用SUPERFAMILY数据库中的两个字母或数字的缩写形式，见表1。从数据库SUPERFAMILY中提取这93个物种的全基因组信息及基因组中的结构域信息，进而可以得到任一结构域对应的折叠、超家族及家族信息。93个物种的全部结构域涵盖3 363家族、1733个超家族、1 029个折叠类型。2 方法2.1 数据统计方法对任一物种j，提取该物种基因组的全部结构域信息及每一个结构域对应的家族(或超家族或折叠类型)信息，在此基础上用两种方法进行统计

6、。方法1:统计物种j每一个家族(或超家族或折叠类型)包含的结构域总数，用xij表示，i代表家族(或超家族或折叠类型)，j代表物种，进一步物种j的结构域信息可以用向量S(j)表示，每个S(j)的相同维组成的数列(xi1xi2xijxi93)作标准正态变换后得到(xi1xi2xijxi93)，进而得到物种j的向量s(j):方法2:根据某一个家族(或超家族或折叠类型)在该物种出现或者不出现的情况记为1或者0，用yji表示，其中i代表家族(或超家族或折叠类型)、j代表物种，进一步物种j的结构域信息可以用向量s(j)表示:2.2 距离计算方法对任意两物种k和l，s(k)与s(l)之间的距离d(k，l)用

7、三种方法进行计算。第一种方法用两点之间的欧氏距离表示:D(k，l)=第二种方法用两向量之间的夹角表示，两向量之间的夹角越小，说明两物种的距离越小，但是为了方便计算和表示，用1 coss(k)，s(l)表示:第三种方法为Yang19文献所提出的方法，其统计方法与本文的第二种统计方法相同。但是距离计算方法与本文上述两种基于向量的方法截然不同。对于两物种k和l，分别统计出物种k和物种l中独有的家族(或超家族或折叠类型)数量，即在物种k中有在物种l中没有的和在物种l中有物种k中没有的家族(或超家族或折叠类型)数量，分别记为A和B，在两物种出现过的所有的家族(或超家族或折叠类型)数量记为S，那么两物种之

8、间的距离为:2.3 进化树编号与进化树比较方法为了方便比较，对利用不同方法、在不同结构域层次上得到的物种进化树进行编号，2种统计方法和3种距离计算方法的可以得到5种组合，每种组合分别在折叠类型、超家族和家族三个结构域层次上得到3种进化树，总计可以得到15种物种进化树，连同物种分类结果，共16种结果，分别编号ap，a为物种分类结果，如表2所示。93个物种，可以得到9393的2维距离矩阵，用 NJ(Neighbour Join)法24进行聚类，即可得到物种的进化树。进化树间的比较利用Robinson and Foulds26提出的 Symmetric Difference(对称差分)方法，该方法可

9、以通过Phylip软件包25里面的treedist程序实现。3 结果与分析3.1 物种进化树及进化树间比较利用NJ方法，对93个物种的距离矩阵进行聚类，可以得到15个进化树。15个进化树都能正确地将93个物种分为3个超界:真核生物、细菌以及古细菌。聚类结果利用MEGA427绘制进化树图，图1是编号为b的进化树。在不同编号的进化树之间，利用 Symmetric Difference方法，可以计算任意不同进化树之间的距离，距离越小，代表进化树越相似，不同编号进化树间的比较结果见表3。从表3可以看出:b和d与a之间的距离最小，都为 102，其次为 i、h、j、c，与 a 的距离分别为 104、104

10、、106、106。这六种结果的统计方法都是丰度的统计，表明在总进化树水平上，基于丰度的统计要比基于出现/不出现的方法要好。3.2 进化树各分支的比较进化树中，真核生物分支包含33个物种，大致可以分为动物、植物、真菌和原生生物等几大类群，见图1，不同编号进化树间真核生物分支的比较结果见表4。从表4可以看出:与a最为接近的为b和d，距离为32，其次是 f、h、k，距离为34，再次是 i、j、o，距离为36。当利用欧氏距离时，基于蛋白质折叠类型构建的进化树h和k与a的距离最小;基于折叠类型构建的5个进化树与a的距离之和为178，而基于超家族(或家族)构建的5个进化树与a的距离的距离之和为184(或

11、204)。可以看出，对真核生物而言，基于蛋白质折叠类型构建的进化树要比基于超家族(或家族)更有优势。进化树中，细菌分支包含50个物种，各个水平的进化树在细菌分支上也将各个细菌大的类群聚类到一起，其中较为明显的是厚壁菌门、放线菌门、变形杆菌、超嗜热菌和绿色硫黄细菌等几个类群，见图1，不同编号进化树间细菌分支的比较结果见表5。上表中，与a最为接近的是c、d、i、j，距离是62，其次是b和h，距离是64，这几个的统计方法都是丰度的统计，表明在细菌分支上，丰度的统计方法要优于出现/不出现的统计方法。结构域层次对结果影响不大。进化树中，古细菌分支包含10个物种，各个进化树在古细菌的分支基本相同，0G和

12、34这两个物种应该归于一类，两者都为泉古菌门，其余几个是广古菌门，但是tk和5V这两个物种却和泉古菌门的两个聚到一起，其它都和物种分类结果相同，见图1，不同编号进化树间古细菌分支结果见表6。从表6可以看出:同种方法在不同结构域层次上的结果完全相同，说明在古细菌分支上，不同的结构域信息对结果没有影响。其中，b、c、d 与 h、i、j两个进化树群体之间的距离为0，而它们都是丰度的统计方法，其余的基于出现/不出现的三个群体之间的距离也为0，说明在这个分支上，只有统计方法对结果有影响，而距离计算方法和结构域层次对结果没有影响。4 讨论从总进化树到各分支的比较看出:与a都较为接近的依次是b、d和c，说明

13、丰度的统计方法和基于两向量夹角的距离计算方法这种组合在构建进化树上比其他组合更好。可能是由于基于出现/不出现这种方法比丰度统计这种方法所采用的信息要少的缘故。有报道说超家族层次的进化树要优于折叠和家族层次上的结果19，但就本文的结果来看，对真核生物分支，基于蛋白质折叠类型构建的进化树要比基于超家族(或家族)更有优势，而其他分支的进化树受不同结构域信息影响不大。从表3、4、5、6的对角线阴影部分的数字在本行或者本列都是最小或者较小(表6中甚至为0)，表明不同的结构域层次与不同统计方法(和不同距离计算方法)相比，对进化树的影响要小。b、c、d 与 h、i、j都是基于丰度的统计方法;e、f、g与 k

14、、l、m 与 n、o、p 都是基于出现/不出现的统计方法，不同统计方法得到的进化树间差异要比相同统计方法得到的进化树间差异大，而不同的距离计算方法得到的进化树间无此规律，表明不同的统计方法对结果的影响比不同的距离计算方法对结果的影响要小。参考文献(References):1 C R Woese，O Kandler，and M L Wheelis.Towards a natural system of organisms:proposal for the domains Archaea，Bacteria，and EucaryaJ.PNAS，1990，87:4576 4579 .2 Doolitt

15、le，Russell F.and Jacob Handy.Evolutionary anomalies among the aminoacyl tRNA synthetasesJ.Current Opinion in Genetics Development，1998，8:630 636.3 Wolf，Yuri I.，Igor B.Rogozin，Nick V.Grishin，and Eugene V.Koonin.Genome trees and the tree of lifeJ.Trends in Genetics，2002，18:472 479.4 Bapteste，Eric，Yan

16、Boucher，Jessica Leigh，and W.Ford Doolittle.Phylogenetic reconstruction and lateral gene transferJ.Trends in Microbiology，2004，12:406 411.5 Heinemann，J.A.and B.Kurenbach.Encyclopedia of MicrobiologyM.Oxford:S.Moselio，2009.597 6066 Kalia，Vipin C.，Sadhana Lal，and Simrita Cheema.Insight in to the phylog

17、eny of polyhydroxyalkanoate biosynthesis:Horizontal gene transferJ.Gene，2007，389:1926.7 Philippe，Herv and Christophe J.Douady.Horizontal gene transfer and phylogeneticsJ.Current Opinion in Microbiology，2003，6:498 505.8 Tateno，Yoshio，Masatoshi Nei，and Fumio Tajima.Accuracy of estimated phylogenetic t

18、rees from molecular dataJ.Journal of Molecular Evolution，1982，18:387 404.9 Horiike，T.，D.Miyata，K.Hamada，Satoshi Saruhashi，Takao Shinozawa， Sudhir Kumar， Ranajit Chakraborty， Tomoyoshi Komiyama and Yoshio Tateno.Phylogenetic construction of 17 bacterial phyla by new method and carefully selected orth

19、ologsJ.Gene，2009，429:59 64.10 Rokas，Antonis，Barry L.Williams，Nicole King，Sean B.Carroll.Genomescale approaches to resolving incongruence in molecular phylogeniesJ.Nature，2003，425:798 804.11 Bansal，Arvind K.and Terrance E.Meyer.Evolutionary Analysis by WholeGenome ComparisonsJ.J.Bacteriol.，2002，184:2

20、2602272.12 Qi，J.，B.Wang，and B.I.Hao.Whole proteome prokaryote phylogeny without sequence alignment:A Kstring composition approachJ.Journal of Molecular Evolution，2004，58:1 11.13 Xu，Z.and B.L.Hao.CVTree update:a newly designed phylogenetic study platform using composition vectors and whole genomesJ.N

21、ucleic Acids Research，2009，37:W174W178.14 House，Christopher H.and Sorel T.FitzGibbon.Using Homolog Groups to Create a WholeGenomic Tree of FreeLiving Organisms:An UpdateJ.Journal of Molecular Evolution，2002，54:539 547.15 Dandekar，Thomas，Berend Snel，Martijn Huynen，and Peer Bork.Conservation of gene o

22、rder:a fingerprint of proteins that physically interactJ.Trends in Biochemical Sciences，1998，23:324328.16 Korbel，Jan O.，Berend Snel，Martijn A.Huynen，and Peer Bork.SHOT:a web server for the construction of genome phylogeniesJ.Trends in Genetics，2002，18:158 162.17 Tekaia，Fredj，Antonio Lazcano，and Bern

23、ard Dujon.The Genomic Tree as Revealed from Whole Proteome ComparisonsJ.Genome Research，1999，9:550 557.18 CaetanoAnolls，Gustavo and Derek CaetanoAnolls.An Evolutionarily Structured Universe of Protein ArchitectureJ.Genome Research，2003，13:1563 1571.19 Yang，S.，R.F.Doolittle，and P.E.Bourne.Phylogeny d

24、etermined by protein domain contentJ.Proceedings of the National Academy of Sciences of the United States of America，2005，102:373 378.20 Deeds，E.J.，H.Hennessey，and E.I.Shakhnovich.Prokaryotic phylogenies inferred from protein structural domainsJ.Genome Research，2005，15:393 402.21 Fukami Kobayashi Ka

25、oru，Yoshiaki Minezaki，Yoshio Tateno，Ken Nishikawa.A tree of life based on protein domain organizationsJ.Molecular Biology and Evolution，2007，24:1181 1189.22 Lin，J.and M.Gerstein.Wholegenome trees based on the occurrence of folds and orthologs:Implications for comparing genomes on different levelsJ.G

26、enome Research，2000，10:808818.23 Gough，Julian，Kevin Karplus，Richard Hughey，and Cyrus Chothia.Assignment of homology to genome sequences using a library of hidden Markov models that represent all proteins of known structureJ.Journal of Molecular Biology，2001，313:903919.24 Saitou，N and M Nei.The neigh

27、bor joining method:a new method for reconstructing phylogenetic treesJ.Molecular Biology and Evolution，1987，4:406 425.25 Felsenstein，J.PHYLIP(Phylogeny Inference Package)version 3.6.Distributed by the author.Department of Genome SciencesJ.University of Washington，Seattle，2004，26 Robinson，D.F.and L.R

28、.Foulds.Comparison of phylogenetic treesJ.Mathematical Biosciences，1981，53:131147.27 Tamura，Koichiro，Joel Dudley，Masatoshi Nei，Sudhir Kumar.MEGA4:Molecular Evolutionary Genetics Analysis(MEGA)Software Version 4.0J.Molecular Biology and Evolution，2007，24:1596 1599.基金项目:北京市自然科学基金(4112010，4092008)及北京市教委科技发展计划面上项目资助。* 通讯作者:李晓琴，女，教授.Tel:01067391610，E mail:lxq0811.doi:10.3969/j.issn.1672 5565.2012.01.08

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？