基于全基因组结构域信息的进化树构建.docx

上传人:b****6 文档编号:7835426 上传时间:2023-01-26 格式:DOCX 页数:6 大小:21.81KB
下载 相关 举报
基于全基因组结构域信息的进化树构建.docx_第1页
第1页 / 共6页
基于全基因组结构域信息的进化树构建.docx_第2页
第2页 / 共6页
基于全基因组结构域信息的进化树构建.docx_第3页
第3页 / 共6页
基于全基因组结构域信息的进化树构建.docx_第4页
第4页 / 共6页
基于全基因组结构域信息的进化树构建.docx_第5页
第5页 / 共6页
点击查看更多>>
下载资源
资源描述

基于全基因组结构域信息的进化树构建.docx

《基于全基因组结构域信息的进化树构建.docx》由会员分享,可在线阅读,更多相关《基于全基因组结构域信息的进化树构建.docx(6页珍藏版)》请在冰豆网上搜索。

基于全基因组结构域信息的进化树构建.docx

基于全基因组结构域信息的进化树构建

基于全基因组结构域信息的进化树构建

陈治伟,李晓琴*

【摘要】摘要:

重建生物进化树一直以来都是进化生物学家的梦想。

大量物种全基因组的测序使得我们可以从全基因组水平上构建进化树,来研究各个物种之间的进化关系。

本文采用2种统计方法和3种距离计算方法,在全基因组水平上建立基于蛋白质结构的进化树。

选取93个物种的全基因组作为分析对象,涵盖了3个超界:

真核生物,细菌和古细菌。

而结果也正确地将这些物种分为三个大类,每个大分支内部的物种聚类情况也基本和这些物种的形态学分类相吻合。

并将这些方法的聚类结果与物种分类的结果相比较,得出丰度的统计方法和基于两向量夹角的距离计算方法这种组合在构建进化树上比其他组合更好。

【期刊名称】生物信息学

【年(卷),期】2012(010)001

【总页数】6

【关键词】关键词:

全基因组;进化树;蛋白质结构

在前基因组时期,人们用单个基因来构建进化树,解决了一些不清楚、或者有争议的物种或类群的进化位置。

一些保守性高而且在物种中广泛存在的基因甚至被当作构建进化树的分子标准[1,2]。

但是基于不同的基因所得出的结果会不相同[3,4],原因可能是因为每个基因代表着不同的进化历程、基因的横向转移等[5~7]。

解决问题的一个办法就是使用基因组中尽可能多的基因[8,9],而且有研究表明使用的基因越多,得到的结果也越准确[10]。

使用这类方法的前提条件是:

所研究的物种中必须同时存在这些基因或蛋白,否则无法进行研究,这是该类方法的局限性。

近些年来,大量的基因组被测序,这些丰富的数据可以使得我们在全基因组水平来研究各个物种之间的进化关系,并且出现了很多方法。

一是基于基因组一级序列的方法:

Bansal等人[11]通过基因组的直接比较来构建进化树,还有基于基因的特征[12,13]、基因的产物[14]、各个基因在基因组中的顺序等的物种进化研究[15,16]。

二是基于蛋白质组序列的方法:

Tekaia等人[17]直接通过蛋白质组的比较来研究进化,而Caetano等人[18]则通过结构域内容的比较来研究进化。

三是基于蛋白质结构方法:

由于一个新的蛋白结构的产生远比一个新的序列的产生要慢得多,更比一个新的基因的产生要慢,所以基于蛋白质结构的进化研究比较可靠[19]。

Deeds等人[20]基于结构域用MP方法建立了59种真核生物的进化树;Yang等人[19]在超家族水平上用超家族在不同基因组里的出现情况建立了174个物种的进化树;Fukami等人[21]把基因组里的几个结构域连同他们之间的基因片段作为一个单位,根据这些单位在不同基因组里的出现情况建立了167个物种的进化树;Lin等人[22]基于一些直系同源的折叠子在8种生物的出现情况建立了进化树,但是效果和传统小亚基核糖体RNA进化树一致性较差。

1数据

物种的基因组信息来自SUPERFAMILY数据库[23],包含1063个物种,其中真核生物266个,细菌719个,古细菌78个。

1063个物种的进化树过于庞大,为便于分析和比较,我们随机选取其中的93个物种作为研究对象,包括33种真核生物、50种细菌和10种古细菌,物种名称采用SUPERFAMILY数据库中的两个字母或数字的缩写形式,见表1。

从数据库SUPERFAMILY中提取这93个物种的全基因组信息及基因组中的结构域信息,进而可以得到任一结构域对应的折叠、超家族及家族信息。

93个物种的全部结构域涵盖3363家族、1733个超家族、1029个折叠类型。

2方法

2.1数据统计方法

对任一物种j,提取该物种基因组的全部结构域信息及每一个结构域对应的家族(或超家族或折叠类型)信息,在此基础上用两种方法进行统计。

方法1:

统计物种j每一个家族(或超家族或折叠类型)包含的结构域总数,用x'ij表示,i代表家族(或超家族或折叠类型),j代表物种,进一步物种j的结构域信息可以用向量S'(j)表示,每个S'(j)的相同维组成的数列(x'i1x'i2x’ij…x'i93)作标准正态变换后得到(xi1xi2xij…xi93),进而得到物种j的向量s(j):

方法2:

根据某一个家族(或超家族或折叠类型)在该物种出现或者不出现的情况记为1或者0,用yji表示,其中i代表家族(或超家族或折叠类型)、j代表物种,进一步物种j的结构域信息可以用向量s(j)表示:

2.2距离计算方法

对任意两物种k和l,s(k)与s(l)之间的距离d(k,l)用三种方法进行计算。

第一种方法用两点之间的欧氏距离表示:

D(k,l)=

第二种方法用两向量之间的夹角表示,两向量之间的夹角越小,说明两物种的距离越小,但是为了方便计算和表示,用1-cos〈s(k),s(l)〉表示:

第三种方法为Yang[19]文献所提出的方法,其统计方法与本文的第二种统计方法相同。

但是距离计算方法与本文上述两种基于向量的方法截然不同。

对于两物种k和l,分别统计出物种k和物种l中独有的家族(或超家族或折叠类型)数量,即在物种k中有在物种l中没有的和在物种l中有物种k中没有的家族(或超家族或折叠类型)数量,分别记为A和B,在两物种出现过的所有的家族(或超家族或折叠类型)数量记为S,那么两物种之间的距离为:

2.3进化树编号与进化树比较方法

为了方便比较,对利用不同方法、在不同结构域层次上得到的物种进化树进行编号,2种统计方法和3种距离计算方法的可以得到5种组合,每种组合分别在折叠类型、超家族和家族三个结构域层次上得到3种进化树,总计可以得到15种物种进化树,连同物种分类结果,共16种结果,分别编号ap,a为物种分类结果,如表2所示。

93个物种,可以得到93×93的2维距离矩阵,用NJ(Neighbour-Join)法[24]进行聚类,即可得到物种的进化树。

进化树间的比较利用RobinsonandFoulds[26]提出的SymmetricDifference(对称差分)方法,该方法可以通过Phylip软件包[25]里面的treedist程序实现。

3结果与分析

3.1物种进化树及进化树间比较

利用NJ方法,对93个物种的距离矩阵进行聚类,可以得到15个进化树。

15个进化树都能正确地将93个物种分为3个超界:

真核生物、细菌以及古细菌。

聚类结果利用MEGA4[27]绘制进化树图,图1是编号为b的进化树。

在不同编号的进化树之间,利用SymmetricDifference方法,可以计算任意不同进化树之间的距离,距离越小,代表进化树越相似,不同编号进化树间的比较结果见表3。

从表3可以看出:

b和d与a之间的距离最小,都为102,其次为i、h、j、c,与a的距离分别为104、104、106、106。

这六种结果的统计方法都是丰度的统计,表明在总进化树水平上,基于丰度的统计要比基于出现/不出现的方法要好。

3.2进化树各分支的比较进化树中,真核生物分支包含33个物种,大致可以分为动物、植物、真菌和原生生物等几大类群,见图1,不同编号进化树间真核生物分支的比较结果见表4。

从表4可以看出:

与a最为接近的为b和d,距离为32,其次是f、h、k,距离为34,再次是i、j、o,距离为36。

当利用欧氏距离时,基于蛋白质折叠类型构建的进化树h和k与a的距离最小;基于折叠类型构建的5个进化树与a的距离之和为178,而基于超家族(或家族)构建的5个进化树与a的距离的距离之和为184(或204)。

可以看出,对真核生物而言,基于蛋白质折叠类型构建的进化树要比基于超家族(或家族)更有优势。

进化树中,细菌分支包含50个物种,各个水平的进化树在细菌分支上也将各个细菌大的类群聚类到一起,其中较为明显的是厚壁菌门、放线菌门、γ-变形杆菌、超嗜热菌和绿色硫黄细菌等几个类群,见图1,不同编号进化树间细菌分支的比较结果见表5。

上表中,与a最为接近的是c、d、i、j,距离是62,其次是b和h,距离是64,这几个的统计方法都是丰度的统计,表明在细菌分支上,丰度的统计方法要优于出现/不出现的统计方法。

结构域层次对结果影响不大。

进化树中,古细菌分支包含10个物种,各个进化树在古细菌的分支基本相同,0G和34这两个物种应该归于一类,两者都为泉古菌门,其余几个是广古菌门,但是tk和5V这两个物种却和泉古菌门的两个聚到一起,其它都和物种分类结果相同,见图1,不同编号进化树间古细菌分支结果见表6。

从表6可以看出:

同种方法在不同结构域层次上的结果完全相同,说明在古细菌分支上,不同的结构域信息对结果没有影响。

其中,b、c、d与h、i、j两个进化树群体之间的距离为0,而它们都是丰度的统计方法,其余的基于出现/不出现的三个群体之间的距离也为0,说明在这个分支上,只有统计方法对结果有影响,而距离计算方法和结构域层次对结果没有影响。

4讨论

从总进化树到各分支的比较看出:

与a都较为接近的依次是b、d和c,说明丰度的统计方法和基于两向量夹角的距离计算方法这种组合在构建进化树上比其他组合更好。

可能是由于基于出现/不出现这种方法比丰度统计这种方法所采用的信息要少的缘故。

有报道说超家族层次的进化树要优于折叠和家族层次上的结果[19],但就本文的结果来看,对真核生物分支,基于蛋白质折叠类型构建的进化树要比基于超家族(或家族)更有优势,而其他分支的进化树受不同结构域信息影响不大。

从表3、4、5、6的对角线阴影部分的数字在本行或者本列都是最小或者较小(表6中甚至为0),表明不同的结构域层次与不同统计方法(和不同距离计算方法)相比,对进化树的影响要小。

b、c、d与h、i、j都是基于丰度的统计方法;e、f、g与k、l、m与n、o、p都是基于出现/不出现的统计方法,不同统计方法得到的进化树间差异要比相同统计方法得到的进化树间差异大,而不同的距离计算方法得到的进化树间无此规律,表明不同的统计方法对结果的影响比不同的距离计算方法对结果的影响要小。

参考文献(References):

[1]CRWoese,OKandler,andMLWheelis.Towardsanaturalsystemoforganisms:

proposalforthedomainsArchaea,Bacteria,andEucarya[J].PNAS,1990,87:

4576-4579.

[2]Doolittle,RussellF.andJacobHandy.Evolutionaryanomaliesamongtheaminoacyl-tRNAsynthetases[J].CurrentOpinioninGenetics&Development,1998,8:

630-636.

[3]Wolf,YuriI.,IgorB.Rogozin,NickV.Grishin,andEugeneV.Koonin.Genometreesandthetreeoflife[J].TrendsinGenetics,2002,18:

472-479.

[4]Bapteste,Eric,YanBoucher,JessicaLeigh,andW.FordDoolittle.Phylogeneticreconstructionandlateralgenetransfer[J].TrendsinMicrobiology,2004,12:

406-411.

[5]Heinemann,J.A.andB.Kurenbach.EncyclopediaofMicrobiology[M].Oxford:

S.Moselio,2009.597-606

[6]Kalia,VipinC.,SadhanaLal,andSimritaCheema.Insightintothephylogenyofpolyhydroxyalkanoatebiosynthesis:

Horizontalgenetransfer[J].Gene,2007,389:

19-26.

[7]Philippe,HervéandChristopheJ.Douady.Horizontalgenetransferandphylogenetics[J].CurrentOpinioninMicrobiology,2003,6:

498-505.

[8]Tateno,Yoshio,MasatoshiNei,andFumioTajima.Accuracyofestimatedphylogenetictreesfrommoleculardata[J].JournalofMolecularEvolution,1982,18:

387-404.

[9]Horiike,T.,D.Miyata,K.Hamada,SatoshiSaruhashi,TakaoShinozawa,SudhirKumar,RanajitChakraborty,TomoyoshiKomiyamaandYoshioTateno.Phylogeneticconstructionof17bacterialphylabynewmethodandcarefullyselectedorthologs[J].Gene,2009,429:

59-64.

[10]Rokas,Antonis,BarryL.Williams,NicoleKing,SeanB.Carroll.Genome-scaleapproachestoresolvingincongruenceinmolecularphylogenies[J].Nature,2003,425:

798-804.

[11]Bansal,ArvindK.andTerranceE.Meyer.EvolutionaryAnalysisbyWhole-GenomeComparisons[J].J.Bacteriol.,2002,184:

2260-2272.

[12]Qi,J.,B.Wang,andB.I.Hao.Wholeproteomeprokaryotephylogenywithoutsequencealignment:

AK-stringcompositionapproach[J].JournalofMolecularEvolution,2004,58:

1-11.

[13]Xu,Z.andB.L.Hao.CVTreeupdate:

anewlydesignedphylogeneticstudyplatformusingcompositionvectorsandwholegenomes[J].NucleicAcidsResearch,2009,37:

W174-W178.

[14]House,ChristopherH.andSorelT.Fitz-Gibbon.UsingHomologGroupstoCreateaWhole-GenomicTreeofFree-LivingOrganisms:

AnUpdate[J].JournalofMolecularEvolution,2002,54:

539-547.

[15]Dandekar,Thomas,BerendSnel,MartijnHuynen,andPeerBork.Conservationofgeneorder:

afingerprintofproteinsthatphysicallyinteract[J].TrendsinBiochemicalSciences,1998,23:

324-328.

[16]Korbel,JanO.,BerendSnel,MartijnA.Huynen,andPeerBork.SHOT:

awebserverfortheconstructionofgenomephylogenies[J].TrendsinGenetics,2002,18:

158-162.

[17]Tekaia,Fredj,AntonioLazcano,andBernardDujon.TheGenomicTreeasRevealedfromWholeProteomeComparisons[J].GenomeResearch,1999,9:

550-557.

[18]Caetano-Anollés,GustavoandDerekCaetano-Anollés.AnEvolutionarilyStructuredUniverseofProteinArchitecture[J].GenomeResearch,2003,13:

1563-1571.

[19]Yang,S.,R.F.Doolittle,andP.E.Bourne.Phylogenydeterminedbyproteindomaincontent[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2005,102:

373-378.

[20]Deeds,E.J.,H.Hennessey,andE.I.Shakhnovich.Prokaryoticphylogeniesinferredfromproteinstructuraldomains[J].GenomeResearch,2005,15:

393-402.

[21]Fukami-KobayashiKaoru,YoshiakiMinezaki,YoshioTateno,KenNishikawa.Atreeoflifebasedonproteindomainorganizations[J].MolecularBiologyandEvolution,2007,24:

1181-1189.

[22]Lin,J.andM.Gerstein.Whole-genometreesbasedontheoccurrenceoffoldsandorthologs:

Implicationsforcomparinggenomesondifferentlevels[J].GenomeResearch,2000,10:

808-818.

[23]Gough,Julian,KevinKarplus,RichardHughey,andCyrusChothia.AssignmentofhomologytogenomesequencesusingalibraryofhiddenMarkovmodelsthatrepresentallproteinsofknownstructure[J].JournalofMolecularBiology,2001,313:

903-919.

[24]Saitou,NandMNei.Theneighbor-joiningmethod:

anewmethodforreconstructingphylogenetictrees[J].MolecularBiologyandEvolution,1987,4:

406-425.

[25]Felsenstein,J.PHYLIP(PhylogenyInferencePackage)version3.6.Distributedbytheauthor.DepartmentofGenomeSciences[J].UniversityofWashington,Seattle,2004,

[26]Robinson,D.F.andL.R.Foulds.Comparisonofphylogenetictrees[J].MathematicalBiosciences,1981,53:

131-147.

[27]Tamura,Koichiro,JoelDudley,MasatoshiNei,SudhirKumar.MEGA4:

MolecularEvolutionaryGeneticsAnalysis(MEGA)SoftwareVersion4.0[J].MolecularBiologyandEvolution,2007,24:

1596-1599.

基金项目:

北京市自然科学基金(4112010,4092008)及北京市教委科技发展计划面上项目资助。

*通讯作者:

李晓琴,女,教授.Tel:

010-67391610,E-mail:

lxq0811@.

doi:

10.3969/j.issn.1672-5565.2012.01.08

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育 > 育儿知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1