基于基因本体的基因功能相似性度量毕业论文Word格式.docx

资源描述

基于基因本体的基因功能相似性度量毕业论文Word格式.docx

《基于基因本体的基因功能相似性度量毕业论文Word格式.docx》由会员分享，可在线阅读，更多相关《基于基因本体的基因功能相似性度量毕业论文Word格式.docx（41页珍藏版）》请在冰豆网上搜索。

基于基因本体的基因功能相似性度量毕业论文Word格式.docx

Geneontologycanprovideacommonschemafordescribinggenefunctionamonggenesindifferentspecies,whichmeansthattherewouldbeaneffectiveapproachtocomparethefunctionalaspectsofgenes.Uptillnow,manyalgorithmsbasedongeneontologyformeasuringgenesemanticsimilarityhavebeenproposed,mostofwhichhavethedefectthatthesharedsemanticsoftermsareaddedrepeatedly.

Inthispaper,theinformationcontentoftheintersectionoftheannotationsetsoftwogenestobecomparedisconsideredasthesharedsemanticsofthispairofgenes.Inlightofthis,anovelgenesimilaritymeasurement,SemanticOverlapRatioofAnnotation（SORA）,isproposed,combinedwiththeinheritedandextendedsemantics.Inaddition,consideringthemultipleinheritancepresentingeneontology,somemodificationsthattheextendedinformationcontentismultipliedbyanindexdeterminedbythenumberoftermsintheextendedtermsetsandthatoftheancestortermsoftheextendingtermaremadetotheoriginalSORA.

Finally,bothoriginalandmodifiedSORAareevaluatedusingsomegenesrelatedtodiseaseasthetestdataandtheexperimentalresultsshowthatthealgorithmsimplementedinthispaperarereliabletocharacterizegenefunctionalsimilarity.

Keywords:

GeneOntologySemanticSimilaritySemanticOverlapRatioof Annotation

目录i

第一章绪论 1

1.1引言 1

1.2研究现状 1

1.3研究内容和目标 2

1.4论文章节安排 3

第二章GO与基因相似性度量 5

2.1GO概述 5

2.2基因的相似性度量 5

2.2.1成对比较 6

2.2.2成组比较 7

第三章注释的语义重叠比算法 9

3.1条目信息量的计算 9

3.2继承信息量和扩展信息量 10

3.3计算集合的信息量 11

3.3.1算法描述 11

3.3.2算法示例 13

3.4基因的功能相似性度量 16

3.5算法改进 17

第四章实现与评估 19

4.1实验环境及所用到的包 19

4.1.1R语言简介 19

4.1.2存储GO条目信息的包 19

4.1.3存储各物种基因信息的包 20

4.2SORA算法实现 21

4.3实验验证 24

4.3.1数据准备 24

4.3.2实验结果分析 25

第五章结论与展望 29

致谢 31

参考文献 33

第一章绪论3

第一章绪论

1.1引言

在生物信息学中，比较基因及基因产物的相似性在多种应用上都起着关键的作用，如蛋白质交互作用的分析[1]、致病基因预测[2]、基因聚类[3]等，最直接的方法是基于基因序列进行比较，然而这种方法只考虑到基因的内部结构，忽略了基因在生物过程中表现出的功能。

而生物学家们在实验中发现，结构相似的基因并不一定在功能方面也具有很高的相似性，反之亦然[4]。

这种现象虽然并非俯拾即是，不能因此否认基因结构作为一种相似性衡量方法的可靠性，而是应该在结构的基础上，辅助以功能相似性的比较。

比如当研究与细胞增殖活动相关的基因时，除了分析哪些基因与少数从实验中已经得到验证的基因的结构相似外，或许还可以考虑那些参与了类似细胞增殖活动（如细胞分裂）的基因，后一种方法显然与基因的结构无关。

基因的功能不像基因序列或结构，有客观的表示形式和可以测量的属性，且随着生物数据的海量增加，更需要有一种统一的模式来描述基因的功能，以便进行比较和数据的共享，基因本体（GeneOntology，GO）应运而生。

通过GO中条目对基因的注释，将基因转化为一些GO条目的集合，通过条目间的语义关系，可以推断出基因的功能相似性。

由于通过实验验证基因的功能是一个非常耗时且代价高昂的过程，因此通过GO注释来预测基因功能一直是生物信息学的研究核心，同时生物学家们也在致力于探索如何能更准确地表达出GO条目、基因的语义。

1.2研究现状

尽管语义相似性应用于生物信息领域的时间并不长，但目前已经有许多基于语义相似性进行比较的方法可为研究者使用，这些方法从比较的内容上可分为条目比较和基因比较。

用于条目的比较方法大致可分为两类：

基于边和基于结点。

基于结点的方法常用信息量（InformationContent，IC）这一概念来量化条目的语义，条目的IC值主要依赖于条目在GO这个有向无环图中的位置或是当前的注释情况。

基于边的方法则常常使用距离（distance）的概念，距离完全依赖于条目在GO图中的位置，并不一定只是通过所要比较的条目之间的路径的边数来衡量相似性，也可借助于深度（depth），比如Pekar和Staab[5]提出的借助于两个条目的最大的公共祖先深度，即所比较的两个条目在GO图中的最低公共祖先条目到根条目的最长路径的边数。

由于基因注释为多个条目，因此基因的功能比较依赖于条目集合，而非单个条目的语义衡量，用于基因的语义比较方法仍可分为两类：

一类以条目对的方式比较，即不考虑同一注释集合中的条目之间的关系，首先对不同注释集合中的条目进行语义比较，然后基于条目间的语义相似结果得出基因的功能相似度，这一步可采取不同的策略，Lord等人[6]采取求所有条目对的相似度的平均值的策略，Wang等人[7]采取的策略是求最匹配条目对的相似度的平均值，等等。

这类方法非常依赖于条目间相似性的比较效果。

另一类是以成组方式比较，这类方法将同一注释条目集合中的条目看做一个整体，因此并不依赖条目间的语义相似性，目前成组比较的方法多考虑基因的表示方式，Lee等人[8]将基因表示成其注释条目的集合，Chabalier等人[9]将基因表示成由条目构成的向量，此外还有其他表示方式。

根据每种不同的形式可采取相应的相似性比较方法，然而这些方法大都忽略了注释条目本身的信息量，这也意味着基因的很多隐藏在GO中的语义还未被发掘出来，本文将着重讨论如何在成组比较基因相似性的方法中，结合信息量更准确地发掘出基因的语义。

1.3研究内容和目标

在比较基因的功能相似性时，成组比较的方法更注重同一基因的注释集合中的条目间的关系，目前人们对条目的信息量做了很多研究，但对条目集合的信息量却讨论较少，只将集合中的条目的信息量进行简单求和，以此作为集合的信息量，这显然并不合理。

GO条目之间存在“is-a”或“part-of”的关系，当一个条目“继承”自另一条目（两者存在“is-a”关系）后，子条目会获得父条目的所有语义，此外在继承父条目语义的基础上，子条目还会拓展出属于自己本身特性的语义。

一个条目可以产生若干子条目，如果两个条目之间存在共同的祖先条目，那么这两个条目必然会有共享语义。

在计算条目集合的信息量时，如果只是将条目元素的信息量相加，那么条目成员间的共享语义无疑会被重复计算。

本文提出一种新的以成组形式来衡量基因功能相似性的算法——注释的语义重叠比（SemanticOverlapRatioofAnnotation，SORA），通过组合条目的继承信息量和拓展信息量，可避免集合中条目间的共享语义被累加。

不管是GO条目，抑或是基因，在衡量其相似性时都要考虑如何计算共享语义，Resnik[10]方法借助信息量最多的公共祖先，DiShIn[11]方法借助分离公共祖先信息量的平均值，而SORA方法中将以两个基因的注释集合的交集的信息量作为该对基因的共享语义。

GO条目可以通过IC值体现其具体程度，基因通过GO注释转化为条目集合后，也具备了特定的信息量，本文在SORA算法中考虑到基因本身的信息量以及浅注释的问题对衡量基因相似性产生的影响，提出一种新的方式来比较基因相似性。

此外，考虑到GO条目并非是以“树”的形式构建，而是以有向无环图的方式，这意味着GO条目间会有多重继承，因此本文还将对SORA算法提出一些修改，使其更加合理。

之后通过以致病基因为测试数据进行实验，验证了SORA算法的合理性。

1.4论文章节安排

本文剩余章节安排如下：

第二章介绍了本文需要用到的基础知识，包括GO概述、基因注释，并对目前基因功能相似性的衡量方法进行分类叙述，其中介绍了几种经典的算法，并分别进行了分析。

第三章详细介绍SORA算法，首先讨论单个条目的信息量的计算方法，接着阐述该算法之所以提出所针对的问题，继而引出继承和拓展信息量的概念，再以此为基础，提出计算条目集合信息量的算法。

由于这一部分是SORA算法的核心，所以将以较多的篇幅进行详细叙述，并通过一个具体的例子展示算法的执行流程。

最后以集合信息量为基础，提出衡量基因的功能相似性的方法。

第四章叙述SORA算法的实现以及对该算法的测试评估。

首先对实现语言R和算法实现过程中使用到的包进行介绍，然后对算法实现时所划分的各个模块进行详细叙述，最后通过以致病基因为测试数据进行测试，验证了算法的合理性。

第五章对整篇论文进行总结，提出了SORA算法可以被其他算法借鉴的地方，以及后续可改进的方面，最后展望了基因功能相似性衡量方法的前景。

第二章GO与基因相似性度量7

第二章

展开阅读全文