ImageVerifierCode 换一换
格式:DOCX , 页数:41 ,大小:182.39KB ,
资源ID:13111566      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/13111566.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于基因本体的基因功能相似性度量毕业论文Word格式.docx)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于基因本体的基因功能相似性度量毕业论文Word格式.docx

1、Gene ontology can provide a common schema for describing gene function among genes in different species, which means that there would be an effective approach to compare the functional aspects of genes. Up till now, many algorithms based on gene ontology for measuring gene semantic similarity have b

2、een proposed, most of which have the defect that the shared semantics of terms are added repeatedly.In this paper, the information content of the intersection of the annotation sets of two genes to be compared is considered as the shared semantics of this pair of genes. In light of this, a novel gen

3、e similarity measurement, Semantic Overlap Ratio of Annotation(SORA), is proposed, combined with the inherited and extended semantics. In addition, considering the multiple inheritance present in gene ontology, some modifications that the extended information content is multiplied by an index determ

4、ined by the number of terms in the extended term sets and that of the ancestor terms of the extending term are made to the original SORA.Finally, both original and modified SORA are evaluated using some genes related to disease as the test data and the experimental results show that the algorithms i

5、mplemented in this paper are reliable to characterize gene functional similarity.Keywords: Gene Ontology Semantic Similarity Semantic Overlap Ratio of Annotation目录i目录第一章 绪论11.1 引言11.2 研究现状11.3 研究内容和目标21.4 论文章节安排3第二章 GO与基因相似性度量52.1 GO概述52.2 基因的相似性度量52.2.1 成对比较62.2.2 成组比较7第三章 注释的语义重叠比算法93.1 条目信息量的计算93

6、.2 继承信息量和扩展信息量103.3 计算集合的信息量113.3.1 算法描述113.3.2 算法示例133.4 基因的功能相似性度量163.5 算法改进17第四章 实现与评估194.1 实验环境及所用到的包194.1.1 R语言简介194.1.2 存储GO条目信息的包194.1.3 存储各物种基因信息的包204.2 SORA算法实现214.3 实验验证244.3.1 数据准备244.3.2 实验结果分析25第五章 结论与展望29致谢31参考文献33第一章 绪论3第一章 绪论1.1 引言在生物信息学中,比较基因及基因产物的相似性在多种应用上都起着关键的作用,如蛋白质交互作用的分析1、致病基因

7、预测2、基因聚类3等,最直接的方法是基于基因序列进行比较,然而这种方法只考虑到基因的内部结构,忽略了基因在生物过程中表现出的功能。而生物学家们在实验中发现,结构相似的基因并不一定在功能方面也具有很高的相似性,反之亦然4。这种现象虽然并非俯拾即是,不能因此否认基因结构作为一种相似性衡量方法的可靠性,而是应该在结构的基础上,辅助以功能相似性的比较。比如当研究与细胞增殖活动相关的基因时,除了分析哪些基因与少数从实验中已经得到验证的基因的结构相似外,或许还可以考虑那些参与了类似细胞增殖活动(如细胞分裂)的基因,后一种方法显然与基因的结构无关。基因的功能不像基因序列或结构,有客观的表示形式和可以测量的属

8、性,且随着生物数据的海量增加,更需要有一种统一的模式来描述基因的功能,以便进行比较和数据的共享,基因本体(Gene Ontology,GO)应运而生。通过GO中条目对基因的注释,将基因转化为一些GO条目的集合,通过条目间的语义关系,可以推断出基因的功能相似性。由于通过实验验证基因的功能是一个非常耗时且代价高昂的过程,因此通过GO注释来预测基因功能一直是生物信息学的研究核心,同时生物学家们也在致力于探索如何能更准确地表达出GO条目、基因的语义。1.2 研究现状尽管语义相似性应用于生物信息领域的时间并不长,但目前已经有许多基于语义相似性进行比较的方法可为研究者使用,这些方法从比较的内容上可分为条目

9、比较和基因比较。用于条目的比较方法大致可分为两类:基于边和基于结点。基于结点的方法常用信息量(Information Content,IC)这一概念来量化条目的语义,条目的IC值主要依赖于条目在GO这个有向无环图中的位置或是当前的注释情况。基于边的方法则常常使用距离(distance)的概念,距离完全依赖于条目在GO图中的位置,并不一定只是通过所要比较的条目之间的路径的边数来衡量相似性,也可借助于深度(depth),比如Pekar和Staab5提出的借助于两个条目的最大的公共祖先深度,即所比较的两个条目在GO图中的最低公共祖先条目到根条目的最长路径的边数。由于基因注释为多个条目,因此基因的功能

10、比较依赖于条目集合,而非单个条目的语义衡量,用于基因的语义比较方法仍可分为两类:一类以条目对的方式比较,即不考虑同一注释集合中的条目之间的关系,首先对不同注释集合中的条目进行语义比较,然后基于条目间的语义相似结果得出基因的功能相似度,这一步可采取不同的策略,Lord等人6采取求所有条目对的相似度的平均值的策略,Wang等人7采取的策略是求最匹配条目对的相似度的平均值,等等。这类方法非常依赖于条目间相似性的比较效果。另一类是以成组方式比较,这类方法将同一注释条目集合中的条目看做一个整体,因此并不依赖条目间的语义相似性,目前成组比较的方法多考虑基因的表示方式,Lee等人8将基因表示成其注释条目的集

11、合,Chabalier等人9将基因表示成由条目构成的向量,此外还有其他表示方式。根据每种不同的形式可采取相应的相似性比较方法,然而这些方法大都忽略了注释条目本身的信息量,这也意味着基因的很多隐藏在GO中的语义还未被发掘出来,本文将着重讨论如何在成组比较基因相似性的方法中,结合信息量更准确地发掘出基因的语义。1.3 研究内容和目标在比较基因的功能相似性时,成组比较的方法更注重同一基因的注释集合中的条目间的关系,目前人们对条目的信息量做了很多研究,但对条目集合的信息量却讨论较少,只将集合中的条目的信息量进行简单求和,以此作为集合的信息量,这显然并不合理。GO条目之间存在“is-a”或“part-o

12、f”的关系,当一个条目“继承”自另一条目(两者存在“is-a”关系)后,子条目会获得父条目的所有语义,此外在继承父条目语义的基础上,子条目还会拓展出属于自己本身特性的语义。一个条目可以产生若干子条目,如果两个条目之间存在共同的祖先条目,那么这两个条目必然会有共享语义。在计算条目集合的信息量时,如果只是将条目元素的信息量相加,那么条目成员间的共享语义无疑会被重复计算。本文提出一种新的以成组形式来衡量基因功能相似性的算法注释的语义重叠比(Semantic Overlap Ratio of Annotation,SORA),通过组合条目的继承信息量和拓展信息量,可避免集合中条目间的共享语义被累加。不

13、管是GO条目,抑或是基因,在衡量其相似性时都要考虑如何计算共享语义,Resnik10方法借助信息量最多的公共祖先,DiShIn11方法借助分离公共祖先信息量的平均值,而SORA方法中将以两个基因的注释集合的交集的信息量作为该对基因的共享语义。GO条目可以通过IC值体现其具体程度,基因通过GO注释转化为条目集合后,也具备了特定的信息量,本文在SORA算法中考虑到基因本身的信息量以及浅注释的问题对衡量基因相似性产生的影响,提出一种新的方式来比较基因相似性。此外,考虑到GO条目并非是以“树”的形式构建,而是以有向无环图的方式,这意味着GO条目间会有多重继承,因此本文还将对SORA算法提出一些修改,使

14、其更加合理。之后通过以致病基因为测试数据进行实验,验证了SORA算法的合理性。1.4 论文章节安排本文剩余章节安排如下:第二章介绍了本文需要用到的基础知识,包括GO概述、基因注释,并对目前基因功能相似性的衡量方法进行分类叙述,其中介绍了几种经典的算法,并分别进行了分析。第三章详细介绍SORA算法,首先讨论单个条目的信息量的计算方法,接着阐述该算法之所以提出所针对的问题,继而引出继承和拓展信息量的概念,再以此为基础,提出计算条目集合信息量的算法。由于这一部分是SORA算法的核心,所以将以较多的篇幅进行详细叙述,并通过一个具体的例子展示算法的执行流程。最后以集合信息量为基础,提出衡量基因的功能相似性的方法。第四章叙述SORA算法的实现以及对该算法的测试评估。首先对实现语言R和算法实现过程中使用到的包进行介绍,然后对算法实现时所划分的各个模块进行详细叙述,最后通过以致病基因为测试数据进行测试,验证了算法的合理性。第五章对整篇论文进行总结,提出了SORA算法可以被其他算法借鉴的地方,以及后续可改进的方面,最后展望了基因功能相似性衡量方法的前景。第二章 GO与基因相似性度量7第二章

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1