基于语义和监督学习的生物医学文献知识发现.docx-资源下载

基于语义和监督学习的生物医学文献知识发现.docx

1、基于语义和监督学习的生物医学文献知识发现硕士学位论文基于语义和监督学习的生物医学文献知识发现 Knowledge Discovery in Biomedical Literature using Semantic Resources and Supervised Machine Learning作者姓名：周峰学科、专业：计算机应用技术学号： 20809310 指导教师：林鸿飞教授完成日期： 2010.11 大连理工大学Dalian University of Technology大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人

2、在导师的指导下进行研究工作所取得的成果。尽我所知，除文中已经注明引用内容和致谢的地方外，本论文不包含其他个人或集体已经发表的研究成果，也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处，本人愿意承担相关法律责任。学位论文题目：作者签名：日期：年月日摘要随着生命科学的不断发展，生物医学文献数量急剧增长。为了跟踪最新的领域研究进展，科学研究者需要阅读如此大量的文献，这使得研究工作变得非常困难。数量巨大的科学文献还会导致学科的细化，不同学科之间缺乏交流，导致不同学科之间隐含的有用知识被埋藏。Swanso

3、n最早开始基于生物医学文献的知识发现研究，通过挖掘生物医学文献中的隐含知识，形成生物医学假设来辅助生物医学工作者的工作。很多研究者投入这个领域，基于生物医学文献的知识发现已经成为文本挖掘的一个重要方向。传统基于简单共现的方法会产生过多的目标词进而导致有效目标词的排名下降，并且在计算中会遇到选取合适阈值的问题。本文采用开放式的知识发现，提出一种新的选取连接词的方法，即引入监督学习的方法，综合选取连接词的多种特征。本文实验以Swanson发现的老年痴呆症的连接词为特征，通过分类来选取初始词雷诺氏病和偏头痛的连接词，同时加上UMLS语义类型的过滤。相比于其他方法，本文选取了有效的连接词，减少了目标词

4、的数量，最终使目标词鱼油和镁分别得到了较高的排名。另外，本文把这种方法应用在H1N1的知识发现研究中，进行开放式发现和闭合式发现，得到了较高的准确率和F值，并且对可能影响H1N1的物质进行了预测。挖掘UMLS语义资源进行计算逐渐成为基于文献的知识发现的热点。通过概念的语义相似度计算事件相似度取得了比统计方法如tf*idf更好的结果。本文在概念的语义相似度的基础上，加入了概念的语义关联度，避免了事件之间语义相似度高而缺乏语义关联度，导致发现的假设不合理。本文的方法充分挖掘了UMLS中的语义资源，更加合理地计算了事件之间的相似度。通过雷诺氏病和鱼油以及偏头痛和镁的实验证明，这种计算方法取得较好的效

5、果。关键词：知识发现；监督学习；语义相似度；语义关联度Knowledge Discovery in Biomedical Literature using Semantic Resources and Supervised Machine LearningAbstractNowadays, the amount of biomedical literatures is growing at an explosive speed. Researchers struggle to maintain expertise and knowledge of developments in their

6、fields. Dealing with the huge amount of information has led to a fragmentation of scientific literature, which promoting poor communication between specialties. Swanson initiated hidden knowledge discovery in biomedical literature and formed several hypothesis.Many other researchers have successfull

7、y replicated Swansons discoveries, and literature based discovery has become an popular topic in text mining.The popular methods based on co-occurrence produce too many target concepts which will lead to the decline of really relevant target concepts in ranking. This paper presents a new method for

8、selecting linking concepts. This method uses the statistical and textual features to represent each linking concept and then classifies them as relevant or irrelevant to the starting concepts. The relevant linking concepts are used to discover target concepts. In this way, the amount of target conce

9、pts is greatly reduced and the really relevant target concepts can gain higher rankings, which helps the biomedical experts to discover potential target concepts efficiently. We also employ this method in the investigation of H1N1, which achieves better precision and F score. At last, we make a pred

10、iction of the substances which may affect H1N1.Many researchers utilize UMLSs semantic resource in literature based discovery. Event similarity calculated by semantic similarity between concepts show better result than statistical methods such as tf*idf. But events with high semantic similarity may

11、lead to unreasonable hypotheses due to lacking of semantic relevancy. This paper uses UMLSs semantic network to calculate semantic relevancy between concepts, and apply F score to trade-off semantic similarity and semantic relevancy. The experimental results show Fish oils and Magnesium obtains bett

12、er rankings. Key Words：Knowledge Discovery; Supervised Learning; Semantic Similarity; Semantic Revelency 目录摘要 IAbstract III1 绪论 11.1 研究背景及现状 11.1.1 研究背景 11.1.2 研究现状 11.2 本文主要工作及章节安排 22 生物医学文献知识发现相关资源、工具及算法 42.1 生物医学文献及本体资源 42.1.1 生物医学文献资源 42.1.2 医学主题词 42.1.3 一体化医学语言系统 62.2 生物医学文献映射工具 72.2.1 MetaMa

13、p 72.2.2 SemRep 82.2.3 Restrict To MeSH 92.3 基于生物医学文献的知识发现算法 102.3.1 开放式发现 102.3.2 闭合式发现 112.3.3 知识发现算法结合数据挖掘算法的应用 113 基于监督学习的知识发现 143.1 系统流程图 143.2 选取连接词 153.2.1 基于全局语料库统计量的特征 153.2.2 基于文本上下文的特征 153.3 发现目标词 163.4 实验结果及分析 163.4.1 数据集 163.4.2 目标词的排序 173.4.3 特征及组合效果测试 173.4.4 雷诺氏病和鱼油 193.4.5 偏头痛和镁 213

14、.5 小结 234 监督学习知识发现在H1N1研究中的应用 254.1 数据集和评测方法 254.2 实验结果及分析 264.2.1 MeSH域级别 264.2.2 摘要级别和句子级别 294.3 小结 315 基于语义资源的知识发现 325.1 产生假设 325.2 概念的语义相似度 345.3 方法 355.3.1 概念的语义关联度 355.3.2 事件的相似度 375.4 实验结果及讨论 375.4.1 评测方法 375.4.2 实验设置 385.4.3 实验结果 385.5 小结 40结论 41参考文献 42攻读硕士学位期间发表学术论文情况 46致谢 47大连理工大学学位论文

15、版权使用授权书 481 绪论1.1 研究背景及现状1.1.1 研究背景在科学知识无限增长的当代，科学研究者往往需要通过努力地阅读来增加研究领域的专业知识。全世界有很多的科学杂志，每个杂志出版大量的文章，这使得文献数据库变得非常巨大。例如，在线数据库MEDLINE（主要面向生物医学文献），包含超过1800万篇关于生物医学文献的摘要，这些摘要来自全世界大约5400个杂志。另外，自从2005年以来，每天有20004000篇摘要添加进来。因此，科学研究者需要阅读如此大量的文献来了解和跟踪最新的领域研究进展。处理如此大量的文献会导致科学文献的分支，这些分支存在于：（1）专业：例如，生物物理学，天体物理

16、学，数学物理学；（2）子专业：例如，水生毒物学，蛋白质组学，分子免疫学；（3）结构：例如，血液，细胞，脂类的研究；（4）技术：例如，电泳疗法，质朴分析法，超显微术。Swanson认为文献的这种分支专业化会不断成为一个难题，尤其是在生物医学领域1。因为科学研究者会更多的与他们所在分支的其它研究者交流，而不会考虑更加宽广的范围，于是与其它领域的交流就变少了2。从文献的引文就可以看出，研究者更愿意引用自己领域的文献，忽略其它领域的文献。这最终会导致两类分支中的隐含的有效连接被埋藏。传统的计算机辅助技术，例如信息检索，对于识别关联是不够的。解决的办法之一就是基于文献的知识发现（Literatur

17、e Based Discovery，LBD），它是用来解决知识分支的问题，找出新的、未显示发表过的隐含连接。Swanson最早提出了从文献数据库发现新关系的观点，并在这个领域发表了多篇文章3。他把LBD定义为从互不相交的科学文献中寻找互补结构的过程，这个互补结构包括两个独立的部分，他们没有共同出现在同一篇文档中或是互相引用过，当结合在一起时，会产生新的、重要的推论。最终，通过知识发现过程找到的连接会帮助生物医学研究者减少工作量，并对他们的工作有一定的启发和指导作用。1.1.2 研究现状在基于生物医学文献的知识发现研究领域，最主要的文献数据库是MEDLINE，很多研究者在该数据库上使用了多种技术

18、进行实验研究。他们集中在重复Swanson的发现和使用他的结果来评价自己的方法。例如Vos的发现模型关注与药物和疾病相互作用的模式4-5，中间的概念可以是药品不良反应，在DAD系统中是DrugAdverse drug reactionsDisease模式。Gordon和Lindsay采用文档数量、TFIDF等信息检索方法统计词频，部分工作中结合了生物医学专家的人工帮助来完成6-7。Weeber等人加入了自然语言处理工具来识别生物医学概念，并且用到了本体UMLS进行语义类型的限定，大大的减少了连接词和目标词的数量，这个过程比之前的自动化程度提高了8。之后，他们用这种方法研究了thalidomid

19、e这种药物潜在的用途9。Hristovski将关联规则挖掘引入了基于文献的知识发现10。他将生物文献看作数据库中的事务，而用来代表文献内容的MeSH词则看作是规则中的项，通过MeSH词的共现来设置支持度阈值和置信度阈值从而来产生关联的词汇。Srinivasan提出了视图（Profile）的概念11，为每个MeSH连接词建立视图，视图里面的词又以语义类型归类，其本质是在语义类型过滤后进一步选取更有效的连接词，从而减少目标词的数量。Yetisgen-Yildiz和Pratt提出了使用信息检索中的准确率、召回率和MAP等方法评测知识发现研究12-14。Xiaohua Hu等人在传统的关联规则方法的基

20、础上加入语义信息15-16，通过合理的语义关系产生候选的语义类型，得到了较好的效果。Miyanishi等人使用事件相似度从语义角度进行研究17，得到了比基于统计更好的结果。有些研究者使用Swanson的知识发现框架，对一些潜在的疾病的治疗和药物的作用进行了研究918-22。很多研究者把LBD应用到生物医学文献之外的领域，如Valdes-Perez使用了化学数据库23，Cory使用人文科学数据库找到了20世纪的一个诗人和一个古代哲学家之间的隐含关联24。Swanson最初的方法非常费力费时，并且需要人工参与。后来的研究工作都在努力使得这个过程更易于执行，并且更快、更加自动化。为此，不断加入了概念

21、抽取、结果计算以及优化输入数据的规模和类别的技术。当然，专家的角色也仍是非常重要的。这些研究趋势表明目前LBD的研究方向：首先，需要加强基于文献的知识发现的理论基础，虽然Swanson的早期工作证明了知识发现研究的有效性，但是并没有评估知识发现过程的理论基础。其次，知识发现需要一个公认合理的评测标准。最后，知识发现的自动化程度仍需继续加强。虽然完全的自动化并不是知识发现的最终目标，但是提高知识发现系统自动化的程度可以提供更快的处理速度，从而建立更大型的知识库以便进一步的研究。1.2 本文主要工作及章节安排本文研究内容主要包括基于监督学习和基于UMLS本体事件相似度的生物医学文献知识发现，并在这

22、两种方法上进行了理论探讨和实践验证与分析讨论。第一章介绍了基于生物医学文献的知识发现的研究背景，阐述了知识发现的研究现状和研究成果。第二章说明了生物医学文献知识发现涉及到的相关资源、工具及算法，包括MEDLINE、医学主题词和医学一体化语言系统，开放式发现、闭合式发现及结合数据挖掘的方法。第三章介绍了监督学习的方法在开放式知识发现研究中的应用，并在雷诺氏病和鱼油、偏头痛和镁的实验上验证了方法的有效性。第四章以流行病H1N1为例，使用第三章监督学习的方法进行了开放式和闭合式知识发现，对其进行了研究和预测。第五章使用基于UMLS本体的事件相似度计算方法，在语义相似度的基础上融合了语义关联度，对比了

23、多组实验，并对实验结果进行了分析。2 生物医学文献知识发现相关资源、工具及算法2.1 生物医学文献及本体资源2.1.1 生物医学文献资源目前，基于生物医学文献的隐含知识发现使用的主要文献是美国国立医学图书馆（National Library of Medicine，NLM）提供的在线生物医学文献库MEDLINE，这是生物医学研究领域的重要知识来源，内容涉及1947年至今的基础医学、临床医学、实验医学、环境和公共卫生等许多学科。这些文献的摘要来自全世界大约5400个杂志，包括39种语言25。MEDLINE的一个特别之处在于所有的文档都使用NLM的医学主题词建立索引。MEDLINE的结构，包括编号

24、、题目、摘要、MeSH等内容。图2.1是一个简略的MEDLINE结构，包含了实验用到的内容，PMID表示一个唯一的文章编号，TI表示文章的题目，AB表示文章的摘要，MH是医学主题词MeSH。PMID - 5971778TI - Studies on the respiratory metabolism of isolated human adipose cells.AB - 1. Some metabolic characteristics of fat cells isolated from 50 patients were examined. 2. The respiratory acti

25、vity of human fat cells was of the same order of magnitude as cellsMH - Adipose Tissue/*metabolismMH - Carbon IsotopesMH - Chromatography, Thin LayerMH - Glucose/pharmacologyMH - Humans图2.1 简略的MEDLINE结构Fig. 2.1 A brief structure of MEDLINE article2.1.2 医学主题词医学主题词（Medical Subject Headings，MeSH）是NLM的控

26、制语汇表，是美国国立医学图书馆编制的权威性主题词表，是用以描述主题或内容特性的MeSH 语汇。NLM使用MeSH词对MEDLINE文献数据库建立索引，每篇MEDLINE文献包含所使用的MeSH词都是经由专家标注的，能够反映每篇文献的中心内容26。通过MeSH词的标注，MEDLINE文献从非结构化的数据格式转变为半结构化的数据格式。MeSH按照字母结构和树形结构两种方式组织。最顶层的是最宽泛的概念，例如“Anatomy（解剖学）”和“Mental Disorders（精神障碍）”，底层的是更具体的概念，处于MeSH的11层结构的下层部分，例如“Ankle（脚踝）”和“Conduct Disord

27、er（行为失常）”。MeSH由主题词变更表、字顺表、树状结构表和副主题词表四部分组成，其中字顺表和树状结构表是MeSH的主要组成部分。（1）主题词变更表主题词表是用来标引医学文献的，随着医学的发展，词表具有动态性的特点。NLM每年都要给词表增加一些新主题词并删掉一些文献旧主题词，主题词变更表被用来反映主题词的改动情况。（2）字顺表字顺表（Alphabetic List）是医学主题词表的主表。它由主题词、款目词和副主题词混合按英文字顺排列组成。主要叙词（Major Descriptor）即主题词，用作计算机检索时的检索词，包括主要主题词、地理主题词、特征词、出版类型和类目词等。在201

28、0年的MeSH词表里，共有25,588个主题词。次要叙词（Minor Descriptor）也叫次主题词，在词表中用“属”（seeunder）归入其上位主题词，而在该主题词下用“分”（XU）表示它们之间的从属关系。用次要叙词标引的文献只用于计算机检索。从1991年起已经停止指定和使用次要叙词。MeSH表收入一部分不用作主题词的同义词或近义词，称为款目词（Entry Term），字顺表中用“see”参照指导读者使用正式主题词，2010年NLM提供172,000个款目词来帮助匹配最合适的MeSH词，例如“Vitamin C”是“Ascorbic Acid（维生素C）”的一个款目词。副主题词（Sub

29、heading）用于和主题词进行搭配使用检索文献，以提高主题概念的专指度，其作用实质为限定主题词的适用范围。例如，副主题词“therapy（治疗）”与疾病主题词组配，可用于综合疗法，具体如，消化性溃疡的心理疗法，用消化性溃疡/治疗。（3）树状结构表树状结构表按其学科性质、词义范围的上下隶属关系，把字序表中的词分别归属在16个大类下，16个大类依次用AN、Z代表。它是字顺表的辅助索引，帮助确定每一个主题词在医学分类体系中的位置。一般情况下，一个词被归入一个类别并分配一个编号，但有些主题词具有一种或多种属性，则这些词同时属于两个或多个类目范畴，在其它类目亦给出相应的树状结构号，从而可以查出该

30、词在其它类目中的位置。树状结构可以帮助研究者从学科体系中选择主题词，帮助增大或缩小检索范围，通过一个陌生主题词的上下层次的词了解该主题词，在实验中根据词的树形结构深度过滤过于宽泛的主题词等，也可以确定一个主题词的上位词和下位词的总数来确定该词的信息量。例如，MeSH词“Migraine Disorders”的树状结构层次关系见表2.1：表2.1 MeSH词 Migraine Disorders的树形结构Tab. 2.1 Hierarchy structure of Migraine DisordersMeSH主题词树形结构DiseasesCNervous System DiseasesC10C

31、entral Nervous System DiseaseC10.228Brain DiseaseC10.228.140Headache DisordersC10.228.140.546Headache Disorders, PrimaryC10.228.140.546.399Migraine DisordersC10.228.140.546.399.750Migraine with AuraC10.228.140.546.399.750.2502.1.3 一体化医学语言系统UMLS（Unified Medical Language System）是美国国立医学图书馆自1986年起研究和开发的

32、一体化医学语言系统，用来方便计算机系统的发展，使得这些生物医学和健康方面的专业术语变得易于使用管理和更加规范。为此，NLM开发和发布了UMLS资源数据库以及相关的多种软件以供生物医学研究者更方便地使用这些资源。UMLS资源由超级叙词表（Metathesaurus）、语义网络（Semantic Network）、情报源图谱（Information Sources Map）和专家词典（SPECIALIST Lexicon）四部分组成27，其中最常用的是超级叙词表和语义网络。超级叙词表非常大，并且是多语言的词汇表，包括了生物医学和健康相关的概念，这些概念的不同形式以及他们之间的关系。超级叙词表的词汇来自各种电子版本的词库、字码集，病例、健康服务单、公共健康统计、生物医学文献索引、临

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？