基于语义和监督学习的生物医学文献知识发现.docx

上传人:b****8 文档编号:9823823 上传时间:2023-02-06 格式:DOCX 页数:58 大小:242.81KB
下载 相关 举报
基于语义和监督学习的生物医学文献知识发现.docx_第1页
第1页 / 共58页
基于语义和监督学习的生物医学文献知识发现.docx_第2页
第2页 / 共58页
基于语义和监督学习的生物医学文献知识发现.docx_第3页
第3页 / 共58页
基于语义和监督学习的生物医学文献知识发现.docx_第4页
第4页 / 共58页
基于语义和监督学习的生物医学文献知识发现.docx_第5页
第5页 / 共58页
点击查看更多>>
下载资源
资源描述

基于语义和监督学习的生物医学文献知识发现.docx

《基于语义和监督学习的生物医学文献知识发现.docx》由会员分享,可在线阅读,更多相关《基于语义和监督学习的生物医学文献知识发现.docx(58页珍藏版)》请在冰豆网上搜索。

基于语义和监督学习的生物医学文献知识发现.docx

基于语义和监督学习的生物医学文献知识发现

硕士学位论文

基于语义和监督学习的生物医学文献知识发现

KnowledgeDiscoveryinBiomedicalLiteratureusingSemanticResourcesandSupervisedMachineLearning

作者姓名:

周峰

学科、专业:

计算机应用技术

学号:

20809310

指导教师:

林鸿飞教授

完成日期:

2010.11

大连理工大学

DalianUniversityofTechnology

大连理工大学学位论文独创性声明

作者郑重声明:

所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。

尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。

与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。

若有不实之处,本人愿意承担相关法律责任。

学位论文题目:

作者签名:

日期:

年月日

 

摘要

随着生命科学的不断发展,生物医学文献数量急剧增长。

为了跟踪最新的领域研究进展,科学研究者需要阅读如此大量的文献,这使得研究工作变得非常困难。

数量巨大的科学文献还会导致学科的细化,不同学科之间缺乏交流,导致不同学科之间隐含的有用知识被埋藏。

Swanson最早开始基于生物医学文献的知识发现研究,通过挖掘生物医学文献中的隐含知识,形成生物医学假设来辅助生物医学工作者的工作。

很多研究者投入这个领域,基于生物医学文献的知识发现已经成为文本挖掘的一个重要方向。

传统基于简单共现的方法会产生过多的目标词进而导致有效目标词的排名下降,并且在计算中会遇到选取合适阈值的问题。

本文采用开放式的知识发现,提出一种新的选取连接词的方法,即引入监督学习的方法,综合选取连接词的多种特征。

本文实验以Swanson发现的老年痴呆症的连接词为特征,通过分类来选取初始词雷诺氏病和偏头痛的连接词,同时加上UMLS语义类型的过滤。

相比于其他方法,本文选取了有效的连接词,减少了目标词的数量,最终使目标词鱼油和镁分别得到了较高的排名。

另外,本文把这种方法应用在H1N1的知识发现研究中,进行开放式发现和闭合式发现,得到了较高的准确率和F值,并且对可能影响H1N1的物质进行了预测。

挖掘UMLS语义资源进行计算逐渐成为基于文献的知识发现的热点。

通过概念的语义相似度计算事件相似度取得了比统计方法如tf*idf更好的结果。

本文在概念的语义相似度的基础上,加入了概念的语义关联度,避免了事件之间语义相似度高而缺乏语义关联度,导致发现的假设不合理。

本文的方法充分挖掘了UMLS中的语义资源,更加合理地计算了事件之间的相似度。

通过雷诺氏病和鱼油以及偏头痛和镁的实验证明,这种计算方法取得较好的效果。

关键词:

知识发现;监督学习;语义相似度;语义关联度

KnowledgeDiscoveryinBiomedicalLiteratureusingSemanticResourcesandSupervisedMachineLearning

Abstract

Nowadays,theamountofbiomedicalliteraturesisgrowingatanexplosivespeed.Researchersstruggletomaintainexpertiseandknowledgeofdevelopmentsintheirfields.Dealingwiththehugeamountofinformationhasledtoafragmentationofscientificliterature,whichpromotingpoorcommunicationbetweenspecialties.Swansoninitiatedhiddenknowledgediscoveryinbiomedicalliteratureandformedseveralhypothesis.ManyotherresearchershavesuccessfullyreplicatedSwanson’sdiscoveries,andliteraturebaseddiscoveryhasbecomeanpopulartopicintextmining.

Thepopularmethodsbasedonco-occurrenceproducetoomanytargetconceptswhichwillleadtothedeclineofreallyrelevanttargetconceptsinranking.Thispaperpresentsanewmethodforselectinglinkingconcepts.Thismethodusesthestatisticalandtextualfeaturestorepresenteachlinkingconceptandthenclassifiesthemasrelevantorirrelevanttothestartingconcepts.Therelevantlinkingconceptsareusedtodiscovertargetconcepts.Inthisway,theamountoftargetconceptsisgreatlyreducedandthereallyrelevanttargetconceptscangainhigherrankings,whichhelpsthebiomedicalexpertstodiscoverpotentialtargetconceptsefficiently.WealsoemploythismethodintheinvestigationofH1N1,whichachievesbetterprecisionandFscore.Atlast,wemakeapredictionofthesubstanceswhichmayaffectH1N1.

ManyresearchersutilizeUMLS’ssemanticresourceinliteraturebaseddiscovery.Eventsimilaritycalculatedbysemanticsimilaritybetweenconceptsshowbetterresultthanstatisticalmethodssuchastf*idf.Buteventswithhighsemanticsimilaritymayleadtounreasonablehypothesesduetolackingofsemanticrelevancy.ThispaperusesUMLS’ssemanticnetworktocalculatesemanticrelevancybetweenconcepts,andapplyFscoretotrade-offsemanticsimilarityandsemanticrelevancy.TheexperimentalresultsshowFishoilsandMagnesiumobtainsbetterrankings.

KeyWords:

KnowledgeDiscovery;SupervisedLearning;SemanticSimilarity;SemanticRevelency

目录

摘要I

AbstractIII

1绪论1

1.1研究背景及现状1

1.1.1研究背景1

1.1.2研究现状1

1.2本文主要工作及章节安排2

2生物医学文献知识发现相关资源、工具及算法4

2.1生物医学文献及本体资源4

2.1.1生物医学文献资源4

2.1.2医学主题词4

2.1.3一体化医学语言系统6

2.2生物医学文献映射工具7

2.2.1MetaMap7

2.2.2SemRep8

2.2.3RestrictToMeSH9

2.3基于生物医学文献的知识发现算法10

2.3.1开放式发现10

2.3.2闭合式发现11

2.3.3知识发现算法结合数据挖掘算法的应用11

3基于监督学习的知识发现14

3.1系统流程图14

3.2选取连接词15

3.2.1基于全局语料库统计量的特征15

3.2.2基于文本上下文的特征15

3.3发现目标词16

3.4实验结果及分析16

3.4.1数据集16

3.4.2目标词的排序17

3.4.3特征及组合效果测试17

3.4.4雷诺氏病和鱼油19

3.4.5偏头痛和镁21

3.5小结23

4监督学习知识发现在H1N1研究中的应用25

4.1数据集和评测方法25

4.2实验结果及分析26

4.2.1MeSH域级别26

4.2.2摘要级别和句子级别29

4.3小结31

5基于语义资源的知识发现32

5.1产生假设32

5.2概念的语义相似度34

5.3方法35

5.3.1概念的语义关联度35

5.3.2事件的相似度37

5.4实验结果及讨论37

5.4.1评测方法37

5.4.2实验设置38

5.4.3实验结果38

5.5小结40

结论41

参考文献42

攻读硕士学位期间发表学术论文情况46

致谢47

大连理工大学学位论文版权使用授权书48

1绪论

1.1研究背景及现状

1.1.1研究背景

在科学知识无限增长的当代,科学研究者往往需要通过努力地阅读来增加研究领域的专业知识。

全世界有很多的科学杂志,每个杂志出版大量的文章,这使得文献数据库变得非常巨大。

例如,在线数据库MEDLINE(主要面向生物医学文献),包含超过1800万篇关于生物医学文献的摘要,这些摘要来自全世界大约5400个杂志。

另外,自从2005年以来,每天有2000—4000篇摘要添加进来。

因此,科学研究者需要阅读如此大量的文献来了解和跟踪最新的领域研究进展。

处理如此大量的文献会导致科学文献的分支,这些分支存在于:

(1)专业:

例如,生物物理学,天体物理学,数学物理学;

(2)子专业:

例如,水生毒物学,蛋白质组学,分子免疫学;(3)结构:

例如,血液,细胞,脂类的研究;(4)技术:

例如,电泳疗法,质朴分析法,超显微术。

Swanson认为文献的这种分支专业化会不断成为一个难题,尤其是在生物医学领域[1]。

因为科学研究者会更多的与他们所在分支的其它研究者交流,而不会考虑更加宽广的范围,于是与其它领域的交流就变少了[2]。

从文献的引文就可以看出,研究者更愿意引用自己领域的文献,忽略其它领域的文献。

这最终会导致两类分支中的隐含的有效连接被埋藏。

传统的计算机辅助技术,例如信息检索,对于识别关联是不够的。

解决的办法之一就是基于文献的知识发现(LiteratureBasedDiscovery,LBD),它是用来解决知识分支的问题,找出新的、未显示发表过的隐含连接。

Swanson最早提出了从文献数据库发现新关系的观点,并在这个领域发表了多篇文章[3]。

他把LBD定义为从互不相交的科学文献中寻找互补结构的过程,这个互补结构包括两个独立的部分,他们没有共同出现在同一篇文档中或是互相引用过,当结合在一起时,会产生新的、重要的推论。

最终,通过知识发现过程找到的连接会帮助生物医学研究者减少工作量,并对他们的工作有一定的启发和指导作用。

1.1.2研究现状

在基于生物医学文献的知识发现研究领域,最主要的文献数据库是MEDLINE,很多研究者在该数据库上使用了多种技术进行实验研究。

他们集中在重复Swanson的发现和使用他的结果来评价自己的方法。

例如Vos的发现模型关注与药物和疾病相互作用的模式[4-5],中间的概念可以是药品不良反应,在DAD系统中是Drug–Adversedrugreactions–Disease模式。

Gordon和Lindsay采用文档数量、TFIDF等信息检索方法统计词频,部分工作中结合了生物医学专家的人工帮助来完成[6-7]。

Weeber等人加入了自然语言处理工具来识别生物医学概念,并且用到了本体UMLS进行语义类型的限定,大大的减少了连接词和目标词的数量,这个过程比之前的自动化程度提高了[8]。

之后,他们用这种方法研究了thalidomide这种药物潜在的用途[9]。

Hristovski将关联规则挖掘引入了基于文献的知识发现[10]。

他将生物文献看作数据库中的事务,而用来代表文献内容的MeSH词则看作是规则中的项,通过MeSH词的共现来设置支持度阈值和置信度阈值从而来产生关联的词汇。

Srinivasan提出了视图(Profile)的概念[11],为每个MeSH连接词建立视图,视图里面的词又以语义类型归类,其本质是在语义类型过滤后进一步选取更有效的连接词,从而减少目标词的数量。

Yetisgen-Yildiz和Pratt提出了使用信息检索中的准确率、召回率和MAP等方法评测知识发现研究[12-14]。

XiaohuaHu等人在传统的关联规则方法的基础上加入语义信息[15-16],通过合理的语义关系产生候选的语义类型,得到了较好的效果。

Miyanishi等人使用事件相似度从语义角度进行研究[17],得到了比基于统计更好的结果。

有些研究者使用Swanson的知识发现框架,对一些潜在的疾病的治疗和药物的作用进行了研究[9][18-22]。

很多研究者把LBD应用到生物医学文献之外的领域,如Valdes-Perez使用了化学数据库[23],Cory使用人文科学数据库找到了20世纪的一个诗人和一个古代哲学家之间的隐含关联[24]。

Swanson最初的方法非常费力费时,并且需要人工参与。

后来的研究工作都在努力使得这个过程更易于执行,并且更快、更加自动化。

为此,不断加入了概念抽取、结果计算以及优化输入数据的规模和类别的技术。

当然,专家的角色也仍是非常重要的。

这些研究趋势表明目前LBD的研究方向:

首先,需要加强基于文献的知识发现的理论基础,虽然Swanson的早期工作证明了知识发现研究的有效性,但是并没有评估知识发现过程的理论基础。

其次,知识发现需要一个公认合理的评测标准。

最后,知识发现的自动化程度仍需继续加强。

虽然完全的自动化并不是知识发现的最终目标,但是提高知识发现系统自动化的程度可以提供更快的处理速度,从而建立更大型的知识库以便进一步的研究。

1.2本文主要工作及章节安排

本文研究内容主要包括基于监督学习和基于UMLS本体事件相似度的生物医学文献知识发现,并在这两种方法上进行了理论探讨和实践验证与分析讨论。

第一章介绍了基于生物医学文献的知识发现的研究背景,阐述了知识发现的研究现状和研究成果。

第二章说明了生物医学文献知识发现涉及到的相关资源、工具及算法,包括MEDLINE、医学主题词和医学一体化语言系统,开放式发现、闭合式发现及结合数据挖掘的方法。

第三章介绍了监督学习的方法在开放式知识发现研究中的应用,并在雷诺氏病和鱼油、偏头痛和镁的实验上验证了方法的有效性。

第四章以流行病H1N1为例,使用第三章监督学习的方法进行了开放式和闭合式知识发现,对其进行了研究和预测。

第五章使用基于UMLS本体的事件相似度计算方法,在语义相似度的基础上融合了语义关联度,对比了多组实验,并对实验结果进行了分析。

2生物医学文献知识发现相关资源、工具及算法

2.1生物医学文献及本体资源

2.1.1生物医学文献资源

目前,基于生物医学文献的隐含知识发现使用的主要文献是美国国立医学图书馆(NationalLibraryofMedicine,NLM)提供的在线生物医学文献库MEDLINE,这是生物医学研究领域的重要知识来源,内容涉及1947年至今的基础医学、临床医学、实验医学、环境和公共卫生等许多学科。

这些文献的摘要来自全世界大约5400个杂志,包括39种语言[25]。

MEDLINE的一个特别之处在于所有的文档都使用NLM的医学主题词建立索引。

MEDLINE的结构,包括编号、题目、摘要、MeSH等内容。

图2.1是一个简略的MEDLINE结构,包含了实验用到的内容,PMID表示一个唯一的文章编号,TI表示文章的题目,AB表示文章的摘要,MH是医学主题词MeSH。

PMID-5971778

TI-Studiesontherespiratorymetabolismofisolatedhumanadiposecells.

AB-1.Somemetaboliccharacteristicsoffatcellsisolatedfrom50patientswereexamined.2.Therespiratoryactivityofhumanfatcellswasofthesameorderofmagnitudeascells……

MH-AdiposeTissue/*metabolism

MH-CarbonIsotopes

MH-Chromatography,ThinLayer

MH-Glucose/pharmacology

MH-Humans

图2.1简略的MEDLINE结构

Fig.2.1AbriefstructureofMEDLINEarticle

2.1.2医学主题词

医学主题词(MedicalSubjectHeadings,MeSH)是NLM的控制语汇表,是美国国立医学图书馆编制的权威性主题词表,是用以描述主题或内容特性的MeSH语汇。

NLM使用MeSH词对MEDLINE文献数据库建立索引,每篇MEDLINE文献包含所使用的MeSH词都是经由专家标注的,能够反映每篇文献的中心内容[26]。

通过MeSH词的标注,MEDLINE文献从非结构化的数据格式转变为半结构化的数据格式。

MeSH按照字母结构和树形结构两种方式组织。

最顶层的是最宽泛的概念,例如“Anatomy(解剖学)”和“MentalDisorders(精神障碍)”,底层的是更具体的概念,处于MeSH的11层结构的下层部分,例如“Ankle(脚踝)”和“ConductDisorder(行为失常)”。

MeSH由主题词变更表、字顺表、树状结构表和副主题词表四部分组成,其中字顺表和树状结构表是MeSH的主要组成部分。

(1)主题词变更表主题词表是用来标引医学文献的,随着医学的发展,词表具有动态性的特点。

NLM每年都要给词表增加一些新主题词并删掉一些文献旧主题词,主题词变更表被用来反映主题词的改动情况。

(2)字顺表字顺表(AlphabeticList)是医学主题词表的主表。

它由主题词、款目词和副主题词混合按英文字顺排列组成。

主要叙词(MajorDescriptor)即主题词,用作计算机检索时的检索词,包括主要主题词、地理主题词、特征词、出版类型和类目词等。

在2010年的MeSH词表里,共有25,588个主题词。

次要叙词(MinorDescriptor)也叫次主题词,在词表中用“属”(seeunder)归入其上位主题词,而在该主题词下用“分”(XU)表示它们之间的从属关系。

用次要叙词标引的文献只用于计算机检索。

从1991年起已经停止指定和使用次要叙词。

MeSH表收入一部分不用作主题词的同义词或近义词,称为款目词(EntryTerm),字顺表中用“see”参照指导读者使用正式主题词,2010年NLM提供172,000个款目词来帮助匹配最合适的MeSH词,例如“VitaminC”是“AscorbicAcid(维生素C)”的一个款目词。

副主题词(Subheading)用于和主题词进行搭配使用检索文献,以提高主题概念的专指度,其作用实质为限定主题词的适用范围。

例如,副主题词“therapy(治疗)”与疾病主题词组配,可用于综合疗法,具体如,消化性溃疡的心理疗法,用消化性溃疡/治疗。

(3)树状结构表树状结构表按其学科性质、词义范围的上下隶属关系,把字序表中的词分别归属在16个大类下,16个大类依次用A—N、Z代表。

它是字顺表的辅助索引,帮助确定每一个主题词在医学分类体系中的位置。

一般情况下,一个词被归入一个类别并分配一个编号,但有些主题词具有一种或多种属性,则这些词同时属于两个或多个类目范畴,在其它类目亦给出相应的树状结构号,从而可以查出该词在其它类目中的位置。

树状结构可以帮助研究者从学科体系中选择主题词,帮助增大或缩小检索范围,通过一个陌生主题词的上下层次的词了解该主题词,在实验中根据词的树形结构深度过滤过于宽泛的主题词等,也可以确定一个主题词的上位词和下位词的总数来确定该词的信息量。

例如,MeSH词“MigraineDisorders”的树状结构层次关系见表2.1:

 

表2.1MeSH词MigraineDisorders的树形结构

Tab.2.1HierarchystructureofMigraineDisorders

MeSH主题词

树形结构

Diseases

C

NervousSystemDiseases

C10

CentralNervousSystemDisease

C10.228

BrainDisease

C10.228.140

HeadacheDisorders

C10.228.140.546

HeadacheDisorders,Primary

C10.228.140.546.399

MigraineDisorders

C10.228.140.546.399.750

MigrainewithAura

C10.228.140.546.399.750.250

2.1.3一体化医学语言系统

UMLS(UnifiedMedicalLanguageSystem)是美国国立医学图书馆自1986年起研究和开发的一体化医学语言系统,用来方便计算机系统的发展,使得这些生物医学和健康方面的专业术语变得易于使用管理和更加规范。

为此,NLM开发和发布了UMLS资源数据库以及相关的多种软件以供生物医学研究者更方便地使用这些资源。

UMLS资源由超级叙词表(Metathesaurus)、语义网络(SemanticNetwork)、情报源图谱(InformationSourcesMap)和专家词典(SPECIALISTLexicon)四部分组成[27],其中最常用的是超级叙词表和语义网络。

超级叙词表非常大,并且是多语言的词汇表,包括了生物医学和健康相关的概念,这些概念的不同形式以及他们之间的关系。

超级叙词表的词汇来自各种电子版本的词库、字码集,病例、健康服务单、公共健康统计、生物医学文献索引、临

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 高中教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1