基于模式的语义信息抽取及应用研究大学学位论文.docx

上传人:b****8 文档编号:11176990 上传时间:2023-02-25 格式:DOCX 页数:83 大小:1.59MB
下载 相关 举报
基于模式的语义信息抽取及应用研究大学学位论文.docx_第1页
第1页 / 共83页
基于模式的语义信息抽取及应用研究大学学位论文.docx_第2页
第2页 / 共83页
基于模式的语义信息抽取及应用研究大学学位论文.docx_第3页
第3页 / 共83页
基于模式的语义信息抽取及应用研究大学学位论文.docx_第4页
第4页 / 共83页
基于模式的语义信息抽取及应用研究大学学位论文.docx_第5页
第5页 / 共83页
点击查看更多>>
下载资源
资源描述

基于模式的语义信息抽取及应用研究大学学位论文.docx

《基于模式的语义信息抽取及应用研究大学学位论文.docx》由会员分享,可在线阅读,更多相关《基于模式的语义信息抽取及应用研究大学学位论文.docx(83页珍藏版)》请在冰豆网上搜索。

基于模式的语义信息抽取及应用研究大学学位论文.docx

基于模式的语义信息抽取及应用研究大学学位论文

论文题目:

基于模式的语义信息抽取及应用研究

 

基于模式的语义信息抽取及应用研究

 

Semanticinformationextractiontechnologyandapplicationbasedonpatterns

 

MasterDegreeCandidate:

WangShuang

Supervisor:

SunYi

SchoolofComputer&ComunicationEngineering

UniversityofScienceandTechnologyBeijing

30XueyuanRoad,HaidianDistrict

Beijing100083,P.R.CHINA

致谢

本课题能够顺利完成,与我所得到的多方面的无私而热情的帮助是分不开的。

我首先要感谢我的导师孙义教授。

在本人读研期间,孙老师无论在学习还是在生活上,都给予了无微不至的关心。

在整个毕业论文完成过程中,孙老师定期了解课题进展,积极提出宝贵意见,在老师严谨治学、精益求精的工作作风中体会到了老师崇高的人格魅力。

另外我还要感谢实验室的另外两位老师张德政老师和刘宏岚老师,感谢张老师和刘老师对我的鼓励和肯定。

张老师积极的人生态度和拼搏精神,对我们产生深远影响,同时感谢张老师为我们提供的良好的工作和学习环境。

我还要感谢帮助和鼓励过我的每一位同学,他们是韦仕伟、于留宝、付彬、华镇。

感谢在这近三年时间里给予我知识的老师们,正是由于他们的辛勤施教,使我学到了许多宝贵的知识,能够顺利完成学业。

真诚感谢我的父母、姐姐和朋友们。

在他们的鼓励下,我勇敢前进,克服很多困难。

他们的关心与帮助是我学习和生活最大力量来源。

最后,感谢所有在百忙之中参加我论文答辩的老师们,在此致以我崇高的敬意和衷心的感谢。

摘要

中医学作为中国特色的传统医学具有重要的社会价值,但是由于中医学理论体系的复杂性和特殊性,对中医理论和技术的全面把握需要较长的时间。

特别是经过多年临床实践,而且拥有多年中医实践经验的专家,很好的反映出了中医学的特色。

从而可以通过研究这些医案,进而了解中医学的方法和理论,从而快速、全面地了解中医理论和技术。

面对海量文本形式的医案,目前普遍采用手工填写结构化采集模板的方法结构化病案信息,不仅耗费大量人力物力,而且不能反应各个专家的特点。

因此,本文主要研究如何通过计算机技术自动结构化文本形式的病案信息,从而为挖掘名老中医的临床经验和诊疗思路打下基础。

本文针对中医病案文本信息的特点,从多个方面、不同角度对基于中医病案信息的自动抽取进行了深入研究,实现了一个基于模式匹配的医案信息自动抽取系统。

本文的主要工作包括以下几个方面:

1、综述信息抽取及相关技术方法,主要内容包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的分析。

2、重点研究了基于聚类的模式获取问题,以及基于模式的中医医案的信息抽取问题。

实现了利用机器学习方法自动获取模式,利用模式识别文本中的人名、地名、时间以及实体间关系信息。

3、设计并实现了一个基于中医医案的信息抽取原型系统。

该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。

关键词:

自然语言处理,信息抽取,模式生成,模式匹配

Semanticinformationextractiontechnologyandapplicationbasedonpatterns

Abstract

TraditionalChinesemedicineasaChinesetraditionalmedicinehasimportantsocialvalue.Medicalrecordsasthedoctorclinicalthinkingandtreatmentbasedonsyndromedifferentiationprocessrecords,isaconcretereflectionofcomprehensiveapplicationformsoftraditionalChinesemedicine.Patternmatchingisacommonlyusedmethodininformationextractionsystem,howtogeneratethemodelisthekeyprobleminthefieldofinformationextraction.Thispaperpresentsamethodofclusteringbasedmachinelearning,thesystemcanautomaticpatternacquisitionfromtext.TheapplicationofthismethodintraditionalChinesemedicalexperimentsintheliterature,hasachievedagoodresult.

Accordingtothecharacteristics oftextinformation of medicalrecords,Studyisconductedforthe automaticextractionof Chinesemedicalrecordinformationbasedon manyaspects, fromdifferentangles, a medicalinformation automaticextractionsystemofpatternmatching..

Themainworkofthispaper includethefollowingaspects:

1.Summaryofinformation extraction andrelated techniques,Themaincontents includethe relatedconceptsintroduced,Technical terminology explanation,alsoincludesthe analysisofallkindsoftechnology.

2.Focusontheinformationextraction problem basedonthepatternof traditionalChineseMedicine,Constructionofpattern library.

3.Thedesignandimplementationofa prototypesystem basedon informationextraction of traditionalChinesemedicine. Thesystemprovidesa method fortheuserto use, canbeachievedonthe traditionalChinesemedicine informationextraction isvery good.

KeyWords:

NaturalLanguageProcessing,InformationExtraction,PatternAcquisition,PatternMatching

(用英文逗号“,”分隔)

目录

致谢I

摘要III

AbstractV

插图和附表清单XI

1绪论1

1.1课题背景1

1.1.1课题的来源,目的和意义1

1.1.2课题的研究内容1

1.2论文的主要工作2

1.3本文的组织结构2

2信息抽取模式学习系统综述3

2.1信息抽取模式学习系统分类3

2.2基于人工语料标注的IE模式学习系统3

2.2.1基于人工语料标注的IE模式学习系统的原理3

2.3基于人工语料分类的IE模式学习系统6

2.4基于自举的IE模式学习系统7

2.5基于WordNet和语料标注的IE模式学习系统9

2.6本章小结11

3中医医案特征分析13

3.1中医医案特征分析13

3.1.1中医医案结构特征分析13

3.1.2中医医案内容特征分析15

3.1.3中医领域本身的特点15

3.2中医医案语义信息抽取的研究基础及存在的问题16

3.3本章小结17

4一种基于聚类的信息抽取模式自动生成方法18

4.1基于聚类的模式生成方法的比较与选择18

4.2单链法聚类的基本思想18

4.3相关概念18

4.4模式生成流程20

4.4.1文本处理与聚类21

4.4.2同类之间的模式合并24

4.5实验结果和分析26

4.6本章小结29

5基于模式匹配的信息抽取方法30

5.1国内外研究进展30

5.1.1本课题国外研究进展30

5.1.2本课题国内研究进展30

5.2中医医案信息抽取过程中模式的表示方式31

5.3信息抽取程序的实现过程33

5.3.1自动分词的实现34

5.3.2加载模式库38

5.3.3读取医案文件39

5.3.4确定医案文件的段落主题41

5.2.5逐句遍历41

5.2.6正则匹配算法42

5.2.7存储提取结果43

5.4本章小节44

6基于模式匹配的中医医案信息抽取系统的设计与实现45

6.1信息抽取系统的通用体系结构45

6.2需求分析45

6.2.1用户登录45

6.2.2中医医案管理45

6.2.3用户词典管理46

6.2.4模板匹配46

6.3系统设计46

6.3.1系统功能结构46

6.3.2定义抽取任务47

6.3.3构建开发程序48

6.3.4数据库设计49

6.4详细设计50

6.4.1用户登录模块50

6.4.2系统主界面51

6.4.3用户词典模块52

6.4.4中医医案管理模块53

6.4.5基于模板匹配的抽取模块53

6.5软件测试54

6.5.1软件测试的步骤54

6.5.2本系统的测试方案55

6.6本章小结56

7结论57

7.1总结57

7.2进一步的工作57

参考文献59

附录人工提取的语言模式63

作者简历及在学研究成果69

独创性说明71

关于论文使用授权的说明72

学位论文数据集73

插图清单

图2.1AutoSlog采用的语言表达模式及IE模式4

图2.2一个标注后的语句及AutoSolg从中学出的一个概念节点5

图2.3PALKA的一个FP-structure的例子6

图2.4AutoSlog-TS学习IE模式的流程7

图2.5ExDisco中用到的”管理职位继任”IE领域的两个种子IE模式8

图2.6Exdisco的IE模式学习流程9

图2.7TIMES中的模式例子10

图2.8TIMES的IE模式学习流程10

图2.9一个语句经过相应的NLP步骤处理后所得到的内部结构11

图2.10TIMES形成的特例模式11

图3.1一份典型的中医肝病病案14

图4.1信息抽取模式生成流程21

图4.2相关文档集21

图4.3相关文档集经过预处理后的结果22

图4.4分词后的文本划分为不同的类别23

图4.5相关文档集的聚类结果24

图4.6模式合并结果26

图4.7泛化后的模式结果26

图4.8中医医案文本27

图4.9测试语料划分为不同的类别27

图4.10实验得到的信息抽取模式28

图4.11信息抽取模式28

图4.12不适宜全部合并的实例29

图5.1中医信息抽取流程图33

图5.2典型中医肝病医案35

图5.3典型中医肝病医案分词标注结果36

图5.4MapRules的数据结构39

图5.5典型中医肝病医案信息抽取结果44

图6.1基于模式匹配的中医医案信息抽取系统结构图47

图6.2信息抽取模块流程图49

图6.3用户登录界面设计50

图6.4用户管理界面设计51

图6.5系统主界面设计51

图6.6用户词典管理界面52

图6.7基于模版匹配的抽取界面53

附表清单

表5.1模式库-系统用到的16个模式31

表5.2模式中数字的含义32

表5.3模式中字母的含义32

表5.4中医医案的用户词典34

表5.5VecWordCate数据结构图39

表5.6基本信息部分实例40

表5.7主诉部分存储实例40

表5.8治则部分存储实例41

表5.9VecWordCate数据结构图41

表6.1用户信息表49

表6.2案例信息表50

绪论

1.1课题背景

1.1.1课题的来源,目的和意义

该研究课题来源于“十二五”国家科技支撑计划“名老中医临床经验、学术思想传承研究

(一)”项目。

本课题研究目标是从中医传承的临床需求出发,汇聚中医学、认知科学、信息技术,研发中医医案信息抽取系统,即临床医案收集、储存、分析、管理为一体的系统,实现临床患者病案采集、数据存储、结构化处理等功能。

研发模式库生成系统,实现自动化地从文本中获取模式,生成模式库,用于支持信息抽取的过程。

研发信息抽取系统,实现系统自动识别出医案文本中特定语义信息。

随着近几年来中医学研究的深入进行,对中医医案的信息分析需求越来越迫切,经历了中国五千年的文化变迁,中医历史积累了海量的中医医案,收录散杂,在内容和文字上不免也存在着讹、漏、误、衍等错误现象[15],采用人工手段进行查找与分析已经不能满足快节奏需求。

利用信息抽取的办法,将形式多样、内容丰富繁杂的中医医案以统一、完整结构化的形式提取出来,有效而抢救性地整理和保留了临床经验,将无形的经验变成有形的可供大家共享的知识,这对我国中医药领域的传承意义重大。

1.1.2课题的研究内容

本文研究基于模式的信息抽取技术及应用,课题解决的主要技术难点及技术方案:

(1)模式匹配是信息抽取普遍采用的方法,如何生成模式是课题研究的难点和重点。

本文根据中文自身的特点,考虑到模式即为在文本中经常出现的句法结构,同时借鉴英文文本的模式获取方法,提出一种基于聚类的模式获取方法,实现了从中医医案中自动获取模式。

首先对文本进行预处理,然后对分词后的文本聚类,将分词后的短语划分为不同的类别,则每个类别为一个模式集。

将同一模式集中的模式实例进行合并,就可以得到最终的信息抽取模式。

(2)研究信息抽取技术在中医医案领域的应用,实现机器自动识别中医医案里包含的“病”、“证”、“症候”等相关属性及病人基本信息形成最小数据冗余的数据。

本文尝试采用基于模式匹配的正则匹配算法。

第一步对文本进行分词、词性标注处理,第二步在模式库的支持下,采用模式匹配算法,最终实现了机器对医案的“人名”、“出诊时间”、“症候”信息的识别,以及实体间关系识别。

1.2论文的主要工作

本文的主要工作包括以下几个方面:

1)综述信息抽取及相关技术方法,主要内容包括相关概念的介绍,技术专有名词的解释说明,还包括对各种技术的分析。

2)重点研究了基于模式的中医医案的信息抽取问题。

构建动词库、模式库。

3)设计并实现了一个基于中医医案的信息抽取原型系统。

该系统提供了一个方法以供用户使用,能够很好的实现对中医医案信息的抽取。

1.3本文的组织结构

本文共分7章,每部分的组织如下:

第一章首先介绍了本课题的课题背景,阐述了课题的来源,目的及意义,说明了课题的研究内容。

第二章给出了模式自动生成的学习方法以及它们的优缺点。

第三章介绍了中医领域中文文本的特点,提出了信息抽取的任务。

第四章介绍了模式自动生成方法的思想和具体步骤,并给出了实验结果。

第五章介绍了基于模式匹配的信息抽取方法

第六章完成基于模式匹配的中医医案信息抽取系统,实现了其中的命名实体识别(人名、地名、时间等名词性短语)的工作

第七章总结与展望

最后是本文的参考文献,及本文作者对导师和实验室同学的衷心感谢!

信息抽取模式学习系统综述

1.4信息抽取模式学习系统分类

为了进行IE(InformationExtraction)模式的学习,人们先后设计过各种IE模式获取系统,例如AutoSlog、PALKA、CRYSTAL、LIEP、AutoSlog-TS、ExDisco、TIMES等。

根据IE模式获取系统需要用户辅助工作方式的不同,可以把这些系统分为四个类别:

它们为基于人工语料标注的IE模式学习系统,如AutoSlog、PALKA、CRYSTAL、LIEP等;基于人工语料分类的IE模式学习系统,如AutoSlog-TS等;基于种子模式的自举IE模式学习系统,如ExDisco等;基于WordNet和语料标注的IE模式学习系统,如TIMES等。

下面分别介绍这四类系统的工作原理。

1.5基于人工语料标注的IE模式学习系统

1.5.1基于人工语料标注的IE模式学习系统的原理

基于人工语料标注的IE模式获取系统的基本原理是:

使用一种IE模式表示方式,人工预先标注训练语料,接着利用机器学习的方法从训练语料中学出IE模式。

例如AutoSlog、PALAK、CRYSTAL、LIEP。

本节详细介绍AutoSlog和PALKA的工作原理。

AutoSlog是世界上第一个成功实现利用机器学习的方法获取信息抽取模式的系统,由Univ.ofMassachusetts开发。

AutoSlog的核心就是一个模式学习算法。

对于一个特定的IE任务,系统的输入是人工标注的训练语料,一套语言模式集(领域无关)和一个相关领域的语义词典。

系统的输出是对应案例语句的IE模式。

另外,整个统的实现需要CIRCUS句法分析器的辅助支持,CIRCUS句法分析器的功能是自动识别句子中的主语、谓语和宾语等。

最后需要人工对学出的模式进行审定和筛选。

语言模式集(领域无关)由人工设计而成。

对于不同领域的信息抽取任务,语言模式集并不需要做较大改动。

图2.1列出了针对恐怖活动事件用到的语言模式,以及与它们对应的一条IE模式。

LinguisticPatternExample

passive-verbwasmurdered

active-verbbombed

verbinfinitiveattemptedtokill

auxiliarynounattemptedtokill

active-verbbombed

infinitivetokill

verbinfinitivethreatenedtoattack

gerundkilling

nounauxiliaryfatalitywas

nounprepbombagainst

active-verbprepki11edwith

passive-verbprepwasaimedat

图2.1AutoSlog采用的语言表达模式及IE模式

这里的语言模式集和IE模式的不同之处在于:

语言模式是领域无关的,是由人工预先给定的。

而IE模式是由该系统自动生成的,是给出的语言模式实例化的结果。

IE模式用于对一个事件进行信息抽取。

语言模式“active-verb”的含义是:

一个充当主语的语法成分后面紧跟着一个主动形式的动词短语。

该种形式的句法结构在英语文本中经常出现,因而将此句型抽象出来作为一条语言模式。

对应于该语言模式的一个IE模式“wasmurdered”的含义是:

句子经过CIRCUS句法分析器处理后,“wasmurdered”充当动词短语,动词短语的左侧是主语语法成份,则此主语作为bombing事件的victim角色。

若一个含有动词短语“wasmurdered”的语句经过句法分析后,在该动词短语的左侧有一个充当主语的语法成分,则该语法成分充当bombing事件的victim角色。

上图中列出的其它语言模式和与每条语言模式相对应的IE模式案例可按类似的方法解释。

可以使用此方法一次对上述语言模式和IE模式解释。

AutoSlog[13]和PALKA[13]等是最早向知识获取自动化迈进的系统之一。

随后实现的CRYSTAL和LIEP,也旨在实现知识获取的自动化。

但这些系统仍较多的依赖于手工的参与,可认为这些系统仅是一种半自动化的知识获取系统。

如AutoSlog需要用手工标注训练数据,并设置启发式搜索规则以获取锚点(可认为是触发词);CRYSTAL除了要有手工标注数据,还要有语义层次和相关的词典;PALKA需要手工定义的框架(含触发词)、语义层次和相关的词典;LIEP则使用预先定义的关键词和对象识别器,依赖与用户的交互,给相关的语句分配事件类型。

这些系统的特点是依赖手工标记过的数据或通过与用户的交互过程,利用加工过的语料,学习语言的模式规则,是一种典型的机器辅助式知识获取。

尽管如此,通过知识的半自动获取,系统仍然可以很大程度上减少手工的参与。

如AutoSlog,其输入可描述为“标注实例+启发规则”,虽然该系统仍在一定程度上依赖于领域专业和语言学知识,但已大大减少了手工的参与,原先需1500人小时构建的概念节点,AutoSlog只要5人小时进行监督即可完成。

CRYSTAL则向自动化更靠近了一步,它的输入可描述为“标注实例+语义层次词典”,无须人工监督过程即可完成学习过程。

Sentence:

InLaOroya,Junindepartment,inthecentralPeruvianmountainrange,publicbuildings(bombing,TARGET)werebombedandacarwasdetonated.

CONCEPTNODE

Name:

target-subject-passive-verb-bombed

Trigger:

bombed

VariableSlots:

(target(SUBJECT*l))

Constraints:

(classPHYS一TARGET*SUBJECT*)

ConstantSlots:

(typebombing)

EnablingConditions:

(passive)

图2.2一个标注后的语句及AutoSolg从中学出的一个概念节点

FP-structure=MeaningFrame+PhrasalPatternMeaningFrame:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 经济学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1