基于领域本体的信息抽取和知识获取系统毕业设计Word下载.docx
《基于领域本体的信息抽取和知识获取系统毕业设计Word下载.docx》由会员分享,可在线阅读,更多相关《基于领域本体的信息抽取和知识获取系统毕业设计Word下载.docx(20页珍藏版)》请在冰豆网上搜索。
为了提高检索的查全率和查准率,国内外的学者专家正在致力于研究基于语义的信息检索,并取得了一定的成果。
为广大学者所公认的是在本体的基础上设计信息检索系统,实现信息的语义检索。
本文所要做的工作就是对基于语义检索的检索系统后台服务方面进行研究。
这次毕业设计所要完成的任务是对领域本体(军用飞机)有关的网页进行内容提取后的文本文档进行自动分析,提取其中的实词,筛选出一些能揭示文章主题的词,然后将这些词按照一定的组配关系提取出文章中相应的句子。
最后将这些组配好的词和句子存入到数据库中,作为用户检索依据。
1.2试验系统实现思路
基于领域本体的信息抽取和知识获取系统的目的是对本体有关的信息进行识别、筛选。
按照一定语法规则将信息提取出来,保存到数据库中,供检索系统作为检索依据使用。
通过对关键信息的抽取来初步实现对文中知识的获取。
1.2.1实现步骤
图1.1领域本体网页结构化信息抽取系统地实过程
图1.1为信息抽取实现步骤,下面按顺序对处理流程作简要说明。
(1)利用网页信息爬取程序将和本体领域相关的网页中的文字内容提取并保存到相应的文本文件中;
(2)利用智能分词系统3GWS对文本进行分词,分词过程中导入了本体自定义词典。
分词后的结果自动保存在JNI文件下的Test_result.txt中;
(3)将分词前的文本文件以句子为单位进行切分,作为最后信息提取的材料;
(4)提取出分词后的文件中的名词和动词,并分别对其进行词频统计;
(5)对进行词频统计后的实词排序,筛选出文中出现次数高的词作为关键字;
(6)将筛选出来的关键字按照“名词-动词-名词”的组配方式和切分出来的句子进行匹配,将匹配成功的词和句子存入到Mysql中作为检索系统的检索依据。
1.2.2需要解决的问题
1)汉语切词和切词后次的识别与提取
信息抽取是建立在对文章进行篇章分析的基础上的,而篇章分析的基础又是句法分析,句法分析又离不开实体的识别。
因此作为实体的单元词的切分自然是十分关键的。
中文词切分的难点在于中文词缺少像英文词之间天然存在的空格一样的词间区分标志。
现代中文智能分词的两大主流技术是基于语言学规则的方法和基于语料库统计语言模型的方法,这两种方法各有利弊:
基于规则的方法,其核心就是根据语言学原理和知识制定一系列共性规则和个性规则,以处理自动分词中所遇到的各种语言现象。
规则的方法本质上是一种确定性的演绎推理方法,我们很难用一套规则去准确地预测真实文本中所出现的各种变异。
而基于语料库统计学的方法主要的特点是利用从语料库中语义知识的统计信息来进行分词,语言处理的覆盖面更广,可实现高效实时的处理,缺点是它仅仅考虑了语言的上下文关系,忽略了语言的结构化特征,它所用的概率模型总会抑制小概率事件的发生,而且这种方法还会受到标记集、长距离搭配等限制。
各种分词软件分词后都会将结果以一定形式返回出来。
所以词的提取首先要做的就是如何区分这些分词后的文件中的词。
分词结果通常都会对每个词进行标注,并在词之间作区分标志。
词的提取主要靠这些区分标志的识别来完成。
2)词和句子的匹配问题
常见的句子提取主要是通过关键字来完成。
而本文所要采用的句子提取方式是在关键词方法的基础上加入了语义分析。
即关键字按照一定的组配方式和原文中句子进行匹配,将符合这种要求的句子提取出来存入到数据库中。
至于何种组配方式才是有意的,靠程序来自动识别是有一定难度的。
本文所采用的词组配方式是“名词-动词-名词”的方式。
因为一个大多数句子都符合“主语-谓语-宾语”的结构,而充当这些实体的词通常又分别是名词、动词、名词。
当然这又面临一个问题,那就是那些“名词-动词-名词”组合才是有意义的。
这个问题的解决就需要运用到本体方面的理论了。
2信息抽取与知识获取的相关理论
2.1信息抽取的相关理论
2.1.1信息抽取的基本概念
信息抽取(InformationExtraction,IE)的目标是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。
输入信息抽取系统的是原始文本,输出的是固定格式的信息点。
把信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。
信息以统一的形式集成在一起的好处是方便检查和比较,能够对数据作自动化处理,从而实现用数据挖掘方法发现和解释数据模型。
信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。
从大量的文档中抽取需要的特定事实是非常有用的。
互联网上就存在着这么一个文档库,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。
若能将这些信息收集在一起,用结构化形式储存,其意义是非常重大的。
由于网上的信息载体主要是文本,所以信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。
信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统,因此成功的信息抽取系统将把互联网变成巨大的数据库。
目前的信息抽取系统大多采用基于知识的方法(例如专家系统驱动技术、模板驱动技术、基于脚本等)。
该方法在特定领域内十分有效,但构造大规模知识库需投入大量的人力,因此引入并加强机器学习是研究趋势之一。
信息抽取系统是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。
以往信息抽取粒度多为词语或短语,如对于军用飞机的相关信息只抽取飞机的型号、名称、用途、投入使用时间等,而对于军用飞机的发展状况、各型号飞机的使用情况等较大粒度信息很少涉及。
本文的研究目的是以军用飞机领域为实验对象,从相关文报道文本中形成该类信息的抽取模板。
以信息抽取模板为依据,将包含文章主要信息的句子抽取出来,从而将信息抽取的粒度扩展到句子。
2.1.2信息抽取的关键任务
1)命名实体
命名实体识别(NamedEntityRecognition,NE)是信息抽取中最为基本的任务,实现从众多信息中标识并分离出相关的命名实体,这是正确理解文本的基础。
命名实体识别具有非常直接的实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。
对于许多语言处理系统,命名实体识别都是其中一个很重要的组件,是目前最有实用价值的一项技术。
2)句法分析
通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是计算机理解自然语言的基础。
在信息抽取领域一个比较明显的趋势是越来越多的系统采用部分分析技术,这主要是信息抽取任务自身的特殊性,即需要抽取的信息通常只是某一领域中数量有限的事件或关系。
这样,文本中可能只有一小部分与抽取任务有关,并且对每一个句子并不需要得到它的完整的结构表示,只要识别出部分片段间的某些特定关系就行了,得到的只是完整分析树的部分子图。
部分分析方法盛行也是因为目前尚没有其他更好的选择。
部分分析技术只能使信息抽取系统的处理能力达到目前的水平,要想使其性能有大的飞跃,必须探索更有效的分析技术。
3)篇章分析与推理
一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到的实体通常可以有多种不同的表达方式,并且还有许多事实信息隐含于文本之中。
为了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。
因此,篇章分析、推理能力对信息抽取系统来说是必不可少的。
初看起来,信息抽取中的篇章分析比故事理解中的篇章分析要简单得多,因为在信息抽取中只需要记录某些类型的实体和事件。
但是,大多数信息抽取系统只识别和保存与需求相关的文本片段,从中抽取出零碎的信息。
在这个过程中很可能把用以区分不同事件、不同实体的关键信息给遗漏了。
在这种情况下要完成篇章分析是相当困难的。
除此之外,目前尚缺乏有效的篇章分析理论和方法可以借鉴。
现有篇章分析理论大多是面向人、面向口语的,需要借助大量的常识,它们设想的目标文本也比真实文本要规范,并且理论本身也没有在大规模语料上进行过测试。
信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的(跨文本的)共指问题。
在文本来源比较广泛的情况下,很可能有多篇文本描述了同一个事件、同一个实体,不同文本间还会存在语义歧义,如相同的词有不同的含义、不同的词代表同一个意思。
为了避免信息的重复、冲突,信息抽取系统需要有识别、处理这些现象的能力。
由MUC(MessageUnderstandingConference)对信息抽取系统部分篇章处理能力的评测结果看,篇章处理能力是目前信息抽取系统的弱项,是一个瓶颈,急需深入研究与改进。
2.1.3信息抽取的应用
信息抽取以结构化的方式表达原文的内容,这使得各种不同的应用都可利用或得益于信息抽取的结果。
总的来讲,这些应用可分为如下几类:
(1)摘要和总结:
将原先较长的文本,用较短的文本进行表达。
(2)可视化:
以可视的方式表达原文中的概念及其关系。
(3)搜索:
寻找某一处理层面上或语义上相似的信息。
(4)索引和分类:
根据语义表示进行分类,建立索引。
(5)翻译:
由于翻译具有语境针对性,一般要进行语义上的信息抽取。
(6)问答:
一般用于人机交互中。
(7)知识抽取:
在信息抽取的基础上进行知识的抽取。
(8)知识推理:
应用机器学习方法在信息抽取结果上进行知识推理。
(9)任务定义:
机器人等通过自然语言界面接受命令。
2.2知识提取的相关理论
2.2.1知识提取的基本概念
语言知识的自动提取是自然语言处理的核心之一,在信息检索、数据挖掘、机器翻译等许多领域都有广泛的应用。
词是构成自然语言的基本要素,词义知识一直是制约其发展的瓶颈问题,一个多义词的词义只有在上下文环境中才可以确定,而上下文环境中影响词义的因素是多种多样的,并表现出不完整性和不确定性,如何从上述这些知识中获得词义的确切知识并有效地应用,是语言信息处理研究中的难点也是重点。
理想情况下,处理上述自然语言问题,应该确立在计算机能够真正“理解语言”的基础上去实现,如果计算机可以像人类一样“不断学习和积累知识”,处理自然语言问题时,计算机的“理解能力”及“准确性判断”将会极大提高。
由于本体能够使人或机器间的交流建立在对所交流领域共识的基础上,因此比较适合构造知识表示。
2.2.2知识提取的方法
目前的知识提取方法主要是脱胎于数据挖掘技术,该方法是从海量数据集中自动识别和采集有效的知识并以某种易于理解的模式呈现并组织起来。
常用到的知识提取技术也多是从数据挖掘技术上发展来的,如人工神经网络、决策树、最近邻技术、规则归纳等。
这些技术都有一个目的,就是将数据集中的无序信息进行聚类、分类,在此基础上找出其中的关联规则、规律、模式等,从而将其中的隐含知识识别出来,然后再进行组织、保存到知识存储模块中。
人工神经网络从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征提