开放域问答系统研究综述Word格式.docx

资源描述

开放域问答系统研究综述Word格式.docx

《开放域问答系统研究综述Word格式.docx》由会员分享，可在线阅读，更多相关《开放域问答系统研究综述Word格式.docx（24页珍藏版）》请在冰豆网上搜索。

开放域问答系统研究综述Word格式.docx

•木文受到国家自然科学基金（70903008.60933004）,CNGI搜索引擎项目（CNGI2OO8・122）,863课题（2009AA01Z143）,软件开发环境国家重点实验室开放课题（SKLSDE・2010KF・03）及973汁划海址项目（2005CB321901）的共同支持。

引擎在一走程度上解决了这个问题。

在分析搜索引擎日志时发现，它包含一些自然语言表述的查询如"

如何安装RedHat9\这表明互联网用户更加习惯于用自然语言来表达他们的某些信息需求。

搜索引擎的输入是一组关键词，但是有时用户的信息需求很难用关键词确切地表达。

同时，有时用户所需信息的粒度并不是一篇文档,而是一个描述性的段落、句子、结论、人名或数字等，但是搜索引擎对于一个查询返回的是一个文档集合,用户还需从中找出相关的容。

这表明现有的搜索引擎服勢和用户的实际信息需求之间存在着两个方面的"

鸿沟"

：

系统要求的关键词表达方式与用户自然表达方式之间的鸿沟和系统返回信息的方式和用户需要返回的方式之间的鸿沟。

如果能使用户以一种更加自然的方式和系统交互，用户可以自然而精确地表达他们的信息需求,系统能直接返回用户想要知道的容，就能填平这条鸿沟。

基于这样的需求，开放域问答系统成为信息系统领域中继搜索引擎之后的又一个热点。

从技术层面来看，计算机处理能力的提升,信息检索、自然语言处理、人工智能等相关领域硏究的发展也为问答系统的构建创造了条件。

12问答系统的历史

问答系统并不是一个年轻的硏究方向。

五十年代,AlanTuring提出了著名的图灵测试。

该测试的目的是测试计算机是否具有智能。

为了鼓励进行图灵测试的硏究,1991年HughLoebner设立了LoebnerPrize,用于奖励第一个通过图灵测试的系统。

十多年来，出现了PCTherapistAlbert等优秀的聊天机器人系统，它们的一些技术如问句答案的模式匹配,对开放域问答系统很有借鉴价值。

除此之外，还有一些基于知识库的问答系统硏究

[32,33],包括基于本体的问答系统，受限语言的数据库查询系统，问答式专家系统等。

这

些系统受限于一走的知识领域和语言表达方式，不具有可扩展性。

本文讨论的开放域问答系统和它们不同，具有两个特性：

1.它能够回答的问题不局限于一个或几个特殊的领域，

而是不限走领域的；

2、它是基于一套文档数据库（可以是新闻集合,也可以是整个Web）,

而且它只能回答那些答案存在于这个文档数据库中的问题。

因此它是可扩展的，随看文档

库的增加，它具有了更多的〃知识〃，就能回答更多的问题。

最早的在线问答系统是由美国麻省理工大学BorisKatz等人开发START系统（start.csail.mit.edu/）,它自1993年12月正式提供服务至今，已经回答了数以百万计的问题，问题的类型包括位置，电影，人物，文化历史，艺术，环境，词典走义等。

AskJeeves也是一个优秀的开放域问答系统（.ask.）,和START不同,它返回的结果并不是一个精确的答案，而是包含答案的一系列段落。

具他比较普名的在线系统还包括

Brainboost（.answers.）和AnswerBus（.answerbus.）,它们返回的是包含结果的句子。

为了推动开放域问答系统的发展，信息检索评测组织TREC（TextREtrieval

Conference）自1999年开始,设立了开放域问答的评测任务，已开展了10次评测，成为TREC中历时最长的评测任务。

另外的一些著名评测组织如NTCIR和CLEF也已经设置问答系统评测的任务。

可见，问答系统的研究已在领域受到非常强烈的关注。

13开放域问答系统的通用体系结构

由于自然语言处理、信息检索、人工智能等相关领域技术的局限性，问答系统的回答

能力也是有限的。

Moldovan[25]根据问答系统的能力，把它由弱到强分成了5类：

•能回答事实问题的系统：

回答的容是一个事实,可以直接在文档里找到，一般是

_个词或者—次词组。

•能回答具有简单推理问题的系统：

回答的问题可能是文档里面的一个片断，需要系统简单的推理能力。

•能够多文档信息综合回答的系统：

需要从多个文档中分别找出答案并且以一定的方式进行组合展示给用户。

•交互式问答系统：

答案是上下文相关的，即和用户已经提问的问题和系统已经返回的结果有关系。

•具有类推能力的系统：

答案需要系统逬行推理获得,可能无法在文档集合中直接找到。

现有的开放域问答系统的能力，一般是介于前四类之间，主要处理那些能够通过直接从文档集中抽取答案就能回答的问题。

这些问题主要包括事实类问题,列表类问题,走义类问题,关系类问题等。

当前,不同的问答式系统会具有不同的体系结构。

如［8］的系统包括主题提取,主题走义，段落检索,答案抽取四个模块，［28］的系统包括问句分类,文档检索，句子抽取，答案抽取，排序,消除重复答案等模块。

虽然模块划分不同，但一般来说,所有的系统的模块都可以纳入三个大的部分,即问句分析,文档和段落的检索和答案的提取和验证。

问句分析部分所需要完成的功能包括问句类型分析，问句主题识别，问句指代消解和问句语法分析等。

问句分类是问答系统中一个很重要的环节,它需要把问句根据它的答案类型分到某一类别中，之后的检索和提取会根据问句类别采用不同的措施。

在现有问答系

统的解决方案中很多都根据精细问句类型和精细实体答案的谭啲对应关系来提取答案,所以他们尤具重视问句分类的性能。

找出问句的主题,可以帮助检索部分首先找出和主题相关的文档和段落,便于进一步后续的处理。

在某些系统交互式地回答用户的提问,因此用户的问题中会出现一些指代词，因此需要根据上下文明确指代词在问题中具体所指。

有的系统通过对问句进行语法分析,匹配问句的语法结构和包含答案句子的语法结构。

文档和段落检索部分的功能是根据问句构造查询,利用一走的检索模型找到可能包含答案的文档或者段落。

这里会涉及到的问题包括：

采用什么样的信息检索模型，如何构造查询，如何对这些段落进行排序，如何追求查全率^查准率之间的折衷,检索阶段的性能和最终的系统总性能有什么样的关系等。

答案的提取和验证是问答系统的最后一个部分,它的输出就是问句的最终答案。

它分析检索获得的文档或者段落，从中提岀能够回答问题的答案。

在提取答案时，问句类型直接决走如何生成候选答案集合。

另外,某些问题的答案可能存在于知识库中或者Web上,这一步中可以通过察看知识库或者Web对答案逬行验证。

三大模块之间的流程和关系如

图1问答系统的通用体系结构

从上图可见，问题分析模块可以获得问句的主题、类型和语法结构。

文档和段落检索模块从文档集合中获得相应的可能包括正确答案的段落集合。

答案提取和验证模块根据前两个模块的输出以及通过知识库和Web上的知识获得最终的答案。

下面就这三个模块逬行详细的介绍。

2问句分析

问句分析模块用于分析理解问题，从而协助后续的检索和答案提取。

它的输入是由自然语言表述的问题，输出是问句对应的答案类型和问句主题等。

2.1问句分类

问句分类是根据问句所问的目标（答案）的类型对问句进行分类，它是问句分析最重

要的功能之一,因为答案类型直接影响后续步骤尤其是答案抽取的策略，比如对于问人物的问题，答案抽取模块首先就会把相关文档中出现的人物作为答案候选集合。

最简单的问句分类通过疑问词直接决定问句的类型。

在英语中，典型的有5W1H（What,Who,When,Where,Why,How）的问题,在中文中,也有类似的"

谁"

哪儿"

这样的疑问词。

但这种方法粒度太粗，特别对What,How这样的疑问词，可以对应非常多的答案类型。

另外，有一些问句从句型上看是祈使句,不包含疑问词，如"

列出长江流经的省份"

或者有—些问句包含了多个疑问词，如英语中含有走语从句，宾语从句的情况,这种方法无法处理这些情况。

因此应该有更加猜细的分类体系和相应的分类方法。

一些硏究者提出了问句的分类体系结构，试图能够涵盖开放域中重要类型的问句，其中［34］的体系就是一个被广泛引用的问句分类体系（见表1L这个问句体系包括了6个大类，分别是缩略语,描述,实体，人物，地点,数呈。

为了能够更好的帮助找到正确的答案，在6个大类下面又分了50个小类，瞽如在实体类里面又有动物，颜色,创造者等等，在数星类里面又有日期，距离,钱数等等。

问句分类的任务就是通过分类算法,把一个问句分到这样一个分类体系结构的一个或几个类中去（某些问句比较模糊，可能属于一个以上的类别1现有的问句分类的方法主要包括基于模式匹配的和机器学习分类算法两类。

第一种方法是每一种问题类型会对应一个模式集合，对于一个问句”只要和某种问题类型对应的模式匹配”就被认为是这种类型的问题。

第二种方法［30,34］类似于文本分类，它首先走义一个问题的持征集合，这些特征可以包括：

词，词组，表层词序列（n-gram）,词的解释，词的近义词,词的词性，语法树的词序列等。

然后用一组（问题,类型）集合作为训练数据，采用机器学习

分类算法学习获得一个分类模型，就可以对问句进行分类了。

［30］使用表层n-gram特征，实验了K近邻，决策树，朴素贝叶斯，支持向呈机算法，实验结果表明支持向星机算法表现较好。

［34］采用更深层次的特征,包括语法（词性,词组）和语义（解释，近义词）的信息，先用一个顶层分类器先把问句分到一个大的类别,然后根据分入的大类选用类分类器把它分到小的类别,获得了不错的效果。

表1—种问题分类体系结构以及TREC问答任务中问题的分布

Class丰

Class

ABBREVIATION

tQTlH

abbroviat-ion

vehicle

expression

word

DESCRIPTION

153

HUMAN

171

definition

126

group

description

individual

140

aiannor

titk

[Gason

dGscription

ENTITY

174

LOCATION

195

anknal

city

body

country

coIot

mountnin

CToativc

other

114

current

stntp

disease/medicine

NUMERIC

289

QVQRt

code

food

count.

instrument

date

146

lang

distance

tt&

i«

mon^y

order

plant

product

period

religion

penceiit

sport

speed

substance

temp

symbol

vol.sizo

technique*

wight

2.2问句主题提取

问句分析的另一个主要方面是问句主题提取。

在后续的检索模块中，需要选择问题中的一些关键词进行查询”必要的时候会对查询进行调整”但是无论如何”都应该包含这个问题的主题。

通常可以通过对问句逬行句法分析，获得这个问句的中心词，然后选取中心词和相关的修饰词成为问题的主题。

如何选取合适粒度的中心词组成为这里的关键问题。

Cui[7]提出了一种基于外部资源选取词组的方法。

它把问句中的关键词提交给搜索引擎，从搜索引擎返回的答案中发现各种词的组合的点互信息，只有点互信息高于一走程度的中心词的组合才被认为是词组,这个词序列就构成了问题的主题。

在一些系统的问题分析中还包含产生查询关键词，但是,由于关键词提取会依赖于检索模块所采用的模型，而且有的提取算法需要和检索模块的迭代过程从而和检索算法高度耦合,因此这里我们把这个子模块放在检索模块中介绍。

3概述文档和段落检索

对于信息检索子系统，最简单的方法是直接用已有的检索系统（如Smart,Lemur,Lucene等）或者搜索引擎（如Google）对问题的非停用词进行全文索引,去掉问题中的停用词和问句相关的词（如疑问词生成查询,把获得的文档或者段落作为答案提取和验证模块的输入，但这种简单的方法很难获得很好的效果。

Thompson[5]通过实验，指出了文档检索的好坏会直接影响到问答系统的整体性能。

当一个检索系统的查准率比较差的时候,可能会有大呈的无关文档需要后续的模块处理，而一般来说，答案提取和验证模块需要比较复杂的自然语言处理的技术，因此大规模的无关文档会大大降低系统的效率。

如果

检索系统的查全率比较低，那么也就意味着有很多包含答案的文档或者段落没有被检索到。

包括正确答案的文档或者段落越少，那么提取出正确答案的可能性也越小。

在极端的情况下，如果所有包含答案的文档都没有检索获得，另吆后续的模块无论如何也无法获得答案,因此在这一阶段,查全率比之查准率更为关键。

这一模块需要选取合适的检索模型和查询，甚至需要强化现有的索引方式,来获得较好的查准率和查全率。

3・1检索模型的选用

首先我们讨论一下可以采用的信息检索模型。

信息检索领域常用的模型包括布尔模型、向呈空间模型、概率模型、语言模型等。

其中布尔模型是最简单的一种,它把关键词组织成一个布尔表达式，使得文档中出现的关键词需要满足这个布尔表达式。

它的优点在于简单高效以及可以通过查询直接控制返回的文档集的大小，而不需要像其余的排序模型另孵选取一个截断國值，但是它没有提供对文档和段落进行排序的功能。

但是某些答案提取算法需要这样的功能,因为某些算法会使用一个段落的相关性得分来估计这个段落中出现答案的可能性。

一些搜索弓摩会直接会提供布尔查询的界面（允许用户输入AND,0R,NOT,括号等\向星空间模型把文档和查询都表示成向呈根据查询和文档对应向臺的相似度（通常是两个向星夹角的余弦值）对文档进行排序。

概率模型估计计算文档和查询相关的概率,即计算P（R|D,Q）,并按照相关性概率对文档逬行排序。

语言模型是把查询和文档分别表示成语言模型（即词或者ngram的多项分布）,通过计算文档的语言模型到查询的似然或者两个语言模型之间的KL距离来估计两者之间的相关性。

以上的四种模型均有问答系统采用。

［25,2刀通过实验发现在问答系统的文档检索中，简单的布尔模型的效果和概率模型

以及改进了的向呈空间模型相当。

3.2查询生成

无论采用何种模型，检索系统的输入应该不是一个问句,而是由关键词和词组组成的查询。

最简单的转换方法就是把问句中的停用词去掉,其余的词作为关键词进行检索。

但是这样的方法存在着几个问题：

首先，问句是可长可短的,当问题很长的时候，关键词会很多，若采用布尔模型,检索获得文档太少,查全率很彳氐；

当问题很短，关键词很少,检索获得文档太多，影响查准率,不利后期处理。

另一个问题普遍的存在与信息检索领域中：

查询和文档的词有可能不匹配,即在查询和文档中可能使用不相同但具有相同语义的词。

对于查询松紧不确走的问题，需要对查询关键词进行调整，若关键词太多查询过紧,应该去掉一些。

若关键词太少查询过松，就应该加上一些。

对于查询文档不匹配的问题，可以通过把词形变化和意义接近词加到查询中来，同时这也是一种使得查询变松的方法。

Moldovan［35］就采用这种迭代式调整技术,多次查询，根据返回文档的多少，调整查询,决走是否增删关键词以及是否采用词形，句法或者语义级别的扩展形式。

以上的方法从问句已有的关键词出发。

但是问答系统的目的是要找出一个问题的答案,而不是找和一个问题相关的文档，因此如果从一个问题推测它的答案中可能包含那些关键词，用这些关键词来进行查询，会得到很好的效果。

对于一类问题，系统可以从训练数据中学习获得这类问题的回答模式,根据这个模式对问句进行重写,构造包含答案关键词的查询。

［1］就采用这种方法。

首先，基于一个问题-答案对组成的数据集，它统计问句中的n-gram,把那些频繁出现的称为问句词组。

然后，对于每一个问句词组，统计答案

中频繁出现构成模式的n-gram,并通过一个过滤器过滤一些和容有关的n-gram（如名词词组）,剩下的那些,称之为答案词组。

一个问句词组与其对应的一个答案词组集合组成了一组候选重写规则。

在获得了一些重写规则以后,系统就可以根据这些重写规则构造查询，譬如有一个问句词组是"

Whatisa"

，对应的重写规则包括"

isusedto"

accordingtothe"

tousea"

isa"

ofa"

refersto"

used"

refers"

usually"

等。

当有一个问句"

Whatisacomputer的时候，就可以构造查询"

computerAND"

等等，就有可能找到正确的答案。

这种方法的好处在于,它在构造查询的时候就预先考虑了答案可能包含的与容无关只与问题形式有关的关键词，但是这种根据问句词组到答案词组的映射是表层的，可能存在相同的问句词组在上下文中会有不同的语义的情况，造成映射的错误。

另外，这种方法获取的

重写规则的完备性取决于训练1

的大小。

3・3查询结果排序

问答系统中检索模块的结果应该是段落［2刀，因为问题的答案一般是局部的文取词组,句子等）,返回整个文档会降｛氐答案抽取模块的准确率和执行效率。

最直接查询结果排序方法是根据文档的自然段落，采用一种信息检索的模型（如BM25）,按照查询和段落的相关性，对所有的自然段落打分排序，但是这类算法并没有考虑到关键词的位置信息，出现了关键词越靠近的段落则越有可能包含问题的答案。

［2刀一文通过实验的方法细致地考察了各种段落检索的算法。

实验结果表明，基于密度的算法可以获得比较好的效果。

所谓基于密度的算法,就是查询关键词在某个段落里的出现次数和邻近程康会决定这个段落的相关程度。

表现比较好的段落检索算法包括:

MultiText算法：

这种算法会倾向于物隱t傲短的包含尽可能多的高信息星（对应于比较大的IDF值）关键词的段落。

该算法会检索出文档中查询关键词密集出现的段落，这种段落的定义是从一个查询关键词开始,到一个查询关键词结束,中间包含了尽可能多的查询关键词。

因此，这种段落是不走长的，这里走义相关性和段落的长度成反比，因此倾向于获得更短的段落。

IBM的算法：

这是IBM在参与TREC评测中提出的算法。

它提取了一些相关性的特征。

包括:

匹配的关键词特征,就尉旨同时在查询和段落文本中出现的关键词的IDF值的和。

词典匹配关键词特征，就是在查询中的关键词，虽然没有在段落中出现，但是关键词的同义词在段落中出现了，这些关键词的IDF值的和。

不匹配关键词特征,就是虽然在查询中出现了，但是在段落中没有岀现的关键词的IDF值的和。

分散程度特征，就是在匹配的关键词之间的间隔。

聚类词特征，即同时在问题和段落中都邻近岀现的词的数目。

最后通过线形叠加累积这些特征对于相关度的影响。

SiteQ算法:

该算法规走检索获得段落是由m个句子构成的。

对于每个句子,获得的分数由两部分组成,—部分是所有关键词的IDF值的和，另一部分是相邻关键词的距离的平方倒数和IDF和的乘积。

段落的得分是m个句子得分的叠加。

考察上述的三个算法，虽然在设计和实现细节上有很大的差异，但是都使用了IDF值的和以及引入了邻近关键词之间的距离。

所以，在进行问答式系统的段落检索时，基于密度的算法是有效的。

上面的算法只考虑了独立的关键词及其位置信息，没有考虑关键词在问题中的先后顺

序，也没有考虑语法和语义的信息。

考虑语法信息，最直观的想法就是把问句和答案都解析成语法树，从两者语法树的结构中找出一些相关性的信息。

Cui［9］提出了一种基于模糊依赖关系匹配的算法。

这种算法需要把问题和答案都解析成为语法树，并且从中提取词与词的依赖关系。

由于同样的问句可能具有语义上相同但是语言表述上不同的回答形式，如

果只考虑完全

展开阅读全文