最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx

上传人:b****5 文档编号:21380861 上传时间:2023-01-30 格式:DOCX 页数:11 大小:80.51KB
下载 相关 举报
最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx_第1页
第1页 / 共11页
最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx_第2页
第2页 / 共11页
最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx_第3页
第3页 / 共11页
最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx_第4页
第4页 / 共11页
最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx

《最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx》由会员分享,可在线阅读,更多相关《最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx(11页珍藏版)》请在冰豆网上搜索。

最新基于概念图知识表示的问题回答系统的研究Word文档格式.docx

首都>

”[2],并进一步扩展为关键字序列“<

中华人民共和国>

<

祖国>

行政中心>

国都>

”等,显然是一种关键词匹配,是自然语言理解中最简单的理解形式,其效果也值得进一步改进.本文通过对现有的QA的分析与研究,提出以概念图为基本知识表示,从自然语言的语法和语义方面对QA系统的方法和结构深入研究,充分理解输入语句的语义,设计一个具有语义分析功能的问题回答系统,并返回准确的问题答案.

2.基本概念

基于概念图的问题回答系统和目前的问题回答系统有很大差别.在系统分析和设计中,首现对概念图和问题回答的基本概念作出必要定义.

2.1概念图

概念图(ConceptualGraphs,简称CGs)是在语义网络基础上发展起来的一种集语言学、心理学和哲学为一体的图形知识表示方法[3],可表示自然语言的语义知识和揭示深层格关系,已成为普遍接受的知识表示形式.B.J.Granet等已证明概念图是一种优秀知识表示方法.

定义1概念图是一个由概念节点和关系节点组成的有向二分连通图,可表示为:

CGs=(C,R,F)

其中,C为概念节点集合,R为关系节点集合,F⊆(C⨯R)∪(R⨯C)为关系集合.

在概念图中,概念节点表示领域中概念、实体、属性等,由矩形框中冒号分开的类标识符和参考域组成;

关系节点用园中的关系标识符表示,揭示了概念节点间的关系;

有向弧表示节点间的作用关系.例如,语句”Acateatsmeatwithpaw”的概念图如图1所示.

图1.自然语言的概念图表示

其中AGNT、OBJ和MANR为关系节点,CAT:

*、EAT、MEAT和PAW为概念节点.图1直观、形象、易于理解,是概念图的显式表示.为便于计算机处理,用方括号代替矩形框,用圆括号代替圆形,得到概念图的线性表示.图1可线性表示为:

[EAT]—(AGNT)→[CAT:

*]

(OBJ)→[MEAT]

(MANR)→[PAW].

在本文的问题回答系统的研究中,将概念图作为基本知识表示方法.

2.2问题回答系统

问题回答系统是根据户用自然语言请求,通过对数据库和网络资源检索,自动生成满足用户特定需求的准确答案.根据问题回答系统的工作过程,本节给出一些基本概念.

定义2一条汉语语句S可定义为:

S=q0q1q2…qn

其中qi(i=0,1,…,n)为S的词汇.对于任意词汇qi(i=0,1,…,n-1)位于qi+1之左可记为qi<

qi+1.

显然,汉语句法是语句词汇间的一种序关系.不同词序对应不同语句,具有不同语义.但这些词中有些是关键词汇,有些是反映语气和修辞手法的修饰语,还有一些同义词.例如“中国的首都是哪里?

”的关键字序列为“<

”.在问题回答系统中,主要关注关键字系列.因此,一个具有实际意义语句可定义为:

定义3一条汉语语句S可定义为:

S=k0k1k2…km

其中ki(i=0,1,…,m)为S中抽取的关键字.

可以看出,不同语句S1和S2,经预处理后,可能得到相同的关键字序列,即S1和S2功能等价.例如,“中国的首都是哪里?

”和“哪里是中国的首都?

”就是等价语句.

定义4语句S1和S2经过预处理ψ后,得到相同的关键字序列,即:

ψ(S1)=ψ(S2)=k0k1k2…km

其中i=0,1,…,m,称S1和S2功能等价,记为S1≌S2.

显然,语句间的“≌”关系是一个等价关系.通过关系“≌”可将搜索到的答案语句集分类,形成答案的划分.问题回答系统根据用户问句,在资源集中搜索和划分,得到相关的答案集.一个完整的问题回答系统可形式化定义为:

定义5问题回答系统是一个四元组:

(S0,C,F,A)

其中,S0为提交系统的自然语言语句,ψ(S0)=k0k1k2…km,关键字集K={ki|i=0,1,…,m};

C(Contexts)为资源集,是问题抽取的上下文;

F⊆K⨯C为K与C间的关系;

A⊆F(Answers)为答案集.

定义5是传统意义上的问题回答系统,目前的问题回答系统都属于该范畴.本文在传统问题回答系统基础上,提出基于概念图知识表示的问题回答系统.该系统可形式化地定义为:

定义6基于概念图知识表示的问题回答系统是一个四元组:

(G0,C,P,GA)

其中,G0为语句S0的概念图,ψ(S0)=k0k1k2…km,关键字集K={ki|i=0,1,…,m};

C={G1,G2,…,Gk}为一个资源集,系统从C中抽取相关答案图;

操作集P={Φ,∏},操作Φ为相关概念图的最大连接G=Φ(Gi1,Gi2,…,Gir),它保持了概念图间的相同部分,增加了概念图间的不同部分,操作∏为概念图的投影匹配,∏:

G0→G,ΠG0是G0在G上的投影,ΠG0与G0同构且是G的子图;

GA是问题回答系统的答案GA=∏G0,是相容概念图G的子图,GA对应得语句SA为问题的答案.

可以看出,基于概念图知识表示的问题回答系统和传统的问题回答系统有本质差别,其最大优点是答案为一个概念图,可准确、简洁回答问题.在定义6中,问题回答系统是从初始概念图G0开始,经过一系列的推导、搜索、计算等变换,得到答案概念图GA,整个过程是一个有限自动机的运行过程,可以通过有限自动机计算实现.

3.问题回答系统结构

本文在一般问题回答系统模块结构的基础上[2,4],设计了基于概念图知识表示的汉语问题回答系统的模块结构.

3.1问题分析

图2.问题分析模块

问题分析模块见图2.在图中,预处理器对问句切词、同义词处理,再由词法分析器识别词汇生成词汇表.若词汇不在词典中,则系统报错.另外,词法分析还要对不重要的词汇适当忽略,使系统具有足够灵活性.句法分析根据词汇表、词典和短语结构语法规则分析句法.对正确语句生成句法分析树,对错误语句提供相近句法.概念图生成器将句法分析树转换成概念图,然后同图式库中图式匹配/推理,得到符合语义的概念图,即正则图,完成语义分析.该正则图是信息检索和形成答案时概念图匹配的依据.

3.2信息检索

信息检索模块主要包括搜索代理、概念图生成和匹配/推理三部分.其中,搜索代理根据问题处理部分生成的正则图,启动搜索引擎,在网络、数据库和知识库中搜索答案,并将搜索结果发送到问题分析模块,形成搜索结果的正则图集,称为搜索集,作为抽取答案的依据(见图3).

图3信息检索模块

3.3答案抽取

答案抽取模块包括概念图聚类、背景图生成、投影匹配和自然语言生成几部分.首先计算搜索集合中正则图的关联度,进行概念图聚类,弃除不满足阈值的概念图类,形成新概念图集.再经过概念图的最大连接匹配(或相容匹配)算法将相关度较高的概念图匹配连接,形成背景图(BackgroundGraphs,简称BG).再将工作概念图向背景概念图投影匹配,组成答案概念图.最后语言生成利用扩展短语结构文法(APSG)库,将答案概念图转换成自然语言文本.为了使生成语言符合自然语言规范,可由优化处理部分进行优化处理.答案抽取模块见图4.

图4答案抽取模块

4.疑问语句的概念图表示

汉语疑问句的表达方式灵活多变.按语言行为可分为直接和间接语言行为类型[5].像反复、是非、选择和特指等疑问句属于直接语言行为类型;

指令(包括请求、建议和命令)、判断、应酬、阻止、反驳、责怪、催促和提醒属于间接语言行为类型.在疑问句分类基础上,依疑问词和谓语最近原则[6],将一个疑问句定义为:

定义7一个疑问句可定义为三元组:

(Q,Fn,S)

其中Q为疑问词,Fn为疑问词在句子中的语法功能,S为将疑问词所在部分泛化后的完整陈述句.例如,语句“谁发现了南极大陆?

”可表示为(“谁”,“主语”,“某人发现了南极大陆”).

定义8疑问句对应的概念图可定义为:

Q:

GS

其中Q为疑问词,GS为泛化后陈述句的概念图,语句中疑问词的功能体现在为概念节点所指域“*”.例如,语句“谁发现了南极大陆?

”的概念图为:

谁:

[发现]—(AGNT)→[PERSON:

*]

(OBJ)→[新大陆]→(LOC)→[南极].

其中,概念节点“[PERSON:

*]”是对“谁”的泛指,所指域“*”表示不确定,可通过所指域运算律确定.其运算律有三种常见形式,{*}∩{*}={*},{*}∩{a,b,c}={a,b,c},{a,b,c}∪{a,b,d}={a,b}.

在疑问句表示中,主要表示概念图.概念图由概念节点和关系节点组成.按照面向对象观点,现实世界中万物都可抽象为对象,对象有名称、大小、颜色、所在位置等属性.根据常见疑问句询问对象,可对对象各种属性提出疑问,表1列出部分疑问句概念图中常用的概念.

表1.部分特征疑问词和概念图中的概念

概念

功能

例句

PERSON

问人

谁发现了南极新大陆?

AGE

问年代

那年发现了南极新大陆?

NAME

问名称

这只狗叫什么名字?

DATE

问日期

今天是几月几日?

TIME

问时间

现在是几点钟?

LOCATION

问地方

西安在哪里?

NUMBER

问数量

有多少人参加了毕业典礼?

ORGANIZATION

问组织机构

西北教育网管理单位是哪?

SATAE

问状态

这学生的学习如何?

OTHER

问其它特征

这座楼的外表是什么颜色?

另外,领域中任何概念、实体、属性等都可作为概念图的概念.在构造概念图时,除必要的概念节点外,还需明确概念间的关系.概念间关系比较复杂,分为包含、从属、类同、组成等关系[7].本文结合现代汉语基本句型和格文法,归纳了疑问句概念图的部分关系(详见表2).

表2.常见关系

关系名称

关系

基本定义

包含关系

INCL(include)

部分和全体、类和子类间关系

从属关系

DEPE(dependency)

类与其小类间的关系

类同关系

SIMI(similarity)

类同其它类间具有相似性质

等同关系

SAME

A、交换机B、MODEMC、中继器D、网卡两类相同

组成关系

A.可以向表中插入若干条记录B.在表中任何位置插入一条记录COMP(composition)

【答案】对象主体和个体间的关系

A.表B.视图C.图形D.报表分类关系

TYPE(typeof)

A.排序B.建立索引子类属于超类的一种事实

代理

AGNT

【答案】自由表,数据表动作发出者

max3=max2对象

11.设工资=1200,职称="

教授"

,下列逻辑表达式的值是________。

OBJ

动作作用对象

input"

请输入圆环的内半径:

"

tor1类型

ISA

C.一个表与另一个表之间有一定的关系类型

场所

LOC

动作执行场所

方法

WAY

动作执行方法

根据表1和表2的定义,总结了汉语基本疑问句[5,6],设计了8种常用句型的概念图.

(1)疑问代词[主]‖谓型

在这种句型中,疑问代词作为疑问句主语.例如,“谁发现了南极大陆?

”就属于这种句型,其基本概念图为:

[谓语]—(AGNT)→[主语]

(OBJ)→[宾语].

例如,“谁发现了南极大陆?

”的表示形式见前面的例子.

(2)主‖动+疑问代词[宾]型

在这种句型中,用疑问代词作疑问句的宾语.例如,“欧盟总部是哪里?

”就属于这种句型,“哪”作句子宾语,对宾语提出询问,其基本概念图可线性表示为:

例如,“欧盟总部是哪里?

”可表示为:

[是]—(AGNT)→[欧盟总部]

(OBJ)→[位于]→(LOC)→[LOCATATION:

*].

其中,概念节点“[LOCATATION:

*]”是对具体方位的询问,所指域中“*”表示不确定的地方.

(3)主‖疑问代词[谓语中心语]型

在这种句型中,用疑问代词询问一种状态.例如,“他怎么了?

”就属于这种句型,其基本概念图可线性表示为:

[谓语]←(AGNT)←[主语]

例如,“他怎么了?

[STATE:

*]←(AGNT)←[他]

其中,概念节点“[STATE:

*]”是对一种状况的询问,所指域中的“*”表示不确定是哪种状况,可能是身体健康,也可能是情绪激动,还可能是处于困境,这要和具体的语境结合起来判断.

(4)主‖疑问代词[状]+动/形/型

在这种句型中,用疑问代词作状语,是对主语形成的方式和方法的一种询问.例如,“风是怎么形成的?

(WAY)→[宾语].

例如,“风是怎么形成的?

[形成]—(AGNT)→[风]

(WAY)→[METHORD:

其中,概念节点“[METHORD:

*]”是对方法的询问,所指域中“*”表示不确定的方法.

(5)主‖动/形+疑问代词[补]型

在这种句型中,用疑问代词作补语,是对谓语的方式、状况等补充情况的一种询问.例如,“那家公司发展得怎么样了呢?

(STA)→[宾语].

例如,“那家公司发展得怎么样了呢?

[发展]—(AGNT)→[那家公司]

(STA)→[STATE:

*]”是对状况的询问,“*”表示不确定状况;

关系节点“(STA)”是对“发展”状况的进一步描述.

(6)疑问代词[定]+中心语型

用疑问代词作定语,是对名词的修饰情况的一种询问.例如,“UK是哪的简称?

”等就属于这种句型,这种句型较复杂,具体概念图要根据实际定语同中心词间关系确定,疑问词和中心语间的关系的概念图可线性表示为:

[中心词]—(LOC)→[LOCATATION:

(WAY)→[METHORD:

…..

例如,在“UK是哪的简称?

”中,中心词为“简称”,用“哪的”修饰中心词.这条语句可表示为:

[简称]—(AGNT)→[UK]

(LOC)→[LOCATATION:

(7)反复疑问型

反复疑问句主要部分为”W不W”,是对行为或状态的询问,可表示为”x[W]”,其中x是对W的肯定或否定,取值为空(∧)或非(┓).当x=∧时,表示对W的肯定,可省略.例如,”你吃不吃饭?

”就属于这种类型,它可表示为:

x[吃]—(AGNT)→[你]

(OBJ)→[饭].

(8)选择疑问型

选择疑问句选择部分为”W1还是W2”,其中W1和W2词性相同.在概念图中,选择部分可表示为”[X:

{W1|W2}]”,所指域中的{W1|W2}表示X可取值W1或W2.例如,”你去北京还是南京?

[去]—(AGNT)→[你]

(OBJ)→[LOCATATION:

{北京|南京}].

5.实验测试

汉语问题回答系统是一个建立在自然语言语义分析基础上的系统.在汉语问题回答系统中涉及到诸多问题,本节主要针对汉语疑问句句型和概念图生成问题进行简单实验测试.

在实验测试中,为了使实验测试结果具有代表性和广泛性,从网络、报纸、杂志等媒体上收集了300个汉语疑问句.通过切分词汇、词汇标记、语法分析、概念图生成和图式匹配等一系列工作,得到300个概念图.经人工检验,其中253个语句结构简单,语法清晰、标准,生成的概念图完全正确;

21个语句结构简单,但存在一些语法省略现象,其概念图基本反映了疑问句的含义;

17个概念图结构正确,但因缺乏语境,无法断定概念图意义的正确性;

9个语句因句法结构复杂,生成的概念图完全错误.

经过以上实验测试可以看出,在生成的概念图中,84.3%完全正确,7%基本正确,5.7%正确性不确定,3%不正确.如果在输入环节中对疑问句的结构进一步规范化,生成概念图的正确率可达91.3%,基本上可以满足实用需要.

6.结束语

汉语问题回答系统是一个新的研究领域,因汉语自身的复杂性和灵活性,增加了研究难度,且成功案例较少.本文主要从汉语自然语言理解的角度,提出以概念图知识表示为基础的研究方法,较系统地定义了汉语问题回答系统,设计了问题回答系统的系统结构,定义了疑问句概念图中常用的概念和关系,并结合典型汉语疑问句型设计了概念图.该课题的研究,对汉语问题回答系统的设计和研究具有一定参考价值.

参考文献:

[1]刘里,曾庆田.自动问答系统研究综述[J].山东科技大学学报,2007.10,26(4):

73-76

[2]JLAKe-1iang,etal.QueryexpansionbasedonsettheoryinChinesequestionansweringsystem[J].JournalofJiangxinormaluniversity,2008.4.32

(2):

211-214

[3]JohnF.Sowa.Conceptualstructure[M].UK:

AddisonWelslely,1984

[4]张亮,黄河燕,胡春玲等.中文问答系统模型研究[J].情报学报,2006,4,25

(2):

197-201

[5]尹洪波等.现代汉语疑问句的言语行为类型[J].江汉大学学报(人文科学版),2007.6,26(3):

47-51

[6]孙昂,江铭虎等.基于句法分析和答案分类的中文问答系统[J].电子学报,2008,36(5):

2008833-839

[7]黄康,袁春风.基于领域概念网络的自动批改技术[J].计算机应用研究,2004,11:

260-262

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 法学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1