关系数据库模式和本体间映射的研究综述瞿裕忠Word文档格式.docx
《关系数据库模式和本体间映射的研究综述瞿裕忠Word文档格式.docx》由会员分享,可在线阅读,更多相关《关系数据库模式和本体间映射的研究综述瞿裕忠Word文档格式.docx(27页珍藏版)》请在冰豆网上搜索。
映射的过程又可以进一步细分为3个阶段:
首先通
过模型转换消除关系数据库模式和本体在模型上的
异构性;
接着根据应用场景选用映射策略,寻找映射
结果;
最后生成映射结果并以某种形式表达.一个
基本的映射框架如图1所示:
Fig.1 AbasicframeworkofmappingbetweenRDB
schemasandontologies.
图1 关系数据库模式和本体间映射的基本框架
1 问题描述
本节形式化地给出关系数据库模式和本体间映
射问题的相关定义,并分析该问题的难点.
1.1 关系数据库模式、本体以及两者间的映射
数据模型(datamodel)是用来描述数据的一组
概念和定义.对某一类数据的结构、联系和约束的
描述称为数据模式(dataschema).依据文献[6],简
单地给出关系数据库模式的一个定义.
定义1.关系数据库模式.一个关系数据库模
式(S)由一组关系模式组成,其中包含数据库的基
表结构(E)和完整性约束(CT)两个部分.基表结构
定义关系(表)的结构、属性(列)及其数据类型与长
度等;
完整性约束定义施加在数据上的语义约束.
本体是对某一概念模型的显式的规范说明[7].
关于本体的不同定义有多种[8],参考文献[9]给出
本体的一种形式化定义.
定义2.本体.一个本体(O)可以被表示为一
个二元组O=(ID,Axiom).其中,ID是本体的词
汇集合,且满足ID=C∪R∪I.这里,C表示概念
(concept)集合,R表示关系(relation)集合,I表示实
例(instance)集合;
Axiom是本体的公理(axiom)集
合.
关系数据库模式和本体间映射的研究较多.由
于研究目的不同,所以也存在多种不同的定义.本
文对于关系数据库模式和本体间映射的定义如下.
定义3.关系数据库模式和本体之间的映射.
给定一个关系数据库模式S和一个本体O,S和O
之间的映射map是由五元组作为元素构成的一个
301瞿裕忠等:
集合{m}.其中,m表示一个基本的映射单元,可以
写成〈u,e,v,rel,f〉的形式.u为单元标识符,用于
惟一标识该五元组;
e和v分别为S和O中的元素,
且满足map(e)=v;
rel描述e和v之间的关系,例
如,等价关系“=”、包含关系“”、相交关系“∩”、不
相交关系“⊥”等;
f标识映射的确信度(或相似度).
这里进一步解释关于关系数据库模式和本体间
映射问题的研究范畴.
首先,该研究问题针对的是关系数据库模式到
本体,或者本体到关系数据库模式的映射问题,而不
是关系数据库模式之间(包括利用本体辅助发现关
系数据库模式之间的对应)或者本体之间的映射问
题.关系数据库模式之间的匹配问题(schema
matching)请参阅文献[10];
而本体间的映射问题
(ontologymapping)请参阅文献[9,11].
其次,该研究问题通常假设给定的关系数据库
模式和本体是独立存在的.所以,研究如何把关系
数据库模式翻译为本体的表达形式[12-13]并不是本
文的关注点.另外,从存储在数据库的数据中学习
出本体的研究[14]也不是本文的关注点.
1.2 关系数据库模式和本体间映射的难点
本质上,关系数据库模式和本体之间的映射问
题属于异构数据源的集成问题,但是它又和一般的
异构数据源集成问题有所区别.一般异构数据源的
集成问题是基于同种元模型的,例如本体间的映射
问题都是以本体为基础.而关系数据库模式和本体
分别属于不同的模型,也就是说两者在建模思想、实
现方法、应用场景等方面都有很大的区别.在已有
的一些工作中,已经对关系数据库模式和本体间映
射的难点有了部分阐述[15-17].我们认为,该研究问
题的难点主要包括两个方面.
一方面是由于建模思想不同引起的.数据库模
式是对具体数据的抽象描述;
而本体则试图建立领
域的共享概念.因此,关系数据库模式通常表现为
局部且规模较小的模型;
而本体则表现为相对比较
开放且规模较大的模型.关系数据库模式的语义表
达能力较弱,结构也较为简单;
而本体的表达能力较
强(例如最常见的OWL语言的逻辑基础是描述逻
辑),结构也较为复杂.如何协调平衡两种异构模
型,是构建关系数据库模式和本体间映射的一个主
要难点.
另一方面是由于应用场景不同造成的.数据库
通常仅为有限的几个应用程序服务,因此经常由应
用程序的开发者独自创建和管理;
而本体是对某一
领域中公认的概念知识的建模,所以本体模型和具
体应用是分开的.在实际使用中,数据库模式主要
为数据的存储查询服务;
而本体则还存在逻辑推理
等方面的应用需求.如何根据应用场景不同,合适
地选择构建关系数据库模式和本体间映射的方法,
这是该研究问题的另一个难点.
2 分 类
目前的研究工作已从多个方面考察关系数据库
模式和本体之间的映射问题,例如描绘关系数据库
模式和本体间映射的系统框架[18-21];
提出具体的映
射算法[16-17,22-23]以及描述映射结果的语法语义[24].
根据图1所示的关系数据库模式和本体间映射的基
本框架,以及第1.2节所述的关系数据库模式和本
体间映射的难点,以下从3个角度对已有的解决途
径进行分类和归纳(具体请参见图2).
Fig.2 AclassificationoftheexistingsolutionsformappingbetweenRDBschemasandontologies.
图2 对已有关系数据库模式和本体间映射解决方案的分类
首先是基于模型转换的途径分类.由于关系数
据库模式和本体建模思想不同,所以需要在映射过
程中消除这种异构性,即协调两者在表达能力、规模
结构等方面的差异.具体请参见第2.1小节.
其次是基于映射策略的适用范围分类.对于不
同的应用场景,需要选择不同的映射方法.例如在
302计算机研究与发展 2008,45
(2)
①http:
sig.biostr.washington.eduprojectsfm
开放式的万维网环境中,应当选择(半)自动化的、可
以处理任意多个关系数据库模式和任意多个本体间
映射且时空复杂度较低的方法工具.具体内容请参
见第2.2小节.
最后是基于映射结果的表达形式分类.传统
上,关系数据库模式间映射结果主要以较为简单的
对应关系(simplecorrespondences)的形式表现,而本
体间映射结果则试图提供更丰富的语义映射(se-
manticmappings)[25].从我们第2.3小节的分析可
以看出,目前的关系数据库模式和本体间映射方法
中存在多种不同的映射结果表达形式.
2.1 基于模型转换途径的分类
关系数据库模式和本体间模型上的差异不仅仅
表现在它们的语法层次上,更重要地表现在语义层
次上.对于语法层次上的差异可以通过一些转换规
则较好地消除,例如可以把关系数据库模式中的某
些表转换为本体中的类,或者通过观察表之间主外
键间某种联系,把某些表之间的关系转换为RDFS
或OWL本体中的“rdfs:
subClassOf”关系[13].
但是在语义层次上,则很难实现两个模型之间
的转换.相较于本体而言,关系数据库模式更侧重
描述数据库的结构而非语义,即使是使用扩充E-R
数据模型(extendedE-Rdatamodel),也只能部分地
表达数据库隐含的语义信息.一个具体表现在于关
系数据库模式中元素的数目较少,而本体中元素的
数目较多.例如,Chen等人[16,19]构建的中医药本体
中,数据属性(dataproperty)和对象属性(object
property)的数目大约有800个,而每个关系数据库
模式中所包含的关系(relationship)和属性(attribute)的
数目不到100个.另外,在模型转换过程中,对于本体
中空白节点(blanknode)的语义处理也较为困难.
消除关系数据库模式和本体之间模型上差异的
解决途径主要有3类:
1)把本体转换为类似关系数
据库模式的形式表达;
2)把关系数据库模式转换为
类似本体的形式表达;
3)把关系数据库模式和本体
分别转换到某种中间模型(mediummodel).目前已
有的研究主要采用第2类和第3类解决途径.
对于第1类模型转换途径到目前为止还尚未有
方法采用.主要原因在于本体的表达能力强于关系
数据库模式,所以把本体用对应的关系数据库模式
的形式表达会丧失本体丰富的语义信息,从而导致
在映射过程中很难从语义层次上发掘映射,并且对
于映射结果也很难进行语义层次上的分析、验证和
调试.
有部分工作采用了把关系数据库模式用本体的
形式表达的转换途径[16,19-21].通常这类工作首先通
过一些转换规则,例如采用关系数据库的逆向工程
(relationaldatabasereverseengineering)的思想[26],
自动或半自动地把关系数据库模式表达为本体的形
式(以RDFS或OWL最为常见),然后再寻找转换
本体和输入本体之间的映射.这类转换思想的优点
在于可以在最大限度上重用大量已有的本体映射算
法,取得较好的结果.但在实际应用中,由于关系数
据库模式和本体之间不存在完美的兼容关系,并且
两者在表达能力等方面差距较大,所以这种转换通
常是不完备的,转换效果也较差.
现有的研究主要集中在最后一类模型转换途径
上,即把关系数据库模式和本体分别转换到某种统
一的中间模型,例如文献[17-18,22-23]等.另外,在
XML模式和本体之间的映射问题中,也有相关工作
采用了类似的思想[27].通常这类工作首先定义一个
表达能力适中的中间模型,如有根的有向无环图
(rooteddirectedacyclicgraph)[17]和Web-PDDL中
间模型[18]等,然后分别把关系数据库模式和本体转
换到中间模型.对于关系数据库模式到中间模型的
转换,可以增加某些语义信息,例如通过机器学习和
数据挖掘的方法[18]获取更多更复杂的关系;
而对于
本体到中间模型的转换,则需要裁剪丢弃不兼容的
语义信息,例如把本体图模型转换为树型的连接公
式(conjunctiveformulas)[22].这类转换思想的优点
在于中间模型可以平衡关系数据库模式和本体之间
的差异,并且灵活度相对较大.但是由于中间模型
一般为映射方法本身定义,所以不能直接利用大量
已有的数据库模式映射或本体映射的方法,因而重
用性较差.
2.2 基于映射策略适用范围的分类
针对不同的应用场景,需要选择不同的映射方
法以适应需求.例如,在生物医学领域,由于测量、
采集、组织和管理数据的难度很大,所以只存在少量
的大型数据库和大型本体.由于这些数据库和本体
本身的规模过于巨大(例如解剖学领域中著名本体
FMA①中存在大约10万个概念),完全依靠手工的
方式构建映射是不现实的,所以需要采用半自动或
全自动的方法,且这些方法最好能够保证映射的准
303瞿裕忠等:
收稿日期:
2007-02-05;
修回日期:
2007-10-24
基金项目:
国家自然科学基金项目(60573083);
国家“九七三”重点基础研究发展规划基金项目(2003CB317004)
确度(对运行速度可以放宽要求);
另外,由于本体是
领域通用的,因此也可以选取适用于多个关系数据
库模式和一个本体间映射的方法.而对于开放式的
万维网环境,由于存在众多可能的数据库和本体,而
且存在大量可能的变更(例如有新的数据库加入),
所以需要采用可以适用于任意多个关系数据库模式
和任意多个本体间映射的方法;
另外由于大部分关
系数据库模式和本体的规模较小,有时手工的方法
也是可行的.
根据上述例子,可以从两个维度分析归纳目前
已有的解决方案:
1)从方法的自动化程度上分类(手
动、半自动、全自动);
2)从方法针对的关系数据库模
式和本体的数量上分类(两者皆为任意数目、两者之
一数目固定、两者数目都固定).
根据第1个维度,目前已有的映射方法中,文献
[16,19,20-21]采用的是手动构建映射的方法.这类
研究主要针对特定的应用场景而设计,例如文献
[16,19]针对于中医药领域,文献[21]针对大学数字
图书馆资源.这类手动构建映射的方法有时可以发
现复杂的映射,但非常费时费力.而文献[17-18,22]
则采用了半自动化的方法,通过和用户的多次交互,
提高映射的准确度.例如文献[22]要求用户首先输
入或验证一些简单的映射,而文献[17-18]则是一个
迭代交互的过程,在整个迭代过程中用户都可以参
与映射结果的验证和修改.这类半自动化方法的映
射质量在很大程度上受到用户交互质量的影响.目
前很少有全自动的映射方法(除文献[23]以外),主
要原因在于此类方法实现难度较大,并且通常情况下
准确度较低,同时也很难发现复杂的隐式映射关系.
对于半自动或者全自动的方法,我们还可以进
一步从方法的主要特性上分析.从发掘映射的算法
策略上可以分为单一型算法和集成型算法.例如,
An等人[22]提出的基于图的相似度传播的算法是单
一型算法的代表;
对于集成型算法又可以细分为混
合型(hybrid)和组合型(composite)两种.文献[23]
首先采用基于语言学的方法找到部分映射,接着把
这部分映射输入到基于结构的方法,以寻找更多的
映射,该方法属于混合型集成算法;
而文献[17]同时
使用多种算法,每种算法找到部分映射,再把这些映
射组合起来,作为最终的输出,所以该方法属于组合
型集成算法.一般认为,采用集成型算法的方法适
用面更广、稳定性更强.另外,映射方法的时空复杂
度也是一个需要考察的特征,通常自动化的方法要
比半自动化的方法速度更快、基于字符串比较的映
射方法要比基于相似度传播的映射方法的时间复杂
度更低.
根据第2个维度,文献[18,22]主要针对任意数
目的关系数据库模式和任意数目的本体间的映射问
题,其目标在于提供一种通用的解决方法;
文献[17]
采用了全局视图(globalasview)的方式,要求关系
数据库模式和本体的数目都固定;
而最为常见的一
类方法为面向任意多个关系数据库模式和一个已知
本体之间的映射[16,19-21].通常此类方法主要面向某
些特殊领域的数据集成问题,在这些领域中存在被
普遍认同的通用本体,且这些通用本体覆盖了该领
域中绝大多数的概念知识,这时只需要考虑多个关
系数据库模式到该通用本体的映射问题,一般采用
本地视图(localasview)的方法,例如文献[16,19]
把多个关系数据库模式映射到一个通用的中医药
本体.
2.3 基于映射结果表达形式的分类
目前已有的解决方案主要包含两个层次的映射
结果:
关系数据库模式和本体间元素之间的简单对
应关系和较复杂的包含语义信息的映射.
对于简单的对应关系,文献[20,23]只考虑简单
的1∶1的对应关系,而文献[17,22]则允许多对多
(m∶n)的对应关系,其中文献[22]采用Horn子句
的表达形式,其生成的多对多的映射结果更有助于
实现查询重写.无论是1∶1的对应关系,还是m∶n
的对应关系,它们共同的特点都是不指明语义关系
(例如等价关系、包含关系等),因此它们通常需要用
户进一步参与后才能形成最终的映射结果.
一个更高的层次是输出包含语义信息的映射,
它不仅仅找到映射,还指明映射关系的语义.这类
方法的代表是文献[18].Dou等人[18]采用桥接公理
(bridgingaxioms),指明关系数据库模式和本体间元
素之间的语义映射.它的映射结果可以充分利用本
体的逻辑推理能力.另外值得注意的是,在本体映
射领域,不少映射方法的映射结果是以语义映射的
形式表达[25].
可以看到,关系数据库模式和本体之间映射的
目标是构建复杂的查询重写(例如,从本体查询语言
SPARQL[28]到数据库查询语言SQL[6]的查询重
写),使得现存储在关系数据库中的数据可以在语义
网环境中被查询和集成.而语义映射可以更好地利
用本体在逻辑推理等方面的优势,所以包含语义信
息的映射相对于简单的对应关系更符合语义网的
特点.但是也应该看到,由于目前还没有一种统一
304计算机研究与发展 2008,45
(2)
①由于该工具的作者尚未给此工具起名,本文组合该工具两位作者的姓氏首字母及工具发布年代暂作为该工具的名称.
的映射结果表达形式,各种表达方式之间又不存在
显式的兼容关系,所以很难使用一个统一的框架集
成这些包含语义信息的映射.
3 关系数据库模式和本体间的映射工具
第2节已经从3个不同角度对部分已有工作进
行了分类和归纳.在本节中,首先将对6个较具代
表性的系统工具做简要介绍,接下来再对它们做进
一步的比较和分析.
3.1 工具简介
OntoGrate[18,29]是由美国Oregon大学于2006
年开发的一个关系数据库模式和本体间映射的系
统.系统主要包括6个功能模块:
语法转换器、映射
生成模块、推理模块、学习模块、挖掘模块、用户界面
模块.系统的执行过程为首先利用语法转换器分别
将关系数据库模式和本体转换到用Web-PDDL语
言描述的中间模型,然后辅之于人工参与,通过映射
生成模块构建两个中间模型之间的映射,最后输出
桥接公理.另外可以借助于推理、学习以及挖掘模
块等进行更深入的处理.该系统的优点在于提供了
一个较全面的映射框架并充分利用了多种类型的外
部知识辅助构建语义映射.
MAPONTO[22]是由加拿大Toronto大学于
2005年实现的一种基于树的相似度传播思想的映
射工具.它采用树状结构作为数据库模式和本体的
中间转换模型.在执行过程中,首先寻找简单的关
系数据库模式的属性和本体的数据属性之间的简单
对应关系,然后利用这些对应,在两个中间模型(即
两棵树)上迭代地传播这种对应,最终找到关系数据
库模式中多个元素(表、关系)和本体中多个元素
(类、对象属性)之间的多对多的对应,以Horn子句
的形式输出最终映射结果.该工具较全面地考虑了
扩充E-R数据模型到树状结构的转换规则.但是,
由于该工具基于迭代算法实现,因此工具的时间开
销较大.
DL04①[17]是由美国Iowa大学于2004年开发
的一个映射工具.它包含两个主要功能:
半自动化
地实现关系数据库模式和本体之间的映射;
以及自
动化地实现关系数据库模式之间的映射.这里主要
考查前者.它首先把关系数据库模式和本体都转换
为COMA[30]图格式(有根的有向无环图),然后再利
用工具COMA实现映射.COMA的一个基本执行过
程为首先并行地执行多个单元映射器,每个单元映
射器分别返回一些对应关系,再通过组合策略
(combinationstrategy)集成这些对应关系,整个过程
可以循环多次,且在每次迭代中均允许用户干预.
最终的输出为关系数据库模式中的基表结构和本体
中词汇之间的简单对应(既允许1∶1的对应关系,又
允许多对多的对应关系).该工具最大的特点是重
用已有的数据库模式映射工具COMA实现关系数
据库到本体间的映射.
FDR2#Kit[20]是由荷兰Vrije大学于2004年
开发的一个基于万维网访问方式的映射工具集.它
构建映射的过程包括3个步骤:
1)根据关系数据库
建立对应的关系数据库模式;
2)自动地把该关系数
据库模式转换为本体的形式表达;
3)用户手工构建
关系数据库模式和本体间的简单对应,最终以
RDMap的形式表达.值得注意的是,该工具是关系
数据库模式和本体间映射早期研究的代表,许多后
续工作继承了它的基本思想.
DartGrid[16,19]是由国内浙江大学于2006年提
出的一套针对中医药领域的集成系统.它主要包括
3个组件:
1)DartMapping是一个可视化的映射工
具,用来辅助用户定义关系数据库模式和本体间的
映射;
2)DartQuery提供一个基于本体的查询界面,
帮助用户创建语义查询和实现本体SPARQL到数
据库SQL的查询转换;
3)DartSearch作为一个基于
本体的搜索引擎,允许用户在所有数据库上执行全
文搜索以及查询结果之间的语义导航.以下主要考
察DartMapping组件.DartMapping采用本地视图
的方法,人工地把任意多个关系数据库映射到一个
特定的通用中医药本体上,最终以类似datalog语法
的形式表达对应关系(允许多对多的对应).Dart-
Grid的特色在于提供了一整套关系数据库和本体
之间数据集成的解决方案,并且已经成功地应用在
中医药领域;
其有待改进之处在于目前只能手工地
构建简单对应,尚未考虑关系数据库模式和本体间
的模型转换问题.
MASON[23]是由国内东南大学于