知识图谱基础之RDFRDFS与OWLWord文档格式.docx
《知识图谱基础之RDFRDFS与OWLWord文档格式.docx》由会员分享,可在线阅读,更多相关《知识图谱基础之RDFRDFS与OWLWord文档格式.docx(7页珍藏版)》请在冰豆网上搜索。
在文件中,每一行表示一个三元组,方便机器解析和处理。
开放领域知识图谱DBpedia通常是用这种格式来发布数据的。
Turtle,应该是使用得最多的一种RDF序列化方式了。
它比RDF/XML紧凑,且可读性比N-Triples好。
RDFa,即“TheResourceDescriptionFrameworkinAttributes”,是HTML5的一个扩展,在不改变任何显示效果的情况下,让网站构建者能够在页面中标记实体,像人物、地点、时间、评论等等。
也就是说,将RDF数据嵌入到网页中,搜索引擎能够更好的解析非结构化页面,获取一些有用的结构化信息。
读者可以去这个页面感受一下RDFa,其直观展示了普通用户看到的页面,浏览器看到的页面和搜索引擎解析出来的结构化信息。
JSON-LD,即“JSONforLinkingData”,用键值对的方式来存储RDF数据。
感兴趣的读者可以参考此网站。
下面,我们结合第一篇文章中罗纳尔多知识图的例子,给出其N-Triples和Turtle的具体表示。
Example1N-Triples:
"
罗纳尔多·
路易斯·
纳萨里奥·
德·
利马"
^^string.
足球运动员"
RonaldoLuí
sNazá
riodeLima"
1976-09-18"
^^date.
180"
^^int.
98"
巴西"
.
里约热内卢"
-22.908333,-43.196389"
^^string.用Turtle表示的时候我们会加上前缀(Prefix)对RDF的IRI进行缩写。
Example2Turtle:
@prefixperson:
@prefixplace:
@prefix:
.person:
1:
chineseName"
person:
career"
fullName"
birthDate"
height"
^^int.
weight"
nationality"
^^string.
hasBirthPlaceplace:
10086.
place:
10086:
address"
coordinate"
同一个实体拥有多个属性(数据属性)或关系(对象属性),我们可以只用一个subject来表示,使其更紧凑。
我们可以将上面的Turtle改为:
Example3Turtle:
^^string;
:
^^date;
^^int;
即,将一个实体用一个句子表示(这里的句子指的是一个英文句号“.”)而不是多个句子,属性间用分号隔开。
RDF的表达能力在第二篇文章(语义网络,语义网,链接数据和知识图谱)中我们提到,RDF的表达能力有限,无法区分类和对象,也无法定义和描述类的关系/属性。
我的理解是,RDF是对具体事物的描述,缺乏抽象能力,无法对同一个类别的事物进行定义和描述。
就以罗纳尔多这个知识图为例,RDF能够表达罗纳尔多和里约热内卢这两个实体具有哪些属性,以及它们之间的关系。
但如果我们想定义罗纳尔多是人,里约热内卢是地点,并且人具有哪些属性,地点具有哪些属性,人和地点之间存在哪些关系,这个时候RDF就表示无能为力了。
不论是在智能的概念上,还是在现实的应用当中,这种泛化抽象能力都是相当重要的;
同时,这也是知识图谱本身十分强调的。
RDFS和OWL这两种技术或者说模式语言/本体语言(schema/ontologylanguage)解决了RDF表达能力有限的困境。
二、RDF的“衣服”——RDFS/OWL之所以说RDFS/OWL是RDF的“衣服”,因为它们都是用来描述RDF数据的。
为了不显得这么抽象,我们可以用关系数据库中的概念进行类比。
用过Mysql的读者应该知道,其database也被称作schema。
这个schema和我们这里提到的schemalanguage十分类似。
我们可以认为数据库中的每一张表都是一个类(Class),表中的每一行都是该类的一个实例或者对象(学过java等面向对象的编程语言的读者很容易理解)。
表中的每一列就是这个类所包含的属性。
如果我们是在数据库中来表示人和地点这两个类别,那么为他们分别建一张表就行了;
再用另外一张表来表示人和地点之间的关系。
RDFS/OWL本质上是一些预定义词汇(vocabulary)构成的集合,用于对RDF进行类似的类定义及其属性的定义。
Notice:
RDFS/OWL序列化方式和RDF没什么不同,其实在表现形式上,它们就是RDF。
其常用的方式主要是RDF/XML,Turtle。
另外,通常我们用小写开头的单词或词组来表示属性,大写开头的表示类。
数据属性(dataproperty,实体和literal字面量的关系)通常由名词组成,而对象数据(objectproperty,实体和实体之间的关系)通常由动词(has,is之类的)加名词组成。
剩下的部分符合驼峰命名法。
为了将它们表示得更清楚,避免读者混淆,之后我们都会默认这种命名方式。
读者实践过程中命名方式没有强制要求,但最好保持一致。
轻量级的模式语言——RDFSRDFS,即“ResourceDescriptionFrameworkSchema”,是最基础的模式语言。
还是以罗纳尔多知识图为例,我们在概念、抽象层面对RDF数据进行定义。
下面的RDFS定义了人和地点这两个类,及每个类包含的属性。
@prefixrdfs:
@prefixrdf:
.###这里我们用词汇rdfs:
Class定义了“人”和“地点”这两个类。
:
Personrdf:
typerdfs:
Class.
Placerdf:
Class.###rdfs当中不区分数据属性和对象属性,词汇rdf:
Property定义了属性,即RDF的“边”。
chineseNamerdf:
typerdf:
Property;
rdfs:
domain:
Person;
rangexsd:
string.:
careerrdf:
string.
fullNamerdf:
birthDaterdf:
date.:
heightrdf:
int.
weightrdf:
nationalityrdf:
hasBirthPlacerdf:
range:
Place.
addressrdf:
Place;
coordinaterdf:
string.我们这里只介绍RDFS几个比较重要,常用的词汇:
1.rdfs:
Class.用于定义类。
2.rdfs:
domain.用于表示该属性属于哪个类别。
3.rdfs:
range.用于描述该属性的取值类型。
4.rdfs:
subClassOf.用于描述该类的父类。
比如,我们可以定义一个运动员类,声明该类是人的子类。
5.rdfs:
subProperty.用于描述该属性的父属性。
比如,我们可以定义一个名称属性,声明中文名称和全名是名称的子类。
其实rdf:
Property和rdf:
type也是RDFS的词汇,因为RDFS本质上就是RDF词汇的一个扩展。
我们在这里不罗列进去,是不希望读者混淆。
RDFS其他的词汇及其用法请参考W3C官方文档。
为了让读者更直观地理解RDF和RDFS/OWL在知识图谱中所代表的层面,我们用下面的图来表示例子中的数据层和模式层。
Data层是我们用RDF对罗纳尔多知识图的具体描述,Vocabulary是我们自己定义的一些词汇(类别,属性),RDF(S)则是预定义词汇。
从下到上是一个具体到抽象的过程。
图中我们用红色圆角矩形表示类,绿色字体表示rdf:
type,rdfs:
domain,rdfs:
range三种预定义词汇,虚线表示rdf:
type这种所属关系。
另外,为了减少图中连线的交叉,我们只保留了career这一个属性的rdf:
type所属关系,省略了其他属性的此关系。
RDFS的扩展——OWL上面我们提到,RDFS本质上是RDF词汇的一个扩展。
后来人们发现RDFS的表达能力还是相当有限,因此提出了OWL。
我们也可以把OWL当做是RDFS的一个扩展,其添加了额外的预定义词汇。
OWL,即“WebOntologyLanguage”,语义网技术栈的核心之一。
OWL有两个主要的功能:
1.提供快速、灵活的数据建模能力。
2.高效的自动推理。
我们先谈如何利用OWL进行数据建模。
用OWL对罗纳尔多知识图进行语义层的描述:
@prefixowl:
.###这里我们用词汇owl:
typeowl:
Class.###owl区分数据属性和对象属性(对象属性表示实体和实体之间的关系)。
词汇owl:
DatatypeProperty定义了数据属性,owl:
ObjectProperty定义了对象属性。
DatatypeProperty;
ObjectProperty;
string.schema层的描述语言换为OWL后,层次图表示为:
数据属性用青色表示,对象属性由蓝色表示。
罗纳尔多这个例子不能展现OWL丰富的表达能力,我们这里简单介绍一下常用的词汇:
描述属性特征的词汇1.owl:
TransitiveProperty.表示该属性具有传递性质。
例如,我们定义“位于”是具有传递性的属性,若A位于B,B位于C,那么A肯定位于C。
2.owl:
SymmetricProperty.表示该属性具有对称性。
例如,我们定义“认识”是具有对称性的属性,若A认识B,那么B肯定认识A。
3.owl:
FunctionalProperty.表示该属性取值的唯一性。
例如,我们定义“母亲”是具有唯一性的属性,若A的母亲是B,在其他地方我们得知A的母亲是C,那么B和C指的是同一个人。
4.owl:
inverseOf.定义某个属性的相反关系。
例如,定义“父母”的相反关系是“子女”,若A是B的父母,那么B肯定是A的子女。
本体映射词汇(OntologyMapping)1.owl:
equivalentClass.表示某个类和另一个类是相同的。
equivalentProperty.表示某个属性和另一个属性是相同的。
sameAs.表示两个实体是同一个实体。
本体映射主要用在融合多个独立的Ontology(Schema)。
举个例子,张三自己构建了一个本体结构,其中定义了Person这样一个类来表示人;
李四则在自己构建的本体中定义Human这个类来表示人。
当我们融合这两个本体的时候,就可以用到OWL的本体映射词汇。
回想我们在第二篇文章中提到的LinkedOpenData,如果没有OWL,我们将无法融合这些知识图谱。
rdf:
Class.
owl:
equivalentClass.
更多的OWL词汇和特性请参考[W3C官网文档](OWLWebOntologyLanguageOverview)。
接下来我们谈一下OWL在推理方面的能力。
知识图谱的推理主要分为两类:
基于本体的推理和基于规则的推理。
我们这里谈的是基于本体的推理。
读者应该发现,上面所介绍的属性特征词汇其实就创造了对RDF数据进行推理的前提。
此时,我们加入支持OWL推理的推理机(reasoner),就能够执行基于本体的推理了。
RDFS同样支持推理,由于缺乏丰富的表达能力,推理能力也不强。
举个例子,我们用RDFS定义人和动物两个类,另外,定义人是动物的一个子类。
此时推理机能够推断出一个实体若是人,那么它也是动物。
OWL当然支持这种基本的推理,除此之外,凭借其强大的表达能力,我们能进行更有实际意义的推理。
想象一个场景,我们有一个庞大数据库存储人物的亲属关系。
里面很多关系都是单向的,比如,其只保存了A的父亲(母亲)是B,但B的子女字段里面没有A,如下表。
如果在只有单个关系,数据量不多的情况下,我们尚能人工的去补全这种关系。
如果在关系种类上百,人物上亿的情况下,我们如何处理?
当进行关系修改,添加,删除等操作的时候,该怎么处理?
这种场景想想就会让人崩溃。
如果我们用inversOf来表示hasParent和hasChild互为逆关系,上面的数据可以表示为:
绿色的关系表示是我们RDF数据中真实存在的,红色的关系是推理得到的。
通过这个例子,相信读者应该初步了解了OWL的推理功能和能力。
目前,OWL的最新版本是OWL2,在兼容OWL的基础上添加了新的功能,有兴趣的读者可以查阅W3C文档。
另外,OWL2包含了三个标准,或者三种配置(Profile),它们是OWL2完整标准(OWL2/Full)的一个子集。
读者目前不用考虑它们之间的差别,只有当我们要用到OWL自动推理功能的时候才需要考虑到底使用哪一种配置。
且在大多数情况下,我们需要知道哪种配置才是最合适的。
下面简单说说它们使用的场景:
1.OWL2/EL使用场景:
本体结构中有大量相互链接的类和属性,设计者想用自动推理机得到里面复杂的关系。
2.OWL2/QL使用场景:
有大量的实例数据。
OWL2QL本体可以被改写为SQL查询,适用于使用OBDA(ontologybaseddataaccess)的方式来访问关系数据库。
也就是说我们不用显式地把关系数据库中的数据转为RDF,而是通过映射的方式,将数据库转为虚拟RDF图进行访问。
3.OWL2/RL使用场景:
需要结合基于规则的推理引擎(rule-basedreasoningengine)的场合。
三、总结本文主要介绍了RDF的序列化方式,如何利用RDFS/OWL进行schema层的建模,和OWL的推理功能。
接下来我们将介绍如何根据现有的关系数据库,利用protege自顶向下地构建自己的本体结构。
参考资料1.LearnRDF-CambridgeSemantics2.LearnOWLandRDFS-CambridgeSemantics3.RDFSchema1.14.OWLWebOntologyLanguageOverview5.OWL2WebOntologyLanguageDocumentOverview(SecondEdition)6.ExploitingLinkedDataandKnowledgeGraphsinLargeOrganisations