对于国内外对于本体认识的综述Word格式文档下载.docx
《对于国内外对于本体认识的综述Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《对于国内外对于本体认识的综述Word格式文档下载.docx(12页珍藏版)》请在冰豆网上搜索。
Borst(1997)
本体是共享的、概念模型的以及形式化的规范说明
Swartou(1997)
本体是一个为描述某个领域,而按继承关系组织起来的作
为一个知识库的骨架的一系列术语
Studer(1998)
本体是共享的、概念化的、显式的形式化的规范说明
Fensel(2000)
本体是对一个特定领域中的中药概念共享的形式化描述
NoyF.N.(2001)
本体是对某个领域中的概念的形式化的明确表示,每个概
念的特性描述了概念的各个方面及其约束的特征和属性
Fonseca(2001)
本体是以某一观点用详细明确的词汇表描述实体、概念、特性和相关功能的理论
Starla(2003)
本体必须包括所使用术语的规范说明、决定这些术语含义
的协议、以及术语之间的联系来表达概念
目前被大部分人公认的定义是Gruber在1994年提出的:
本体是关于共享概念的一致约定。
共享概念包括用来对领域知识进行建模的概念框架、需要互操作
的主体之间用于交互的与内容相关的协议,以及用于表示特定领域的理论的共同约定。
在知识共享的情况下,本体的形式特化为具有代表性的词汇的定义。
一种
最简单的形式是一种层次结构,用来详细描述类和它们之间的包含关系。
在国内,陆汝钤院士等从实用的角度出发,对本体定义如下“本体是关于某个主题的形式化和说明性表示,包括它的论域、论域中诸对象的名称、定义及相互关系”。
2005年,中国标准化研究院的李景在总结了国内外学者关于本体概念的各种观点之后,认为本体作为知识组织的重要手段应该具有以下要素:
声明
(Statement、公理(Axiom)、概念或类(Concept/Class)、属性(Property,Slot)、函数(Function)、实例(Instanc?
也称个体。
本体作为一种思想、理论和方法,尽管定义众多,但本质上区别不大。
概括起来它们都包括四个主要方面:
①概念化,客观世界现象的抽象模型,把领域的知识抽象为一个个确定的对象;
②明确的定义,对每一个对象的概念及它们之间联系都进行合理地定义;
⑨形式化,需对概念及它们之间关系进行数学表达,且
达到计算机可读的水平;
④共享,本体中反映的知识是其使用者(包括该领域的
专家和一般用户)共同认可的。
二、本体的分类
1.按照领域依赖程度:
(1)顶层(top-1evel)本体:
描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行为等,完全独立于特定的问题和领域,其他本体都是该类本体的特例。
(2)领域(domain)本体:
描述的是特定领域(医学、地理等)中的概念及概念之间的关系。
(3)任务(task)本体:
描述的是特定任务或行为中的概念及概念之间的关系。
(4)应用(application)本体:
描述的是依赖于特定领域和任务的概念及概念之间的关系。
在这个分类当中,领域本体和任务本体是处于同一个研发层次的,它们都能应用顶层本体中定义的词汇来描述自己的词汇。
应用本体既能应用领域本体中的概念,也能引用任务本体中的词汇。
2.按照细化程度
Guarino从两种不同的维度对本体进行划分。
除了依据对领域的依赖程度分类,还提出了以详细程度分类。
详细程度是相对的、模糊的一个概念,是描述或刻画建模对象的程度。
参考(referenee本体:
详细程度高。
共享(shareable本体:
详细程度低。
3.按照形式化程度
(1)高度非形式化:
用自然语言松散表示。
(2)结构非形式化:
用限制的结构化的自然语言表示。
(3)半形式记:
用半形式化(人工定义的)语言表示。
(4)严格形式化:
所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性。
4.按照是否具备推理功能
(1)轻量级本体(Lightweightontology):
轻量级本体不具备逻辑推理功能,例如叙词表和WbrdNet。
(2)中级本体(Middleontology):
中级本体具有简单的逻辑推理功能,系统
可以识别一阶谓词逻辑的表达式
(3)重量级本体(Heavyweightontology):
重量级本体具有复杂的逻辑推理功能,系统可以识别更加复杂的二阶谓词逻辑的表达式,并为更加复杂的推理功能的实现预留了接口,女口cyc本体系引。
5.按本体描述对象的不同,uschold把本体分为特殊领域本体(如医药、地理、金融等)、一般世界知识本体、问题求解本体和知识表示语言本体等。
6.按不同的研究主题:
(1)知识表示本体(KnowledgeRepresentationontologieS,女口Frameontology和斯坦福大学知识系统实验室提出的知识描述语言KIF(KnowledgeInterchangeFormat)。
(2)通用或常识本体(General/commonontologies),如Cyc本体系统。
到2000年为止,Cyc的常识库已有了1600000条知识和几百个微理论(micro—theory)。
(3)领域本体(Domainontologies),如基因本体Go(Geneontologies)爱丁堡大学企业本体。
⑷语言学本体(1inguisticontologies),关于语言、词汇等的本体,典型实例有GUM(GeneralizedUpperModel),WbrdNet和MindNet等。
(5)任务本体(Taskontologies),主要研究如Chandrasekara等人的关于任务和问题求解方法本体的研究。
除了上述几种分类方法外,1999年,Perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:
知识表示本体、常识本体、顶级本体、元(核心)本体、领域本体、语-言本体、任务本体、领域-任务本体、方法本体和应用本体。
这种分类法是对Guarino提出的分类方法的扩充和细化,但是这10种本体之间存在交叉,层次不够清晰。
三、本体开发方法
目前,本体的建立基本还是采用人工方式,建立本体还是一种艺术性的活动而远远没有成为一种工程性的活动,每个本体开发团体都有自己的构建原则、设计标准和不同的开发阶段,所以很难实现本体的共享、重用和互操作。
目前比较成型的本体开发方法包括以下几种:
EnterpriseOntology方法、TOVE方法、METHONTOLOGY、本体生命周期法、KACTUS、SENSUS、
Ontosaurus、ODE(OntologyDesignEnvironment)、EXPECT、WebOnto、OnToKnowledge、OntoWeb、Text-To-Onto、Cyc、WordNet。
构建本体的基本方法,一般分为以下五个步骤:
(1)获得领域知识。
(2)用自然语言对领域知识进行定义和表达。
表达出可由意向定义的术语。
意向定义是指用数量有限的与术语本身不可分割的属性定义它,它们构成基本本体。
(3)采用某种形式化语言对这些定义进行形式化。
首先对领域知识设计的概念进行定义,构成本体系统的概念集合,然后根据本体概念之间的关系,特别是带有明确继承语义的泛化——特例关系,将这些本体概念组织起来,分出层次,建立本体系统的分类体系。
(4)定义过程中产生的文档进行整理。
(5)评估、验证并形成正式的本体系统。
在建立本体的过程中,可以归纳出领域专家在定义本体时应遵循以下原则
(Gruber,1995):
清晰性(clarity);
术语的定义尽可能采用形式化公理描述,避免含糊不清;
一致性(coherence:
)本体的定义必须支持推理的一致性;
可扩展性(extendibility):
概念表达应仔细设计,并考虑到将来可能使用的本体概念,使本体可以被线性地扩展;
编码最少倾向性(minimaleneodingbias):
知识概念化应体现在知识层,而不是依赖于某一特定的符号层的编码。
四、本体表示语言
1.基于谓词演算的本体表示语言当前使用的本体表示语言多数基于框架模型和谓词逻辑。
这类表示语言的长处在于形式化的表示利于机器的自动处理,可以结合包含检查、自动分类等算法;
主要缺点在于形式化表示形式的限定,有些知识很难用谓词逻辑准确地表示出来。
比较具有代表性的基于谓词演算的本体表示语言如KIF(KnowledgeInterchangeFormat)、Ontolingua、CycL、Loom、F-logic(Framelogic)。
2.基于图的本体表示语言基于图的表示方法是另外一种重要的本体表示方法,它的最大特点是直观。
如WordNe的语义网络、概念图(ConceptualGraphsCG)、Conceptual
Representation
3.基于We的本体表示语言
随着We的快速发展,基于We的本体表示语言逐渐成为当前一种重要的知识表示语言。
这种语言基本都采用了基于XML(eXtensibleMarkupLanguag®
的语法结构,主要应用于We信息的表示和共享。
如RDFS(RDFSchema、OIL
(OntologyInterchangeLanguage、DAML+OIL(DARPAAgentMarkup
Language+OIL)、OWL(WebOntologyLanguage)、SHOE(SimpleHTMLOntologyExtension)、OML(OntologyMarkupLanguage)、XOL(XML-basedOntologyexchangeLanguage。
上面所讨论的各种本体表示语言都不是基于汉语而考虑的,都没有考虑到汉
语语言学(尤其是汉语自然语言)的特点。
如果用这些语言来表示汉语的自然语言知识不但效率低、不自然,有些知识甚至根本不能表示。
如果用这些语言以半手工的方式从汉语自然语言中获取海量的知识更是十分困难的工作。
五、构建本体的工具
对于构建本体的工具,国内外计算机领域正在进行相关的研究,现在已经有了一些比较成熟的本体构建工具,如美国斯坦福大学的Protege,德国Karlsruhe大学的KAON工具和斯坦福大学知识系统实验室(KSL)开发的Ontolingua等。
Protege
KAON
ontolingua
获取方式
开源
免费下载
在线免费使用
基于构架
Java(自带JDK)
Java(需安装JDK)
网络版工具
协同工作
不支持
支持
是否支持API
界面易用
好
一般
导入文件格式
RDF(S)、
XML、OWL
RDF(S)
Ontolingua、KIF、IDL
输出文件格式
XML、
RDF(S)、OIL、
OL-model、OWL
IDL、Prolog、CLIPS、
LOOM、Epikit、KIF
DAML、
DAML+OIL、
OWL
构建模式
树形结构
浏览器
模块划分
清晰
数据库存储
仅可存于服务器
外部语义模块
工具成熟度
较好
根据实际使用比较,由于Protege具采取开放源代码,而且在实际使用中,Protege勺本体建设的基本功能比较齐备,使用简单方便,容易上手,并且由于在国内外使用众多,有着详细友好的帮助文档以及大量的使用经验供使用者参考,Protege的具体功能模块划分清晰,并提供了完全的API接口,可以通过外部语义模块例如Racer展推理等功能,还可以直接存储和读取多种主流数据库中存储的本体文件,Protege及其API在易用性和成熟度上都优于其他两种工具•
六、国际上本体论的研究概况
国际上对本体论研究非常活跃,主要集中在人工智能和知识表示领域,近几年来由于因特网的普及,信息技术的发展,网络信息数量以指数形式增长,基于关键词和简单主题分类的网上信息查询结果往往不尽人意,一时间各类信息查询方法和研究如雨后春笋般发展起来,其中用于知识表示和知识管理的本体论,被认为是最有前途的办法之一0本体论的研究兴起是近几年的事,也是网络快速发展的需求。
本体论研究的成果交流,也充分体现了当今网络信息传播的优势。
一篇有重要意义的科技论文,要想在国际上有一定影响的期刊上发表,出版时滞少则半年,多则1年以上。
而近年来与本体论相关的国际会议非常多,既在网络上征集会议论文,又在召开会议的同时及时发布相关重要论文。
同时,也有很多研
究机构对本体论的相关研究使得该项研究成果迅速得以传播。
1.FhG-IITB的研究
弗劳恩霍夫应用技术促进协会信息与数据处理研究所(FhG-IITB)是欧洲在信息领域著名的研究机构,在信息管理,知识管理,项目管理以及软件代理方面拥有前沿的理论与技术,并参与了多个欧盟信息领域的项目,例如现正在执行的欧盟项目有:
(1)CHIL-ComputersIntheHumanInteractionLoophttp:
//chil.server.de
(2)APRON-AviationPolicyInformationResourcesbasedonObservatoryNetworks
http:
//apron.server.de
(3)ProMain—ProgressinEuropeanMaintenanceandManagementofRailwayInfrastructure
//promain.server.de
(4)CroBIT-CrossBorderInformationTechnologyhttp:
//crobit.server.de
该所的Schonbein研究员多年来从事本体论建立的相关研究,在ISVA(IntelligentSensorNetworkforReconnaissanee项目中设计了相关的顶层本体、核心本体和领域本体。
该所的Muller研究员是基于本体论进行知识管理方面的专家,他提出的基于本体论和软件代理进行知识表现和管理的系统模型在多个项目中得到成功应用。
如:
⑴在ISVA(IntelligentSensorNetworkforReconnaissanee项目中,该所开发了一个基于软件代理和本体论的信息协作系统;
(2)在OVID(Strengtheningofself-organizingcapablitiesintrafficusingiuK-supportedsystems项目中,该所开发了基于软件的交通规划和管理模拟系统。
⑶在CHIL(ComputersIntheHumanInteractionLoop)项目中,该所通过软件代理实现计算机自动监测人的行为并对其意图和后续行为进行预测。
2.KSL的研究
美国斯坦福大学的知识系统实验室(KSL—KnowledgeSystemsLaboratory,以下简称KSL),无论是在本体建模工具领域,还是在本体应用层面的研究方面,都站在了知识工程领域的最前沿。
KSL的N.Gruber在1993年最早提出了“本体”在知识工程领域的定义。
他
曾经是首届本体国际会议(FOIS98一FormalOntologyinInformationSystems,1
998)的主席。
Guarino博士根据整体与部分理论、同一性(Identity)理论和关系理论等哲学理论成果,设计了顶级/层本体。
Guarino本体框架的设计特征是根据特殊性(Particulars和普遍性(Universals)两个角度来设计。
特殊性(Particulars)表示具体的实体、事件、物质。
普遍性(Universals)表示从具体事件中抽象出的概念、属性、状态和关系等。
目前,KSL的研究主题主要有以下三大方面:
(1)知识共享技术(KnowledgeSharingTechnologies,包括:
〃本体的合并及诊断(OntologyMergingandDiagnosis);
〃语义网技术;
〃可复用知识的海量存储库(Large—ScaleRepositoriesofReusableKnowledge;
)〃增强的设计对象复用技术(TechnologyforEnhancedReuseofDesignObjects:
)
(2)物理系统的建模与分析(ModelingandAnalysisofPhysicalSystems)包括:
〃异构系统的建模、分析和控铝JJ(Modeling,AnalysisandControlofHybridsystems);
•基于建模支持的分布式协作设计(Model—BasedSupportofDistributedCollaborativeDesign);
〃机械设计的逻辑表示(LogicalRepresentationofMechanicalDesign;
⑶应用性智能系统(AdaptiveIntelligentSystems),包括:
〃虚拟剧院项目(VirtualTheaterProject);
•医院自动护理项目(Guardian);
〃可自主的移动代理项目(AIbots)。
。
在上述研究项目中,知识共享技术居于研究的首位。
而在知识共享技术的研究中,有关本体和以本体为基础的语义网技术的研究又处于首位。
由此足见KSL对本体研究的重视程度。
在本体的合并与诊断项目中,主要的成果是“吐火兽(Chimaera)”,Chimaera是支持用户在We上创建与维护分布式本体的软件系统。
它具有两项优于其它本体构建或编辑工具的功能:
其一、支持多个本体的合并,其二、能够对复合型本体系统中个别的本体进行诊断。
Chimaera支持用户以合并和诊断本体为目的,以
不同的格式下载或上载知识库,重新组织分类法,解决命名的冲突、浏览本体,
以及编辑术语等。
KSL寸语义网技术的研究主要集中于语义标引和基于代理的技术两个方面。
关于语义网技术研究的项目主要是DAML项目。
DAML项目的全称是DARPAAgentMarkupLanguageProject以下简称DAML),其中包含基于DAML的服务(DAML.BasedServices)文档模板(DocumentTemplates和查询式回答(QueryAnswering)等研究子专题。
DAM项目是由美国国防部高级研究计划署(DARPA,TheDefenseAdvaneedResearchProjectsAgency以下简称DARPA)赞助的项目,旨在于开发第二代互联网一语义网的工具和技术。
RichardFikes教授是该项目的主要研发人员,DeborahMcGuinness博士是项
目主管和DAML开发语言工作组的首席科学家。
SheilaMcllraith博士是基于
DAML的WebServices项目的技术主管。
该项目的研究重点有以下四点:
〃DAML语言研究;
〃基于DAML的WebServices技术研究;
•DAML工具研究;
〃基于DAM的问答(QueryAnswering)技术研究。
KSLM“可复用知识海量存储库”的研究是DARP赞助的快捷知识构造
(RKF.RapidKnowledgeFormation)项目的一部分,“可复用知识海量存储库”的前身是高性能知识库项目(HPKB-HighPerformaneeKnowledgeBases)。
该项研究旨在开发支持协同构造和高效利用高度易于重用的分布式本体元库(即综合库,元数据与数据均可以存放进去)。
OntolinguaServe作为KSL的许多知识表示项目的核心服务器,提供了一种分布式协作环境,可以对本体进行浏览、创建、编辑、修改和使用。
Chimaera作为
对本体进行利用的复杂工具。
具备高级合并和知识库清理功能。
KSL还创建了包含本体和知识表示方面信息源的网上文库,用于储存并提供下载。
除此之外,研究基于本体检索加工的学者和机构还有西班牙萨拉戈萨大学(UniversityofZaragoza)的EduardoMena和巴斯克大学(UniversityofBasqueCountry)的ArantzaIliarramendii,以及美国佐治亚大学(UniversityofGeorgia)的大规模分布式信息系统实验室(LSDIS.LargeScaleandDistributed
InformationSystems)159和美国德克萨斯大学计算机系(DepartmentofComputerSciences。
TheUniversityofTexasatAusti