基于本体的构件测试领域知识库构建研究Word格式文档下载.docx

资源描述

基于本体的构件测试领域知识库构建研究Word格式文档下载.docx

《基于本体的构件测试领域知识库构建研究Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《基于本体的构件测试领域知识库构建研究Word格式文档下载.docx（11页珍藏版）》请在冰豆网上搜索。

基于本体的构件测试领域知识库构建研究Word格式文档下载.docx

（3）形式化（Formal）：

精确的数学描述；

（4）共享（Share）：

本体体现的是共同认可的知识,反映的是相关领域中公认的概念集。

1.2本体的知识表示元素

本体通过多种知识表示元素表现领域实体的本质及实体间的关联。

这些知识表示元素主要包括：

（1）类（Classes）或概念（Concepts）：

表示领域知识元,包括一般意义上的概念以及任务、功能、策略、行为、过程等,通常具有一定的分类层次关系。

（2）属性（Properties）：

描述概念的性质,是一个概念区别于其他概念的特征。

（3）关系（Relations）：

表示概念之间的关联,形式上定义为n维笛卡儿积的子集∶R∶C1×

C2×

…×

Cn。

在语义上关系对应于对象元组的集合。

（4）函数（Functions）：

表示一类特殊的关系,即由前n-1个要素来唯一决定第n个要素。

（5）公理（Axioms）：

表示永真断言。

在本体中,对于属性、关系和函数都具有一定的关联和约束,这些约束就是公理,公理一般用槽的侧面（Facet）来定义。

（6）实例（Instances）：

表示属于某个概念类的具体实体。

1.3本体的构建原则

T.R.Gruber提出了指导本体构造的5个准则[5]，即：

（1）清晰（Clarity）性：

本体必须有效的说明所定义术语的意思。

定义应该是客观的，与背景独立的。

当定义可以用逻辑公理表达时，它应该是形式化的。

定义应该尽可能的完整。

所有定义应该用自然语言加以说明。

（2）一致（Coherence）性：

本体应该是一致的，也就是说，它应该支持与其定义相一致的推理。

它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。

（3）可扩展性（Extendibility）：

本体应该为可预料到的任务提供概念基础。

它应该可以支持在已有的概念基础上定义新的术语，以满足特殊的需求，而无须修改已有的概念定义。

（4）编码偏差程度最小（Minimalencodingbias）：

概念的描述不应该依赖于某一种特殊的符号层的表示方法。

因为实际的系统可能采用不同的知识表示方法。

（5）本体约定最小（Minimalontologicalcommitment）：

本体约定应该最小，只要能够满足特定的知识共享需求即可。

这可以通过定义约束最弱的公理以及只定义通讯所需的词汇来保证。

1.4本体建立的一般方法

（1）DEF-5方法。

IDEF（ICAMDEFinitionmethod）于20世纪70年代提出,以结构化分析方法为基础,已发展成为一个系列。

IDEF5通过图表语言和细化说明语言来获取某个领域的Ontology。

图表语言虽表达能力有限,但直观,易理解;

细化说明语言具有很强的表达能力,可把隐藏在图表语言内的深层次的信息描述清楚,从而弥补图表语言的不足。

（2）Uschold和King的“骨架法”：

英国Edinburgh大学AI应用研究所基于开发企业建模过程的EnterpriseOntology本体的经验得出，该方法用middle-out方式只提供开发本体的指导方针，是与商业企业有关的术语和定义的集合。

包括如下步骤:

①确定目的和范围。

②建设Ontology:

分为捕获、编码和集成步骤,其中,捕获包括识别相关领域中关键概念和关系,产生概念和关系的文本定义,识别术语；

编码利用形式化语言显式地表现概念化成果；

集成阶段合成来自其他领域的概念和术语。

③评价:

建立本体的评价标准。

④文档化:

把概念、元Ontology等做精文档。

（3）Gruninger和Fox的“评估法”（又称TOVE[6]）：

该方法是加拿大Toronto大学企业集成实验室基于在商业过程和活动建模领域内开发TOVE项目本体的经验，通过本体建立指定知识的逻辑模型。

用一阶逻辑构造了形式化的集成模型，包含企业设计本体、项目本体、调度本体或服务本体。

它具有以下特征：

①为企业的应用软件提供共享的术语；

②用一阶谓词逻辑为每个术语定义尽可能精确的含义；

③用一组Prolog公理来实现本体语义约束，使TOVE能够自动的对与企业有关的常识性问题进行演绎推理；

④定义一套符号，对术语和概念进行图形化的描述。

TOVE本体包括活动、组织、资源、产品、成本和质量等部分，它们组成了集成的企业模型。

（4）Bernaras方法：

欧洲EspritKACTUS项目的目标之一就是调查在复杂技术系统生命周期过程中用非形式化CML语言描述的知识复用的灵活性，以及本体在其中的支持作用。

该方法由应用控制本体的开发，因此每个应用都有相应的表示其所需知识的本体，这些本体既能复用其它的本体，也可集成到以后应用的本体中。

（5）METHONTOLOGY方法：

由西班牙Madrid理工大学AI实验室开发，该框架使能构造知识级本体，包括：

辨识本体开发过程、基于进化原型的生命周期、执行每个活动的特殊技术。

该方法结合了骨架法和GOMEZPEREZ。

基本流程如下:

规格说明书；

知识获取；

概念化；

集成；

实现；

评价；

文档化。

（6）SENSUS方法：

由美国SouthernCalifornia大学信息科学院（ISI）自然语言团队为研发机器翻译器提供无限概念结构所开发的方法。

本文中，通过参考Gruber提出的本体构造原则以及斯坦福大学的NatalyaF.Noy和DeborahL.McGuinness中提出的建议[4]，领域本体构建过程如下：

（1）确定本体的领域与范围；

（2）考虑对已存在的本体的重用；

（3）列举领域中重要的术语、概念；

（4）定义类和类层次；

（5）定义类的属性；

（6）创建实例；

（7）本体的检验评价。

1.5本体构造工具

1.5.1OntoLearn

OntoLearn是UniversityofRome开发的一个基于文本的本体学习工具,它能够获取概念及其关系。

其主要特点是：

将语义解释的方法应用到本体获取中,即首先使用基于语言学和统计的方法从一组文本集中抽取出领域相关的术语，然后使用通用本体中的概念对这些术语进行语义解释，从而确定术语之间的分类和其他语义关系。

OntoLearn选择WordNet作为通用本体，使用WordNet中的概念对获取的术语进行语义解释，从而使所构建的领域本体与WordNet具有明确的关系，这样的好处是有利于不同领域本体之间的互操作和一致化。

1.5.2WebOnto

WebOnto是通过因特网来访问本体知识库的。

WebOnto的设计支持协作浏览本体、生成本体和编辑本体。

更具体地讲，WebOnto提供了一个直接操作的用户界面，使用丰富的方法来显示本体表达式。

WebOnto的目标是方便地使用本体，并且能够容易地建立大规模本体。

WebOnto是一个面向图形化的本体建立工具，它使用的描述语言是OCML。

OCML本体描述语言是一种标准的概念化操作语言，最初是从VITAL项目中发展起来。

这个工具由许多有用的特征，如存储结构图表，分别显示关系、类、规则等等功能。

此外，多个用户可以对本体进行同时操作，不同的用户对所操作的内容进行标注，也可以改变其颜色，这样其他的用户可以知道本体中所改变的部分。

1.5.3Text-To-Onto

Text-To-Onto是UniversityofKarlsruhe开发的一个整合的本体学习工具。

其主要特点是可以支持从多种数据源中获取本体。

目前,它已经可以做到从非结构化数据（纯文本）和半结构化数据（HTML,词典）中获取概念及其关系。

对于从非结构化数据中学习本体,它使用加权的词频统计方法来获取概念,使用基于概念层次聚类法来获取分类关系,使用基于关联规则的方法来获取非分类关系；

对于HTML数据，它将其预处理成纯文本,然后利用基于非结构化数据的本体学习方法从中获取本体；

对于词典,它使用基于模板的学习方法。

该系统能够处理德文和英文的数据源。

1.5.4Ontolingua

OntologyServer是其中最著名的本体构造环境，它主要支持用Ontolingua语言建立本体。

它是在ARPA的知识共享计划的支持下，由美国斯坦福大学的知识系统实验室开发的。

OntologyServer包含一组工具并提供多种服务，主要包括：

本体库的访问和本体的浏览、本体的创建以及从本体实现语言（Ontolingua）到目标语言（如Prolog，CORBA的IDL，CLIPS，Loom和KIF）的转换等。

同时，它还提供3种模式的用户交互方式，即远程合作建立和共享本体、远程查询和修改本体以及独立使用本体。

现在，世界各地的用户都可以通过Internet在OntologyServer创建自己的本体并使用所有可共享的本体库。

1.5.5Proté

Proté

是一个基于Windows的计算机程序。

这个程序是用来建立领域模型本体，由斯坦福大学的医学信息小组开发。

用来辅助软件开发者生成和维护领域模型，并且通过程序代码直接合并这些模型。

方法允许系统开发者从标准的组件中构造软件系统，它包括：

（1）用来组合领域模型的重用框架；

（2）可重用的独立于领域的问题解决方法。

1.5.6OntoEdit

由卡尔斯鲁厄大学开发。

它使用图形方法支持Ontology的开发和维护。

它将开发方法论（骨架法）与合作开发和推理的能力相结合,关注开发的三个步骤:

收集需求阶段、提炼阶段、评估阶段。

OntoEdit支持RDF（S）、DAML+OIL和FLogic。

OntoEdit提供对于Ontology的并发操作。

OntoEdit不开放源代码,已经产品化。

KAON（KarlsruheOntologyandSemanticWebTool是OntoEdit的后继版本。

1.5.7OilEd

这是由曼彻斯特大学开发的基于OIL的Ontology编辑工具,允许用户使用DAML+OIL构建Ontology。

基本设计受到类似工具（如Proté

系列、OntoEdit）的影响,新颖之处在于:

对框架编辑器范例进行扩展,表达力强;

优化描述逻辑推理引擎,可跟踪推理。

它作为原型测试和描述一些新方法,不提供合作开发的能力,不支持大规模开发,不支持移植、合并、Ontology的版本控制以及建设期间的讨论。

其中心组件是描述框架,它由父类的集合组成。

OilEd描述框架与其他框架不同之处在于它允许使用匿名框架描述和高复杂性。

OilEd也可以将Ontology导出为其他格式,如:

SimpleRDFS、SHIQ、SHOQ（D）、HTML、DOTTY、DIG和图形格式。

OilEd提供源代码。

2研究现状及研究意义

2.1研究现状

国外有多个大学和国际性组织在从事本体语言开发工作，其中代表性的组织有：

TheUSbioinformaticscommunity,theUniversityofMaryland,theUniversityofWashington,WorldWideWebConsortium（W3C）,StanfordUniversity,theUniversityofManchesterandVrijeUniversity。

以上组织开发了或者正在开发本体语言、本体语言编辑工具软件。

目前，国内外基于本体的应用研究主要集中在自然科学知识领域，如生命科学、地理空间科学、农业科学，医学等。

2.1.1CYC

达式MCC（MicroelectronicsandComputerTechnologyCorporation）公司的研究项目[7]，其目的是通过本体开发为常识推理（commonsensereasoning）提供基础。

CYC中的知识用一阶谓词逻辑的变种CYCL表达。

知识库中包含简单的声明、推理规则、推理控制规则。

在知识库的基础上，可以使用推理机产生新的推断。

CYC本体按照模块（module）组织，称为微理论（microtheories）。

每个微理论包括某一特定领域知识和推理所需的概念，如空间、时间、因果、智能体等。

某一领域本体可能包括多个微理论，以反映该领域建模的不同侧面和前提。

在这个意义上，CYC不是一体的集成本体，而是一个微理论的网络，该网络的并集为若干领域提供本体约定。

2.1.2Enterprise

Enterprise项目是英国爱丁堡大学人工智能应用研究所（AIAI:

ArtificialIntelligenceApplicationInstitute）的研究项目[8]。

其目的是通过一个集成框架，集成企业建模的方法和工具，以改进和代替现有的建模方法。

该集成框架以企业建模本体为基础。

通过提供一组工具，可以辅助用户进行企业建模和分析，具体内容包括：

1）对于企业模型的捕获和描述；

2）描述经营问题和需求；

3）在战略、战术和操作层次上，确定和评估解决问题的方法以及系统的设计和实现；

4）对相关的度量体系进行表示，并支持高级仿真。

2.1.3NKI中基于本体的领域知识获取

NKI是1995年曹存根提出的一个在国际上首创的概念，全称是国家知识基础设施（NationalKnowledgeInfrastructure）。

NKI的目标是建立一个大型的可共享的知识群体。

在国家知识基础设施中，要对各学科知识（如地理、民族、医学、军事、历史等）进行深层次的概念分析和知识分析，研制一个可共享、可操作的庞大的专业知识群。

要实现最终的目标，就必须建立本体知识库，而“本体中的基本关系”对于构造本体知识库是非常的重要。

2.2领域本体的研究意义及其构建特点

当今是知识爆炸的时代,人们对知识的需要与日剧增。

随着信息通讯技术和互联网的迅速发展和广泛普及,学校纷纷将自己的教育资源数字化、电子化,借助网络媒体提供知识的共享和开放,满足了人们学习、工作的需要。

如何形成有效的知识网络,如何实现更高程度的知识共享和知识创新成为研究的热点。

当前网络教育资源的可用性和共享性差,要想降低重复建设带来的高昂成本,避免资源浪费,需要形成更好的知识共享和重用机制。

知识共享和重用的关键在于共享者对所共享的信息的含义要有一个共同一致的理解,才能在语义层次实现信息的互操作,进而实现更高层的、基于知识的智能应用。

本体是一种能有效表现概念层次结构和语义的模型,提供对领域知识的共同理解,确定领域内共同认可的词汇,从而无论是人还是应用系统之间都能够有效地进行语义上的理解和通讯。

也就是说,本体使得不同开发工具和应用平台的信息之间能够通信、共享和重用,新的知识系统可以有效地利用现有的知识系统,而不必“重新设计”,从而节省大量的人力、物力、财力资源。

一门课程由若干知识点组成,这些知识点分布在各个章节中。

课程知识本体的构建实质就是研究单个知识点对象的属性特征和各知识点之间的相互关系,使用本体技术将这些知识点及其相互关系形式化地表示并存储于计算机中。

本文所构建的构件测试信息知识这一领域本体描述了构件测试信息本中的一系列概念、术语、关系、个体。

通过构建领域本体，一个统一的知识描述模型为实现互操作提供了可能；

本体库中基于描述逻辑的概念蕴涵公理为实现Web资源的知识框架可扩展奠定了坚实的基础；

同时基于规则的推理可以帮助发现领域知识中的蕴涵知识。

3领域本体的构建与实现

3.1本体形式化描述语言的选择

本体形式化描述语言直接影响本体模型的表达能力和可扩展能力。

目前的形式化的本体描述语言非常多，代表性的有KIF、Ontolingua、Loom、OCML、FLogic、RDF、RDF-S、OIL、DAML、OWL、KIF、SHOE、XOL等。

其中,KIF是基于一阶逻辑的,Ontolingua、OCML和Flogic是基于框架和一阶而Loom是基于描述逻辑的。

经过比较，本文选用了OWL（WebOntologyLanguage[9]）。

OWL（WebOntologyLanguage）是W3C[10]最新推荐的Ontology描述语言的标准。

是在WWW上发布和共享Ontology语义标记语言。

作为RDF（S）的扩展,是在DAML+OIL的基础上发展起来的,目的是提供更多的原语以支持更加丰富的语义表达,并支持推理。

OWL有三个子语言:

OWLLite、OWLDL和OWLFull。

其中,OWLLite用于提供给那些只需要一个分类层次和简单属性约束的用户。

推理系统能够保证计算完备性（即所有的结论都能被计算出来）和可判定性（即所有计算都在有限时间完成）。

OWLFull支持那些需要在没有计算保证的语法自由的RDF上进行最大程度表达的用户,它允许在一个Ontology在预定义的（RDF、OWL）词汇表上增加词汇。

OWL的优点是以Web资源为描述对象，又是W3C的推荐标准，所以具有良好的应用前景。

另外，OWL是基于描述逻辑的。

描述逻辑（DescriptionLogic,DL）是一阶谓词逻辑的可判定子集，能够提供可判定的推理服务，并且具有语义特征。

这就意味着基于描述逻辑的OWL的类构造算子和公理都有相应的逻辑描述表示，这样利用OWL构建的本体库在具备良好的表现能力的同时具有强大的推理能力。

3.2本体开发工具的选择

在本文中，采用了Proté

作为本体开发工具。

是一个可扩展的、跨平台的本体编辑工具,拥有可视化用户界面,支持概念层次、概念属性以及原则和约束的定义,为本体的一致性检测和分类学中的组织概念提供自动分类。

采用开放知识库互联OKBC（OpenKnowledgeBaseConnectivity）语言模型。

利用Proté

建立的本体知识库能很方便地与外界系统实现知识共享和互操作。

另外,Proté

作为一个可扩展平台,可以通过插件来扩展功能,用户可以根据需要安装系统提供的插件或自己设计的程序模块,易于维护知识库的完整性和一致性。

其扩展的OWL插件是目前最为强大的OWL本体构建工具。

不仅具有良好的可扩展性和简单灵活的用户定制界面，还具有如下一些特性：

支持图形化本体编辑模式、支持数据库存储模式、基于OWL数据库的多人开发模式和支持逻辑检测功能等。

最新版本的Proté

还增加了对资源多语言描述的支持。

目前，Proté

已有很多的版本，常有的有Proté

2000，Proté

3.1.x，本文中用到的是Proté

3.1.1[11]，如图1所示。

主要是因为它已经带有Proté

-OWL插件和OWLWizards插件。

它适合用于构造一个OWL本体，同时结合推理机Racer[12]能够对构建的本体进行一些简单的推理。

图1Proté

界面

3.3本体的构建过程

3.3.1确定本体的领域与范围

首先，需要确定的是本体构建的目标和需要解决的问题，即需要建立怎么样的领域本体。

即利用本体思想和OWL语言组织和描述“构件测试信息”这一测试领域知识。

那么构建的领域就是构件测试信息知识部分，本设计就以构件测试信息教材作为研究基础。

经研究，认为构建本体有2个重要性依次递减的目标：

（1）利用本体思想和OWL语言组织和描述“构件测试信息”领域知识；

（2）建立具有逻辑检测和可扩展性的本体库。

3.3.2确定核心概念

识别本体构建目标、范围后，首先要做的就是利用本体建立领域知识概念模型。

目前建立领域本体概念模型通常有三种方法[14]：

（1）自顶向下（top-down）方法，其表现形式是由现有的领域本体模型构建应用本体模型，其中应用本体为针对特定对象而生成的本体；

（2）自底向上（bottom-up）方法，其表现形式为将领域知识中名词性的概念、术语等进行识别、处理二义性、归纳、聚类、泛化等处理，建立概念模型；

（3）核心扩展（middle-out）方法，其表现形式为由具有本体雏形的一组核心概念入手，不断扩展本体概念模型。

其中

（1）和（3）方法在目前的本体构建项目中应用比较多，

（2）适用于拥有大量领域知识资料并且能够使用自动或者半自动本体采集生成工具的情况。

采取自底向上方法过于烦琐，而且目前的自动或者半自动本体采集生成工具使用效果也不好，本文中采用核心扩展的方法建立本体概念模型。

使用核心扩展的方法首先需要确定核心概念集。

以构件测试信息知识为基础，经过识别、分析和统计，最终确定了“”、“”、“”、“”、“”，“”等核心概念。

核心概念作为概念模型的顶级概念，必须满足没有二义性并集覆盖整个测试领域知识的要求。

3.3.3定义知识点类和类的层次结构

确立核心概念之后，对由这组具有本体雏形的核心概念进行扩展，建立整个本体概念模型。

这个过程也是一个自顶向下的过程，即根据事先定义好的上一层抽象父类，分别逐步细化说明其下一级子类。

在建立概念体系过程中，有两个问题需要真考虑和解决：

（1）概念间关系的选择和层次结构的组织；

（2）概念层次结构可用性和表达精确性的平衡。

在本体中,类（Class）的定义为共有某些属性而同属一组的一些个体的集合。

类是本体中最主要的知识单元。

多个类可以用“子类”（SubClassOf）关系组织为一个特定的层次结构。

展开阅读全文