本体知识图谱国家科学图书馆青年人才领域前沿项目结题报告基于本体的科学知识图谱方法研究讲解.docx

资源描述

本体知识图谱国家科学图书馆青年人才领域前沿项目结题报告基于本体的科学知识图谱方法研究讲解.docx

《本体知识图谱国家科学图书馆青年人才领域前沿项目结题报告基于本体的科学知识图谱方法研究讲解.docx》由会员分享，可在线阅读，更多相关《本体知识图谱国家科学图书馆青年人才领域前沿项目结题报告基于本体的科学知识图谱方法研究讲解.docx（33页珍藏版）》请在冰豆网上搜索。

本体知识图谱国家科学图书馆青年人才领域前沿项目结题报告基于本体的科学知识图谱方法研究讲解.docx

本体知识图谱国家科学图书馆青年人才领域前沿项目结题报告基于本体的科学知识图谱方法研究讲解

国家科学图书馆青年人才领域前沿项目结题报告

基于本体的科学知识图谱

分析方法研究

撰写人：

王建芳、吴清强、张超星、安新颖

撰写时间：

2011年6月10日

摘要

由于目前基于共词关系绘制的科学图谱可读性不强的问题，本研究尝试利用本体的语义关系来优化共词科学图谱的关系展示，通过理论分析、实验案例来揭示其可行性和有效性。

本研究借鉴相关领域的研究成果，提取本体关系中的上下位关系及关联关系计算词与词之间的语义关系，并根据两种类型的语义关系构建了其与共词关系融合的算法。

通过“农业污染”领域的案例实验，分析了共词关系与本体中体现的上下位关系、关联关系融合的效果，结果显示，上下位关系对共词关系图谱的优化效果有效，而关联关系可以在一定程度上丰富语义关系，并优化聚类结果。

关键词：

科学知识图谱；本体；关系融合

Abstract

Asamethodofscience-mapping，co-wordbasedmappingalwayshaveaquestionofreadability.Thisstudyattemptedtousesemanticrelationstooptimizetheco-wordbasedsicencemapping.Thesemanticrelationsaredefinedbyontology.weusetheoreticalanalysisandtestcasetorevealthefeasibilityandeffectiveness.

Inthisstudy,drawingonresearchinrelatedfields,weextractedhyponymyrelationsand“related”relationsbetweenwordsfromtheselectedontology.Thenbasedonthetwotypesofsemanticrelations,builttheintegrationalgorithmbetweensemanticrelationsandco-wordrelations.Throughthe"agriculturalpollution"fieldcaseexperiments,theresultsshowthathyponymyrelationscontributesfewtotheresultsofco-wordscicenemapping,while“related”relationsisbetter,andafterrelaitonintegration,wecanseerichersemanticrelationstosomeextent,andoptimizedtheclusteringresults.

Keywords:

sciencemapping;ontology;relationintegration

一、研究背景与现状

1.1研究背景

在科学技术自身发展取得巨大进步的同时，对于科学技术发展演化特征的解读也在日益繁荣。

科学技术史考证史实，梳理科学发展的脉络；科学技术社会学审视科学与技术建制的结构与运行机制，描述科学技术与社会的关系；科学哲学界定科学，反思科学，诠释科学发展的逻辑；创造学总结技术系统进化的规律性。

关注科学与技术发展的相关学科对科学技术知识演化的特征做出了规律总结。

情报科学以独特的视角和方法观察、展现科学活动与科研成果。

情报学的独特视角在于利用科学与技术知识的载体作为分析对象，尝试利用定量的方法解读科学与技术知识之间的关联性。

随着文献计量学的发展，尤其是可视化技术的进步，科学图谱方法在揭示科学领域之间的相关关系及其发展演化等方面得到了广泛的应用。

绘制科学图谱的一般方法包括了共引分析方法、引文耦合分析方法、共词分析方法，以及融合了其他文献特征的综合分析方法等。

但无论分析方法如何改进，采用何种可视化计划，基于这些方法绘制的科学图谱一直存在可视化结果可读性不高、结果解释性不够的问题。

因此，对于科学图谱方法的优化是必须解决的问题。

这一问题的解决首先有赖于分析对象之间语义关系的明确。

而知识组织系统对人类知识结构的表达能力在不断提升，包括能揭示语义关系的叙词表、语义网络和本体等，它们通过对于概念、术语及其相互关系的规范化描述，勾画出某一领域的基本知识体系和描述语言，为计算机实现类似人的思考构建一个概念层次。

而概念层次关系的模糊性正是科学图谱方法中导致可读性不高的关键问题，为此，本文试图借助知识组织系统的概念关系来优化科学图谱方法，以提升科学图谱展示的科学进展的质量。

1.2国内外研究进展

1.2.1科学知识图谱及相关研究进展

在科技哲学与科学社会学等领域，对于科学和技术知识演化及其关系的理论阐述已经非常成熟。

文献计量学、科学计量学作为对科学技术发展状况进行数字解读的学科也已经得到了长足的发展，尤其在利用信息可视化技术实现科学发展的展示方面，已经成为目前领域研究的热点，利用其揭示科学发展的前沿等特征的尝试也越来越多。

对科学技术发展演化状况进行可视化分析的方法，即科学图谱分析方法。

科学图谱分析方法的研究中，包括分析过程中若干阶段的研究和实践，力图以更客观真实的图示为读者提供科学发展状况的简化描述。

该过程可以大致划分为如下几个阶段：

根据分析的目的确定计量分析的文献特征；选择分析的方法，构建合适的文献特征之间的关联；对关联特征进行适当的数字化表述，以尽量客观的方式反映知识关系；对数字关系以清晰、易读的可视化形式呈现给读者。

用于计量分析的文献特征有很多，而可用于分析的文献特征中，具有知识表达功能的只有引文、分类和词（短语），如基于引文的共引分析和基于主题词的共词分析等。

引文指向的是一篇文献，代表的是一条法则、规律或一个问题，可以认为是若干知识单元的集合，所以基于引文的分析是不能反映微观层次的知识关联的。

分类一般代表的是一个综合的知识领域，即使是比较详细的分类，对微观知识的反映也是有限的。

因此，为了明确分析知识之间的关联关系，只有选择知识继承与发展的最小功能单元，即词作为分析对象。

共词分析基于的是词之间的关联而进行的知识关联分析，词是代表概念的，因此相比共引分析而言，共词分析揭示的是更微观的知识关系。

但是一般的共词分析没有揭示词之间的语义关系，DT方法作为共词方法的一种改进，利用临近度来揭示语义关联性。

在这些研究领域，国外开创了方法研究的先河，近年来，国内也有越来越多的学者开始这方面的研究和实践应用。

本研究为揭示知识之间的关联关系，选择共词分析的方法，为此以下的研究现状论述以共词分析为主。

早期共词分析方法的基本思想是以问题网络的层次结构为基础，通过包容指数和临近指数两个指标寻找中心-边缘关系，发现目前规模较小但是具有成长潜力的领域，并将问题网络展现为包容地图和临近地图。

在包容图中通过比较问题网络的结构变化说明知识的发展变化，这里的指标通常包括：

中心词的个数、点的位置变化、点与点之间的关联变化、网络密度、结构层次等。

临近地图揭示具有较强关联性的小主题。

随着阈值的降低，越来越多的高频词之间的强关联包括进来。

因此它又被认为是自下而上的分析，揭示问题网络中的微单元知识。

由于上述方法的复杂性及结果解释等问题，后来学者们又开发了基于网络密度和中心度的网络分析方法，并据此建立空间坐标、进行网络比较等。

这里密度用来度量共词网络中聚合成一个主题的内部凝聚程度，中心度用来度量一个研究主题和其它研究主题的相互影响程度。

将密度与中心点分别作为横纵坐标绘制战略坐标图，通过研究主题在图中的位置，以及比较主题在不同时期的位置变化，可以对领域的发展进行一定的预测。

相比较初期的方法，该方法的易操作性大大提高，因此得到了比较广泛的应用。

类似于共引网络聚类图的展现，后来的共词网络分析也依据各种相关度指数，如jaccard指数等计算词之间的相关度，然后通过各种聚类算法绘制网络图，进而对网络图所展示的结果进行定性、定量的分析，揭示知识之间的关联情况。

上述共词分析方法中分析指标的变化，伴随了分析用词、聚类算法、可视化方法的改进等等，使共词分析的结果大大改善，也使得其对科学知识演化的描绘更加可靠。

已有的共词分析应用揭示的知识演化特征可以总结为：

从学科内部关系的角度，区分科学子领域，确定学科结构；从学科之间，以及科学与技术之间的关系层面，揭示研究主题之间的特点与差异；从时间的维度，揭示出特定领域的不同子领域的研究的演化模式及其相互关系；从横向的主题比较中，揭示研究主题接近所属领域热点问题的程度，进而预测特定领域的知识发展趋势。

但目前的研究和应用中还存在很多的问题，当然也是由于知识关系本身的复杂性问题，特别是在具体分析方法上，对于分析对象的选择的研究仍有不足。

在共词分析中，词的选择将严重影响分析的结果，而且不同词的概念属性和集总层次度截然不同，据此得出的共词网络可以说不具有语义解释性。

这里的原因主要在于，词的含义是不够明确的，在不同的语境中会有不同的意义。

这给基于概念词的情报分析带来了疑问。

但是值得注意的是，该问题存在的前提是，词在没有特定语境的情况下，才造成了语义的不明确。

当我们对所分析概念词事先做出语义限定的话，这也就不称其为问题了。

为了揭示深层次的知识演化关系，本人曾对共词图谱的语义解释性问题提出了可行的解决方案。

对于分析词的语义限定是共词分析面临的一个主要挑战，而本体的发展为共词分析词的选择和利用提供了可靠的思路。

因为本体是一种共享词表，可以揭示特定领域之中那些存在着的对象类型或概念及其属性、相互关系。

因此，本研究试图在已有的基于概念词的知识单元形态划分进而建立知识图谱的基础上，尝试引用本体对科学知识领域的描绘对特征词进行语义限定，映射文本分析中提取的关键词或者主题词，将其赋予特定而规定性的语义属性，从而完善共词分析多维视角和语义可解释性。

1.2.2基于本体的情报分析研究进展

根据知识组织系统对人类知识结构的表达能力可以将知识组织系统（KOS）划分为3类：

1）术语列表型（termlists），如字典和术语表；2）分类型（classificationandcategorization），如标题表、分类法和范畴表；3）关系型（relationshipGroups），如叙词表、语义网络和本体。

其中，叙词表是本体出现之前最高端的知识组织系统。

尽管叙词表和本体有不同的起源和用途，但它们都是通过受控词汇来表达概念的概念系统，都提供了对领域知识的共同理解与描述，都追求概念及其之间关系的明确化和描述的形式化；都可以作为特定学科信息（知识）的组织工具，都具有等级结构，并通过等级关系及词（概念、类）间关系将词（概念、类）组织起来；都需要维护与不断修订。

另外，本体的构建通常是以叙词表作为基础和起点的；由于叙词表本质上一种知识组织体系，具有层次结构和分类等级，所以叙词表本身是轻量级本体。

在传统的信息检索系统中，由于语义异构性的存在，使得系统难以满足用户对信息和知识的深层次需求，因此，学者们提出加强基于概念匹配的信息检索系统的研究。

概念匹配，简而言之就是计算词语之间的语义相似度。

与传统的以词形为切入点，建立在词语字面匹配基础上的检索算法相比，语义相似度计算是对源和目标词语间在概念层面上相似程度的度量，需要考虑词语所在的语境和语义等信息。

国外基于本体的语义相似度计算包括基于距离的语义相似度计算、基于信息内容的语义相似度计算、基于属性的语义相似度计算，以及混合式语义相似度计算等。

基于本体的相似度计算研究已经取得很多成果，本研究试图选择适当的相似度计算方法，并与共词关系的关联度相结合，形成集成的词间关系，分析其是否有利于基于共词的科学图谱展示效果的提升。

二、科学图谱语义解释性问题及引入本体的可行性

2.1科学图谱语义解释性问题的分析

关于科学图谱的语义解释性不佳的问题，有很多方面的原因，分析其原因可能包括如下方面：

（1）词与词之间的共现关系，不必然揭示语义关系。

绘制科学图谱的目的是显示科学知识的发展进程或结构关系，从宏观的科学结构来讲，以引文（也就是一篇文献）作为一个节点、以文献间的引用关系来构建科学结构，由于文献本身就是一个语义单元，因此，引文关系揭示的宏观的科学结构比较容易体现语义解释性，而在微观层面，通过共词方法分析科学进展或前沿，分析的节点是单个的词和词组，它们可以揭示一个概念，而概念与概念之间的联系才构成有明确的语义，这里的联系必须是在同一个语境中才可以表现出特定的语义。

但共词分析一般用的关键词和主题词仅仅是出现在同一篇文献的关键词列表中，只有在文献的语境中，这些关键词的之间的语义关系才是明确的。

比如“知识管理”与“竞争情报”同时出现在许多文件的关键词中，但研究的内容有的是研究二者之间的关系，有的是讨论竞争情报对知识管理影响作用，等等。

因此，两个词之间的共现对语义关系的反映是有限的。

（2）由于词与词之间的上下位关系、通用词、专用词以及同义词在文献中出现频度的明显差异，造成共词关系图谱中上位词和通用词的优势地位，从而弱化了更加深层次的语义关系。

这里除了同义词的影响，还有某种语义关联词的影响，如“医生”、“护士”、“医院”、“病床”、“手术室”、“诊断”、“药方”、“感染”、“病情”、“抗体”等词是存在某种关联的。

其中一个特征的存在在某种程度上具有替代其它词的作用，各个特征单独出现的频率可能比较小，而且也许会被一些无关的、出现频率大的词所覆盖。

而如果这些词共同表达的是一个主题的话，它们出现在词表中的语义距离是比较近的，根据词表之间的临近关系，就可以把它们综合起来考虑。

比如从文本中抽出这样一些词信息如下:

{{information:

3,technique:

1,Bayesiantechnique:

1,datum:

2,model:

1,rea:

1}{computer:

4}}其中每个词后面的数字表示在文本中出现的次数。

如果只是分别考虑各个词的词频的话，则Computer最高，但是我们可以知道前面几个词之间有很强的语义关联，它们可以相互补充，从而提高该部分各个词的重要性。

（3）共词关系中所揭示的关联度，使语义关系被弱化。

该问题与上面两个问题相关联，由于通用词的词频往往较高，通用词与通用词之间的共现关系也较多，这样共词关系揭示的往往是通用词之间的关系，从而在很大程度上掩盖了需要重点反映的内在语义关系。

因此，很大程度上，词之间语义关系的复杂性导致了共词关系得出的知识图谱的语义解释性不佳。

2.2基于共词的科学图谱中引入本体关系的可行性分析

本体或叙词表都是通过受控词汇来表达概念的概念系统，但都提供了对领域知识的共同理解与描述，且作为特定学科信息（知识）的组织工具，除能够通过等级关系及词（概念、类）间关系将词（概念、类）组织起来以外，都能够体现词与词之间的语义关联关系。

因此，本体关系从语义的角度体现了词与词之间的关系。

基于共词的科学图谱是通过词与词之间的共现关系来体现研究内容的关联性。

从本质上讲，共词关系与本体关系体现的都是词与词之间的关系，这就构成了二者融合的基础。

2.2.1构建共同的分析词条

用于建立共词关系的词往往是来自于文献的关键词列表，或者从标题、摘要甚至全文中提取的主题词，这些词不可能有非常规范的形式和表达，而本体或叙词表给出的都是经过严格规范的词，因此，在关系融合之前二者的匹配是首先需要解决的问题。

从另一个方面讲，本体或叙词表提供的规范词条可以为共词分析提供关键词清理的工具，因此，可以通过本体的词条对关键词进行不规范词的规范化处理，以及同义词的合并等，这样不仅可以实现关键词的自动清理，在基础上沟通相同的分析词条，进而进行融合。

2.2.2基于共词关系与本体关系的关系融合的思路

共词关系与本体关系的融合，可以有多种思路，首先，可以在具体关系分析之前，也就是图谱绘制之前，基于二者的关系矩阵进行数值换算，得到融合的关系。

这是一种最容易实现的方法，而且在信息过滤等领域，这种融合已经有了比较成熟的经验。

但这里存在的一个问题是，两者本身揭示的关系类型是不同的，经过数值计算的融合结果的得出结果的真正含义是什么？

这一问题可以通过数值计算的不同方式来得到解决，比如简单的加权平均，为了强调某一种关系，可以设置不同的权重。

其次，可以在某一种关系的可视化结果的基础上，进行另一种关系的叠加，这样可以更容易地解释融合后的关系性质，绘制的图谱的结果的解释性会更强。

比如在本体关系可视化图上，叠加共词关系，将共词关系的亲疏通过词之间的连线来表示等。

但类似的做法很少有可以借鉴的经验，但理论上是可行的。

2.3研究思路

本项目尝试利用本体所体现的语义关系来优化共词构建的知识图谱，在一般共词分析的基础上，进行概念语义关系的计算，进而与共词关系进行融合，并分析其对于知识图谱语义解释性的作用，具体如图1。

三、基于本体的科学图谱分析方法

基于本体的科学图谱分析方法首先要确定共词关系、本体关系的计算方法，进而根据融合的目的确定共词关系与本体关系融合的方法。

3.1共词关系与本体关系计算的方法

3.1.1本体层次关系及关联关系的计算

在信息过滤等领域，对于本体中词之间的关系，即本体关系的计算，主要是计算词之间的层次关系和关联关系，层次关系揭示词之间的上下位关系，关联关系揭示词之间的语义相关性，甚至关联的属性。

常见的计算方法包括：

（1）层次关系（RH）：

N1和N2：

分别

为词c1和词c2到共同祖先节点的距离，N3为这个共同祖先到根节点的距离。

ii.

Np：

为词c1到词c2最短通路上的节点的数量

D：

为知识组织体系的层次深度

但分析该公式的含义，Np是从1到2D，上下位关系通过根节点链接，因此Np/2d的大小为1/2D到1，-Log（Np/2d）从log2D到0。

因此，在2D大于底数的情况下，该值就大于1，是错误的值，因此该参数可以改为：

RH2=Np/2D[1/2D,1]..描述的是距离,相似度用1-Np/2D表示。

iii.

RH3=

A（c1）：

为所有词c1的祖先节点（祖先词），包括c1本身

A（c2）：

为所有词c2的祖先节点（祖先词），包括c2本身

以上三种计算方法的结果没有很大区别，本研究尝试利用三种算法进行初步计算，以分析该应用场景的最佳算法。

（2）关联关系（RR）

关联关系是本报告所强调的语义关系的最佳体现，在比较理想的本体结构中，关联关系可以有很多种，或者不同的属性类型，对于此类情况，可以将关联关系分为若干级别，然后计算权重。

一种较为简单的计算方法是按照是否有关联关系计权重来得出关系值，如：

r1表示直接从关联关系表中取得两次词是否有关联关系，有关联关系值为其层次关系值的50%，若没找到关联关系，则该值为0；r2:

加上同义词和注释词的向量表示（词干表示），计算夹角。

则关联关系值为：

r=（r1+r2）/2

对于只揭示一种关联关系“related”的农业叙词表，词之间的语义关联可以简化为，将直接关联的关系参数设定为0.5，

如果：

“word1”haverelation1with“word2”，

“word2”haverelation3with“word3”，

那么word1与word3的关联关系值RR13=0.5×0.5=0.25

3.1.2共词关系计算（RC）

词与词之间的共现关系中的共现词频本身就可以体现共词关联度，在此基础上，学者们又提出了若干计算共词关系强度的算法，这些指数的一般原理为：

将两个本来关系就密切的关键词显得更密切，使关系疏远的关键词显现得更为疏远，由此可以在某一主题内，明显区分核心和非核心概念。

但这些测度指标的计算仅仅是从词的频次或共现的频次出发的，没有考虑这些频次所属分析文献集的大小，因此，很难区分不同的词对相对领域贡献度的大小。

常见的共词关系相似度的计算方法如下：

（1）内积。

设Di=（d1i，d2i，…，dni）T，Dj=（d1j，d2j，…，dnj）T，Di与Dj之间的相似度用内积表示为

（2）Dice系数。

关键词Di、Dj的Dice系数定义为

（3）Jaccard系数。

关键词Di、Dj的Jaccard系数定义为：

（4）余弦函数。

关键词Di、Dj的余弦系数定义为：

作为对比对象，本研究选择Jaccard系数作为共词关系计算的系数。

3.2共词关系与本体关系融合的方法

通过计算，对于任一的词对，可以获得三种关系：

上下位关系RH，关联关系RR和共词关系RC。

重点是将三个矩阵合并，形成关系的合成。

一般来讲，合并权重可以由配置获得（必须满足：

Wrh+Wrr+Wrc=1），若没有，则按照下面算法计算三个关系的权重系数Wrh、Wrr和Wrc：

rh_max：

RH矩阵中非对角线的最大值。

rr_max：

RR矩阵中非对角线的最大值。

rc_max：

RC矩阵中非对角线的最大值。

在本研究中，为分析对比各种类型的关系对共词图谱的作用，首先分别将共词关系与上下位关系、关联关系进行了合并，然后再将三者融合。

合并的算法分别为：

（1）共词关系与上下位关系的合并：

如果上下位关系为0，则合并值仍取共词关系值，如果上下位关系值非零，则合并值为共词关系值*上下位关系值，这样可以在某种程度上调整共词关系的强度，弱化上下位关系的强关联，从而凸显语义关系。

（2）共词关系与关联关系的合并：

为了体现共词关系中的语义联系，也就是说，在不同共词词对中，突出具有语义联系的词之间的关联度，因此，可以利用关联关系来调整共词关系词之间的语义强度，算法为赋权合并，共词关系权重为0.75，关联关系权重为0.25

（3）共词关系、上下位关系与关联关系的合并：

三者的合并目的是在若干上下位关系的基础上，更好体现语义关系，因此这里的算法是在共词关系与上下位关系合并的基础上，在与关联关系进行赋权合并。

权重赋值同上。

四、案例验证及结论分析

4.1案例实验的实施

4.1.1适用本体的选择与结构解析

本研究案例实验选择的本体为联合国粮农组织发布的农业叙词表AgriculturalthesaurusAgrovoc。

由于目前可用的比较完善本体不太容易获得，故选择轻量级的叙词表作为本体的基础集合，而且该叙词表的conceptserver模块还有关键概念与概念关系的范例，力图以本体的形式进行描述，因此，基本可以满足本研究的需求。

分析农业叙词表的结构，其中存储了农业领域的专业概念信息、概念的同义词、概念的上下位词和概念的关联词信息。

这些信息在叙词表中的表现形式如下所示。

about="http:

//www.fao.org/aos/agrovoc#c_10">

lang="en">Abies

lang="en">Firs

resource="http:

//www.fao.org/aos/agrovoc#c_5886"/>

resource="http:

//www.fao.org/aos/agrovoc#c_11"/>

resource="http:

//www.fao.org/aos/agrovoc#c_7776"/>

Concept是概念标签，最后后

展开阅读全文