叙词表无关联词分析与处理.docx

上传人:b****3 文档编号:3751878 上传时间:2022-11-25 格式:DOCX 页数:6 大小:305.90KB
下载 相关 举报
叙词表无关联词分析与处理.docx_第1页
第1页 / 共6页
叙词表无关联词分析与处理.docx_第2页
第2页 / 共6页
叙词表无关联词分析与处理.docx_第3页
第3页 / 共6页
叙词表无关联词分析与处理.docx_第4页
第4页 / 共6页
叙词表无关联词分析与处理.docx_第5页
第5页 / 共6页
点击查看更多>>
下载资源
资源描述

叙词表无关联词分析与处理.docx

《叙词表无关联词分析与处理.docx》由会员分享,可在线阅读,更多相关《叙词表无关联词分析与处理.docx(6页珍藏版)》请在冰豆网上搜索。

叙词表无关联词分析与处理.docx

叙词表无关联词分析与处理

叙词表无关联词分析与处理

常春/王星

2012-11-715:

37:

30  来源:

《情报杂志》(西安)2011年8期

  【英文标题】AnalysisandProcessingonOrphanTerminThesauri

  【作者简介】常春(1966-),男,中国科学技术信息研究所博士,研究馆员,研究方向:

信息组织北京100038;王星(1977-),男,中国科学技术信息研究所学士,软件设计师,研究方向:

程序开发、数据库等北京100038。

  【内容提要】在网络环境下,丰富适用的叙词表词间关系是发挥其信息组织与知识服务功能的重要保障。

通过抽样统计分析《汉语主题词表》中无关联词的特征,统计结果认为无关联词主要由普通事物名词术语及属性概念名称组成,数量大小与概念术语的属性分类没有关系。

在叙词表修订和重新编制中,需要为无关联词建立和增加语义关系,还提出并讨论了两种增加词间关系的方法。

  Inwebenvironment,therichconceptrelationshipsinthesaurusplayanimportantroleofsafeguardininformationorganizationandknowledgeservice.ThepapersamplesandanalyzesthecharacteristicsoforphantermsinChineseThesaurus,andfindsoutthattheorphantermsaremainlygeneralterminologyandconceptsofthenameattribute,andthereisnorelationshipbetweenthenumberoforphantermsandthetermsofattributesofconcept.Forthesaurusrevisionandre-establishment,itisbettertoestablishandincreasesemanticrelationshipfororphanterms,thearticlealsoraisesanddiscussestwomethodstoincreaseconceptrelationships.

  【关键词】无关联词/叙词表/词间关系Orphanterm/Thesaurus/Conceptrelationship

  0引言

  2009年,中国科学技术信息研究所在国内相关研究机构与专家参与下,启动了《汉语主题词表》(工程技术版)的修订与重编工作,修订的出发点是继承,重编的含义是编制适合网络环境下信息组织与信息检索的叙词表,这样的项目完全符合继承与发展的普遍规律。

修订与重编的重要内容包括选词与建立词间关系。

在选词方面,包括继承一些原《汉语主题词表》(以下简称《汉表》)的重要概念及增加一些新的概念;在词间关系方面,也包括继承以前一些重要的词间关系,并且建立更多新的关系。

在项目开展与执行过程中,原《汉表》中一些特殊的叙词——无关联词,成为修订与编制重点讨论与处理的对象。

本文通过对原《汉表》无关联词的调查,对无关联词进行了分析与归类。

通过与其他80多部叙词表进行对比,分析了无关联词产生的原因,面向《汉表》(工程技术版)的修订与重新编制,提出了减少无关联词的方法。

  1减少无关联词的意义

  叙词表中的无关联词,也叫非族中词,几乎在国内每部传统叙词表中都存在,1991年版《汉语主题词表》的无关联词占10%以上[1],2005年出版的《中国分类主题词表》,也有20%的无关联词[2]。

传统叙词表无关联词普遍存在,只是所占比例大小不等。

叙词表作为较为成熟完善的传统知识工具,词间关系,也可以理解为目前图书馆学、情报学领域概念间的语义关系,是叙词表发挥作用的重要措施,对于无关联词,意味着没有表达出概念间的语义关系,也就无从发挥这些概念的语义关系。

这就引发人们思考,为什么传统叙词表中存在无关联词?

在网络时代修订和重新编制叙词表时,应该如何面对无关联词?

或如何处理无关联词?

对于叙词表中无关联词的处理,已经存在的观点是尽量减少无关联词,甚至达到理想的无关联词不存在,即所有的叙词都入族[3],也有关于如何减少无关联词的方法和措施报道[4-5],但现实存在是几乎所有的传统叙词表都存在无关联词。

在网络环境下,基于词频、基于文献保障等思想修订和重新编制的叙词表,将在文献的查全查准等方面发挥更加重要的作用[6],丰富的词间关系,将是新型叙词表的重要特征,也是发挥重要作用的基础与条件保障。

  2无关联词相关定义

  与叙词表无关联词直接相关的概念,主要有以下几个,分别定义如下[7]:

  无关联词(orphanterm):

如果一个叙词,属项(S)、分项(F)和参项(C)都不存在,则这个叙词就是无关联词。

一些无关联词甚至没有代项(D),本文称其为“独词”。

  关联比:

等于(叙词总数-无关联词总数)/叙词总数。

关联比越接近1,说明有语义关系的叙词所占比例越大;或者可以说,关联比越大,则无关联词越少,理想的结果是关联比等于1,即不存在无关联词。

  参照度:

(F项词数+S项词数+C项词数)/叙词总数,参照度越高,则语义关系越丰富;由于参照度是一个平均值,而单个叙词的参照关系数量存在不均衡特点,故参照度与无关联词数量没有直接关系。

可以假设一个极端值,叙词表参照度等于“0”,即所有叙词没有任何F项、S项和C项,这时叙词总数等于无关联词总数,关联比等于0,无关联词的比例为100%,这样的叙词表也就不成其为叙词表了,更可能是一个词汇表,或者是同义词表。

  属分参照度:

(F项词数+S项词数)/叙词总数。

  相关参照度:

C项词数/叙词总数。

  普通名词与专有名词:

叙词表的叙词主要包含普通名词与专有名词两类,普通名词主要指普通事物名称,专有名词表达特定事物的名称。

本文为了分析无关联词的特征,参考文献[8]对这两类名词的不同种类进行了编号,见表1。

  3词表相关统计数据

  文章统计了1991年版《汉表》中的独词,经过统计,数量是7885个。

笔者又对这7885个独词在其他80多部叙词表中进行了检索统计,发现共有3467个独词在其它叙词表中也是独词(完全独词),占43.97%,即这些词在已出版的所有中文叙词表中都没有叙词表的典型的3种关系;4418(7885-3467)个《汉表》独词在其它叙词表中不“独”(非完全独词),占56.03%,即这些词在其它一些叙词表中存在等同关系、等级关系或相关关系的1种或几种。

为了分析《汉表》中7885个独词的特征,限于篇幅,本文从7885个独词中随机抽取了80个词,分析这些词的特征,按照本文表1的概念分类方法,将这些叙词归类如表2。

  4概念分类统计分析

  从表2可以看出,表示各种普通事物的名词术语(编号1.1)占主要比例,总体比例为56/80=70%。

在完全独词中,表示普通事物名词术语的词汇比例为23/33=69.70%,在不完全独词中,表示普通事物名词术语的词汇比例为33/47=70.21%。

从以上比例来看,说明独词中表示普通事物名称的术语占主要比例,而且在完全独词与非完全独词中所占比例基本一致,没有迹象表明非完全独词中普通事物名称概念比例有显著差异。

  第二大类词就是表示事物属性(编号1.2)与技术名称(编号1.3)类词,总体比例为19/80=23.75%。

在完全独词中,这类词汇比例为9/33=27.27%,在不完全独词中,这类名词术语的词汇比例为11/47=23.40%。

从以上比例来看,说明独词中表示普通事物属性与技术名称的术语占次要比例,而且非完全独词中这类词的比例与总体比例相当,没有显著差异,无法得出这类词具备更多的词间关系的结论。

  通过以上数据分析,分别统计没有任何词间关系的完全独词,以及在其它词表中存在关系的非完全独词的概念属性分类特点,可以得出结论,即叙词表的独词主要由普通事物名词术语、事物属性等术语组成,可否建立词间关系,与概念属性种类关系不大。

  5增加无关联词词间关系方法讨论

  网络环境下的叙词表,其适用性建立在丰富的词间关系基础上,在叙词表编制过程中,如果存在无关联词,应该通过以下两种方法添加无关联词的词间关系。

  5.1继承和发展其他相关知识组织系统的词间关系

  《汉表》中的无关联词,有一半以上的独词在其它叙词表中具有词间关系,基于知识的继承与发展关系、知识共享特征,在符合构建叙词表词间关系的基本原则基础上,可以参考、吸收和利用已有的词间关系,增加叙词表概念的参照度,使叙词表的关联比接近1或等于1。

例如表2中的叙词“三角形”,在《汉表》中是一个独词,属于通用概念,无任何词间关系。

可在其它的叙词表中却具备词间关系。

例如,在专业叙词表《数学叙词表》中,“三角形”有5个下位词:

“锐角三角形”、“等腰三角形”、“钝角三角形”、“直角三角形”、“等边三角形”;在《交通叙词表》、《建筑叙词表》、《印刷叙词表》等多部叙词表中有上位词“形状”;在《石油叙词表》中上位词为“平面几何”,相关词为“多边形”、“三斜晶系”;在《自动化与计算机叙词表》中上位词为“多边形”。

通过参考其他叙词表的词间关系,在《汉表》的修订中,可以参考建立属分关系,例如增加上位词“形状”或“多边形”。

下位词的概念细分要考虑叙词表的选词规则,专业叙词表的选词专指度高,例如《数学叙词表》中有5个下位词,但综合叙词表或其他专业叙词表中多数没有下位词。

  《汉表》(工程技术版)的词间关系一者决定于词表的综合性质,概念选词专指度不宜太高;另外,要考虑新型《汉表》的用途或编制目的,要考虑用户需求,要有丰富的语义关系,主要通过机器推理进行使用,可以处理比纸本叙词数量更加宏大的概念术语,所有这些特点决定了在保证词频的基础上,可以增加一些专指度高的词汇,例如“三角形”的5个下位词,如果词频达到了《汉表》选词的标准,也可以增加为下位词,从而丰富了词间关系。

  5.2通过新技术手段建立或增加词间关系

  也可以通过新的技术手段建立或增加新的词间关系。

关于如何建立概念间关系,近年来,随着叙词表修订与重新编制的升温,随着本体构建的深入研究,已经报道了大量自动或辅助增加词间关系的方法,例如《汉表》中的独词“自然界”,在其他中文叙词表也没有任何词间关系,为了增加词间关系,可以考虑使用“共现”的方法,具体方法可以参考文献[9],例如“自然界”与“生态系统”、“生态危机”等词汇共现率比较高;也可以使用聚类的方法,发现一些能够聚到一起的词汇,例如通过不同阈值的设置,可以发现“环境保护”、“人类社会”等词汇可以聚到一起。

如果《汉表》中存在这些概念,可以考虑建立相关关系,从而增加相关参照度。

  为了增加叙词表的语义相关度,面对词间关系,理念为既继承又增加,所以无论是完全独词,还是非完全独词,依据叙词表的编制与修订规则,都应努力增加其叙词参照度。

在机器辅助的条件下,依据特定的算法和规则,增加更多的语义关系,成为目前增加叙词表语义关系的主要方法。

通过领域专家的个人知识体系,增加词间关系,仍然是一种可行的方法。

由于个人知识的差异,手工增加的效率低,影响知识组织体系的构建速度,所以领域专家的作用主要是审阅与确认词间关系。

  6结语

  无关联词在传统叙词表中普遍存在,主要由普通事物名词术语、事物属性等概念类型构成,但没有参照度的原因与词的属性分类没有直接关系。

在网络环境下,叙词表无关联词需要建立或增加新的语义关系,一种方法是以继承为主,即参考已有叙词表的词间关系进行继承与发展;另一方法为全新构建,可以参考目前已经报道的“共现”、“聚类”等方法建立更加丰富的词间关系。

  【参考文献】

  [1]中国科学技术情报研究所.汉语主题词表[M].科学技术文献出版社.1991:

1-18

  [2]侯汉清,李华.《中国分类主题词表》(第二版)评介[J].国家图书馆学刊,2006

(2):

15-20

  [3]倪静,赵新力,钱起霖.国外电子政务主题词表编制及网络化应用的比较分析[J].情报学报,2003,22(5):

565-571

  [4]龚昌明.电子版《国防科学技术叙词表》编制技术[J].情报理论与实践,1999,22

(2):

123-126

  [5]张丽莎,刘锦绣.专业分类主题词表性能测评[J].图书馆学刊,2009(4):

80-82

  [6]曾建勋,常春.网络时代叙词表的编制与应用[J].图书情报工作,2009,53(8):

8-11,16

  [7]侯汉清,马张华.主题法导论[M].北京大学出版社,1991:

124-148

  [8]戴维民.信息组织(第二版)[M].高等教育出版社,2009:

122—124

  [9]常春,赖院根.基于文献标题词汇共现获取词间关系研究[J].图书情报工作,2009,53(8):

17-20

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1