ImageVerifierCode 换一换
格式:DOCX , 页数:6 ,大小:305.90KB ,
资源ID:3751878      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3751878.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(叙词表无关联词分析与处理.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

叙词表无关联词分析与处理.docx

1、叙词表无关联词分析与处理叙词表无关联词分析与处理常春/王星2012-11-7 15:37:30来源:情报杂志(西安)2011年8期【英文标题】Analysis and Processing on Orphan Term in Thesauri【作者简介】常春(1966-),男,中国科学技术信息研究所博士,研究馆员,研究方向:信息组织北京100038;王星(1977-),男,中国科学技术信息研究所学士,软件设计师,研究方向:程序开发、数据库等北京100038。【内容提要】在网络环境下,丰富适用的叙词表词间关系是发挥其信息组织与知识服务功能的重要保障。通过抽样统计分析汉语主题词表中无关联词的特征,

2、统计结果认为无关联词主要由普通事物名词术语及属性概念名称组成,数量大小与概念术语的属性分类没有关系。在叙词表修订和重新编制中,需要为无关联词建立和增加语义关系,还提出并讨论了两种增加词间关系的方法。In web environment, the rich concept relationships in thesaurus play an important role of safeguard in information organization and knowledge service. The paper samples and analyzes the characteristics

3、 of orphan terms in Chinese Thesaurus, and finds out that the orphan terms are mainly general terminology and concepts of the name attribute, and there is no relationship between the number of orphan terms and the terms of attributes of concept. For thesaurus revision and re-establishment, it is bet

4、ter to establish and increase semantic relationship for orphan terms, the article also raises and discusses two methods to increase concept relationships.【关 键 词】无关联词/叙词表/词间关系Orphan term/Thesaurus/Concept relationship0 引言2009年,中国科学技术信息研究所在国内相关研究机构与专家参与下,启动了汉语主题词表(工程技术版)的修订与重编工作,修订的出发点是继承,重编的含义是编制适合网络

5、环境下信息组织与信息检索的叙词表,这样的项目完全符合继承与发展的普遍规律。修订与重编的重要内容包括选词与建立词间关系。在选词方面,包括继承一些原汉语主题词表(以下简称汉表)的重要概念及增加一些新的概念;在词间关系方面,也包括继承以前一些重要的词间关系,并且建立更多新的关系。在项目开展与执行过程中,原汉表中一些特殊的叙词无关联词,成为修订与编制重点讨论与处理的对象。本文通过对原汉表无关联词的调查,对无关联词进行了分析与归类。通过与其他80多部叙词表进行对比,分析了无关联词产生的原因,面向汉表(工程技术版)的修订与重新编制,提出了减少无关联词的方法。1 减少无关联词的意义叙词表中的无关联词,也叫非

6、族中词,几乎在国内每部传统叙词表中都存在,1991年版汉语主题词表的无关联词占10以上1,2005年出版的中国分类主题词表,也有20的无关联词2。传统叙词表无关联词普遍存在,只是所占比例大小不等。叙词表作为较为成熟完善的传统知识工具,词间关系,也可以理解为目前图书馆学、情报学领域概念间的语义关系,是叙词表发挥作用的重要措施,对于无关联词,意味着没有表达出概念间的语义关系,也就无从发挥这些概念的语义关系。这就引发人们思考,为什么传统叙词表中存在无关联词?在网络时代修订和重新编制叙词表时,应该如何面对无关联词?或如何处理无关联词?对于叙词表中无关联词的处理,已经存在的观点是尽量减少无关联词,甚至达

7、到理想的无关联词不存在,即所有的叙词都入族3,也有关于如何减少无关联词的方法和措施报道4-5,但现实存在是几乎所有的传统叙词表都存在无关联词。在网络环境下,基于词频、基于文献保障等思想修订和重新编制的叙词表,将在文献的查全查准等方面发挥更加重要的作用6,丰富的词间关系,将是新型叙词表的重要特征,也是发挥重要作用的基础与条件保障。2 无关联词相关定义与叙词表无关联词直接相关的概念,主要有以下几个,分别定义如下7:无关联词(orphan term):如果一个叙词,属项(S)、分项(F)和参项(C)都不存在,则这个叙词就是无关联词。一些无关联词甚至没有代项(D),本文称其为“独词”。关联比:等于(叙

8、词总数-无关联词总数)/叙词总数。关联比越接近1,说明有语义关系的叙词所占比例越大;或者可以说,关联比越大,则无关联词越少,理想的结果是关联比等于1,即不存在无关联词。参照度:(F项词数+S项词数+C项词数)/叙词总数,参照度越高,则语义关系越丰富;由于参照度是一个平均值,而单个叙词的参照关系数量存在不均衡特点,故参照度与无关联词数量没有直接关系。可以假设一个极端值,叙词表参照度等于“0”,即所有叙词没有任何F项、S项和C项,这时叙词总数等于无关联词总数,关联比等于0,无关联词的比例为100,这样的叙词表也就不成其为叙词表了,更可能是一个词汇表,或者是同义词表。属分参照度:(F项词数+S项词数

9、)/叙词总数。相关参照度:C项词数/叙词总数。普通名词与专有名词:叙词表的叙词主要包含普通名词与专有名词两类,普通名词主要指普通事物名称,专有名词表达特定事物的名称。本文为了分析无关联词的特征,参考文献8对这两类名词的不同种类进行了编号,见表1。 3 词表相关统计数据文章统计了1991年版汉表中的独词,经过统计,数量是7 885个。笔者又对这7 885个独词在其他80多部叙词表中进行了检索统计,发现共有3 467个独词在其它叙词表中也是独词(完全独词),占43.97,即这些词在已出版的所有中文叙词表中都没有叙词表的典型的3种关系;4 418(7885-3467)个汉表独词在其它叙词表中不“独”

10、(非完全独词),占56.03,即这些词在其它一些叙词表中存在等同关系、等级关系或相关关系的1种或几种。为了分析汉表中7 885个独词的特征,限于篇幅,本文从7 885个独词中随机抽取了80个词,分析这些词的特征,按照本文表1的概念分类方法,将这些叙词归类如表2。4 概念分类统计分析从表2可以看出,表示各种普通事物的名词术语(编号1.1)占主要比例,总体比例为56/80=70。在完全独词中,表示普通事物名词术语的词汇比例为23/33=69.70,在不完全独词中,表示普通事物名词术语的词汇比例为33/47=70.21。从以上比例来看,说明独词中表示普通事物名称的术语占主要比例,而且在完全独词与非完

11、全独词中所占比例基本一致,没有迹象表明非完全独词中普通事物名称概念比例有显著差异。第二大类词就是表示事物属性(编号1.2)与技术名称(编号1.3)类词,总体比例为19/80=23.75。在完全独词中,这类词汇比例为9/33=27.27,在不完全独词中,这类名词术语的词汇比例为11/47=23.40。从以上比例来看,说明独词中表示普通事物属性与技术名称的术语占次要比例,而且非完全独词中这类词的比例与总体比例相当,没有显著差异,无法得出这类词具备更多的词间关系的结论。通过以上数据分析,分别统计没有任何词间关系的完全独词,以及在其它词表中存在关系的非完全独词的概念属性分类特点,可以得出结论,即叙词表

12、的独词主要由普通事物名词术语、事物属性等术语组成,可否建立词间关系,与概念属性种类关系不大。5 增加无关联词词间关系方法讨论网络环境下的叙词表,其适用性建立在丰富的词间关系基础上,在叙词表编制过程中,如果存在无关联词,应该通过以下两种方法添加无关联词的词间关系。5.1 继承和发展其他相关知识组织系统的词间关系汉表中的无关联词,有一半以上的独词在其它叙词表中具有词间关系,基于知识的继承与发展关系、知识共享特征,在符合构建叙词表词间关系的基本原则基础上,可以参考、吸收和利用已有的词间关系,增加叙词表概念的参照度,使叙词表的关联比接近1或等于1。例如表2中的叙词“三角形”,在汉表中是一个独词,属于通

13、用概念,无任何词间关系。可在其它的叙词表中却具备词间关系。例如,在专业叙词表数学叙词表中,“三角形”有5个下位词:“锐角三角形”、“等腰三角形”、“钝角三角形”、“直角三角形”、“等边三角形”;在交通叙词表、建筑叙词表、印刷叙词表等多部叙词表中有上位词“形状”;在石油叙词表中上位词为“平面几何”,相关词为“多边形”、“三斜晶系”;在自动化与计算机叙词表中上位词为“多边形”。通过参考其他叙词表的词间关系,在汉表的修订中,可以参考建立属分关系,例如增加上位词“形状”或“多边形”。下位词的概念细分要考虑叙词表的选词规则,专业叙词表的选词专指度高,例如数学叙词表中有5个下位词,但综合叙词表或其他专业叙

14、词表中多数没有下位词。汉表(工程技术版)的词间关系一者决定于词表的综合性质,概念选词专指度不宜太高;另外,要考虑新型汉表的用途或编制目的,要考虑用户需求,要有丰富的语义关系,主要通过机器推理进行使用,可以处理比纸本叙词数量更加宏大的概念术语,所有这些特点决定了在保证词频的基础上,可以增加一些专指度高的词汇,例如“三角形”的5个下位词,如果词频达到了汉表选词的标准,也可以增加为下位词,从而丰富了词间关系。5.2 通过新技术手段建立或增加词间关系也可以通过新的技术手段建立或增加新的词间关系。关于如何建立概念间关系,近年来,随着叙词表修订与重新编制的升温,随着本体构建的深入研究,已经报道了大量自动或

15、辅助增加词间关系的方法,例如汉表中的独词“自然界”,在其他中文叙词表也没有任何词间关系,为了增加词间关系,可以考虑使用“共现”的方法,具体方法可以参考文献9,例如“自然界”与“生态系统”、“生态危机”等词汇共现率比较高;也可以使用聚类的方法,发现一些能够聚到一起的词汇,例如通过不同阈值的设置,可以发现“环境保护”、“人类社会”等词汇可以聚到一起。如果汉表中存在这些概念,可以考虑建立相关关系,从而增加相关参照度。为了增加叙词表的语义相关度,面对词间关系,理念为既继承又增加,所以无论是完全独词,还是非完全独词,依据叙词表的编制与修订规则,都应努力增加其叙词参照度。在机器辅助的条件下,依据特定的算法

16、和规则,增加更多的语义关系,成为目前增加叙词表语义关系的主要方法。通过领域专家的个人知识体系,增加词间关系,仍然是一种可行的方法。由于个人知识的差异,手工增加的效率低,影响知识组织体系的构建速度,所以领域专家的作用主要是审阅与确认词间关系。6 结语无关联词在传统叙词表中普遍存在,主要由普通事物名词术语、事物属性等概念类型构成,但没有参照度的原因与词的属性分类没有直接关系。在网络环境下,叙词表无关联词需要建立或增加新的语义关系,一种方法是以继承为主,即参考已有叙词表的词间关系进行继承与发展;另一方法为全新构建,可以参考目前已经报道的“共现”、“聚类”等方法建立更加丰富的词间关系。【参考文献】1中

17、国科学技术情报研究所.汉语主题词表M.科学技术文献出版社.1991:1-182侯汉清,李华.中国分类主题词表(第二版)评介J.国家图书馆学刊,2006(2):15-203倪静,赵新力,钱起霖.国外电子政务主题词表编制及网络化应用的比较分析J.情报学报,2003,22(5):565-5714龚昌明.电子版国防科学技术叙词表编制技术J.情报理论与实践,1999,22(2):123-1265张丽莎,刘锦绣.专业分类主题词表性能测评J.图书馆学刊,2009(4):80-826曾建勋,常春.网络时代叙词表的编制与应用J.图书情报工作,2009,53(8):8-11,167侯汉清,马张华.主题法导论M.北京大学出版社,1991:124-1488戴维民.信息组织(第二版)M.高等教育出版社,2009:1221249常春,赖院根.基于文献标题词汇共现获取词间关系研究J.图书情报工作,2009,53(8):17-20

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1