ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:759.71KB ,
资源ID:29210241      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/29210241.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于文献关键词的三元共词分析方法.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于文献关键词的三元共词分析方法.docx

1、基于文献关键词的三元共词分析方法基于文献关键词的三元共词分析方法以知识发现领域为例冷伏海/王林/李勇2012-9-25 9:21:29来源:情报学报(京)2011年10期【英文标题】Ternary Co-words Analysis Based on Literature Keywords: A Case Study in Knowledge Discovery【作者简介】冷伏海,男,1963年生,教授,中国科学院国家科学图书馆博士生导师,情报研究部主任,主要研究方向:高科技信息分析与竞争情报,北京100190;王林,男,1983年生,中国科学院国家科学图书馆博士研究生,研究方向:高科技信息分

2、析与竞争情报。E-mail:wanglin,北京100190,中国科学院研究生院,北京100049;李勇,男,1982年生,中国科学院国家科学图书馆博士研究生,研究方向:高科技信息分析与竞争情报,北京100190,中国科学院研究生院,北京100049【内容提要】共词分析是一种有效的文献内容分析方法,已经在各种情报研究工作中得到了广泛的应用。共词分析方法本身也在应用过程中不断被改进和发展,但是目前共词分析研究主要关注二元词对共现的研究,对三元甚至多元词组的共现很少涉及。研究参考国内外共词分析研究成果,借鉴DLG关联挖掘算法,提出基于位向量的三元共词分析算法和基于坐标图的三元共词结果分析方法,并以

3、国内知识发现研究的期刊论文关键词为对象进行三元共词分析实证研究,发现三元共词结果具有一定的实际意义,三元共词分析有一定的应用价值。Co-word analysis is an effective method for literature content analysis, and the method has been widely used in many information analysis projects.In the past decades, co-word method is constantly being improved and developed, but ther

4、e were major concerns analysis of double words, ternary or even multiple of the common phrases are rarely involved. Reference to the achievement of domestic and international co-word analysis, learn from DLG association mining algorithm, and propose the ternary co-word analysis algorithm that based

5、on bit vector and the map coordinates analysis method of the ternary co-word results. As an empirical, domestic knowledge discovery journal papers key words is studied, and this study finds the results of ternary word has some practical significance, ternary co-word analysis has some practical value

6、.【关 键 词】共词分析/三元共现/三元词组/知识发现/多元共现Co-word analysis/Ternary co-occurrences/Ternary co-words/Knowledge discovery/Multiple co-occurrences共词分析是一种内容分析方法,最早在文献中描述是20世纪70年代。至今共经历了三代共词分析方法,第一代为基于包容指数和临近指数的共词分析方法,第二代为基于战略坐标的共词分析方法,第三代为基于数据库内容结构分析的共词分析方法1。共词分析通过研究领域专业文献主题词的共现情况来分析研究领域的主题分布结构2,透视领域研究热点3,把握领域发展变化

7、过程及趋势4,优化信息检索结果5等。到目前为止,共词分析研究主要以二元词对的共现现象为分析研究基础,尚未发现对多元词组共现现象的研究。本文以国内知识发现研究领域为实证,尝试对多元共词特例三元共词进行研究,重点在于三元共词算法和三元共词结果分析方法的设计。1、数据集的建立1.1选择试验领域知识发现是通过某种手段或者技术从已知的海量数据中发现新知识的过程。知识发现概念的提出最早是在数据挖掘领域6,7,提及知识发现通常专指数据库中的知识发现(Knowledge Discovery in Database,KDD)。与数据库中知识发现几乎同时产生的还有一种基于文献知识发现(Literature-Bas

8、ed Discovery,LBD)非相关文献知识发现8,9,两者虽然都以数据库为应用基础,但是两者无论在发现对象、发现目标、发现方法上都有着本质的区别。数据库中的知识发现是以数据库为挖掘对象,以发现可靠的、有用的、尚未被人知晓的并能为人们理解的规则和模式为目标,以数据挖掘为核心方法的非平凡数据处理过程,研究重点是数据挖掘算法设计。非相关文献知识发现则是以没有共引或共现关系的科技文献为挖掘对象,以发现尚未被公开的知识为目标,以A文献集到B文献集到C文献集的开放式或封闭式目标集构建为方法,研究重点是中间集的选择和过滤。1.2数据集的建立与规范试验以中文核心期刊刊载的知识发现研究论文为数据源,检索数

9、据库选择中国知网(CNKI)中国学术期刊网络出版总库,检索路径为:(主题=知识发现)AND核心期刊,不限定时间进行精确检索。检索日期为2010年7月13日,共返回检索结果1764条。以1764篇期刊论文为源数据,共获得关键词6810个,平均每篇论文有3.9个关键词。对关键词列表中的同义词(例如数据挖掘和数据采掘)、英文关键词(如Association rules)、英文缩写词(如KDD、SVM、IDS等)、中英混写词(如Rough集、Apriori算法等)、简写与全称混写词(如支持向量机SVM、入侵检测系统IDS等)等各种形式的关键词表述方法做简单规范化处理,以统一的替代词替换不同形式的关键词

10、,见表1,尽量降低关键词形式差异对分析结果的影响。 经过上述处理并去重后共得关键词3128个,见表2。2、共词分析算法共词分析方法经历了20多年的发展,形成了比较固定的分析流程和分析算法。二元共词分析一般借助二维表,利用二维表形成共词矩阵,再以共词矩阵为基础进行共词结果的分析,包括临近指数、包容指数、等价值数、中心度、密度的计算等等。但是,利用共词矩阵显然不能完成三元共词分析,二元共词算法不能解决三元共词的运算问题。3、知识发现的共词分析试验以中文期刊知识发现研究论文的关键词并去除“知识发现”(检索词)后为基本词集。另外在试验中发现三元词组的共现强度比二元词对低很多,因此选择词频高于3的关键词

11、为运算词集,以共现强度3的三元词组为运算结果,这样能够保证非相关文献知识发现研究的词组会出现在最终结果中。使用基于位向量的共词分析算法对所选词集进行运算得到二元共词和三元共词结果列表,部分结果见表3。如表3所示,三元词组的共现强度普遍低于二元词对的共现强度,在本研究中三元词组最高共现强度大约是二元词对最高共现强度的1/10。尽管三元词组的共现强度比较低,但是仍然能够在一定程度上反映研究热点、研究现状、主题分布和组合情况。通过二元共词结果能够看到国内知识发现研究主要集中在以数据挖掘 关联规则、数据挖掘 KDD、数据挖掘 数据仓库、数据挖掘 粗糙集这几组词对为代表的研究主题。数据挖掘是数据库中知识

12、发现的核心技术,关联规则是数据挖掘的一个重要研究内容,KDD代表数据库中的知识发现,数据仓库是数据挖掘和数据库中知识发现的挖掘发现对象、粗糙集则是数据挖掘的一种理论方法,这四组词对基本上反映了国内知识发现研究主题的亲疏关系。通过三元共词分析得到以数据挖掘KDD关联规则、关联规则 频繁项目集 增量式更新等为代表的高频三元词组,与二元共词结果相比这些三元词组不仅仅能够反映研究主题的亲疏关系,而且能够更具体、更直接的反映研究方向或研究问题。结合背景知识知道,这两组三元词组所反映的研究问题是:数据库中知识发现研究中主要集中在关联规则挖掘这个方向,而关联规则挖掘的研究则集中在增量式更新数据的频繁项目集挖

13、掘问题上。知识发现另一个重要研究是非相关文献知识发现,在二元共词分析结果中非相关文献知识发现排在第50位,以“非相关文献”与“Swanson”组成的词对为代表。Swanson教授是非相关文献知识发现方法的提出者,这组词对代表的研究主题说明国内非相关文献知识发现研究基本处于引进阶段,这一方面是因为非相关文献引入中国的时间比较晚11,另外也因为非相关文献研究主要是在情报学领域,而国内情报学研究和教育开展也比较晚。在三元共词分析结果中非相关文献知识发现研究排在第16位,较之在二元共词分析结果中的顺序靠前。三元共词分析结果中代表非相关文献知识发现研究的最高频词组是非相关文献Arrowsmith Swa

14、nson,Arrowsmith是非相关文献知识发现第一个原型系统,是非相关文献知识发现研究自动化的第一次实践,该系统的实施者也是Swanson教授,该词组代表的研究主题可能是对Swanson教授非相关文献知识发现工具Arrowsmith的介绍。通过对比二元共词与三元共词结果,可以看到这两种方法反映的问题并不完全一致。二元共词结果反映的是以关键词所代表的研究主题之间的亲疏程度,三元共词结果反映的是以词组组配所代表的研究方向或问题,三元共词结果比二元共词结果所呈现的结果更具体。另外,三元共词分析能够得到二元共词分析所不能看到的问题,如三元词组关联规则 频繁项目集 增量式更新所反映的问题是通过二元共

15、词分析看不到的。4、三元共词的坐标分析二元共词分析有多种可视化分析方法,包括可视化聚类图、社会网络结构、战略坐标图等,但是这些方法都是以二元共词分析的共词矩阵为基础,显然不适于三元共词结果的分析。但可视化分析又是一种易于阅读、方便直接的分析方法,有助于对研究结果进行更完整、更清晰的认识。试验通过计算共词矩阵的稳定度、影响力两个指数,尝试使用二维坐标图对三元共词结果进行可视分析。图1三元词组稳定度和影响力坐标图(前50位)选择三元词组共现强度较高的前50位,以稳定度为Y轴纵坐标,以影响力为X轴横坐标,生成坐标图(图1)。如图1所示,词组影响力与稳定度基本成反比关系,在坐标图中看到,影响力最高的坐

16、标是(0.550,0.049),它所代表的词组是数据挖掘,KDD,粗糙集,同时从图中可以看到这个词组的稳定度很低;稳定度最高的坐标是(0.002,0.833),它所代表的词组是中药饮片,用量标准,中国药典,这个词组的影响力很低。另外,从坐标图中看到前50位词组在分布上大体形成了6个区间:A区间词组有很高的稳定度但是影响力弱,该区间有两个点分别代表词组粗糙集,序信息系统,粗糙度,该词组中每个关键词的频次分别是161,3,3,词组的共现强度是3,影响力和稳定度坐标是(0.125,0.673);B区间词组稳定度较高但影响力弱,其中该区间包含代表非相关文献知识发现研究的词组非相关文献,Arrowsmi

17、th,Swanson,这个词组中每个关键词的频次分别是25,6,6,共现强度为3,影响力和稳定度坐标是(0.016,0.373);C区间词组稳定度和影响力都弱,如代表利用知识发现方法解决网络安全问题研究的词组入侵检测,支持向量机,网络安全,这个词组中每个关键词的频次分别是99,38,21,共现强度为3,影响力和稳定度坐标是(0.124,0.084);D区间词组稳定度和影响力都很高,在这个区间中没有词组;E区间词组稳定度较高影响力很高,如代表利用数据挖掘提供个性化服务研究的词组数据挖掘,KDD,个性分析引擎,这个词组中每个关键词的频次分别是520,163,2,共现强度为3,影响力和稳定度坐标是(

18、0.442,0.339);F区间词组影响力很高但是稳定度差,如代表关联规则挖掘算法研究的词组数据挖掘,粗糙集,神经网络,这个词组中每个关键词的频次分别是520,161,51,共现强度为3,影响力和稳定度坐标是(0.461,0.042),虽然该词组共现强度较高而且词组影响力也比较大,但是该词组的共现稳定性却很差。5、总结本文对三元共词分析的算法和三元共词结果的分析方法进行了一些探索和尝试,发现通过三元共词分析能够得到一些二元共词分析不能发现的有效信息,并且这些信息能够在一定程度上反映实际问题,这说明三元共词分析是有意义的。但是在试验当中也存在一些不足:在数据规范化过程中只对高频关键词进行了规范和

19、统一,没有对低频关键词进行处理,因为三元词组的共现强度整体较低,这对最终结果的准确性有较大的影响;坐标图分析中所选择影响力、稳定度作为横纵坐标的方法还有待进一步讨论,并且指标的计算方法还需要更多的试验检验;三元共词结果的分析方法还有待进一步的研究;试验只对三元共词进行了探索,试验所选方法是否适用于多元共词分析还有待进一步探讨。【参考文献】1冯璐,冷伏海.共词分析方法理论进展J.中国图书馆学报,2006,32(2):88-92.2Lee B, Jeong Y I. Mapping Koreas national R & D domain of robot technology by using

20、the co-word analysisJ. ScientoMetrics, 2008, 77(1):3-19.3姜春林,杜维滨,李江波.经济学研究热点领域知识图谱:共词分析视角J.情报杂志,2008,27(9):78-80.4Bredillet C N. Investigating the Future of Project Management: A co-word analysis approachC. Proceedings of IRNOP VII Project Research Conference, 2006:477-497.5Rokaya M, Atlam E, Fuketa

21、 M, et al. Ranking of field association terms using Co-word analysisJ. Information Processing & Management, 2008, 44(2):738-755.6刘素芹,时念云,徐九韵,等.数据库中的知识发现研究进展J.油气田地面工程,2003,22(4):54-55.7旷平剑.数据采掘与知识发现综述J.现代计算机(专业版),2002,(6):13-17.8Swanson D R. Fish Oil, Raynauds Syndrome, and Undiscovered Public Knowle

22、dgeJ. Perspectives in Biology and Medicine, 1986, 30(1):7-18.9张树良,冷伏海.基于文献的知识发现的应用进展研究J.情报学报,2006,25(6):700-712.10Yen Show-Jane, Chen Arbee L P. An efficient approach to discovering knowledge from large databasesJ. Proceedings of the fourth international conference on Parallel and distributed information systems, 1996:8-18.11马明,武夷山.Don R. Swanson的情报学学术成就的方法论意义与启示J.情报学报,2003,22(3):259-266.

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1