1、下表中的这些关键词是有关文本挖掘文献中出现频次较高的词,从较大程度上能够代表中国当前文本挖掘研究的热点。为了进一步了解这些关键词之间的联系,在建立的数据表中对这些高频关键词进行两两共词检索,统计它们在1200篇文章中同时出现的频率,建立一个5050的关键词的共词矩阵。其中,部分共词矩阵数据如下图所示。共词矩阵为对称矩阵, 主对角线的数据定义为缺失, 非主对角中单元格的数据为两个关键词共同出现的次数。如关键词“数据挖掘”与“ 文本聚类” 的共词频次为7, 即表示有7篇论文同时使用了这两个关键词。由于下面运用的多元统计方法对矩阵的数据结构有不同的要求, 为了统计分析的方便, 因此用系数将共词矩阵转
2、换成相似矩阵, 具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。(2)相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的两个关键字总频次开方的乘积,其计算公式是:利用该公式进行计算,得到相似矩阵。部分相似矩阵如下:相似矩阵中的数字表明其对应两个关键词之间的亲疏关系,数值越大则表明关键词之间的距离越近,相似度越好;反之,数值越小则表明关键词之间的距离越远,相似度越差。在相似矩阵中由于0值过多, 统计
3、时误差过大, 有可能影响分析结果。为了方便进一步处理, 用1与全部相关矩阵上的数据相减, 得到表示两词间相异程度的相异矩阵。(3)相异矩阵用1与全部相似矩阵中的数据相减,得到表示两词间相异程度的相异矩阵。部分相异矩阵如下:相异矩阵中的数据表示不相似数据,数值越大则表明关键词之间的距离越远,相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越高。5、聚类分析聚类分析借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小,以达到将研究领域分类的目的。本实验采用
4、层次聚类(Hierarchical Cluster) ,选择离差平方和法(Wards Method) 与离散数据类型(Count)中的斐方( Phi-square Measure) 方法。可以初步判断各关键词之间的关联程度。本实验主要通过运用SPSS20.0版本进行聚类分析。聚类分析结果树状图如下:图2 聚类分析结果树状图6、因子分析在聚类分析基础上,再利用因子分析对研究前沿进行进一步的论证,以利于解释。因子分析是一种多变量分析方法,能将众多的具有错综复杂关系的指标归结为少数几个综合指标(公共因子或因子变量) ,达到降维和简化数据的目的。因子分析的目标就是用尽可能少的因子去描述众多指标间的联系
5、,其基本思想是把研究对象的变量分组,使得同组内的变量相关性较高,不同组的变量相关性较低。每组变量称为一个公共因子,这样几个公共因子可以反映原资料大部分信息。通过下表,可以看出50个关键词中共有23个公共因子被提取,其方差累积贡献率为64.65%,它们能够解释全部信息的64.65%,从而说明50个关键词可以分别从属于23个不同的类别。本研究是使用SPSS20.0版本进行因子分析。解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %12.2454.49021.9343.8678.35831.7823.56311.92141.7233.44515.36651.7123.42418.7906
6、1.6163.23122.02171.5703.13925.16181.4852.97028.13191.4522.90431.035101.4152.83033.865111.3962.79336.657121.3462.69239.349131.3122.62341.973141.2942.58744.560151.2312.46247.022161.2012.40349.425171.1692.33851.763181.1212.24254.004191.0922.18356.188201.0802.16058.348211.0762.15260.499221.0552.11062.60
7、9231.0202.04164.65024.9841.96866.61825.9641.92868.54626.9611.92170.46727.9181.83672.30328.9051.81074.11229.85675.82530.8341.66977.49431.8141.62879.12232.7801.56080.68233.7531.50682.18734.7411.48383.67035.7261.45185.12136.7081.41686.53737.6751.34987.88638.6241.24989.13539.6201.24190.37640.5951.19091.
8、56541.5641.12892.69342.5561.11293.80543.5331.06794.87244.5091.01995.89145.472.94596.83646.456.91297.74747.439.87998.62648.376.75199.37749.311.623100.00050-6.245E-016-1.249E-015提取方法:主成份分析。图3 碎石图因子个数碎石图直观地显示出因子分析的前23个因子类别是比较明晰的,根据因子载荷系数大于0.5对命名才有帮助的原则,23个主成分命名如下表所示。7、研究热点分析根据上述国内文本挖掘领域的研究结构结合文献对结构,概括起
9、来,国内对文本挖掘的研究热点集中在以下几点(可能存在偏差):(1)语义分析从因子载荷系数来看,有关语义分析的关联性最强,它与关键词提取紧密关联,包含了特征提取、关键词提取。作为一个在人工智能和计算语言学的方法,它为知识推理和语言提供了一个结构和过程。由此可见,国内对于文本挖掘的研究在这几方面投入的研究的比较多,也可以知道这是一大研究热点。(2)聚类算法聚类分析是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的,通常,模式是一个度量的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有
10、更多的相似性。(3)文本聚类 在数字文本膨胀的背景下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化推送都是一系列极具发展前景的应用。K-means是经典的基于划分的聚类算法,相对简单而应用广泛。(4)Web数据挖掘Web数据挖掘在信息检索领域应用比较多,主要用于从大量非结构化Web数据中提取和产生知识。Web数据挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息,通过web数据挖掘可获取竞争对手和客户信息发现用户访问模式等等。(5)信息抽取信息抽取 (Information Extraction: IE)是把
11、文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。8、总结本研究以中国全文学术期刊(CNKI)近四年(2010-2014)国内文本挖掘领域的关键词为基础。通过共词分析方法,结合SPSS软件的层次聚类功能以及因子分析功能,对研究热点以及国内研究现状、方向进行了分
12、析,以期从整体上把握研究重点,同时对现在研究是否偏离实际作出一个判断,为进一步研究做相关参考。(1)文本挖掘的研究是由实际对于分析海量文本数据提取隐藏信息引发的,并且随着实际效应而逐渐彰显重要性。(2)从文本挖掘技术的研究和应用状况来看,从语义角度实现文本挖掘的的还比较少,研究比较多的文本挖掘技术是文档分类、文档聚类和自动文摘,是挖掘工作的重要组成部分,处于挖掘过程的学习和知识提取阶段。(3)在当今世界,一个人或一个组织所获得的文本信息集合十分巨大,而且文本信息集合还在不断地更新和增加,信息检索等技术已不能适应当今文本信息处理的需要,因而,人们开始使用文本挖掘技术来解决这一难题。通过这次对于有关文本挖掘方面的文献进行供词分析,自己的收获还是比较大的。但是经过了自己反复几次的处理,分析结果还是不理想,在用SPSS软件对原始关键词生成的相异和相似矩阵进行聚类和因子分析后,发现可聚类较少,因子不明显,对关键词同义合并处理后情况稍好,反复几次这个过程之后得到最后结果也并不很理想,这可能是由于在实验过程中文献的选取或关键词的同义合并处理存在偏差导致结果有误,也可能是文本挖掘涉及的面还比较广但还没有很明显地集中在少数几个方面。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1