信息资源开发与管理作业.docx

资源描述

信息资源开发与管理作业.docx

《信息资源开发与管理作业.docx》由会员分享，可在线阅读，更多相关《信息资源开发与管理作业.docx（12页珍藏版）》请在冰豆网上搜索。

信息资源开发与管理作业.docx

信息资源开发与管理作业

信息资源开发与管理

———基于文本挖掘的共词分析

1、研究内容

本文是对文本挖掘相关文献的研究，选择的论文和期刊来源于中国知网。

通过对文献资源的检索，寻找到相关的文献资源，并对文献资源进行分析，从而能够对文本挖掘这个研究题目进行一定的了解。

本次研究具体内容包括：

（1）文献资源检索；

（2）文献处理；

（3）分析我国今年来文本挖掘的发展方向与研究热点；

（4）对研究进行总结。

2、文献资源检索与数据收集

本文的研究采用中国学术期刊网（CNKI）全文数据库并选择网络数据总库，时间是2010-2014年，指定主题为“文本挖掘”，共搜索到1203篇文献信息，选取其中的1200篇。

搜索过程如下图所示。

3、关键字分列

4、关键词确定

利用Excel，通过其统计功能，对关键词进行统计。

原始关键词有5534个，从中选择词频为8个及8个以上的，共有51个。

之后并对以下关键词进行删除：

出现频率过高（即比其它关键词高过多），有：

文本挖掘。

筛选后，得到比较高频的关键词50个。

利用Excel的统计功能将所有关键词进行词频统计，获得原始关键词5534个。

选择词频不低于7次的关键词，筛选出51个关键词作为高频词。

其中，关键词“文本挖掘”词频846次，为最高频次。

但鉴于“文本挖掘”与此次研究本研究内容完全重合，在共词分析中难以发挥作用，予以舍弃，得到最终高频关键词50个，筛选如下：

表2高频关键词筛选结果（频次≥7）

4.建立共词矩阵、相似矩阵、相异矩阵

（1）共词矩阵

下表中的这些关键词是有关文本挖掘文献中出现频次较高的词，从较大程度上能够代表中国当前文本挖掘研究的热点。

为了进一步了解这些关键词之间的联系，在建立的数据表中对这些高频关键词进行两两共词检索，统计它们在1200篇文章中同时出现的频率，建立一个50

50的关键词的共词矩阵。

其中，部分共词矩阵数据如下图所示。

共词矩阵为对称矩阵,主对角线的数据定义为缺失,非主对角中单元格的数据为两个关键词共同出现的次数。

如关键词“数据挖掘”与“文本聚类”的共词频次为7,即表示有7篇论文同时使用了这两个关键词。

由于下面运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,因此用系数将共词矩阵转换成相似矩阵,具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。

（2）相似矩阵

由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。

具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的两个关键字总频次开方的乘积，其计算公式是：

利用该公式进行计算,得到相似矩阵。

部分相似矩阵如下：

相似矩阵中的数字表明其对应两个关键词之间的亲疏关系,数值越大则表明关键词之间的距离越近,相似度越好;反之,数值越小则表明关键词之间的距离越远,相似度越差。

在相似矩阵中由于0值过多,统计时误差过大,有可能影响分析结果。

为了方便进一步处理,用1与全部相关矩阵上的数据相减,得到表示两词间相异程度的相异矩阵。

（3）相异矩阵

用1与全部相似矩阵中的数据相减,得到表示两词间相异程度的相异矩阵。

部分相异矩阵如下：

相异矩阵中的数据表示不相似数据,数值越大则表明关键词之间的距离越远,相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越高。

5、聚类分析

聚类分析借助数据挖掘中的聚类分析法，对共词关系网络中的词与词之间的距离进行数学运算分析，将距离较近的主题词聚集起来，形成一个个概念相对独立的类团，使得类团内属性相似性最大，类团间属性相似性最小，以达到将研究领域分类的目的。

本实验采用层次聚类（HierarchicalCluster）,选择离差平方和法（WardsMethod）与离散数据类型（Count）中的斐方（Phi-squareMeasure）方法。

可以初步判断各关键词之间的关联程度。

本实验主要通过运用SPSS20.0版本进行聚类分析。

聚类分析结果树状图如下：

图2聚类分析结果树状图

6、因子分析

在聚类分析基础上,再利用因子分析对研究前沿进行进一步的论证,以利于解释。

因子分析是一种多变量分析方法,能将众多的具有错综复杂关系的指标归结为少数几个综合指标（公共因子或因子变量）,达到降维和简化数据的目的。

因子分析的目标就是用尽可能少的因子去描述众多指标间的联系,其基本思想是把研究对象的变量分组，使得同组内的变量相关性较高，不同组的变量相关性较低。

每组变量称为一个公共因子，这样几个公共因子可以反映原资料大部分信息。

通过下表,可以看出50个关键词中共有23个公共因子被提取,其方差累积贡献率为64.65%，它们能够解释全部信息的64.65%，从而说明50个关键词可以分别从属于23个不同的类别。

本研究是使用SPSS20.0版本进行因子分析。

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

2.245

4.490

2.245

4.490

1.934

3.867

8.358

1.934

3.867

8.358

1.782

3.563

11.921

1.782

3.563

11.921

1.723

3.445

15.366

1.723

3.445

15.366

1.712

3.424

18.790

1.712

3.424

18.790

1.616

3.231

22.021

1.616

3.231

22.021

1.570

3.139

25.161

1.570

3.139

25.161

1.485

2.970

28.131

1.485

2.970

28.131

1.452

2.904

31.035

1.452

2.904

31.035

1.415

2.830

33.865

1.415

2.830

33.865

1.396

2.793

36.657

1.396

2.793

36.657

1.346

2.692

39.349

1.346

2.692

39.349

1.312

2.623

41.973

1.312

2.623

41.973

1.294

2.587

44.560

1.294

2.587

44.560

1.231

2.462

47.022

1.231

2.462

47.022

1.201

2.403

49.425

1.201

2.403

49.425

1.169

2.338

51.763

1.169

2.338

51.763

1.121

2.242

54.004

1.121

2.242

54.004

1.092

2.183

56.188

1.092

2.183

56.188

1.080

2.160

58.348

1.080

2.160

58.348

1.076

2.152

60.499

1.076

2.152

60.499

1.055

2.110

62.609

1.055

2.110

62.609

1.020

2.041

64.650

1.020

2.041

64.650

.984

1.968

66.618

.964

1.928

68.546

.961

1.921

70.467

.918

1.836

72.303

.905

1.810

74.112

.856

1.712

75.825

.834

1.669

77.494

.814

1.628

79.122

.780

1.560

80.682

.753

1.506

82.187

.741

1.483

83.670

解释的总方差

成份

初始特征值

提取平方和载入

合计

方差的%

累积%

合计

方差的%

累积%

.726

1.451

85.121

.708

1.416

86.537

.675

1.349

87.886

.624

1.249

89.135

.620

1.241

90.376

.595

1.190

91.565

.564

1.128

92.693

.556

1.112

93.805

.533

1.067

94.872

.509

1.019

95.891

.472

.945

96.836

.456

.912

97.747

.439

.879

98.626

.376

.751

99.377

.311

.623

100.000

-6.245E-016

-1.249E-015

100.000

提取方法：

主成份分析。

图3碎石图

因子个数碎石图直观地显示出因子分析的前23个因子类别是比较明晰的，根据因子载荷系数大于0.5对命名才有帮助的原则，23个主成分命名如下表所示。

7、研究热点分析

根据上述国内文本挖掘领域的研究结构结合文献对结构，概括起来，国内对文本挖掘的研究热点集中在以下几点（可能存在偏差）：

（1）语义分析

从因子载荷系数来看，有关语义分析的关联性最强，它与关键词提取紧密关联,包含了特征提取、关键词提取。

作为一个在人工智能和计算语言学的方法，它为知识推理和语言提供了一个结构和过程。

由此可见，国内对于文本挖掘的研究在这几方面投入的研究的比较多，也可以知道这是一大研究热点。

（2）聚类算法

聚类分析是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。

聚类分析是由若干模式组成的，通常，模式是一个度量的向量，或者是多维空间中的一个点。

聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

（3）文本聚类

在数字文本膨胀的背景下，利用聚类分析技术对文本数据进行简化表示，通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化推送都是一系列极具发展前景的应用。

K-means是经典的基于划分的聚类算法，相对简单而应用广泛。

（4）Web数据挖掘

Web数据挖掘在信息检索领域应用比较多，主要用于从大量非结构化Web数据中提取和产生知识。

Web数据挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息，通过web数据挖掘可获取竞争对手和客户信息发现用户访问模式等等。

（5）信息抽取

信息抽取（InformationExtraction:

IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。

输入信息抽取系统的是原始文本，输出的是固定格式的信息点。

信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。

这就是信息抽取的主要任务。

信息以统一的形式集成在一起的好处是方便检查和比较。

信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。

至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。

8、总结

本研究以中国全文学术期刊（CNKI）近四年（2010-2014）国内文本挖掘领域的关键词为基础。

通过共词分析方法，结合SPSS软件的层次聚类功能以及因子分析功能，对研究热点以及国内研究现状、方向进行了分析，以期从整体上把握研究重点，同时对现在研究是否偏离实际作出一个判断，为进一步研究做相关参考。

（1）文本挖掘的研究是由实际对于分析海量文本数据提取隐藏信息引发的，并且随着实际效应而逐渐彰显重要性。

（2）从文本挖掘技术的研究和应用状况来看，从语义角度实现文本挖掘的的还比较少，研究比较多的文本挖掘技术是文档分类、文档聚类和自动文摘，是挖掘工作的重要组成部分，处于挖掘过程的学习和知识提取阶段。

（3）在当今世界，一个人或一个组织所获得的文本信息集合十分巨大，而且文本信息集合还在不断地更新和增加，信息检索等技术已不能适应当今文本信息处理的需要，因而，人们开始使用文本挖掘技术来解决这一难题。

通过这次对于有关文本挖掘方面的文献进行供词分析，自己的收获还是比较大的。

但是经过了自己反复几次的处理，分析结果还是不理想，在用SPSS软件对原始关键词生成的相异和相似矩阵进行聚类和因子分析后，发现可聚类较少，因子不明显，对关键词同义合并处理后情况稍好，反复几次这个过程之后得到最后结果也并不很理想，这可能是由于在实验过程中文献的选取或关键词的同义合并处理存在偏差导致结果有误，也可能是文本挖掘涉及的面还比较广但还没有很明显地集中在少数几个方面。

展开阅读全文