情报学报1999国内文本分类研究文献计量分析Word文档格式.docx

资源描述

情报学报1999国内文本分类研究文献计量分析Word文档格式.docx

《情报学报1999国内文本分类研究文献计量分析Word文档格式.docx》由会员分享，可在线阅读，更多相关《情报学报1999国内文本分类研究文献计量分析Word文档格式.docx（19页珍藏版）》请在冰豆网上搜索。

情报学报1999国内文本分类研究文献计量分析Word文档格式.docx

合计

数量（篇）

130

165

225

177

885

比例（%）

0.9

0.8

1.5

3.5

4.9

9.7

14.7

18.6

25.4

100

统计表明，论文年度数量分布呈现出明显的递增趋势和阶段性特征，可将国内文本分类研究划分为三个阶段：

（1）初始阶段（1999-2001年）：

此阶段国内文本分类初露端倪，相关研究论文不多，约占总数的3.2％。

（2）稳步增长阶段（2002-2004年）：

此阶段研究论文数量逐年稳步增加，处于上升阶段，占总量的18.1％，说明学术界开始重视文本分类的研究。

（3）激增阶段（2005-2008年），相关论文激增，每年的发文量都在百篇以上，2007年达到了最高峰。

这个阶段论文数量占到了总数的78.7％，说明近年来该领域进入了热点研究时期，主要原因是随着数字资源的迅猛增长，传统手工文本处理方式已变得不切实际，对自动化程度更高、效果更好的文本分类方法的研究愈加迫切，从而吸引了一大批研究者投身其中。

1.2论文来源分布统计

研究论文来源是了解文本分类研究领域的空间分布特点的最有效的方法，有利于文本分类研究领域资料的收集、整理和研究，进而促进该领域研究的全面、深入发展（见表2）。

表2论文来源分布表

来源

发文量（篇）

占总发文量比例（%）

学术期刊

617

69.7

硕博士论文

210

23.8

会议论文

5.4

专利

1.1

表2看出学术期刊发文量处于绝对的主导地位，占了发文总量的近70%，但硕博士论文也占了发文总量的23.8%，这说明文本分类领域的研究受到了硕博士研究生的高度重视，已成为硕博士毕业论文的热门选题。

为进一步掌握文本分类研究领域核心期刊群，统计617篇学术期刊论文，发现其主要刊登在184种期刊上，其中发文量在10篇以上（含10篇）的期刊有15种（见表3），占总刊数的8.2%，共收录论文288篇，占论文总数的46.7%，表明有近半数的论文刊载在8.2%的少数期刊上，这15种期刊可视为研究文本分类的核心期刊。

计算机类期刊是研究文本分类的重要阵地，53种计算机类期刊共发表文章367篇，约占期刊发文总量的60%。

而计算机核心期刊排名前三位的《计算机学报》、《软件学报》和《计算机研究与发展》，发文量分别为7篇、8篇和12篇。

表3发文量10篇以上的期刊

序号

刊名

占期刊发文总量比例（%）

计算机工程与应用

7.3

计算机工程

5.5

中文信息学报

4.2

计算机科学

情报学报

4.1

计算机应用

3.4

计算机应用研究

2.4

计算机工程与设计

清华大学学报（自然科学版）

2.1

计算机应用与软件

计算机研究与发展

1.9

计算机技术与发展

1.8

情报科学

1.8

微计算机信息

福建电脑

1.6

1.3作者分布统计

衡量科研论文合作程度的常用指标是合作率，1999-2008年文本分类研究作者合著情况见表4。

表4论文著者合著情况表

合作者（个）

1人

2人

3人

4人

5人

6人

299

256

206

在885篇研究论文中，独立作者299篇，占发文总量的33.8%，2人及3人共合作462篇，占发文总量的52.2%，4人及以上作者124篇，占论文总数的14.0%。

合作完成论文586篇，论文合作率为66.2%，可见文本分类研究合作程度相当高，是一个需要学科间交流与合作的综合性研究领域。

统计显示，作者总人数为1324人，而其中发表5篇以上论文的共有18人（包括第二作者），占总人数的1.4%，共发文122篇，占发文总量的13.8%（见表5）。

这说明在文本分类的研究上已初步形成了该领域的核心作者群。

表5核心作者分布表

作者

单位

侯汉清

南京农业大学

王正欧

天津大学

王明文

江西师范大学

林鸿飞

大连理工大学

朱靖波

东北大学

康耀红

海南大学

王煜

河北大学

李荣陆

复旦大学

王元元

中国人民解放军理工大学

伍建军

胡运发

黄河燕

中国科学院计算机语言信息工程研究中心

刘华

暨南大学

陈肇雄

郑玉明

北京工业大学

陈文亮

白清源

福州大学

张素琴

清华大学

在1999-2008年间刊载的885篇文本分类研究论文中，共涉及到100多个来源单位，其中发表10篇以上（含10篇）的单位24个，共发论文392篇，占论文总数的44.3%（见表6）。

同时表中数据表明高校是文本分类研究的中心力量。

表6论文作者单位分布表

单位名称

论文篇数

地区

北京

天津

山西大学

山西

辽宁

河北

重庆大学

重庆

北京理工大学

江西

华中科技大学

湖北

武汉理工大学

吉林大学

吉林

中国科学院计算技术研究所

国防科学技术大学

湖南

南京理工大学

江苏

苏州大学

哈尔滨工业大学

黑龙江

湖南大学

上海

北京交通大学

上海交通大学

北京邮电大学

中国科学院研究生院

1.4主题分布统计

主题分析一定程度上反映文本分类研究领域的热点与重点，有利于了解其目前研究现状和水平，帮助研究人员正确地预测该领域的发展趋势与方向。

而论文的关键词是揭示论文主题的有利线索之一，笔者对885篇研究论文的关键词按技术类别统计如下（见表7）。

表7论文关键词统计分析表

技术类别

关键词（次数）

宏观技术类

-文本分类（618）-

文本自动分类（19）-

自动文本分类（31）-

中文文本分类（13）-

Web文本分类（18）-机器学习（35）-数据挖掘（33）-中文信息处理（23）-计算机应用（21）-文本挖掘（19）

特征降维

-特征选择（117）-特征提取（60）-特征抽取（28）-特征选取（16）-互信息（28）-

属性约简（14）

文本表示模型

-文本表示（11）-向量空间模型（89）-潜在语义索引（16）

分类算法

-分类器（20）-

分类算法（19）-支持向量机（112）-SVM（16）-粗糙集（37）-朴素贝叶斯（29）-

决策树（13）-KNN（27）-

KNN算法（14）-神经网络（23）-

遗传算法（13）

通过对文本分类研究主题进行划分，将研究内容划分为基础理论研究和应用研究两部分。

其中前者按文本分类过程分为：

文本预处理、文本表示、特征降维、分类算法、效果评估。

后者分为各领域的应用研究与文本分类系统设计与开发。

按以上主题对885篇文章进行主题归纳，得到文本分类的论文主题分布如表8所示。

表8文本分类论文主题分布表

主题

详细类别

占百分比（%）

基础

理论研究

预处理

2.3

文本表示

9.6

108

12.2

131

497

56.1

效果评估

综述

2.7

应用研究

文本分类应用

9.2

文本分类系统

6.3

表8表明，国内学者的研究主要集中在文本分类基础理论研究上，共发文748篇，占论文总数的84.5％，其中分类算法研究更是重中之重，有497篇，独占论文总数的56.1%。

而预处理、文本表示和特征降维作为文本分类的基础，是影响分类准确率的重要因素，也受到了研究者的重视，其发文总量达到了213篇，占论文总数的24.1%。

如何客观地评估众多文本分类方法的优劣，是目前值得研究的方向之一，但相关的研究论文只有14篇，占论文总数的1.6%。

文本分类应用研究论文数量较少，共发文137篇，占论文总数的15.5％，这部分论文多是学者在实践分析的基础上得到的经验总结，具有很强的指导性。

文本分类在实践中的应用，正是当前要解决的核心问题，笔者认为文本分类的应用研究有待加强。

2国内文本分类基础理论研究现状

2.1预处理

预处理主要目的是抽取代表文本特征的元数据（特征项），主要包括去除标记、去除停用词、词根还原以及在需要的情况下进行分词处理。

目前中文分词技术是预处理研究的难点和热点问题。

自20世纪80年代初提出自动分词以来，研究出了许多分词方法。

国内分词系统所采用的分词方法主要分为三类：

机械分词法、理解分词法和语义分词法[]。

黄昌宁等认为自2003年国际中文分词评测活动Bakeoff开展以来，中文自动分词技术有了可喜的进步，其主要表现为：

①通过“分词规范+词表+分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；

②实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；

③在Bakeoff数据上的评估结果表明，未登录词造成的分词精度失落至少比分词歧义大5倍以上；

④实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词（或词典）的方法，并使自动分词系统的精度达到了新高【]。

2.2文本表示

文本表示就是把半结构或非结构化的文本数据转换为可供计算机处理的结构化数据。

目前文本的表示模型有多种：

布尔逻辑型、向量空间型、潜在语义索引模型、概率型以及混合型等。

当前文本分类研究领域中文本表示研究主要特点是：

（1）基于向量空间模型的文本表示方法占统治地位。

郝春风等以向量空间模型和tf-idf权值计算公式为基础,提出了以文本分类为目的的权值改进公式p-idf公式[]。

陈龙等则把概念和概念距离引入向量空间模型,建立基于概念的文本表示模型，提高了文本分类的查全率和查准率[]。

（2）基于N-gram语言模型的文本表示方法受到了重新审视。

宋枫溪等认为N-gram表示方式并没有显著降低文本分类器的分类性能，考虑到汉语分词的高度复杂性，在中文文本分类领域中应有良好应用前景[]。

（3）新的文本表示模型的出现。

周昭涛等尝试在文本表示中引入序关系,用图结构来表示文本,提出了一种新的文本表示模型—图表示模型，但实验结果却表明该模型达不到VSM模型所取得的表示效果[]。

2.3特征降维

特征降维是文本自动分类的关键，主要包括特征选择和特征抽取两种方法。

目前特征选择法有：

特征频度（TF）、文本频度（DF）、互信息（MI）、信息增益（IG），χ2统计量（CHI）、特征权（TS）、期望交叉熵（ECE）、文本证据权（WET）、几率比（OR）等。

而常用的特征抽取方法可以分为三类：

主成分分析（PCA）、潜在语义标引（LSI）、非负矩阵分解（NMF）[]。

当前特征降维研究的主要特点是：

（1）传统特征选择方法的改进。

熊忠阳等将频度、集中度、分散度应用到χ2统计方法上，对χ2统计进行改进[]。

李新福在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数[]。

（2）新的特征选择方法的研究。

宋枫溪提出了5种新的特征选择方法：

低损降维方法、频率差方法、Bayes准则法、F1值准则法和Fisher鉴别量法[]。

（3）特征选择方法的比较研究。

秦进等对互信息、期望交叉熵、文本证据权等特征选择方法进行了比较，结果显示，互信息方法效果最优[]。

申红等对χ2统计方法、互信息、信息增益、期望交叉熵等特征选择方法进行了比较,实验结果表明χ2统计方法具有最好的准确率[]。

2.4分类算法

分类模型构建是文本分类核心技术，根据分类知识获取方法不同，文本分类模型可分为基于知识工程的文本分类和基于机器学习的文本分类。

后者可分为三大类：

基于统计的方法、基于规则的方法和基于连接的方法[]，这些方法的主要区别在于规则获取方法不同（见表9）。

目前机器学习的方法已逐渐取代知识工程的方法成为文本分类技术的主流。

表9机器学习分类算法对比表

基于统计的方法

基于规则的方法

基于连接的方法

本质

一种非确定性的定量推理方法、经验主义方法。

一种确定性的演绎推理方法、唯理主义方法。

一种模拟人脑神经网络的方法。

优点

全部知识可以取得很好的一致性和非常高的覆盖率；

对语言处理提供了比较客观的数据依据和可靠的质量保证。

定性描述，充分利用了现有的语言学成果；

对于知识的可理解性、可读性非常重视。

信息分布存放；

运算全局并行；

处理的非线性、容错性。

缺点

会造成对小类别文本的忽视。

在不确定性事件的描述，规则之间的相容性等方面存在缺陷和限制。

学习所形成的知识结构很难理解。

常用方法

贝叶斯、KNN、类中心向量、支持向量机、最大熵模型等。

决策树、关联规则、粗糙集等。

人工神经网络。

2.4.1经典分类算法

到目前为止,已经研究出的经典文本分类方法主要包括：

（1）贝叶斯分类方法。

计算文本属于类别的概率，文本属于类别的几率等于文本中每个词属于类别的几率的综合表达式。

现有的对朴素贝叶斯分类器改进方法的一个关键思路是,当放弃独立性假设以后,如何表示属性变量之间可能存在的依赖关系。

眭俊明等提出了一种基于频繁项集挖掘技术的贝叶斯分类学习算法，该算法使用高阶频繁项集来辅助放松朴素贝叶斯分类器的属性独立性假设,并采用集成学习技术降低模型选择所带来的不利影响[]。

石洪波等则提出了一种限定性的双层贝叶斯分类模型，它通过选择某些合适的属性建立起属性之间的依赖关系,一方面扩大了每个属性可依赖的属性个数,另一方面通过属性空间的搜索来建立属性之间的依赖关系[]。

（2）K最近邻算法。

在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的K篇文本，根据这K篇文本所属的类别判定新文本所属的类别。

现有的KNN改进方法主要分为针对k值选择问题、针对特征属性选择问题和针对距离机制问题三类方法[]。

王修君等为了有效地改进传统的基于KNN的文本分类方法，则将学习型矢量量化（LVQ）和生长型神经气（GNG）结合起来,提出一种新的增量学习型矢量量化方法,该算法能较好地应用于大规模文本数据集合的分类中[]。

（3）类中心分类法。

类中心分类法的算法思想是为每个类定义一个中心向量，在分类系统中，类的含义就由该中心向量代替。

常用的获得类别中心向量的方法主要有Rocchio算法、Windrow-Hoff算法和Exponentiated-gradient算法。

高影繁等提出使用改进的Rocchio分类算法、类别特征信息数据库、类别特征权重向量模型和待归类文档压缩向量表示法等技术实现文档的高速归类[]。

（4）支持向量机。

基于结构风险最小化原理，求解化为一个线性约束的凸二次规划问题，解具有唯一性和全局最优性。

目前国内基于支持向量机文本分类出现了很多研究成果。

李红莲等为了提高支持向量机训练速度,提出了一种改进的向量机NN-SVM:

该算法事先对训练集进行修剪,压缩训练样本数量,再用SVM训练得到分类器[]。

而刘向东等则提出了一种快速的支持向量机分类算法FCSVM,对支持向量集变换,用少量的支持向量代替全部支持向量进行分类计算,在保证不损失分类精度的前提下使得分类速度有较大提高[]。

（5）最大熵模型。

最大墒模型就是给定一些事实集，选择一种模型与现有事实一致，对于未知事件尽可能使其分布均匀。

李荣陆等首次使用最大熵模型进行了中文文本分类的研究，并就特征生成方法、特征数目、特征函数的选择和平滑技术对基于最大熵模型的分类器的性能影响进行了实验和分析[]。

（6）决策树分类算法。

通过决策树对新样本属性值的测试，从树的根节点开始，按照样本属性的取值，逐渐沿着决策树向下，直到树的叶节点，该叶节点表示的类别就是新样本的类别。

典型的决策树方法有CART方法、ID3方法和C4.5方法。

王煜等提出了一种基于词条聚合的决策树文本分类方法，该方法既有决策树易于抽取可理解规则的优势又保证了分类精度[]。

（7）关联分类方法。

其基本思想是利用现有关联规则挖掘算法，产生各类别中频繁出现的特征词或特征词项集,利用频繁特征词项集构造分类规则对测试样本进行分类。

陈晓云等针对现有的关联分类算法CBA、CMAR和ARC的缺陷，提出带词频的关联规则文本分类算法,并利用分类规则树存储规则，既可以确保分类快速又不降低分类精度[]。

（8

展开阅读全文