情报学报1999国内文本分类研究文献计量分析Word文档格式.docx-资源下载

情报学报1999国内文本分类研究文献计量分析Word文档格式.docx

1、合计数量（篇）8713314386130165225177885比例（%）0.90.81.53.54.99.714.718.625.420100统计表明，论文年度数量分布呈现出明显的递增趋势和阶段性特征，可将国内文本分类研究划分为三个阶段：（1）初始阶段（1999-2001年）：此阶段国内文本分类初露端倪，相关研究论文不多，约占总数的3.2。（2）稳步增长阶段（2002-2004年）：此阶段研究论文数量逐年稳步增加，处于上升阶段，占总量的18.1，说明学术界开始重视文本分类的研究。（3）激增阶段（2005-2008年），相关论文激增，每年的发文量都在百篇以上，2007年达到了最高峰。这个阶段

2、论文数量占到了总数的78.7，说明近年来该领域进入了热点研究时期，主要原因是随着数字资源的迅猛增长，传统手工文本处理方式已变得不切实际，对自动化程度更高、效果更好的文本分类方法的研究愈加迫切，从而吸引了一大批研究者投身其中。1.2 论文来源分布统计研究论文来源是了解文本分类研究领域的空间分布特点的最有效的方法，有利于文本分类研究领域资料的收集、整理和研究，进而促进该领域研究的全面、深入发展（见表2）。表2 论文来源分布表来源发文量（篇）占总发文量比例（%）学术期刊61769.7硕博士论文21023.8会议论文485.4专利101.1表2看出学术期刊发文量处于绝对的主导地位，占了发文总量的近70

3、%，但硕博士论文也占了发文总量的23.8%，这说明文本分类领域的研究受到了硕博士研究生的高度重视，已成为硕博士毕业论文的热门选题。为进一步掌握文本分类研究领域核心期刊群，统计617篇学术期刊论文，发现其主要刊登在184种期刊上，其中发文量在10篇以上（含10篇）的期刊有15种（见表3），占总刊数的8.2%，共收录论文288篇，占论文总数的46.7%，表明有近半数的论文刊载在8.2%的少数期刊上，这15种期刊可视为研究文本分类的核心期刊。计算机类期刊是研究文本分类的重要阵地，53种计算机类期刊共发表文章367篇，约占期刊发文总量的60%。而计算机核心期刊排名前三位的计算机学报、软件学报和计算机研

4、究与发展，发文量分别为7篇、8篇和12篇。表3 发文量10篇以上的期刊序号刊名占期刊发文总量比例（%）1计算机工程与应用457.32计算机工程345.53中文信息学报264.24计算机科学5情报学报254.16计算机应用213.4计算机应用研究152.4计算机工程与设计9清华大学学报（自然科学版）2.1计算机应用与软件11计算机研究与发展121.9计算机技术与发展1.8情报科学 1.814微计算机信息福建电脑1.61.3 作者分布统计衡量科研论文合作程度的常用指标是合作率，1999-2008年文本分类研究作者合著情况见表4。表4 论文著者合著情况表合作者（个）1 人2 人3 人4 人5人6人2

5、9925620695在885篇研究论文中，独立作者299篇，占发文总量的33.8%，2人及3人共合作462篇，占发文总量的52.2%，4人及以上作者124篇，占论文总数的14.0%。合作完成论文586篇，论文合作率为66.2%，可见文本分类研究合作程度相当高，是一个需要学科间交流与合作的综合性研究领域。统计显示，作者总人数为1324人，而其中发表5篇以上论文的共有18人（包括第二作者），占总人数的1.4%，共发文122篇，占发文总量的13.8%（见表5）。这说明在文本分类的研究上已初步形成了该领域的核心作者群。表5 核心作者分布表作者单位侯汉清南京农业大学王正欧天津大学王明文江西师范大学林鸿飞

6、大连理工大学朱靖波东北大学康耀红海南大学王煜河北大学李荣陆复旦大学王元元中国人民解放军理工大学伍建军胡运发黄河燕中国科学院计算机语言信息工程研究中心刘华暨南大学陈肇雄郑玉明北京工业大学陈文亮白清源福州大学张素琴清华大学在1999-2008年间刊载的885篇文本分类研究论文中，共涉及到100多个来源单位，其中发表10篇以上（含10篇）的单位24个，共发论文392篇，占论文总数的44.3%（见表6）。同时表中数据表明高校是文本分类研究的中心力量。表6 论文作者单位分布表单位名称论文篇数地区30北京24天津山西大学23山西22辽宁19河北重庆大学重庆北京理工大学18江西华中科技大学16湖北武汉理工大

7、学吉林大学吉林中国科学院计算技术研究所国防科学技术大学湖南南京理工大学江苏苏州大学哈尔滨工业大学黑龙江湖南大学上海北京交通大学上海交通大学北京邮电大学中国科学院研究生院1.4主题分布统计主题分析一定程度上反映文本分类研究领域的热点与重点，有利于了解其目前研究现状和水平，帮助研究人员正确地预测该领域的发展趋势与方向。而论文的关键词是揭示论文主题的有利线索之一，笔者对885篇研究论文的关键词按技术类别统计如下（见表7）。表7 论文关键词统计分析表技术类别关键词（次数）宏观技术类-文本分类（618） -文本自动分类（19） -自动文本分类（31） -中文文本分类（13） -Web文本分类（18） -

8、机器学习（35） -数据挖掘（33） -中文信息处理（23） -计算机应用（21） -文本挖掘（19）特征降维-特征选择（117） -特征提取（60） -特征抽取（28） -特征选取（16） -互信息（28） -属性约简（14）文本表示模型-文本表示（11） -向量空间模型（89） -潜在语义索引（16）分类算法-分类器（20） -分类算法（19） -支持向量机（112） -SVM（16） -粗糙集（37） -朴素贝叶斯（29） -决策树（13） -KNN（27） -KNN算法（14） -神经网络（23） -遗传算法（13）通过对文本分类研究主题进行划分，将研究内容划分为基础理论研究和应用

9、研究两部分。其中前者按文本分类过程分为：文本预处理、文本表示、特征降维、分类算法、效果评估。后者分为各领域的应用研究与文本分类系统设计与开发。按以上主题对885篇文章进行主题归纳，得到文本分类的论文主题分布如表8所示。表8文本分类论文主题分布表主题详细类别占百分比（%）基础理论研究预处理2.3文本表示859.63310812.25470881319249756.1效果评估综述2.7应用研究文本分类应用17819.2文本分类系统566.3表8表明，国内学者的研究主要集中在文本分类基础理论研究上，共发文748篇，占论文总数的84.5，其中分类算法研究更是重中之重，有497篇，独占论文总数的56.1

10、%。而预处理、文本表示和特征降维作为文本分类的基础，是影响分类准确率的重要因素，也受到了研究者的重视，其发文总量达到了213篇，占论文总数的24.1%。如何客观地评估众多文本分类方法的优劣，是目前值得研究的方向之一，但相关的研究论文只有14篇，占论文总数的1.6%。文本分类应用研究论文数量较少，共发文137篇，占论文总数的15.5，这部分论文多是学者在实践分析的基础上得到的经验总结，具有很强的指导性。文本分类在实践中的应用，正是当前要解决的核心问题，笔者认为文本分类的应用研究有待加强。2 国内文本分类基础理论研究现状 2.1 预处理预处理主要目的是抽取代表文本特征的元数据（特征项），主要包括去

11、除标记、去除停用词、词根还原以及在需要的情况下进行分词处理。目前中文分词技术是预处理研究的难点和热点问题。自20世纪80年代初提出自动分词以来，研究出了许多分词方法。国内分词系统所采用的分词方法主要分为三类：机械分词法、理解分词法和语义分词法。黄昌宁等认为自2003年国际中文分词评测活动Bakeoff开展以来，中文自动分词技术有了可喜的进步，其主要表现为：通过“分词规范+词表+分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；在Bakeoff数据上的评估结果表明，未登录词造成

12、的分词精度失落至少比分词歧义大5倍以上；实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词（或词典）的方法，并使自动分词系统的精度达到了新高【。2.2文本表示文本表示就是把半结构或非结构化的文本数据转换为可供计算机处理的结构化数据。目前文本的表示模型有多种：布尔逻辑型、向量空间型、潜在语义索引模型、概率型以及混合型等。当前文本分类研究领域中文本表示研究主要特点是：（1）基于向量空间模型的文本表示方法占统治地位。郝春风等以向量空间模型和tf-idf权值计算公式为基础,提出了以文本分类为目的的权值改进公式p-idf公式。陈龙等则把概念和概念距离引入向量空间模型,建立基于概

13、念的文本表示模型，提高了文本分类的查全率和查准率。（2）基于N-gram语言模型的文本表示方法受到了重新审视。宋枫溪等认为N-gram表示方式并没有显著降低文本分类器的分类性能，考虑到汉语分词的高度复杂性，在中文文本分类领域中应有良好应用前景。（3）新的文本表示模型的出现。周昭涛等尝试在文本表示中引入序关系,用图结构来表示文本,提出了一种新的文本表示模型图表示模型，但实验结果却表明该模型达不到VSM模型所取得的表示效果。2.3 特征降维特征降维是文本自动分类的关键，主要包括特征选择和特征抽取两种方法。目前特征选择法有：特征频度（TF）、文本频度（DF）、互信息（MI）、信息增益（IG），2统

14、计量（CHI）、特征权（TS）、期望交叉熵（ECE）、文本证据权（WET）、几率比（OR）等。而常用的特征抽取方法可以分为三类：主成分分析（PCA）、潜在语义标引（LSI）、非负矩阵分解（NMF）。当前特征降维研究的主要特点是：（1）传统特征选择方法的改进。熊忠阳等将频度、集中度、分散度应用到2统计方法上，对2统计进行改进。李新福在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。（2）新的特征选择方法的研究。宋枫溪提出了5种新的特征选择方法：低损降维方法、频率差方法、Bayes准则法、F1值

15、准则法和Fisher鉴别量法。（3）特征选择方法的比较研究。秦进等对互信息、期望交叉熵、文本证据权等特征选择方法进行了比较，结果显示，互信息方法效果最优。申红等对2统计方法、互信息、信息增益、期望交叉熵等特征选择方法进行了比较,实验结果表明2统计方法具有最好的准确率。2.4 分类算法分类模型构建是文本分类核心技术，根据分类知识获取方法不同，文本分类模型可分为基于知识工程的文本分类和基于机器学习的文本分类。后者可分为三大类：基于统计的方法、基于规则的方法和基于连接的方法，这些方法的主要区别在于规则获取方法不同（见表9）。目前机器学习的方法已逐渐取代知识工程的方法成为文本分类技术的主流。表9 机器

16、学习分类算法对比表基于统计的方法基于规则的方法基于连接的方法本质一种非确定性的定量推理方法、经验主义方法。一种确定性的演绎推理方法、唯理主义方法。一种模拟人脑神经网络的方法。优点全部知识可以取得很好的一致性和非常高的覆盖率；对语言处理提供了比较客观的数据依据和可靠的质量保证。定性描述，充分利用了现有的语言学成果；对于知识的可理解性、可读性非常重视。信息分布存放；运算全局并行；处理的非线性、容错性。缺点会造成对小类别文本的忽视。在不确定性事件的描述，规则之间的相容性等方面存在缺陷和限制。学习所形成的知识结构很难理解。常用方法贝叶斯、KNN、类中心向量、支持向量机、最大熵模型等。决策树、关联规则、

17、粗糙集等。人工神经网络。2.4.1经典分类算法到目前为止,已经研究出的经典文本分类方法主要包括：（1）贝叶斯分类方法。计算文本属于类别的概率，文本属于类别的几率等于文本中每个词属于类别的几率的综合表达式。现有的对朴素贝叶斯分类器改进方法的一个关键思路是,当放弃独立性假设以后,如何表示属性变量之间可能存在的依赖关系。眭俊明等提出了一种基于频繁项集挖掘技术的贝叶斯分类学习算法，该算法使用高阶频繁项集来辅助放松朴素贝叶斯分类器的属性独立性假设,并采用集成学习技术降低模型选择所带来的不利影响。石洪波等则提出了一种限定性的双层贝叶斯分类模型，它通过选择某些合适的属性建立起属性之间的依赖关系,一方面扩大

18、了每个属性可依赖的属性个数,另一方面通过属性空间的搜索来建立属性之间的依赖关系。（2）K最近邻算法。在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的K篇文本，根据这K篇文本所属的类别判定新文本所属的类别。现有的KNN改进方法主要分为针对k值选择问题、针对特征属性选择问题和针对距离机制问题三类方法。王修君等为了有效地改进传统的基于KNN的文本分类方法，则将学习型矢量量化（LVQ）和生长型神经气（GNG）结合起来,提出一种新的增量学习型矢量量化方法,该算法能较好地应用于大规模文本数据集合的分类中。（3）类中心分类法。类中心分类法的算法思想是为每个类定义一个中心向量，在分类系统中，类

19、的含义就由该中心向量代替。常用的获得类别中心向量的方法主要有Rocchio算法、Windrow-Hoff算法和Exponentiated-gradient算法。高影繁等提出使用改进的Rocchio分类算法、类别特征信息数据库、类别特征权重向量模型和待归类文档压缩向量表示法等技术实现文档的高速归类。（4）支持向量机。基于结构风险最小化原理，求解化为一个线性约束的凸二次规划问题，解具有唯一性和全局最优性。目前国内基于支持向量机文本分类出现了很多研究成果。李红莲等为了提高支持向量机训练速度,提出了一种改进的向量机NN-SVM:该算法事先对训练集进行修剪,压缩训练样本数量,再用SVM训练得到分类器。而

20、刘向东等则提出了一种快速的支持向量机分类算法FCSVM,对支持向量集变换,用少量的支持向量代替全部支持向量进行分类计算,在保证不损失分类精度的前提下使得分类速度有较大提高。（5）最大熵模型。最大墒模型就是给定一些事实集，选择一种模型与现有事实一致，对于未知事件尽可能使其分布均匀。李荣陆等首次使用最大熵模型进行了中文文本分类的研究，并就特征生成方法、特征数目、特征函数的选择和平滑技术对基于最大熵模型的分类器的性能影响进行了实验和分析。（6）决策树分类算法。通过决策树对新样本属性值的测试，从树的根节点开始，按照样本属性的取值，逐渐沿着决策树向下，直到树的叶节点，该叶节点表示的类别就是新样本的类别。典型的决策树方法有CART方法、ID3方法和C4.5方法。王煜等提出了一种基于词条聚合的决策树文本分类方法，该方法既有决策树易于抽取可理解规则的优势又保证了分类精度。（7）关联分类方法。其基本思想是利用现有关联规则挖掘算法，产生各类别中频繁出现的特征词或特征词项集,利用频繁特征词项集构造分类规则对测试样本进行分类。陈晓云等针对现有的关联分类算法CBA、CMAR 和ARC的缺陷，提出带词频的关联规则文本分类算法,并利用分类规则树存储规则，既可以确保分类快速又不降低分类精度。（8

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？