文本特征提取方法.docx
《文本特征提取方法.docx》由会员分享,可在线阅读,更多相关《文本特征提取方法.docx(20页珍藏版)》请在冰豆网上搜索。
文本特征提取方法
1931389.html
一、课题背景概述
文本挖掘是一门交义性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、电脑语言学、电脑网络技术、信息学等多个领域.文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘开展而来,但与传统的数据挖掘乂有许多不同.文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏电脑可理解的语义.传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的.所以,文本挖掘面临的首要问题是如何在电脑中合理地表示文本,使之既要包含足够的信
息以反映文本的特征,乂不至丁过丁复杂使学习算法无法处理.在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WE以本挖掘是WE的容挖掘的一种重要形式.
文本的表示及其特征项的选取是文本挖掘、信息检索的一个根本问题,它把从文本中抽取出的特征词进行量化来表示文本信息.将它们从一个无结构的原始文
本转化为了结构化的电脑可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本.使电脑能够通过对这种模型的计算和操作来实现对文本的识别.由丁文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为了可处理的结构化形式.目前人们通常采用
向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大.这种未经处理的文本欠量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意.因此,必须对文本向量做进一步净化处理,在保证原文含义的根底上,找出对文本特征类别最具代表性的文本特征.为了了解决这个问题,最有效的方法就是通
过特征选择来降维.
目前有关文本表示的钻研主要集中丁文本表示模型的选择和特征词选择算法的选取上.用丁表示文本的根本单位通常称为了文本的特征或特征项.特征项必须具
备一定的特性:
1)特征项要能够的确标识文本内容;2)特征项具有将目标文本与其他文本相区分的水平;3)特征项的个数不能太多;4)特征项别离要比拟容易实现.在中文文本中可以采用字、词或短语作为了表示文本的特征项.相比拟而言,词比字具有更强的表达水平,而词和短语相比,词的切分难度比短语的切分难
度小得多.因此,目前大多数中文文本分类系统都采用词作为了特征项,称作特征
词.这些特征词作为了文档的中间表示形式,用来实现文档与文档、文档与用户
目标之间的相似度计算.如果把所有的词都作为了特征项,那么特征向量的维数将过丁巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不
可能的.特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提升文本处理的速度和效率.文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣
模式发现、知识发现等有关方面的钻研都有非常重要的影响.通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取假设干个评分值最高的作为了特征词,这就是特征抽取(FeatureSelection).
特征选取的方式有4种:
⑴用映射或变换的方法把原始特征变换为了较少的新特征;
(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比拟精确的方法,人为了因素的十扰较少,尤其适合于文本自动分类挖掘系统的应用.
随着网络知识组织、人工智能等学科的开展,文本特征提取将向着数字化、智能化、语义化的方向深入开展,在社会知识管理方面发挥更大的作用.
二、文本特征向量
经典的向量空间模型(VSM:
VectorSpaceModel)由Salton等人于60年代指出,并成功地应用于闻名的SMAR仅本检索系统.VSM既念简洁,对对文本内容的处理简化为了向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂.当文档被表示为了文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性.文本处理中最常用的相似性度量方式是余弦距离.文本挖掘系统采用向量空间模型,用特征词条(T1,T2,,Tn)及其权值Wi代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度.
特征词条及其权值的选取称为了目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果.
设D为了一个包含m个文档的文档集合,Di为了第i个文档的特征向量,那么有
D={D1,D2,,,Dm},Di=(di1,di2,,,din),i=1,2,,,m
其中dij(i=1,2,,,m;j=1,2,,,n)为了文档Di中第j个词条tj的权值,它一般被
定义为了tj在Di中出现的频率tij的函数,例如采用TFIDF函数,即dij=tij*log(N/nj)其中,N是文档数据库中文档总数,nj是文档数据库含有词条tj的文档数目.假设用户给定的文档向量为了Di,未知的文档向量为了Dj,那么两者的相似程度可用两向量的夹角余弦来度量,夹角越小说明相似度越高.相似度的计算公式如下:
通过上述的向量空间模型,文本数据就转换成了电脑可以处理的结构化数据,
两个文档之间的相似性问题转变成了两个向量之间的相似性问题.
三、基于统计的特征提取方法(构造评估函数)
一、各种流行算法
这类型算法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,乂称为了权值.然后将所有特征按权值大小排序,提取预定数目的最优特征作为了提取结果的特征子集.显然,对于这类型
算法,决定文本特征提取效果的主要因素是评估函数的水平.
1、TF-IDF:
单词权重最为了有效的实现方法就是TF*IDF,它是由Salton在1988年指出的.其中TF称为了词频,用于计算该词描述文档内容的水平;IDF称为了反文档频率,用于计算该词区分文档的水平.TF*IDF的指导思想建立在这样一条根本假设之上:
在一个文本中出现很屡次的单词,在另一个同类文本中出现次数也会很多,反之亦然.所以如果特征空间坐标系取TF词频作为了测度,就可以表达同类文本的特点.另外还要考虑单词区别不同类别的水平,TF*IDF法认为了一个单词出现
的文本频率越小,它区别不同类别的水平就越大,所以引入了逆文本频度IDF的概念,以TF和IDF的乘积作为了特征空间坐标系的取值测度.
TFIDF法是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为了该词的权重,即
其中,Wi表示第i个特征词的权重,TFi(t,d)表示词t在文档d中的出现频率,N表示总的文档数,DF(t)表示包含t的文档数.用TFIDF算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高,同时在其他文档中出
现的次数越少,那么说明该词对于表示这篇文档的区分水平越强,所以其权重值就
应该越大.将所有词的权值排序,根据需要可以有两种选择方式:
(1)选择权值最大的某一固定数n个关键词;
(2)选择权值大于某一阈值的关键词.一些实验表示,人工选择关键词,4s7个比拟适宜,机选关键词10s15通常具有最好的覆盖度和专指度.
TFIDF算法是建立在这样一个假设之上的:
对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所
以如果特征空间坐标系取TF词频作为了测度,就可以表达同类文本的特点.另外考虑到单词区别不同类别的水平,TFIDF法认为了一个单词出现的文本频数越小,它区别不同类别文本的水平就越大.因此引入了逆文本频度IDF的概念,以TF
和IDF的乘积作为了特征空间坐标系的取值测度,并用它完成对权值TF的调整,
调整权值的目的在于突出重要单词,抑制次要单词.但是在本质上IDF是一种试图抑制噪音的加权,并且单纯地认为了文本频数小的单词就越重要,文本频数大的
单词就越无用,显然这并不是完全正确的.IDF的简洁结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高.
此外,在TFIDF算法中并没有表达出单词的位置信息,对于Web文档而言,权重
的计算方法应该表达出HTML勺结构特征.特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同.因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提升文本表示的效果.
2、词频方法(WordFrequency):
词频是一个词在文档中出现的次数.通过词频进行特征选择就是将词频小于某一闭值的词删除,从而降低特征空间的维数.这个方法是基于这样一个假设,即出现频率小的词对过滤的影响也较小.但是在信息检索的钻研中认为了,有时频
率小的词含有更多的信息.因此,在特征选择的过程中不宜简洁地根据词频大幅度删词.
3、文档频次方法(DocumentFrequency):
文档频数(DocumentFrequency,DF)是最为了简洁的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词.在训练文本集中对每个特征计一算它的文档频次,并且根据预先设定的阑值去除那些文档频次格外低和格外高的特征.文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适合于任何语料,因此是特征降维的常用方法.
在训练文本集中对每个特征计算它的文档频数,假设该项的DF值小于某个阈值那么将其删除,假设其DF值大于某个阈值也将其去掉.由于他们分别代表了“没有代表性〞和“没有区分度〞2种极端的情况.DF特征选取使稀有词要么不含有用信息,要么太少而缺乏以对分类产生影响,要么是噪音,所以可以删去.DF的优点在于计算量很小,而在实际运用中却有很好的效果.缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简洁舍弃,可能影响分类器的精度.
文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择.不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90咖词的时候其性能与信息增益和x2统计的性能还不相上下.DF是最简洁的特征项选取方法,而且该方法的计算复杂度低,能够胜任大规模的分类任务.
但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响.
4、互信息(MutualInformation)
互信息衡量的是某个词和类别之间的统计独立关系,某个词t和某个类别Ci传统
的互信息定义如下:
互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性.在过滤问题中用于度量特征对于主题的区分度.互信息的定义与交义嫡近似.互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:
在某个特定类别出现频率高,但在其他类别出现频率比拟低的词条与该类的互信息比拟大.通常用互信息作为了特征词和类别之问的测度,如果特征词届于该类的话,它们的互信息量最大.由于该方法不需要对特征词和类别之问关系的性质作任何假设,因此非
常适合于文本分类的特征和类别的配准工作.
特征项和类别的互信息表达了特征项与类别的相关程度,是一种广泛用于建立词关联统计模型的标准.互信息与期望交义嫡的不同在于没有考虑特征出现的频
率,这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为了文
本的最正确特征.由于对丁每一主题来讲,特征t的互信息越大,说明它与该主题的共现概率越大,因此,以互信息作为了提取特征的评价时应选互信息最大的假设干个特征.
互信息计算的时间复杂度类似丁彳息增益,互信息的平均值就是信息增益.互信息的缺乏之处在丁得分非常受词条边缘概率的影响.
实验数据显示,互信息分类效果最差,其次是文档频率、CC统计,CHI统计分类效果最好.
对互信息而言,提升分类精度的方法有:
1)可以增加特征空间的维数,以提取足够多的特征信息,这样就会带来了时间和空间上的额外开销;2)根据互信息函数的定义,认为了这些低频词携带着较为了强烈的类别信息,从而对它们有不同程度的倚重.当训练语料库没有到达一定规模的时候,特征空间中必然会存在大量的出现文档频率很低(比方低丁3次)的词条,他们较低的文档频率导致了他们必然只届丁少数类别.但是从抽取出来的特征词打量发现,大多数为了生僻词,很少一局部的确带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词.
5、期望交义嫡(ExpectedCrossEntropy):
交义嫡与信息量的定义近似,其公式为了:
H(X,q)=〃(X)+〃(pllq)
=-£夕(.却.卵(工)
X
交义嫡,也称KL距离.它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距离,词汇w的交义嫡越大,对文本主题
类分布的影响也越大.它与信息增益唯一的不同之处在丁没有考虑单词未发生的情况,只计算出现在文本中的特征项.如果特征项和类别强相关,P(Ci|w)
就大,假设P(Ci)乂很小的话,那么说明该特征对分类的影响大.
交义嫡反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离,特征词t的交义嫡越大,对文本类别分布的影响也越大.嫡的特征选择效果都要优丁信息增益.
6、二次信息嫡(QEMI):
将二次嫡函数应用丁互信息评估方法中,取代互信息中的Shannon嫡,就形成了基丁二次嫡的互信息评估函数.基丁二次嫡的互信息克服了互信息的随机性,是
一个确定的量,因此可以作为了信息的整体测度,另外它还比互信息最大化的计算复杂度要小,所以可以比拟高效地用在基丁分类的特征选取上.
二次嫡的概念是在广义信息论中指出的.广义嫡:
当,就得到了二次嫡定义:
7、信息增益方法(InformationGain):
信息增益方法是机器学习的常用方法,在过滤问题中用于度量一个特征是否出现于某主题相关文本中对于该主题预测有多少信息.通过计算信息增益可以得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征.信息增益G(w)的
训算公式如下:
其中P(w)是词w出现的概率,P(Ci)是取第i个目录时的概率,P(C,|w)是假定w出现时取第i个目录的概率.
信息增益是一种基于嫡的评估方法,涉及较多的数学理论和复杂的嫡理论公式,定义为了某特征项为了整个分类所能提供的信息量,不考虑任何特征的嫡与考虑该特征后的嫡的差值.他根据训练数据,计算出各个特征项的信息增益,删除信息增益很小的项,其余的根据信息增益从大到小排序.
信息增益是信息论中的一个重要概念,它表示了某一个特征项的存在与否对类别预测的影响,定义为了考虑某一特征项在文本中出现前后的信息嫡之差.某个特
征项的信息增益值越大,奉献越大,对分类也越重要.信息增益方法的缺乏之处在于它考虑了特征未发生的情况.格外是在类分布和特征值分布高度不平衡的情况下,绝大多数类都是负类,绝大多数特征都不出现.此时的函数值由不出现的特征决定,因此,信息增益的效果就会大大降低.信息增益表现出的分类性能偏低.由于信息增益考虑了文本特征未发生的情况,虽然特征不出现的情况肿可能
对文本类别具有奉献,但这种奉献往往小于考虑这种情况时对特征分值带来的十扰.
8、x2统计量方法:
x2统计量用于度量特征w和主题类C之间的独立性.而表示除w以外的其他特征,C表示除C以外的其他主题类,那么特征w和主题类C的关系有以下四种
情况:
用A,B,C,D表示这四种情况的文档频次,总的文档数N=A+B+C+D,统计量的计算公式如下:
当特征w和主题类C之间完全独立的时候,x2统计量为了0.x2统计量和互信息的差异在于它是回一化的统计量,但是它对低频特征的区分效果也不好.X2统
计得分的计算有二次复杂度,相似于互信息和信息增益.在X2统计和互信息之间主要的不同在于X2是规格化评价,因而X2评估分值对在同类中的词是可比的,但是X2统计对于低频词来说是不可靠的.
利用x2统计方法来进行特征抽取是基于如下假设:
在指定类别文本中出现频率高的词条与在其他类别文本中出现频率比拟高的词条,对判定文档是否届于该类别都是很有帮助的.
采用x2估计特征选择算法的准确率在实验中最高,其分类效果受训练集影响较小,比拟稳定.而且在对文教类和政治类存在类别交义现象的文本进行分类时,采用x2估计的分类系统表现出了优于其它方法的分类性能.X2估计的可靠性较好,便于对程序的控制,无需因训练集的改变而人为了的调节特征阀值的大小.
9、文本证据权(TheWeightofEvidenceforText):
文本证据权衡量类的概率和给定特征时类的条件概率之间的差异.
10、优势率(OddsRatio):
优势率只适合于二元分类的情况,其特点是只关心文本特征对于目标类的分值.Pos表示目标类,neg表示非目标类.
11、遗传算法(GeneticAlgorithm,GA):
文本实际上可以看作是由众多的特征词条构成的多维空间,而特征向量的选择就
是多维空间中的寻优过程,因此在文本特征提取钻研中可以使用高效寻优算法.
遗传算法(GeneticAlgorithm,GA四一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最正确代码申
并使之一代一代地进化,最终获得满意的优化结果.在将文本特征提取问题转化为了文本空间的寻优过程中,首先对We本钱空间进行遗传编码,以文本向量构成染色体,通过选择、交义、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到We本钱的最优特征向量.
基于协同演化的遗传算法不是使用固定的环境来评价个体,而是使用其他的个体来评价特定个体.个体优劣的标准不是其生存环境以外的事物,而是由在同一生
存竞争环境中的其他个体来决定.协同演化的思想非常适合处理同类文本的特征提取问题.由于同一类别文本相互之间存在一定相关性,因而各自所代表的那组
个体在进化过程中存在着同类之间的相互评价和竞争.因此,每个文本的特征向
量,即该问题中的个体,在不断的进化过程中,不仅受到其母体(文本)的评价和制约,而且还受到种族中其他同类个体的指导.所以,基于协同演化的遗传算法不仅能反映其母体的特征,还能反映其他同类文本的共性,这样可以有效地解决同一主题众多文本的集体特征向量的提取问题,获得反映整个文本集合某些特征的最佳个体.
12、主成分分析法(PrincipalComponentAnalysis,PCA):
它不是通过特征选取的方式降维的,而是通过搜索最能代表原数据的正交向量,创立一个替换的、较小的变量集来组合届性的精华,原数据可以投影到这个较小的集合.PCA由于其处理方式的不同乂分为了数据方法和矩阵方法.矩阵方法中,所有的数据通过计算方差一协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应.在主成分方法中,由于矩阵方法的复杂度在n很大的情况以二次方增长,因此人们乂开发使用了主要使用Hebbian学习规那么的PCA#经网络方法.
主成分分析法是特征选取常用的方法之一,它能够揭示更多有关变量_丰要方向
的信息.但它的问题在于矩阵方法中要使用奇异值分解对角化矩阵求解方万一协方差.
13、模拟退火算法(SimulatingAnneal,SA):
特征选取可以看成是一个组合优化问题,因而可以使用解决优化问题的方法来解决特征选取的问题.模拟退火算法(SimulatingAnneal,SA)就是其中一种方法.
模拟退火算法是一个很好的解决优化问题的方法,将这个方法运用到特征选取中,理论上能够找到全局最优解,但在初始温度的选取和邻域的选取t要恰当,必须要找到一个比拟折中的方法,综合考虑解的性能和算法的速度.
14、N—Gram^法
它的根本思想是将文本内容按字节流进行大小为了N的滑动窗口操作,形成长度为了
N的字节片段序歹0.每个字节片段称为了gram,对全部gram的出现频度进行统计,并根据事先设定的阈值进行过滤,形成关键gram列表,即为了该文本的特征向量空问,每一种gram那么为了特征向量维度.由于Nr-Gram算法可以防止汉语分词的障碍,所以在中文文本处理中具有较高的实用性.中文文本处理大多采用双字节进行分
解,称之为了bi-gram.但是bigram切分方法在处理20知右的中文多字词时,往往产生语义和语序方面的偏差.而对于专业钻研领域,多字词常常是文本的核心特征,处理错误会导致较大的负面影响.基于Nr-Gram改良的文本特征提取算法[2],在进行bigram切分时,不仅统计gram的出现频度,而且还统计某个gram与其前邻gram的情况,并将其记录在gram关联矩阵中.对于那些连续出现频率大于事先设定阈值的,就将其合并成为了多字特征词.这样通过统计与合并双字特征词,
自动产生多字特征词,可以较好地弥补Nr-Gram算法在处理多字词方面的缺陷.
15、各种方法的综合评价
上述几种评价函数都是试图通过概率找出特征与主题类之间的联系,信息增益的定义过于复杂,因此应用较多的是交义嫡和互信息.其中互信息的效果要好于交乂嫡,这是由于互信息是对不同的主题类分别抽取特征词,而交义嫡跟特征在全部主题类内的分布有关,是对全部主题类来抽取特征词.这些方法,在英文
特征提取方面都有各自的优势,但用于中文文本,并没有很高的效率.主要有2个方面的原因:
1)特征提取的计算量太大,特征提取效率太低,而特征提取的效率直接影响到整个文本分类系统的效率.2)经过特征提取后生成的特征向量维
数太高,而且不能直接计算出特征向量中各个代征词的权重.
目前使用评估函数进行特征选取越来越普遍,特征选取算法通过构造一个评估函数的方法,选取预定数目的最正确特征作为了特征子集的结果.在几种评估方法中,
每一种方法都有一个选词标准,遵从这个标准,从文本集的所有词汇中选取出
有某个限定范围的特征词集.由于评估函数的构造不是格外复杂,适合范围乂很广泛,所以越来越多的人们喜爱使用构造评估函数来进行特征的选取.
这些评估函数在We畋本挖掘中被广泛使用,特征选择精度普遍到达70%~80%且也各自存在缺点和缺乏.例如,“信息增益〞考虑了单词未发生的情况,对判断文本类别奉献不大,而且引入不必要的十扰,格外是在处理类分布和特征值分布高度不平衡的数据时选择精度下降.“期望交义嫡〞与“信息增益〞的唯一不同就是没有考虑单词未发生的情况,因此不管处理哪种数据集,它的特征选择精度都优于“信息增益〞.与“期望交义嫡〞相比,“互信息〞没有考虑单词发生的频度,这是一个很大的缺点,造成“互信息〞评估函数经常倾向