1、文本特征提取方法 1931389.html一、课题背景概述文本挖掘是一门交义性学科,涉及数据挖掘、机器学习、模式识别、人工智能、 统计学、电脑语言学、电脑网络技术、信息学等多个领域.文本挖掘就是从 大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘开展而来, 但与传统的数据挖掘乂有许多不同. 文本挖掘的对象是海量、异构、分布的文档 (web);文档内容是人类所使用的自然语言,缺乏电脑可理解的语义.传统数据 挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的.所以,文本 挖掘面临的首要问题是如何在电脑中合理地表示文本 ,使之既要包含足够的信息以反映文本的特征,乂不至丁过丁
2、复杂使学习算法无法处理.在浩如烟海的网 络信息中,80%的信息是以文本的形式存放的,WE以本挖掘是WE的容挖掘的一 种重要形式.文 本的表示及其特征项的选取是文本挖掘、信息检索的一个根本问题,它把从 文本中抽取出的特征词进行量化来表示文本信息. 将它们从一个无结构的原始文本转化为了 结构化的电脑可以识别处理的信息,即对文本进行科学的抽象,建 立它的数学模型,用以描述和代替文本.使电脑能够通过对这种模型的计算和 操作来实现对文 本的识别.由丁文本是非结构化的数据,要想从大量的文本中挖 掘有用的信息就必须首先将文本转化为了可处理的结构化形式. 目前人们通常采用向量空间模型来描述文本向量,但是如果直
3、接用分词算法和词频统计方法得到的 特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大.这种未 经处理的文本欠量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率 非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满 意.因此,必须对文本向量做进一步净化处理,在保证原文含义的根底上,找出对 文本特征类别最具代表性的文本特征.为了了解决这个问题 ,最有效的方法就是通过特征选择来降维.目前有关文本表示的钻研主要集中丁文本表示模型的选择和特征词选择算法的 选取上.用丁表示文本的根本单位通常称为了文本的特征或特征项. 特征项必须具备一定的特性:1)特征项要能够的确标识
4、文本内容;2)特征项具有将目标文本与 其他文本相区分的水平;3)特征项的个数不能太多;4)特 征项别离要比拟容易实 现.在中文文本中可以采用字、词或短语作为了表示文本的特征项.相比拟而言, 词比字具有更强的表达水平,而词和短语相比,词的切分难度 比短语的切分难度小得多.因此,目前大多数中文文本分类系统都采用词作为了特征项, 称作特征词.这些特征词作为了文档的中间表示形式,用来实现文档与文档、文 档与用户目标之间的相似度计算.如果把所有的词都作为了特征项,那么特征向量的维数将 过丁巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是 不可能的.特征抽取的主要功能是在不损伤文本核心信息的
5、情况下尽量减少要处理 的单词数,以此来降低向量空间维数,从而简化计算,提升文本处理的速度和效 率.文本特征选择对文本内容的过滤和分类、 聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的钻研都有非常重要的影响.通常根据某个特征 评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取假设 干个评分值最高的作为了特征词,这就是特征抽取 (Feature Selection).特征选取的方式有4种:用映射或变换的方法把原始特征变换为了较少的新特 征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最 有影响的特征;(4)用数学的方法进行选取,找出最具分类信
6、息的特征,这种方 法是一种比拟精确的方法,人为了因素的十扰较少,尤其适合于文本自动分类挖掘 系统的应用.随着网络知识组织、人工智能等学科的开展,文本特征提取将向着数字化、智能 化、语义化的方向深入开展,在社会知识管理方面发挥更大的作用.二、 文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代指出, 并成功地应用于闻名的SMAR仅本检索系统.VSM既念简洁,对对文本内容的处 理简化为了向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度, 直观易懂.当文档被表示为了文档空间的向量,就可以通过计算向量之间的相似性 来度量文档间的相似
7、性.文本处理中最常用的相似性度量方式是余弦距离.文本 挖掘系统采用向量空间模型,用特征词条(T1 ,T 2 ,Tn)及其权值 Wi代表目标 信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度.特征词条及其权值的选取称为了目标样本的特征提取,特征提取算法的优劣将直接 影响到系统的运行效果.设D为了一个包含m个文档的文档集合,Di为了第i个文档的特征向量,那么有D=D1,D2,Dm, Di=(di1,di2,din),i=1,2,m其中dij(i=1,2,m;j=1,2,n) 为了文档 Di中第j个词条tj的权值,它一般被定义为了tj在Di中出现的频率tij的函数,例如采用TF
8、IDF函数,即 dij=tij*log(N/nj) 其中,N是文档数据库中文档总数,nj是文档数据库含有词条 tj的文档数目.假设用户给定的文档向量为了 Di,未知的文档向量为了Dj,那么两者的 相似程度可用两向量的夹角余弦来度量,夹角越小说明相似度越高.相似度的计 算公式如下:通过上述的向量空间模型,文本数据就转换成了电脑可以处理的结构化数据 ,两个文档之间的相似性问题转变成了两个向量之间的相似性问题.三、 基于统计的特征提取方法(构造评估函数)一、各种流行算法这类型算法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特 征打分,这样每个词语都获得一个评估值,乂称为了权值.然后将所
9、有特征按权值 大小排序,提取预定数目的最优特征作为了提取结果的特征子集. 显然,对于这类型算法,决定文本特征提取效果的主要因素是评估函数的水平.1、TF-IDF:单词权重最为了有效的实现方法就是 TF*IDF,它是由Salton在1988年指出的. 其中TF称为了词频,用于计算该词描述文档内容的水平;IDF称为了反文档频率, 用于计算该词区分文档的水平.TF*IDF的指导思想建立在这样一条根本假设之 上:在一个文本中出现很屡次的单词,在另一个同类文本中出现次数也会很多, 反之亦然.所以如果特征空间坐标系取 TF词频作为了测度,就可以表达同类文本 的特点.另外还要考虑单词区别不同类别的水平 ,T
10、F*IDF法认为了一个单词出现的文本频率越小,它区别不同类别的水平就越大,所以引入了逆文本频度IDF 的概念,以TF和IDF的乘积作为了特征空间坐标系的取值测度.TFIDF法是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为了 该词的权重,即其中,Wi表示第i个特征词的权重,TFi(t , d)表示词t在文档d中的出现频 率,N表示总的文档数,DF(t)表示包含t的文档数.用TFIDF算法来计算特征 词的权重值是表示当一个词在这篇文档中出现的频率越高, 同时在其他文档中出现的次数越少,那么说明该词对于表示这篇文档的区分水平越强, 所以其权重值就应该越大.将所有词的权值排序,根据需要可
11、以有两种选择方式:(1)选择权值 最大的某一固定数n个关键词;(2) 选择权值大于某一阈值的关键词.一些实 验表示,人工选择关键词,4s 7个比拟适宜,机选关键词10s 15通常具有最好 的覆盖度和专指度.TFIDF算法是建立在这样一个假设之上的: 对区别文档最有意义的词语应该是那 些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语, 所以如果特征空间坐标系取TF词频作为了测度,就可以表达同类文本的特点.另外 考虑到单词区别不同类别的水平,TFIDF法认为了一个单词出现的文本频数越小, 它区别不同类别文本的水平就越大.因此引入了逆文本频度 IDF的概念,以TF和IDF的乘积作为
12、了特征空间坐标系的取值测度,并用它完成对权值 TF的调整,调整权值的目的在于突出重要单词, 抑制次要单词.但是在本质上IDF是一种试 图抑制噪音的加权,并且单纯地认为了文本频数小的单词就越重要, 文本频数大的单词就越无用,显然这并不是完全正确的.IDF的简洁结构并不能有效地反映单 词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所 以TFIDF法的精度并不是很高.此外,在TFIDF算法中并没有表达出单词的位置信息, 对于Web文档而言,权重的计算方法应该表达出HTML勺结构特征.特征词在不同的标记符中对文章内容 的反映程度不同,其权重的计算方法也应不同.因此应该对于处于网页
13、不同位置 的特征词分别赋予不同的系数,然后乘以特征词的词频,以提升文本表示的效果.2、词频方法(Word Frequency):词 频是一个词在文档中出现的次数.通过词频进行特征选择就是将词频小于某 一闭值的词删除,从而降低特征空间的维数.这个方法是基于这样一个假设,即 出现频率 小的词对过滤的影响也较小.但是在信息检索的钻研中认为了,有时频率小的词含有更多的信息.因此,在特征选择的过程中不宜简洁地根据词频大幅 度删词.3、文档频次方法(Document Frequency):文档频数(Document Frequency, DF)是最为了简洁的一种特征选择算法,它 指的是 在整个数据集中有多
14、少个文本包含这个单词.在训练文本集中对每个特征计一算 它的文档频次,并且根据预先设定的阑值去除那些文档频次格外低和格外高的 特征.文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集, 计算复杂度较低,能够适合于任何语料,因此是特征降维的常用方法.在训练文本集中对每个特征计算它的文档频数,假设该项的DF值小于某个阈值那么 将其删除,假设其DF值大于某个阈值也将其去掉.由于他们分别代表了 “没有代 表性和“没有区分度 2种极端的情况.DF特征选取使稀有词要么不含有用 信息,要么太少而缺乏以对分类产生影响,要么是噪音,所以可以删去.DF的优点 在于计算量很小,而在实际运用中却有很好的效
15、果.缺点是稀有词可能在某一类 文本中并不稀有,也可能包含着重要的判断信息,简洁舍弃,可能影响分类器的精 度.文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以 非常适合于超大规模文本数据集的特征选择. 不仅如此,文档频数还非常地高效, 在有监督的特征选择应用中当删除 90咖词的时候其性能与信息增益和 x2统计 的性能还不相上下.DF是最简洁的特征项选取方法,而且该方法的计算复杂度 低,能够胜任大规模的分类任务.但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而 因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响.4、互信息 (Mutual In
16、formation)互信息衡量的是某个词和类别之间的统计独立关系 ,某个词t和某个类别Ci传统的互信息定义如下:互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性.在过 滤问题中用于度量特征对于主题的区分度. 互信息的定义与交义嫡近似.互信息 本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相 关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出 现频率高,但在其他类别出现频率比拟低的词条与该类的互信息比拟大.通常用 互信息作为了特征词和类别之问的测度, 如果特征词届于该类的话,它们的互信息 量最大.由于该方法不需要对特征词和类别之问关系的性
17、质作任何假设, 因此非常适合于文本分类的特征和类别的配准工作.特征项和类别的互信息表达了特征项与类别的相关程度,是一种广泛用于建立 词关联统计模型的标准.互信息与期望交义嫡的不同在于没有考虑特征出现的频率,这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为了文本的最正确特征.由于对丁每一主题来讲,特征t的互信息越大,说明它与该主题 的共现概率越大,因此,以互信息作为了提取特征的评价时应选互信息最大的假设干 个特征.互信息计算的时间复杂度类似丁彳息增益,互信息的平均值就是信息增益.互信 息的缺乏之处在丁得分非常受词条边缘概率的影响.实验数据显示,互信息分类效果最差,其次是文档频率、C
18、C统计,CHI统计分类效 果最好.对互信息而言,提升分类精度的方法有:1)可以增加特征空间的维数,以提取足 够多的特征信息,这样就会带来了时间和空间上的额外开销;2)根据互信息函数 的定义,认为了这些低频词携带着较为了强烈的类别信息,从而对它们有不同程度的 倚重.当训练语料库没有到达一定规模的时候,特征空间中必然会存在大量的出 现文档频率很低(比方低丁 3次)的词条,他们较低的文档频率导致了他们必然 只届丁少数类别.但是从抽取出来的特征词打量发现,大多数为了生僻词,很少一 局部的确带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词.5、期望交义嫡(Expected Cross Entr
19、opy):交义嫡与信息量的定义近似,其公式为了:H(X,q)=(X)+(pll q)=-夕(.却.卵(工)X交义嫡,也称KL距离.它反映了文本主题类的概率分布和在出现了某特定词汇 的条件下文本主题类的概率分布之间的距离, 词汇w的交义嫡越大,对文本主题类分布的影响也越大.它与信息增益唯一的不同之处在丁没有考虑单词未发生的 情况,只计算出现在文本中的特征项.如果特征项和类别强相关 ,P ( Ci | w )就大,假设P( Ci) 乂很小的话,那么说明该特征对分类的影响大.交义嫡反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的 概率分布之间的距离,特征词t的交义嫡越大,对文本类别分布
20、的影响也越大. 嫡的特征选择效果都要优丁信息增益.6、二次信息嫡(QEMI):将二次嫡函数应用丁互信息评估方法中,取代互信息中的Shannon嫡,就形成了 基丁二次嫡的互信息评估函数.基丁二次嫡的互信息克服了互信息的随机性, 是一个确定的量,因此可以作为了信息的整体测度,另外它还比互信息最大化的计算 复杂度要小,所以可以比拟高效地用在基丁分类的特征选取上.二次嫡的概念是在广义信息论中指出的.广义嫡:当,就得到了二次嫡定义:7、信息增益方法(Information Gain):信息增益方法是机器学习的常用方法,在过滤问题中用于度量一个特征是否 出现于某主题相关文本中对于该主题预测有多少信息.通过
21、计算信息增益可以得 到那些 在正例样本中出现频率高而在反例样本中出现频率低的特征,以及那些 在反例样本中出现频率高而在正例样本中出现频率低的特征.信息增益 G(w )的训算公式如下:其中P(w)是词w出现的概率,P(Ci)是取第i个目录时的概率,P(C,|w )是假 定w出现时取第i个目录的概率.信息增益是一种基于嫡的评估方法,涉及较多的数学理论和复杂的嫡理论公式, 定义为了某特征项为了整个分类所能提供的信息量,不考虑任何特征的嫡与考虑该特 征后的嫡的差值.他根据训练数据,计算出各个特征项的信息增益,删除信息增益 很小的项,其余的根据信息增益从大到小排序.信息增益是信息论中的一个重要概念,它表
22、示了某一个特征项的存在与否对类 别预测的影响,定义为了考虑某一特征项在文本中出现前后的信息嫡之差. 某个特征项的信息增益值越大,奉献越大,对分类也越重要.信息增益方法的缺乏之处 在于它考虑了特征未发生的情况.格外是在类分布和特征值分布高度不平衡的情 况下,绝大多数类都是负类,绝大多数特征都不出现.此时的函数值由不出现的 特征决定,因此,信息增益的效果就会大大降低.信息增益表现出的分类性能偏 低.由于信息增益考虑了文本特征未发生的情况, 虽然特征不出现的情况肿可能对文本类别具有奉献,但这种奉献往往小于考虑这种情况时对特征分值带来的十 扰.8、x2统计量方法:x2统计量用于度量特征 w和主题类C之
23、间的独立性.而表示除 w以外的其他特 征,C表示除C以外的其他主题类,那么特征 w和主题类C的关系有以下四种情况:,用A,B,C,D 表示这四种情况的文档频次,总的文档数 N=A+B+C+D, 统计量的计算公式如下:当特征w和主题类C之间完全独立的时候,x2统计量为了0.x2统计量和互信息 的差异在于它是回一化的统计量,但是它对低频特征的区分效果也不好. X2统计得分的计算有二次复杂度,相似于互信息和信息增益.在X2统计和互信息之 间主要的不同在于X2是规格化评价,因而X2评估分值对在同类中的词是可 比的,但是X2统计对于低频词来说是不可靠的.利用x2统计方法来进行特征抽取是基于如下假设:在指
24、定类别文本中出现频率 高的词条与在其他类别文本中出现频率比拟高的词条 ,对判定文档是否届于该类 别都是很有帮助的.采用x2估计特征选择算法的准确率在实验中最高,其分类效果受训练集影响较 小,比拟稳定.而且在对文教类和政治类存在类别交义现象的文本进行分类时, 采用x2估计的分类系统表现出了优于其它方法的分类性能.X2估计的可靠性较 好,便于对程序的控制,无需因训练集的改变而人为了的调节特征阀值的大小.9、 文本证据权(The Weight of Evidence forText) :文本证据权衡量类的概率和给定特征时类的条件概率之间的差异.10、 优势率(Odds Ratio):优势率只适合于二
25、元分类的情况,其特点是只关心文本特征对于目标类的分 值.Pos表示目标类,neg表示非目标类.11、遗传算法(Genetic Algorithm, GA) :文本实际上可以看作是由众多的特征词条构成的多维空间 ,而特征向量的选择就是多维空间中的寻优过程,因此在文本特征提取钻研中可以使用高效寻优算法.遗传算法(Genetic Algorithm, GA四一种通用型的优化搜索方法,它利用结构化 的随机信息交换技术组合群体中各个结构中最好的生存因素 ,复制出最正确代码申并使之一代一代地进化,最终获得满意的优化结果.在将文本特征提取问题转化 为了文本空间的寻优过程中,首先对We本钱空间进行遗传编码,以
26、文本向量构成 染色体,通过选择、交义、变异等遗传操作,不断搜索问题域空间,使其不断得到 进化,逐步得到We本钱的最优特征向量.基于协同演化的遗传算法不是使用固定的环境来评价个体,而是使用其他的个体 来评价特定个体.个体优劣的标准不是其生存环境以外的事物 ,而是由在同一生存竞争环境中的其他个体来决定.协同演化的思想非常适合处理同类文本的特征 提取问题.由于同一类别文本相互之间存在一定相关性 ,因而各自所代表的那组个体在进化过程中存在着同类之间的相互评价和竞争.因此 ,每个文本的特征向量,即该问题中的个体,在不断的进化过程中,不仅受到其母体(文本)的评价和制 约,而且还受到种族中其他同类个体的指导
27、. 所以,基于协同演化的遗传算法不仅 能反映其母体的特征,还能反映其他同类文本的共性,这样可以有效地解决同一 主题众多文本的集体特征向量的提取问题,获得反映整个文本集合某些特征的最 佳个体.12、主成分分析法(Principal Component Analysis , PCA):它不是通过特征选取的方式降维的,而是通过搜索最能代表原数据的正交向量, 创立一个替换的、较小的变量集来组合届性的精华,原数据可以投影到这个较小 的集合.PCA由于其处理方式的不同乂分为了数据方法和矩阵方法.矩阵方法中, 所有的数据通过计算方差一协方差结构在矩阵中表示出来, 矩阵的实现目标是确 定协方差矩阵的特征向量,
28、它们和原始数据的主要成分相对应.在主成分方法中, 由于矩阵方法的复杂度在n很大的情况以二次方增长,因此人们乂开发使用了 主要使用Hebbian学习规那么的PCA#经网络方法.主成分分析法是特征选取常用的方法之一,它能够揭示更多有关变量 _丰要方向的信息.但它的问题在于矩阵方法中要使用奇异值分解对角化矩阵求解方万一协 方差.13、 模拟退火算法(Simulating Anneal , SA):特征选取可以看成是一个组合优化问题,因而可以使用解决优化问题的方法来解 决特征选取的问题.模拟退火算法(Simulating Anneal, SA)就是其中一种方法.模拟退火算法是一个很好的解决优化问题的方
29、法, 将这个方法运用到特征选取中, 理论上能够找到全局最优解,但在初始温度的选取和邻域的选取t要恰当,必须 要找到一个比拟折中的方法,综合考虑解的性能和算法的速度.14、 N Gram法它的根本思想是将文本内容按字节流进行大小为了 N的滑动窗口操作,形成长度为了N的字节片段序歹0.每个字节片段称为了 gram,对全部gram的出现频度进行统计, 并根据事先设定的阈值进行过滤,形成关键gram列表,即为了该文本的特征向量空 问,每一种gram那么为了特征向量维度.由于Nr-Gram算法可以防止汉语分词的障碍, 所以在中文文本处理中具有较高的实用性. 中文文本处理大多采用双字节进行分解,称之为了b
30、i-gram.但是bigram切分方法在处理20知右的中文多字词时,往往 产生语义和语序方面的偏差.而对于专业钻研领域,多字词常常是文本的核心特 征,处理错误会导致较大的负面影响.基于Nr-Gram改良的文本特征提取算法2, 在进行bigram切分时,不仅统计gram的出现频度,而且还统计某个gram与其前 邻gram的情况,并将其记录在gram关联矩阵中.对于那些连续出现频率大于事 先设定阈值的,就将其合并成为了多字特征词.这样通过统计与合并双字特征词 ,自动产生多字特征词,可以较好地弥补Nr-Gram算法在处理多字词方面的缺陷.15、 各种方法的综合评价上 述几种评价函数都是试图通过概率找
31、出特征与主题类之间的联系,信息增益 的定义过于复杂,因此应用较多的是交义嫡和互信息.其中互信息的效果要好于 交乂嫡,这是由于互信息是对不同的主题类分别抽取特征词,而交义嫡跟特征 在全部主题类内的分布有关,是对全部主题类来抽取特征词.这些方法 ,在英文特征提取方面都有各自的优势,但用于中文文本,并没有很高的效率.主要有2 个方面的原因:1)特征提取的计算量太大,特征提取效率太低,而特征提取的效 率直接影响到整个文本分类系统的效率. 2)经过特征提取后生成的特征向量维数太高,而且不能直接计算出特征向量中各个代征词的权重.目前使用评估函数进行特征选取越来越普遍,特征选取算法通过构造一个评估 函数的方
32、法,选取预定数目的最正确特征作为了特征子集的结果. 在几种评估方法中,每一种 方法都有一个选词标准,遵从这个标准,从文本集的所有词汇中选取出有某个限定范围的特征词集.由于评估函数的构造不是格外复杂,适合范围乂很 广泛,所以越来越多的人们喜爱使用构造评估函数来进行特征的选取.这些评估函数在We畋本挖掘中被广泛使用,特征选择精度普遍到达70%80%且 也各自存在缺点和缺乏.例如,“信息增益考虑了单词未发生的情况,对判断文 本类别奉献不大,而且引入不必要的十扰,格外是在处理类分布和特征值分布高 度不平衡的数据时选择精度下降.“期望交义嫡与“信息增益的唯一不同就 是没有考虑单词未发生的情况,因此不管处理哪种数据集,它的特征选择精度都 优于“信息增益.与“期望交义嫡相比,“互信息没有考虑单词发生的频 度,这是一个很大的缺点,造成“互信息评估函数经常倾向
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1