文本分类综述.ppt

资源描述

文本分类综述.ppt

《文本分类综述.ppt》由会员分享，可在线阅读，更多相关《文本分类综述.ppt（46页珍藏版）》请在冰豆网上搜索。

文本分类综述.ppt

文本分类综述郑亚斌清华大学自然语言处理组2008-11-15部分内容copy自王斌老师ppt报告内容文本分类的定义和应用文本分类的方法文本分类的评估指标文本分类的一些新方向参考文献和资源文本分类的定义和应用定义给定分类体系，将文本分到某个或者某几个类别中。

分类体系一般人工构造政治、体育、军事中美关系、恐怖事件分类系统可以是层次结构，如yahoo!

分类模式2类问题，属于或不属于（binary）多类问题，多个类别（multi-class），可拆分成2类问题一个文本可以属于多类（multi-label）这里讲的分类主要基于内容很多分类体系:

Reuters分类体系、中图分类应用垃圾邮件的判定（spamornotspam）类别spam,not-spam新闻出版按照栏目分类类别政治,体育,军事,词性标注类别名词,动词,形容词,词义排歧类别词义1,词义2,计算机论文的领域类别ACMsystemH:

informationsystemsH.3:

informationretrievalandstorage文本分类的方法人工方法和自动方法人工方法结果容易理解足球and联赛体育类费时费力难以保证一致性和准确性（40%左右的准确率）专家有时候凭空想象知识工程的方法建立专家系统（80年代末期）自动的方法（学习）结果可能不易理解快速准确率相对高（准确率可达60%或者更高）来源于真实文本，可信度高文本分类的过程文本表示训练过程分类过程训练文本统计统计量特征表示学习分类器新文本特征表示类别特征抽取预处理去掉html一些tag标记（英文）禁用词（stopwords）去除、词根还原（stemming）（中文）分词、词性标注、短语识别、词频统计TFi,j:

特征i在文档j中出现次数，词频（TermFrequency）DFi:

所有文档集合中出现特征i的文档数目，文档频率（DocumentFrequency）数据清洗：

去掉不合适的噪声文档或文档内垃圾数据文本表示向量空间模型（VectorSpaceModel）降维技术特征选择（FeatureSelection）特征重构（Re-parameterisation，如LSI、LDA）文本表示向量空间模型（VectorSpaceModel）M个无序标引项ti（特征），词根/词/短语/其他假设所有特征独立每个文档dj可以用标引项向量来表示（a1j,a2j,aMj）权重计算，N个训练文档AM*N=（aij）相似度比较Cosine计算内积计算Term的粒度Character，字：

中Word，词：

中国Phrase，短语：

中国人民银行Concept，概念同义词：

开心高兴兴奋相关词cluster，wordcluster：

鸟巢/水立方/奥运N-gram，N元组：

中国国人人民民银银行某种规律性模式：

比如某个窗口中出现的固定模式中文文本分类使用那种粒度？

Term粒度中文词特征V.S.Bigram特征中文分词？

更困难的学术问题Bigram？

简单粗暴假设分词100%准确在低维度达到更好的结果现实中不可能的Term粒度中文ICTCLAS分词V.S.Bigram低维度：

词Bigram高维度：

Bigram词词的数目有限Bigram特征数目更多，可以提供更多的特征So,实用性角度：

分词研究角度：

Bigram权重计算方法布尔权重（Booleanweighting）aij=1（TFij0）or（TFij=0）0TFIDF型权重TF:

aij=TFijTF*IDF:

aij=TFij*log（N/DFi）TFC:

对上面进行归一化LTC:

降低TF的作用基于熵概念的权重（Entropyweighting）称为termi的某种熵如果term分布极度均匀：

熵等于-1只在一个文档中出现：

熵等于0特征选择

（1）基于DFTerm的DF小于某个阈值去掉（太少，没有代表性）Term的DF大于某个阈值也去掉（太多，没有区分度）信息增益（InformationGain,IG）：

该term为整个分类所能提供的信息量（不考虑任何特征的熵和考虑该特征后的熵的差值）特征选择

（2）term的某种熵：

该值越大，说明分布越均匀，越有可能出现在较多的类别中（区分度差）；该值越小，说明分布越倾斜，词可能出现在较少的类别中（区分度好）相对熵（not交叉熵）：

也称为KL距离（Kullback-Leiblerdivergence），反映了文本类别的概率分布和在出现了某个特定词汇条件下的文本类别的概率分布之间的距离，该值越大，词对文本类别分布的影响也大。

特征选择（3）2统计量：

度量两者（term和类别）独立性的缺乏程度，2越大，独立性越小，相关性越大（若ADBC,则类和词独立,N=A+B+C+D）互信息（MutualInformation）：

MI越大t和c共现程度越大ABCDttcc特征选择（4）Robertson&SparckJones公式其他Odds:

TermStrength:

特征选择方法性能比较特征选择方法性能比较YimingYangandXinLiu.1999.“Are-examinationoftextcategorizationmethods.”22ndAnnualInternationalSIGIR99特征重构隐性语义索引（LatentSemanticIndex）奇异值分解（SVD）：

A=（aij）=UVTAM*N,UM*R,R*R（对角阵）,VN*R,RTopic表示自动文本分类方法Rocchio方法NaveBayeskNN方法决策树方法decisiontreeDecisionRuleClassifierTheWidrow-HoffClassifier神经网络方法NeuralNetworks支持向量机SVM基于投票的方法（votingmethod）Rocchio方法可以认为类中心向量法是它的特例Rocchio公式分类类C中心向量的权重训练样本中正例个数文档向量的权重NaveBayes参数计算Bayes公式kNN方法一种LazyLearning,Example-basedLearning新文本k=1,A类k=4，B类k=10，B类带权重计算，计算权重和最大的类。

k常取3或者5。

决策树方法构造决策树CARTC4.5（由ID3发展而来）CHAID决策树的剪枝（pruning）DecisionRuleLearningwheat&formWHEATwheat&commodityWHEATbushels&exportWHEATwheat&agricultureWHEATwheat&tonnesWHEATwheat&winter&softWHEAT（粗糙集）RoughSet逻辑表达式（AQ11算法）学习到如下规则TheWidrow-HoffClassifierOnlineLearning类c向量的第j个分量xi的第j个分量LearningRateTargetValue（0or1）NeuralNetwork.c1c2cnInputLayerHiddenLayerOutputLayerBackpropagationBackpropagation支持向量机SupportVectorMachineSupportVectorOptimalSeparatingHyperplane基于投票的方法Bagging方法训练R个分类器fi，分类器之间其他相同就是参数不同。

其中fi是通过从训练集合中（N篇文档）随机取（取后放回）N次文档构成的训练集合训练得到的。

对于新文档d，用这R个分类器去分类，得到的最多的那个类别作为d的最终类别Boosting方法类似Bagging方法，但是训练是串行进行的，第k个分类器训练时关注对前k-1分类器中错分的文档，即不是随机取，而是加大取这些文档的概率（加大对错分样本的学习能力）AdaBoost文本分类的评估指标分类方法的评估邻接表每个类Precision=a/（a+b）,Recall=a/（a+c）,fallout=b/（b+d）=falsealarmrate,accuracy=（a+d）/（a+b+c+d）,error=（b+c）/（a+b+c+d）=1-accuracy,missrate=1-recallF=（2+1）p.r/（2p+r）BreakEvenPoint,BEP,p=r的点如果多类排序输出，采用interpolated11pointaverageprecision所有类：

宏平均:

对每个类求值，然后平均微平均:

将所有文档一块儿计算，求值真正对的真正对的错误错误标标YESYESaabb标标NONOccdd其他分类方法RegressionbasedonLeastSquaresFit（1991）NearestNeighborClassification（1992）*BayesianProbabilisticModels（1992）*SymbolicRuleInduction（1994）DecisionTree（1994）*NeuralNetworks（1995）Rocchioapproach（traditionalIR,1996）*SupportVectorMachines（1997）BoostingorBagging（1997）*HierarchicalLanguageModeling（1998）First-Order-LogicRuleInduction（1999）MaximumEntropy（1999）HiddenMarkovModels（1999）Error-CorrectingOutputCoding（1999）.DemoShow文本分类的一些新方向传统文本分类研究方向特征选择权重计算不平衡数据集分类训练集样本很少（半监督学习）Active-Learning：

加入人工的因素基本上文本分类作为检验新的机器学习方法的平台新方向短文本分类最大的问题：

信息缺失AskGoogleSnippet代价太高，仅供研究，不实用短文本分类利用TopicModel补充缺失信息语义信息补充现今的文本分类算法未考虑词的语义信息英文中：

短语拆开成了单词MachineLearning,StatisticalLearning,andDataMiningarerelatedsubjectsMachineLearningMachine+LearningConceptsTerms开方测试问题论文中的指标都是在封闭训练测试上计算Web上的文本错综复杂，不可能有统一的分类体系在训练集合A上的模型，自适应的转移到集合B中的文本分布？

TransferLearning主要问题在于成本较高其他一些问题多类别数目分类问题：

比如类别数有成百上千的情况SVM？

训练时一般采用OneV.S.One方法如果一定要选，NaveBayes方法更鲁棒分类速度：

实用的角度不可能采用paper中的方法一般在速度和效果中寻求Tradeoff参考文献文献及其他资源PapersK.AasandL.Eikvil.Textcategorisation:

Asurvey.Technicalreport,NorwegianComputingCenter,June1999http:

/Su，“Textcategorization”，LessonPresentationYimingYangandXinLiu.1999.Are-examinationoftextcategorizationmethods.22ndAnnualInternationalSIGIRASurveyonTextCategorization,NLPLab,KoreanU.庞剑峰，基于向量空间模型的自反馈的文本分类系统的研究与实现，中

展开阅读全文