情感分析.docx - 冰豆网

资源描述

情感分析.docx

《情感分析.docx》由会员分享，可在线阅读，更多相关《情感分析.docx（11页珍藏版）》请在冰豆网上搜索。

情感分析.docx

情感分析

2015--3--6

情感分析往往与社交媒体有关，更一步说，是与大数据相关。

情感分析是从一个文本或者演讲中挖掘作者及演讲者关于某一个明确主题的意见、观点以及情感的过程（这个定义适用于计算机系统，当采用人工挖掘时，仅仅称作阅读）。

（选自《Splunk大数据分析》）

1、简介

情感分析自从2002年由BoPang提出之后，获得了很大程度的研究的，特别是在在线评论的情感倾向性分析上获得了很大的发展，目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上，但是由于深层情感分析必然涉及到语义的分析，以及文本中情感转移现象的经常出现，所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。

情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库，虽然BoPang实验用的电影评论数据集（http:

//www.cs.cornell.edu/people/pabo/movie-review-data/）以及TheresaWilson等建立的MPQA（http:

//www.cs.pitt.edu/mpqa/）是目前广泛使用的两类情感分析数据集，但是并没有公认的标准加以确认。

目前情感分析的研究基本借鉴文本分类等机器学习的方法，还没有根据自身的特点形成一套独立的研究方法，当然在某种程度上也可以把情感分析看出一种特殊的文本分类。

比较成熟的方法是基于监督学习的机器学习方法，半监督学习和无监督学习目前的研究不是很多，单纯的基于规则的情感分析这两年已很少研究了。

既然目前很多情感分析的研究基于机器学习，那么特征选择就是一个很重要的问题，N元语法等句法特征是使用最多的一类特征，而语义特征（语义计算）和结构特征（树核函数）从文本分类的角度看效果远没有句法特征效果好，所以目前的研究不是很多的。

由于基于监督学习情感分析的研究已经很成熟了，而且在真实世界中由于测试集的数量要远远多于训练集的数量，并且测试集的领域也不像在监督学习中被限制为和训练集一致，也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的，为了和真实世界相一致，基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。

在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视，但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功，目前关于这方面的研究以及很少了，但是事实上，语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处，所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。

以下将分别对情感分析的起源，目前基于监督学习，无监督学习，基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。

1.1起源

虽然之前也有一些相关工作，但目前公认的情感分析比较系统的研究工作开始于（Pangetal.,2002）基于监督学习（supervisedlearning）方法对电影评论文本进行情感倾向性分类和（Turney,2002）基于无监督学习（unsupervisedlearning）对文本情感情感倾向性分类的研究。

（Pangetal.,2002）基于文本的N元语法（ngram）和词类（POS）等特征分别使用朴素贝叶斯（NaiveBayes），最大熵（MaximumEntropy）和支持向量机（SupportVectorMachine，SVM）将文本情感倾向性分为正向和负向两类，将文本的情感进行二元划分的做法也一直沿用至今。

同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。

（Turney,2002）基于点互信息（PointwiseMutualInformation，PMI）计算文本中抽取的关键词和种子词（excellent,poor）的相似度来对文本的情感倾向性进行判别（SO-PMI算法）。

在此之后的大部分都是基于（Pangetal.,2002）的研究。

而相对来说，（Turneyetal.,2002）提出的无监督学习的方法虽然在实现上更加简单，但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定，继续在无监督学习方向的研究并不是很多的，但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。

监督学习

目前，基于监督学习的情感分析仍然是主流，除了（Lietal.,2009）基于非负矩阵三分解（Non-negativeMatrixTri-factorization），（Abbasietal.,2008）基于遗传算法（GeneticAlgorithm）的情感分析之外，使用的最多的监督学习算法是朴素贝叶斯，k最近邻（k-NearestNeighbor，k-NN），最大熵和支持向量机的。

而对于算法的改进主要在对文本的预处理阶段。

一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。

（Pangetal.,2004）基于文本中的主观句的选择和（Wilsonelal.,2009）基于文本中的中性实例（neutralinstances）的分析，都是为了能够尽量获得文本中真正表达情感的句子。

（Abbasietal.,2008）提出通过信息增益（InformationGain，IG）的方法来选择大量特征集中对于情感分析有益的特征。

而对于特征选择，除了N元语法和词类特征之外，（Wilsonelal.,2009）提出混合单词特征，否定词特征，情感修饰特征，情感转移特征等各类句法特征的情感分析，（Abbasietal.,2008）提出混合句子的句法（N元语法，词类，标点）和结构特征（单词的长度，词类中单词的个数，文本的结构特征等）的情感分析。

除了对于文本的预处理，对于监督学习中情感分析还进行了以下方面的研究的。

（Melvilleetal.,2009）和（Lietal.,2009）提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。

（Taboadaetal.,2009）提出结合文本的题材（描述，评论，背景，解释等）和文本本身的特征共同判断文本的情感倾向性。

（Tsutsumietal.,2007）提出利用多分类器融合技术来对文本情感分类。

（Wan,2008）和（Wan,2009）提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。

基于规则/无监督学习

和基于监督学习的情感分析相比，基于规则和无监督学习方面的研究不是很多。

除了（Turney,2002）之外，（朱嫣岚etal.,2002）利用HowNet对中文词语语义的进行了情感倾向计算。

（娄德成etal.,2006）利用句法结构和依存关系对中文句子语义进行了情感分析，（Hiroshietal.,2004）通过改造一个基于规则的机器翻译器实现日文短语级情感分析，（Zagibalovetal.,2008）在（Turney,2002）的SO-PMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。

跨领域情感分析

跨领域情感分析在情感分析中是一个新兴的领域，目前在这方面的研究不是很多，主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系，或者说如何寻找两个领域之间特征权值之间的平衡关系。

对于跨领域情感分析的研究开始于（Blitzeretal.,2007）将结构对应学习（StructuralCorrespondenceLearning，SCL）引入跨领域情感分析，SCL是一种应用范围很广的跨领域文本分析算法，SCL的目的是将训练集上的特征尽量对应到测试集中。

（Tanetal.,2009）将SCL引入了中文跨领域情感分析中。

（Tan2etal.,2009）提出将朴素贝叶斯和EM算法的一种半监督学习方法应用到了跨领域的情感分析中。

（Wuetal.,2009）将基于EM的思想将图排序（GraphRanking）算法应用到跨领域的情感分析中，图排序算法可以认为是一种迭代的k-NN算法。

从目前的研究可以看出，跨领域的情感分析主要问题在于寻找两个领域之间的一种映射关系，但是这样的映射关系或者很难寻找，或者需要相当强的数学证明。

所以很多研究借用半监督学习的方法，通过逐次迭代逐渐减少训练集和测试集之间的差异。

1.2商业用途

1.2.1作为决策过程的输入，特别是在购买商品的决策过程中。

1.2.2与公司获取关于商品及服务的反馈信息有关

1.3情感分析的技术性工作

1.3.1情感分析的本质是文本分类。

分析结果有两类：

（1）极性～正面、负面或中性的

（2）极性范围～对结果进行评级或排名

1.3.2涉及技术和挑战

（1）词频

（2）关键词

（3）N_grams

（4）词性

（5）语法

（6）否定是情感分析重要特性之一

1.3.3机器学习分类

（1）贝叶斯分类器

（2）最大熵

（3）支持向量机

1.3.4获取单词基本极性的方法

（1）使用词典

（2）训练文档

2大数据分析平台Splunk情感分析应用程序SentimentAnalysis在CreativeCommons3.0下可以免费使用，SentimentAnalysi的主要功能：

2.1全局性的命令

Sentiment：

基于一个特定的模型预测情感

Language：

一个用来获取字段内容所使用的语言的特殊命令

Token：

这个命令使得标记文档中的词组和短语更加简单

2.2挖掘情感

首先情感用数字表示。

正面—1，负面—-1,中性—0

然后创建搜索，再把这些推文传递给Sentiment命令，最后计算。

将结果以仪表盘可视化展示

2.3语言的处理

2.4训练数据和测试数据

Sanders语料库和密歇根大学语料库

3应用案例

了解世界情绪指数为例

3.1收集RSS摘要

3.2将新闻标题索引到Splunk

3.3定义情感语料库

3.4对结果进行可视化

文本情感分析的应用非常广泛，可以应用到许多行业，其中最重要的几个应用包括：

实现情感机器人，自动提供抉择支持，网络舆情风险分析，信息预测等。

4扩展接口接口集Python、Java、JS、PHP、RUBY、C#

参考文献：

[1]XiaojunWan.UsingBilingualKnowledgeandEnsembleTechniquesforUnsupervisedChineseSentimentAnalysis.ProceedingsofEMNLP-08,553-561

[2]XiaounWan.Co-TrainingforCross-LingualSentimentClassification.ProceedingsofACL-09,234-243

[3]TheresaWilson,JanyceWiebe,PaulHoffmann.RecognizingContextualPolarity:

AnExplorationofFeaturesforPhrase-Level.ComputerLinguistics,25（3）,399-433

[4]AhmedAbbasi,HsinchunChen,Arab,Salem.SentimentAnalysisinMultipleLanguages:

FeatureSelectionforOpinionClassificationinWebForums.ACMTransactiononInformationSystems,26（3）,12:

1-12:

[5]PremMelville,WojciechGryc,RichardD.Larence.SentimentAnalysisOfBlogsbyCombiningLexicalKnowledgewithTextClassification.ProceedingsofKDD-09,1275-1283

[6]KANAYAMAHiroshi,NASUKAWATetsuya,WATANBEHideo.DeepSentimentAnalysisUsingMachineTranslationTechnology.ProceedingsofColing-04

[7]MaiteTaboada,JulianBrooke,ManfredStede.Genre-BasedParagraphClassificationforSentimentAnalysis.ProceedingsofSIGDIAL-09,62-70

[9]TarasZagibalov,JohnCarroll.AutomaticSeedWordSelectionforUnsupervisedSentimentClassificationofChineseText.ProceedingsofColing-08,1073-1080

[10]BoPang,LillianLee.ASentimentalEducation:

SentimentAnalysisUsingSubjectivitySummarizationBasedonMinimumCuts.ProceedingsofACL-04

[11]BoPang,LillianLee,ShivakumarVaithyanathan.Thumbsup?

SentimentClassificationusingMachineLearningTechniques.ProceedingsofEMNLP-02,79-86

[12]PeterD.Turney.ThumbsUporThumbsDown?

SenmanticOrientitionAppliedtoUnsupervisedClassificationofReviews.ProceedingsofACL-02,417-424

[13]KimitakaTsutsumi,KazutakaShimada,TsutomuEndo.MovieReviewClassificationBasedonaMultipleClassifier.Proceedingsofthe21stPacificAsiaConferenceonLanguage,InformationandComputation（PACLIC21）,481-488

[14]JohnBlitzer,MarkDredze,FernandoPereira.Biographies,Bollywood,Boom-boxesandBlenders:

DomainAdaptationforSentimentClassification.Proceedingsofthe45thAnnualMeetingoftheAssociationofComputationalLinguistics,440–447

[15]SongboTan,XueqiCheng.ImprovingSCLModelforSentiment-TransferLearning.ProceedingsofNAACLHLT2009:

ShortPapers,181–184

[16]SongboTan,XueqiCheng,YuefenWang,HongboXu.AdaptingNaiveBayestoDomainAdaptationforSentimentAnalysis.ECIR2009,337–349

[17]QiongWu,SongboTan,XueqiCheng.GraphRankingforSentimentTransfer.ProceedingsoftheACL-IJCNLP2009ConferenceShortPapers,317–320

[18]TaoLiTiZhang,VikasSindhwani.ANon-negativeMatrixTri-factorizationApproachtoSentimentClassificationwithLexicalPriorKnowledge.ProceedingofACL-09,244-252

[19]娄德成,姚天妨.汉语与子语义极性分析和观点抽取方法的研究.计算机应用,2006,26（11）,2622-2625

[20]朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算.中文信息学　报,2006,20

（1）,14-20

展开阅读全文