1、针对微博数据的情感挖掘也成为当前研究热点,准确分类微博所表达的情感,对于民意调查、舆情监控、市场营销、政府决策等具有重要意义。 文本情感分析又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程1。微博情感分析就是其在海量微博数据当中的应用,但又与普通的文本情感分析有所不同,因为微博文本的独特性给微博情感分析带来了新的机遇和挑战:1)微博文本被限制在140个字符之内, 其文本简短给情感分析带来了巨大的数据稀疏性;2)微博文本的不规范性和网络词汇的频繁出现,使得以往的文本情感分析方法和语料词典无法直接使用;3)微博文本主题不明确,情感多样化,往往同一条微博同时表达了多种情感。
2、在中文微博中比较常用的情感划分方法是将其划分成7种情感,分别是高兴、悲伤、喜欢、生气、厌恶、恐惧和惊讶2。目前,针对中文微博情感分类的研究大部分只是判别微博文本是否具有情感或者微博情感的褒贬性,而对微博文本进行细粒度情感分类的研究尚处于起步阶段。第二届自然语言处理与中文计算会议(NLP&CC2013)首次提出了关于中文微博的细粒度情感分析评测任务,要求识别出整条微博所表达的情绪,不是简单的褒贬分类,而是涉及到多个细粒度的情绪类别,如高兴、悲伤、恐惧、惊讶等。贺飞艳等3结合TFIDF(Term FrequencyInverse Document Frequency)方法和方差统计方法,提出了一种
3、实现多分类特征提取的计算方法,并在NLP&CC2013评测所提供的数据集中对微博短文本进行了细粒度的情感判断。欧阳纯萍等4通过构建微博的情感特征向量,采用支持向量机(Support Vector Machine, SVM)和最近邻分类(KNearest Neighbor, KNN)算法对微博进行细粒度情绪分析。Liu等5试图利用多标签分类方法来解决微博文本的细粒度情感分类问题,并且验证了11种多标签分类方法的可行性。Yang等6针对新浪微博上关于马航失联事件的文本进行了细粒度情感分类研究,并且发现了一个有趣的现象人们在表达悲伤情感的同时往往伴随着生气。针对细粒度情感分类的研究取得了一定的研究成
4、果,但仅仅只是给出了微博的情感标签,并没有体现出情感标签之间的顺序关系。 事实上,在同一条微博当中尽管表达了多种情感,但这些情感与微博的相关程度却不相同,也就是说同一条微博中表达的情感有主次之分。掌握情感与微博相关程度,对于把握公众情感最可能的变化趋势以及个体最可能的反应非常有益。在NLP&CC2014提供的评测数据集中,Wang等7试图通过现有的校准标签排序(Calibrated Label Ranking, CLR)方法对中文微博文本的多标签情感进行排序,并且通过情感词和表情符号等情感特征对其排序结果加以修正;但是,其忽略了情感标签之间的关联性。本文针对NLP&CC2014提供的情感分类数
5、据集提出了一种简单的多标签排序方法TSMLR(TwoStage MultiLabel Ranking)。该方法采用两步学习和两步分类的策略进行,试图通过利用情感标签之间的主次关系来提高情感分类的效果。通过实验验证,结果表明所提方法取得了良好的效果。1相关工作 1.1中文微博情感分析 情感分析是目前一个非常热门的研究领域,被广泛应用到微博文本和产品评论当中。根据不同的文本粒度,可以将情感分析分为词语级、短语级、句子级以及篇章级等研究层次,根据研究任务的不同,也可将情感分析分为主客观信息分类、主观信息情感分类和更细致的情感分类1。目前中文微博情感分类主要有两种研究方法:基于情感词典的方法和基于机器
6、学习的方法。基于情感词典的方法主要是利用情感词典、领域词典来获取文本的情感极性。在中文微博情感分类研究中,人们还充分利用了网络词汇、表情符号等微博特性来提高情感分类的性能。Cui等8在现有词典的基础上,利用有代表性的话题相关词语和未登录词,构建了微博情感词典帮助识别微博的情感倾向;张珊等9利用微博中的表情符号并结合情感词语构建了中文微博情感语料库,从而判断微博的情感极性;Shen等10通过定义态度词,建立权重词典、否定词典、程度词典和感叹词词典来计算微博的情感指数;Yuan等11通过结合情感词典和情感规则对微博文本进行了情感分析。该类方法的关键在于情感词典的构建,由于中文微博情感分析处于研究初
7、期,还没有形成统一规范的情感词典,尤其是针对现今的网络用语词典更少,所以给该类方法带来一定的局限性;而基于机器学习的方法在于选择合适的特征来表示文本,并且通过训练分类器来获取文本的情感极性。刘志明等12针对微博中的电影评论对比分析了支持向量机、朴素贝叶斯、n元语言模型三种机器学习方法的实验效果;谢丽星等13则对基于表情符号的规则、基于情感词典的规则以及基于SVM的分类策略三种情感分析方法进行了深入研究,结果表明基于SVM的层次结构多策略方法效果最好;CC2013中,Jiang等14利用微博中的表情符号,构建了一种情感词与表情符号的映射关系,提出了一种表情符号空间模型,将基于情感词典的方法和基于
8、机器学习的方法结合起来。1.2多标签排序 传统的单标签分类中,每个样本仅仅属于一个类别标签,而在实际应用中一个样本往往同时具有多个标签属性15,并且这些类别标签与样本的相关程度不同。多标签排序就是多标签分类和标签排序的结合,不仅要给出样本所属标签集合,还要根据标签与样本的相关程度给出类别标签的顺序16-17。标签排序作为多标签学习中的一个重要问题,吸引了越来越多的研究者关注17。目前主要有以下几类标签排序算法:1)基于分解技术的标签排序方法,通过将一个复杂的标签排序问题分解为多个简单的子问题进行求解。比如成对比较排序(Ranking by Pairwise Comparison, RPC)法1
9、8为每一对标签产生一个数据集,并用每个数据集训练出一个二分类器,最终通过投票机制根据每个标签所得票数进行排序。校准标签排序(Calibrated Label Ranking, CLR)算法19则是RPC算法的一个拓展,在RPC的基础上加入了一个人工校准标签,用于分隔标签集中的相关标签和不相关标签。2)基于概率模型的标签排序方法,主要包括基于Mallows模型的标签排序算法20和基于PlackettLuce模型的标签排序算法21。3)基于相似性的标签排序方法,主要通过改编传统的机器学习方法进行标签排序,包括基于朴素贝叶斯的标签排序方法22、基于关联规则的标签排序方法23和基于多层感知神经网络的标
10、签排序方法24。2TSMLR原理 本文针对中文微博文本情感分类中的一种特定类型,所处理的数据集中,每个样本最多只有两个情感标签,并且均有顺序。假设Y=y1, y2, y8表示数据集中所包含的8个情感标签集合,分别代表anger、 disgust、 fear、 happiness、 like、 sadness、 surprise和none,这里none表示没有情感。用D表示数据集,D=(Xi, Yi)|i=1,2,n,其中:Xi是第i个微博样本的特征向量;Yi=yi1, yi2 (YiY)表示第i个样本的有序情感标签集合,yi1Y和yi2Y分别表示该样本的主要情感标签和次要情感标签。若yi1 y
11、i2 y8,则认为微博Xi表达了两种情感;若yi1 yi2且yi2=y8,则认为微博Xi只表达了一种情感;若yi1=yi2=y8,则认为微博Xi没有表达任何情感。表1给出了一个有序多标签数据集的例子。为了学习情感标签之间的顺序关系,本文提出了一种简单的多标签排序算法,该方法采用两步学习与两步分类的策略进行,Dtrain和Dtest分别表示训练集和测试集。在学习过程中,将多标签排序问题转换成一个多类单标签分类问题。第1步对训练集进行重新组合。首先忽略多标签排序问题中样本的第二个情感标签,只保留第一个情感标签而得到数据集D=(Xi, yi2)|i=1,2,n;然后,根据样本的第一个情感标签,针对样本的第二个情感标签对数据集进行分解
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1