基于卷积神经网络的中文情感分析毕业论文.docx
《基于卷积神经网络的中文情感分析毕业论文.docx》由会员分享,可在线阅读,更多相关《基于卷积神经网络的中文情感分析毕业论文.docx(23页珍藏版)》请在冰豆网上搜索。
基于卷积神经网络的中文情感分析毕业论文
---文档均为word文档,下载后可直接编辑使用亦可打印---
摘要
近年来,随着互联网的发展,自然语言处理(NLP,NaturalLanguageProcessing)已经成为一个越来越重要的研究领域。
其中,对于网络文本的研究,例如社交网络中文本的研究(如微博、朋友圈中用户所发布的文字内容等)又是一个十分重要的方向。
在文本的分析任务中,很重要的一项工作就是对文本中所包含情感的分析。
随着深度学习领域技术的不断成熟,关于如何将深度学习技术有效地运用到文本情感分析任务中的这一课题受到了越来越多的关注。
卷积神经网络是深度学习领域中一种非常重要的神经网络结构,目前已经广泛应用于文本分析、图像识别等领域。
本文提出了一种可以用于文本分析任务的卷积神经网络模型,通过卷积和池化的操作来对经过预处理的训练数据进行特征提取和学习,并且在学习过程中通过Adam算法来优化模型自身的可学习参数来提高模型识别的准确率。
此外,本文还通过将卷积神经网络模型与文本词性标注信息相结合的方式对原始的卷积神经网络模型进行了一定程度的优化,从而使最终得到的模型能有更高的识别准确率。
关键词:
深度学习;卷积神经网络;情感分析;词性标注
Abstract
Inrecentyears,withthedevelopmentoftheInternet,NaturalLanguageProcessing(NLP)hasbecomeanincreasinglyhotresearcharea.AmongalltheNLPtasks,researchesofonlinetextsinsocialnetworks(suchasmicroblogs,textspostedbyusersinMomentsofWeChat,etc.)arealsoofgreatimportance.Intextanalysistasks,animportantdirectionistoanalyzethesentimentpolaritycontainedinthetext.Asthetechnologyofthedeeplearningcontinuestodevelop,thestudyofhowtoeffectivelyapplydeeplearningtothetextsentimentanalysistaskhasreceivedmuchmoreattentionthanbefore.
Convolutionalneuralnetworkisaveryimportantneuralnetworkstructureinthefieldofdeeplearning.Ithasbeenwidelyappliedintextanalysis,imagerecognitionandotherfields.ThispaperproposesaconvolutionalneuralnetworkmodelthatcanbeusedtohandleChinesesentimentanalysistasks.Itiscapableofextractingfeaturesofpre-processedtrainingdatathroughconvolutionandpooling,andthemodel'strainableparametersareoptimizedbyAdamalgorithmduringthelearningprocesstoimprovetheaccuracyofrecognition.Inaddition,thispaperalsoimprovestheoriginalconvolutionalneuralnetworkmodelbycombiningthemodelwiththepart-of-speechtagginginformation,whichmakesthemodelacquiresahigheraccuracyinthesentimentanalysistaskperformedinthispaper.
Keywords:
DeepLearning;ConvolutionalNeuralNetwork;SentimentAnalysis;POS-Tagging
前言
网络的发展催生了海量的网络文本数据,这些散布在网页、网络新闻、博客、网络评论和其他各种社交媒体中的文本数据中蕴含着大量的隐藏信息,例如观点、情感等等。
文本情感分析任务一直是自然语言处理研究领域的热点和重点,因此如何从用户留下的网络文本中提取到准确的、有价值的情感信息成为了众多科研人员的研究目标。
例如:
在线服务的供应商可以通过自动化的文本情感分析工具来获得服务用户的用户反馈,从而及时有效地掌握产品的认可程度和适用情况,进而快速做出调整;舆情控制相关部门可以通过对相关话题分类下的网络文本情感分析来快速地了解网络用户对某一特定事件的态度等等。
用于解决文本情感分析任务的方法有很多,主要可以分为三类,分别是基于情感词典(先验知识)的分析、基于传统机器学习算法的分析和基于深度学习算法(人工神经网络)的分析。
目前这几种方式都已经在情感分析领域有了一定的应用,但是由于人类情感的复杂性,现有的各种方法仍然很难做到完全准确无误的来预测文本的情感极性。
已有研究表明,运用深度学习的方法往往能在文本情感分类任务中获得更好的表现。
而且,不同于英文天生具有分词的文法特性,高度发展的中文抽象程度更高并且文法中并不天然带有分词属性,因此中文文本情感分析任务的难度也更高,要想获得准确的分析结果不仅要依靠合适恰当的统计分析和学习优化方法,也要依靠准确、通用性强的文本数据预处理机制。
本文主要尝试以上文提到的基于深度学习算法的方法来进行文本情感分析任务。
本文选取了在人工神经网络领域中具有重要地位的卷积神经网络结构来进行文本情感模型的构建,使用jieba和NLPIR分词工具来对中文文本数据进行分词、词性标注等预处理工作,以多分类对数损失函数(categorical_crossentropy)作为目标函数,以Adam算法作为模型中可训练参数的优化算法。
在建立好初始的卷积神经网络模型之后,又通过集合词性标注信息的手段,进一步提高了最终模型的识别准确率。
第一章绪论
本章首先阐述了文本情感分析任务的研究背景和研究意义,其次简单介绍了卷积神经网络的概念和工作原理。
并且对本文所做的主要工作做了相应的概述,在本章的最后一部分介绍了本文的组织结构。
1.1研究背景及意义
伴随信息技术和互联网的跨越式发展,网络上的各种信息数据的整体规模在以极高的速度增长,而文本信息作为网络信息的主体,同样在近年来呈现出“爆炸式”的增长状态。
在当前Web2.0的大趋势下,网络用户不再是仅仅被动的接受网络所提供的信息,同时也在源源不断地向网络输送自己的信息。
各种个人博客、社交网络软件、网络购物平台都随处可见用户留下的大量表达自己的观点和看法的文本数据。
这些数据中包含着丰富的情感信息,如用户自身的喜怒哀乐的情感、用户对产品或者服务的评价与看法、对于某种社会现象的支持或者反对等等。
面对如此海量的数据,想要通过人工的方法去总结和归纳其中的情感信息显然是不可行的,因此,如何有效的分析和提取文本中所包含的情感信息就成为了一项意义深远而且地位非凡的任务。
1.2卷积神经网络概述
卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈的神经网络,因此在其内部,参数是从输入层向输出层单向传播。
卷积神经网络之中包含的人工神经元通常可以针对一个输入数据中的某个覆盖范围内的数据进行响应,因此在之前的应用中对大型图像的数据的处理有着相当不错的表现。
一般来讲,卷积神经网络由一个或者多个卷积层(Convolutional-Layer)和顶端的全连接层(Fully-Connected-Layer)组成,其中还会包含池化层(Pooling-Layer)。
这种结构使得卷积神经网络在处理具有二维结构的数据时变得更为有效,也因此,与其他深度学习结构相比,卷积神经网络在图像和语音识别方面的研究往往能够得到更加优秀的结果。
同时,与其他前馈的深度学习结构一样,卷积神经网络模型也可以通过反向传播算法来进行训练。
而由于卷积神经网络采用了卷积和池化等处理步骤,使得在模型训练过程中所需要关注的参数的数量大大降低,因此卷积神经网络的训练代价相较于其他前馈神经网络模型也大大降低,继而使得卷积神经网络成为了研究领域中相当热门的一种神经网络结构。
1.3本文的主要工作
本文的主要任务是在相关数据集上以可靠的正确率完成文本情感分类任务。
为了完成这一目标,本文采取了卷积神经网络模型来作为本情感的预测模型,并且在搭建好初始模型的基础上,通过将输入文本与其词性标注信息相结合的手段来进一步提高模型的识别准确率。
本文的主要工作如下:
(1)文本情感分析数据集的收集并且使用两种不同的分词工具来对数据集进行预处理。
(2)利用Keras完成对卷积神经网络模型的构建。
(3)使用处理好的文本数据集对构建出的卷积神经网络模型进行训练,并且根据文本情感分析的任务特性对模型进行改进,提出了一种结合文本分词词性标注信息的卷积神经网络模型并加以实现。
(4)将上述得到的各种模型在收集到的数据集上进行训练、验证和测试,同时根据实验结果对分词工具适用性以及模型准确性做出了一定的分析。
1.4本文的组织结构
本文共分为五章,每一章的大致内容如下:
第一章:
绪论。
本章主要介绍了文本情感分析这个课题研究的背景和研究意义、卷积神经网络结构的基本概念以及大致构成、本文的主要工作,最后对本文的组织结构做了相关介绍。
第二章:
文本情感分析背景知识。
本章首先主要对当前文本情感分析领域的研究现状做了一定的概括和总结,从基于先验知识的分析、基于传统机器学习方法的分析、基于深度学习方法的分析三个方面进行了阐述。
其次,根据目前领域内研究现状总结了目前的文本情感分析研究的不足和难点,最后对本章的内容加以总结。
第三章:
基于卷积神经网络的中文情感分析模型。
本章主要是对本文中所使用的卷积神经网络文本感分析模型以及本文研究过程中所使用的相关技术的介绍。
首先介绍了文本数据的预处理技术,包括分词、词性标注等;接着介绍了文本数据的向量化技术;然后介绍了深度学习领域的相关概念;接着详细解释了本文中所使用的卷积神经网络模型的结构和工作原理并且介绍了对该模型进行改进的方法,最后做了一个简单的总结。
第四章:
主要介绍了应用第三章中所提到的模型在不同的中文情感分析数据集上进行训练和验证的实验过程。
首先介绍了实验环境的部署,其次简要介绍了本文研究所采用的数据集,然后简要介绍了实验的对比组别设置情况,接着对实验结果数据根据分组进行相应的对比和分析,最后是对本章内容的总结。
第五章:
总结与展望。
对本文中所做研究工作做出了一定的总结,找出尚不完备和值得改进的地方,为未来的工作提供方向,并对下一步的研究计划提出规划与展望。
第二章文本情感分析背景知识
本章详细介绍了目前文本情感分析领域的相关研究的现状,并且针对所运用技术进行分类,选取每一分类中具有代表性的研究案例加以阐述,同时总结出当前的文本情感分析的不足之处以及接下来文本情感分析任务的走向。
2.1文本情感分析的研究现状
当今时代互联网技术的飞速发展给人们的日常生活带来了日新月异的变化,而随着发展,网络用户开始在社交网络中表达自己的观点、情绪,在网购平台对产品进行评论。
这些行为留下了大量带有观点倾向和情感色彩的文本数据,自然而然的,如何使用各种先进技术对此类文本进行分析获得其中的情感极性便成为了计算机技术领域一个十分热门的研究课题。
传统的关于情感分析的方法主要有基于规则分析和基于统计分析两类。
基于规则分析的方法主要通过词典和模板匹配来提取出倾向或者情感极性,而基于统计分析的方法则是通过机器学习的方式通过相应数据集训练出模型来进行自动化地情感分析。
随着深度学习、神经网络技术的发展,越来越多的情感分析任务开始借助这些新技术来提高情感分析结果的正确性。
目前英文的情感分析方法得到了较大发展,由于中文与英文在词法、句法等方面存在较大差异,英文情感分析的方法应用于中文情感分析取得的效果并不理想。
本文分析了近几年来中文或其他主流语言情感分析工作的一些最新进展,总结中文情感分析的发展趋势。
值得注意的是所有的情感分析任务中,特定目标情感分析任务是指那些通过学习文本上下文的信息来判别文本中特定目标的情感极性的任务。
特定目标情感分析任务是更深层次的情感分析,也是细粒度的文本分类任务,一直以来都得到很多学者的关注和研究[1,2]。
目前在文本情感分析领域的分析方法可以分为两个范畴:
基于情感词典即基于先验知识的分析和基于机器学习算法的分析,而基于机器学习算法的分析又可以分为基于传统机器学习算法和基于深度学习算法(人工神经网络)两种。
2.1.1基于先验知识的分析
基于先验知识的情感分析方式采用情感词典进行分析,利用情感词典中标注的单词或短语的清晰来标注文本中出现的情感词的极性。
对于预处理分词后得到的单词序列,这种分析方法有两种不同的处理方式:
第一种方式是最简单直接的代数运算分析方式,即将文档分词处理后的结果,逐个词在情感词典查找对应的情感极性值,然后将所有的值进行求和。
如果最终结果大于零,则文档情感极性为积极的,否则,为消极情感。
第二种处理方式,会考虑语言的语法规则等,采用更复杂的分析模型和计算方法,往往也能获得更好的分类效果。
例如采用位置索引敏感的算法计算每个分词的情感倾向,然后计算各位置情感倾向值的平均值作为最终的情感倾向。
目前基于情感词典的情感分析方法主要是利用情感知识词典来获得句子中相关词语的情感极性并配合相应的代数和语法运算规则最终计算得出文本的情感属性。
相关研究中:
(1)ZagibalovT等人[3]提出一种不依赖任何标注训练样本的仅仅需要输入少量常用情感词和副词的方法。
该方法在识别语句级别情感的效果能达到监督分类器的效果。
该研究中将情感的情感分析和主客观判断作为连续的问题讨论而非一个分类问题。
(2)JoshiA等人[4]的研究提出了一种被称为C-Feel-It的基于规则和情感推文分类系统。
C-Feel-It利用4个大型情感知识词库来将推文分类为中性、积极、消极三种类型。
该系统利用权值多数投票规则来预测推文的情感,能对十种以上结构的推文进行正确分类。
(3)ChesleyP等人[5]提出了通过重点分析文本中的动词和形容词的方法来进行自动化地对句子情感分类的工作。
虽然在动词部分他们采用了SVM来将句子定性为询问、回答、解释、建议等种类,但是在形容词部分他们使用了在线的维基百科词典来判断文本中形容词的情感极性。
(4)QiuG等人[6]提出了一种用在特定目标情感分析任务中的双向传播算法,通过情感词和目标词之间的特定关系来判别特定目标的情感极性。
该方法使用一个基础的情感词典,通过对情感词典的扩充,利用扩充后的情感词典和提取到的目标词之间的相互联系来建议特定目标和情感词之间的依赖关系,从而获取目标情感极性。
2.1.2基于传统机器学习算法的分析
目前还有相当一部分情感分析任务的主要研究方法是基于核函数与统计学分类器的算法,例如支持向量机、最大信息熵、朴素贝叶斯、条件随机场算法等。
这些方法也分为有监督、无监督和半监督三种。
其中有监督的学习虽然在目前取得了较好的分析结果,但是其严重依赖于大量人工标注的数据,所以这些系统需要付出很高的标注代价。
无监督学习不需要人工标注数据来进行模型的训练,使得这类系统的标注代价降低,但是由于其完全依赖算法学习结果,往往效果不佳,难以实用。
半监督学习将少量有标注的样本和大量未标注的样本结合使用,兼顾了人工标注成本和学习结果,被视为一种折中的方案[7]。
目前基于传统的机器学习方法的中文情感分析研究主要还是采用支持向量机、朴素贝叶斯、K-近邻等分类方法来进行文本情感的分类。
相关研究中:
(1)TanS等人[8]提出了一种关于中文文档情感分析的方法。
在他们的研究中,采用了四种特征选择方法(互信息法、信息增益法、文档频率法、卡方检测法)和五种传统学习方法(中值分类器、K-近邻、筛分类器、朴素贝叶斯和SVM)对1021份中文文档进行情感分析,实验结果表明信息增益在特征选择方法中表现最好,而在传统机器学习方法中SVM的表现最好。
(2)ZhangC等人[9]提出了一种基于规则的文档情感分析方法。
该方法分为两个阶段:
首先根据词间依赖关系来确定句子的情感,然后再将句子的情感聚合起来得到整篇文章的情感,将中文情感分析任务从句子层次提高到文章层次。
他们的研究结果在最终测试中的表现要优于三种传统的学习方法,从而证明了他们所提出方法的可行性。
(3)KiritchenkoS等人[10]使用一种结合多种特征的支持向量机分类模型在基于方面的情感分析任务中取得了有竞争力的实验结果。
该方法在libSVM模型上加入了unigram、bigram、词典等特征,使模型可以挖掘输入文本中的多种情感信息,有效识别句子中不同方面的情感极性。
2.1.3基于深度学习方法的分析
深度学习是机器学习研究中的一个新领域,其研究目的是为了模仿人类大脑来建立可以进行分析和学习的神经网络。
目前,深度学习的相关技术已经被成功应用于图像识别、语音识别等方向,也有越来越多的研究开始将深度学习方法应用于自然语言处理方向。
目前主流的神经网络结构有循环神经网络(RecurrentNeuralNetwork,RNN)、卷积神经网络(ConvolutionalNeuralNetwork,CNN)、长短时记忆网络(LongShort-TermMemory,LSTM)等。
其中RNN是一种节点定向连接成环的人工神经网络。
这种网络的内部状态可以展示动态时序行为。
RNN可以利用它内部的记忆来处理任意时序的输入序列,这让它可以更容易处理如不分段的手写识别、语音识别等,其在文本情感分析领域也有较多应用。
CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,已经被成功地运用于图像处理领域,其在情感分析领域的应用也有相应的研究。
LSTM网络是一种带门控的RNN网路,可以有效解决RNN网络在训练过程中的梯度消失问题。
在自然语言处理任务中,LSTM网络可以学习词语在句子中的长期依赖关系。
目前基于深度学习和神经网络的情感分析研究普遍都取得了比传统的机器学习方法更优秀的分析结果,这些研究中所使用的神经网络模型有CNN、RNN、AdaRNN以及结合受限玻尔兹曼机层的神经网络等等。
相关研究中:
(1)SunX等人[11]提出了一种内容扩展框架用来将微博与其相关评论组合形成“微博对话”从而进行特征提取。
他们在深度神经网络的基础上扩展出卷积的特性,应用了一种新式的自动卷积编码器来从“微博对话”中提取信息并从帖子中提取特征。
他们所使用的深度神经网络模型拥有数层受限玻尔兹曼机层(RestrictedBoltzmannMachine,RBM),和一层分类玻尔兹曼机层(ClassificationRBM,ClassRBM),实验结果表明他们设计的深度神经网络模型比SVM和NB方法都有更强的性能.
(2)HuangHH等人[12]关于隐晦观点的提取和情感分析的研究中,对于那些缺少明显观点词或者观点的提出十分不明显的句子的情感分析任务进行了研究。
在他们的研究中,使用了最前沿的机器学习方法,也使用了词向量和深度神经网络来对中文酒店点评数据集进行实验。
他们的实验表明,卷积神经网络的表现不仅要远远优于支持向量机方法,而且还能捕获到原文本中的隐藏知识。
(3)ChenT等人[13]提出了一种“分而治之”的情感分析方法,该方法首先将句子分成不同的几种种类,然后再针对每种不同的种类采取相应的办法来进行情感分析。
首先该方法会根据分析目标的个数利用神经网络来将有观点的句子分成三类,对于每一类,再用一维的卷积神经网络进行更细化的情感分类。
(4)NguyenTH等人[14]基于递归神经网络(RecursiveNeuralNetwork,RNN)和依存树提出一种特定目标情感分析模型。
该方法利用一个结合句子成分结构和句子依存关系树的二叉短语依赖树来获取特定方面的表示,能有效获取不同方面在句子中和其他词语的依赖关系,有效提升了特定目标情感分析的正确率,同时也大大降低了情感分析任务中的特征工程的工作量。
(5)DongL等人[15]使用一种带适应能力的递归神经网络模型(AdaRNN)来解决特定目标情感分析问题。
该模型利用一个自适应的神经网络模型来学习特定目标和词语之间的相互联系以及句子的句法结构,并通过词语和目标词之间的联系来扩展句子中的情感信息,从而有效识别句子中特定目标的情感极性。
2.2文本情感分析的难点和不足
对于文本情感分析任务来说目前还有以下不够完善的地方,同时也是文本情感分析任务的几大难点:
(1)基于先验知识的分析对人工情感词典的依赖太重导致手工工作量庞大。
(2)在互联网环境下,有一些字面上积极的语句往往带有完全相反的情感极性。
例如“一天蓝屏三次,这电脑太稳定了!
”。
目前的研究对于这一类含有反讽和幽默的数据的情感极性的预测正确率还不够理想。
(3)对于相似程度很高但是态度情感极性相反的句子往往难以正确区分。
例如“这种护肤品痘痘多的人用很有效”和“用了这种护肤品用了之后痘痘变多了”。
(4)目前大多数研究工作还集中于对商品的评论和反馈进行分析,涉及到网络舆情等其他领域文本的分析工作还相对较少[16]。
2.3本章小结
关于情感分析任务,目前还有很多研究在使用基于传统机器学习的方法,根据手工标注好的情感词典,对文本信息使用朴素贝叶斯、支持向量机、最大熵方法等传统机器学习算法进行情感分析。
为了避免对手工方式建立的情感词典的依赖,减少机器学习过程中的人工干预,新型的基于深度学习和神经网络(CNN、RNN、LSTM[17]等等)的方法逐渐被运用到情感分析任务中去,并且普遍取得了比传统方法更好的效果。
从长远看来,文本情感分析任务将是今后深度学习和神经网络发展的一个十分重要的方向。
而由于中国互联网用户庞大的基础,基于中文的情感分析必定会引起行业内的高度重视[18][19]。
根据目前的研究现状来分析,当今和未来一段时间内,文本情感分析尤其是中文情感分析的追求目标应该是找到更好的特征提取技术和工具,同时应该将情感分析任务与社交网络的数据挖掘相结合以实现需求的分析和监控。
本人的毕设任务决定采用基于深度学习和神经网络的分析方法,采用卷积神经网络(CNN)构建中文情感分析模型来进行中文情感分析任务,并且争取能在相应的中文数据集上获得正确率较高的情感分析结果。
第三章基于卷积神经网络的中文情感分析模型
本章将会介绍本文研究的主体—基于卷积神经网络的中文情感分析模型以及与之相关的文本预处理技术。
文章将会详细的介绍卷积神经网络模型的组成结构和工作原理,以及对文本数据进行分词等预处理的相关步骤和工具,以及文本数据向量化的相关工作。
3.1文本数据的预处理
在自然语言处理任务中,要想使用深度学习方法获得准确优秀的预测结果有一个前提:
那就是要对演