基于卷积神经网络的中文情感分析毕业论文.docx

资源描述

基于卷积神经网络的中文情感分析毕业论文.docx

《基于卷积神经网络的中文情感分析毕业论文.docx》由会员分享，可在线阅读，更多相关《基于卷积神经网络的中文情感分析毕业论文.docx（23页珍藏版）》请在冰豆网上搜索。

基于卷积神经网络的中文情感分析毕业论文.docx

基于卷积神经网络的中文情感分析毕业论文

---文档均为word文档，下载后可直接编辑使用亦可打印---

摘要

近年来，随着互联网的发展，自然语言处理（NLP,NaturalLanguageProcessing）已经成为一个越来越重要的研究领域。

其中，对于网络文本的研究，例如社交网络中文本的研究（如微博、朋友圈中用户所发布的文字内容等）又是一个十分重要的方向。

在文本的分析任务中，很重要的一项工作就是对文本中所包含情感的分析。

随着深度学习领域技术的不断成熟，关于如何将深度学习技术有效地运用到文本情感分析任务中的这一课题受到了越来越多的关注。

卷积神经网络是深度学习领域中一种非常重要的神经网络结构，目前已经广泛应用于文本分析、图像识别等领域。

本文提出了一种可以用于文本分析任务的卷积神经网络模型，通过卷积和池化的操作来对经过预处理的训练数据进行特征提取和学习，并且在学习过程中通过Adam算法来优化模型自身的可学习参数来提高模型识别的准确率。

此外，本文还通过将卷积神经网络模型与文本词性标注信息相结合的方式对原始的卷积神经网络模型进行了一定程度的优化，从而使最终得到的模型能有更高的识别准确率。

关键词：

深度学习；卷积神经网络；情感分析；词性标注

Abstract

Inrecentyears,withthedevelopmentoftheInternet,NaturalLanguageProcessing（NLP）hasbecomeanincreasinglyhotresearcharea.AmongalltheNLPtasks,researchesofonlinetextsinsocialnetworks（suchasmicroblogs,textspostedbyusersinMomentsofWeChat,etc.）arealsoofgreatimportance.Intextanalysistasks,animportantdirectionistoanalyzethesentimentpolaritycontainedinthetext.Asthetechnologyofthedeeplearningcontinuestodevelop,thestudyofhowtoeffectivelyapplydeeplearningtothetextsentimentanalysistaskhasreceivedmuchmoreattentionthanbefore.

Convolutionalneuralnetworkisaveryimportantneuralnetworkstructureinthefieldofdeeplearning.Ithasbeenwidelyappliedintextanalysis,imagerecognitionandotherfields.ThispaperproposesaconvolutionalneuralnetworkmodelthatcanbeusedtohandleChinesesentimentanalysistasks.Itiscapableofextractingfeaturesofpre-processedtrainingdatathroughconvolutionandpooling,andthemodel'strainableparametersareoptimizedbyAdamalgorithmduringthelearningprocesstoimprovetheaccuracyofrecognition.Inaddition,thispaperalsoimprovestheoriginalconvolutionalneuralnetworkmodelbycombiningthemodelwiththepart-of-speechtagginginformation,whichmakesthemodelacquiresahigheraccuracyinthesentimentanalysistaskperformedinthispaper.

Keywords:

DeepLearning;ConvolutionalNeuralNetwork;SentimentAnalysis;POS-Tagging

前言

网络的发展催生了海量的网络文本数据，这些散布在网页、网络新闻、博客、网络评论和其他各种社交媒体中的文本数据中蕴含着大量的隐藏信息，例如观点、情感等等。

文本情感分析任务一直是自然语言处理研究领域的热点和重点，因此如何从用户留下的网络文本中提取到准确的、有价值的情感信息成为了众多科研人员的研究目标。

例如：

在线服务的供应商可以通过自动化的文本情感分析工具来获得服务用户的用户反馈，从而及时有效地掌握产品的认可程度和适用情况，进而快速做出调整；舆情控制相关部门可以通过对相关话题分类下的网络文本情感分析来快速地了解网络用户对某一特定事件的态度等等。

用于解决文本情感分析任务的方法有很多，主要可以分为三类，分别是基于情感词典（先验知识）的分析、基于传统机器学习算法的分析和基于深度学习算法（人工神经网络）的分析。

目前这几种方式都已经在情感分析领域有了一定的应用，但是由于人类情感的复杂性，现有的各种方法仍然很难做到完全准确无误的来预测文本的情感极性。

已有研究表明，运用深度学习的方法往往能在文本情感分类任务中获得更好的表现。

而且，不同于英文天生具有分词的文法特性，高度发展的中文抽象程度更高并且文法中并不天然带有分词属性，因此中文文本情感分析任务的难度也更高，要想获得准确的分析结果不仅要依靠合适恰当的统计分析和学习优化方法，也要依靠准确、通用性强的文本数据预处理机制。

本文主要尝试以上文提到的基于深度学习算法的方法来进行文本情感分析任务。

本文选取了在人工神经网络领域中具有重要地位的卷积神经网络结构来进行文本情感模型的构建，使用jieba和NLPIR分词工具来对中文文本数据进行分词、词性标注等预处理工作，以多分类对数损失函数（categorical_crossentropy）作为目标函数，以Adam算法作为模型中可训练参数的优化算法。

在建立好初始的卷积神经网络模型之后，又通过集合词性标注信息的手段，进一步提高了最终模型的识别准确率。

第一章绪论

本章首先阐述了文本情感分析任务的研究背景和研究意义，其次简单介绍了卷积神经网络的概念和工作原理。

并且对本文所做的主要工作做了相应的概述，在本章的最后一部分介绍了本文的组织结构。

1.1研究背景及意义

伴随信息技术和互联网的跨越式发展，网络上的各种信息数据的整体规模在以极高的速度增长，而文本信息作为网络信息的主体，同样在近年来呈现出“爆炸式”的增长状态。

在当前Web2.0的大趋势下，网络用户不再是仅仅被动的接受网络所提供的信息，同时也在源源不断地向网络输送自己的信息。

各种个人博客、社交网络软件、网络购物平台都随处可见用户留下的大量表达自己的观点和看法的文本数据。

这些数据中包含着丰富的情感信息，如用户自身的喜怒哀乐的情感、用户对产品或者服务的评价与看法、对于某种社会现象的支持或者反对等等。

面对如此海量的数据，想要通过人工的方法去总结和归纳其中的情感信息显然是不可行的，因此，如何有效的分析和提取文本中所包含的情感信息就成为了一项意义深远而且地位非凡的任务。

1.2卷积神经网络概述

卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种前馈的神经网络，因此在其内部，参数是从输入层向输出层单向传播。

卷积神经网络之中包含的人工神经元通常可以针对一个输入数据中的某个覆盖范围内的数据进行响应，因此在之前的应用中对大型图像的数据的处理有着相当不错的表现。

一般来讲，卷积神经网络由一个或者多个卷积层（Convolutional-Layer）和顶端的全连接层（Fully-Connected-Layer）组成，其中还会包含池化层（Pooling-Layer）。

这种结构使得卷积神经网络在处理具有二维结构的数据时变得更为有效，也因此，与其他深度学习结构相比，卷积神经网络在图像和语音识别方面的研究往往能够得到更加优秀的结果。

同时，与其他前馈的深度学习结构一样，卷积神经网络模型也可以通过反向传播算法来进行训练。

而由于卷积神经网络采用了卷积和池化等处理步骤，使得在模型训练过程中所需要关注的参数的数量大大降低，因此卷积神经网络的训练代价相较于其他前馈神经网络模型也大大降低，继而使得卷积神经网络成为了研究领域中相当热门的一种神经网络结构。

1.3本文的主要工作

本文的主要任务是在相关数据集上以可靠的正确率完成文本情感分类任务。

为了完成这一目标，本文采取了卷积神经网络模型来作为本情感的预测模型，并且在搭建好初始模型的基础上，通过将输入文本与其词性标注信息相结合的手段来进一步提高模型的识别准确率。

本文的主要工作如下：

（1）文本情感分析数据集的收集并且使用两种不同的分词工具来对数据集进行预处理。

（2）利用Keras完成对卷积神经网络模型的构建。

（3）使用处理好的文本数据集对构建出的卷积神经网络模型进行训练，并且根据文本情感分析的任务特性对模型进行改进，提出了一种结合文本分词词性标注信息的卷积神经网络模型并加以实现。

（4）将上述得到的各种模型在收集到的数据集上进行训练、验证和测试，同时根据实验结果对分词工具适用性以及模型准确性做出了一定的分析。

1.4本文的组织结构

本文共分为五章，每一章的大致内容如下：

第一章：

绪论。

本章主要介绍了文本情感分析这个课题研究的背景和研究意义、卷积神经网络结构的基本概念以及大致构成、本文的主要工作，最后对本文的组织结构做了相关介绍。

第二章：

文本情感分析背景知识。

本章首先主要对当前文本情感分析领域的研究现状做了一定的概括和总结，从基于先验知识的分析、基于传统机器学习方法的分析、基于深度学习方法的分析三个方面进行了阐述。

其次，根据目前领域内研究现状总结了目前的文本情感分析研究的不足和难点，最后对本章的内容加以总结。

第三章：

基于卷积神经网络的中文情感分析模型。

本章主要是对本文中所使用的卷积神经网络文本感分析模型以及本文研究过程中所使用的相关技术的介绍。

首先介绍了文本数据的预处理技术，包括分词、词性标注等；接着介绍了文本数据的向量化技术；然后介绍了深度学习领域的相关概念；接着详细解释了本文中所使用的卷积神经网络模型的结构和工作原理并且介绍了对该模型进行改进的方法，最后做了一个简单的总结。

第四章：

主要介绍了应用第三章中所提到的模型在不同的中文情感分析数据集上进行训练和验证的实验过程。

首先介绍了实验环境的部署，其次简要介绍了本文研究所采用的数据集，然后简要介绍了实验的对比组别设置情况，接着对实验结果数据根据分组进行相应的对比和分析，最后是对本章内容的总结。

第五章：

总结与展望。

对本文中所做研究工作做出了一定的总结，找出尚不完备和值得改进的地方，为未来的工作提供方向，并对下一步的研究计划提出规划与展望。

第二章文本情感分析背景知识

本章详细介绍了目前文本情感分析领域的相关研究的现状，并且针对所运用技术进行分类，选取每一分类中具有代表性的研究案例加以阐述，同时总结出当前的文本情感分析的不足之处以及接下来文本情感分析任务的走向。

2.1文本情感分析的研究现状

当今时代互联网技术的飞速发展给人们的日常生活带来了日新月异的变化，而随着发展，网络用户开始在社交网络中表达自己的观点、情绪，在网购平台对产品进行评论。

这些行为留下了大量带有观点倾向和情感色彩的文本数据，自然而然的，如何使用各种先进技术对此类文本进行分析获得其中的情感极性便成为了计算机技术领域一个十分热门的研究课题。

传统的关于情感分析的方法主要有基于规则分析和基于统计分析两类。

基于规则分析的方法主要通过词典和模板匹配来提取出倾向或者情感极性，而基于统计分析的方法则是通过机器学习的方式通过相应数据集训练出模型来进行自动化地情感分析。

随着深度学习、神经网络技术的发展，越来越多的情感分析任务开始借助这些新技术来提高情感分析结果的正确性。

目前英文的情感分析方法得到了较大发展，由于中文与英文在词法、句法等方面存在较大差异，英文情感分析的方法应用于中文情感分析取得的效果并不理想。

本文分析了近几年来中文或其他主流语言情感分析工作的一些最新进展,总结中文情感分析的发展趋势。

值得注意的是所有的情感分析任务中，特定目标情感分析任务是指那些通过学习文本上下文的信息来判别文本中特定目标的情感极性的任务。

特定目标情感分析任务是更深层次的情感分析，也是细粒度的文本分类任务，一直以来都得到很多学者的关注和研究[1,2]。

目前在文本情感分析领域的分析方法可以分为两个范畴：

基于情感词典即基于先验知识的分析和基于机器学习算法的分析，而基于机器学习算法的分析又可以分为基于传统机器学习算法和基于深度学习算法（人工神经网络）两种。

2.1.1基于先验知识的分析

基于先验知识的情感分析方式采用情感词典进行分析，利用情感词典中标注的单词或短语的清晰来标注文本中出现的情感词的极性。

对于预处理分词后得到的单词序列，这种分析方法有两种不同的处理方式：

第一种方式是最简单直接的代数运算分析方式，即将文档分词处理后的结果，逐个词在情感词典查找对应的情感极性值，然后将所有的值进行求和。

如果最终结果大于零，则文档情感极性为积极的，否则，为消极情感。

第二种处理方式，会考虑语言的语法规则等，采用更复杂的分析模型和计算方法，往往也能获得更好的分类效果。

例如采用位置索引敏感的算法计算每个分词的情感倾向，然后计算各位置情感倾向值的平均值作为最终的情感倾向。

目前基于情感词典的情感分析方法主要是利用情感知识词典来获得句子中相关词语的情感极性并配合相应的代数和语法运算规则最终计算得出文本的情感属性。