面向产品评论的属性类别分类方法研究与实现毕业论文.docx

资源描述

面向产品评论的属性类别分类方法研究与实现毕业论文.docx

《面向产品评论的属性类别分类方法研究与实现毕业论文.docx》由会员分享，可在线阅读，更多相关《面向产品评论的属性类别分类方法研究与实现毕业论文.docx（29页珍藏版）》请在冰豆网上搜索。

面向产品评论的属性类别分类方法研究与实现毕业论文.docx

面向产品评论的属性类别分类方法研究与实现毕业论文

中文摘要

情感分析和意见挖掘是分析人们的观点、情感、评价、态度的重要研究领域。

它是自然语言处理领域中最活跃的研究领域之一，在数据挖掘、Web挖掘和文本挖掘中也得到了广泛的研究。

事实上，由于它对商业和社会的重要性，这项研究已经在计算机科学之外扩展到管理科学和社会科学。

情感分析的重要性与日俱增，与社交媒体如评论、论坛讨论、博客、微博、推特和社交网络的发展相一致。

在人类历史上的第一次，我们现在有大量的以数字形式记录的有观点的数据进行分析。

情感分析和特征抽取的系统在几乎所有的商业和社会领域都被应用，因为意见是几乎所有人类活动的中心，是我们行为的主要影响者。

我们的信念和对现实的看法，以及我们做出的选择，很大程度上取决于别人如何看待和评价这个世界。

因此，当我们需要作出决定时，我们往往会征求别人的意见。

这不仅适用于个人，也适用于组织。

所以说，挖掘研究产品评论的信息，对于整个社会来说，隐含着许多重要的经济价值。

本文针对主要针对互联网上的的中文产品评论文本，对其进行属性类别进行分析，并根据已标注的样本，对产品评论属性与方向进行预测。

主要是通过LSTM算法来实现。

关键词：

产品评论；LSTM；语料；属性分类

Abstract

Emotionalanalysisandopinionminingisanimportantresearchfieldtoanalyzepeople'sopinions,emotions,opinionsandattitudes.Itisoneofthemostactiveresearchfieldsinthefieldofnaturallanguageprocessingandhasbeenwidelystudiedindatamining,Webminingandtextmining.Infact,becauseofitsimportancetobusinessandsociety,thestudyhasexpandedbeyondcomputersciencetomanagementscienceandsocialscience.Thegrowingimportanceofemotionalanalysisisconsistentwiththedevelopmentofsocialmediasuchascomments,BBSdiscussions,blogs,tweets,tweets,andsocialnetworks.Forthefirsttimeinthehistoryofmankind,wenowhavealargenumberofdataintheformofadigitalformofdataanalysis.

Theemotionalanalysissystemisusedinalmostallcommercialandsocialfields,becauseopinionisthecenterofalmostallhumanactivitiesandisthemaininfluenceofouractions.Ourbeliefsandperceptionsofreality,andthechoiceswemake,dependinlargepartonhowothersperceiveandevaluatetheworld.Therefore,whenweneedtomakeadecision,wetendtoseekadvicefromothers.Thisappliesnotonlytoindividualsbutalsotoorganizations.So,diggingupinformationaboutproductreviewshasmanyimportanteconomicimplicationsforsocietyasawhole.

ThispapermainlyaimsatthecommenttextofChineseproductsontheInternet,toanalyzeitspropertycategories,andaccordingtothesample,andlabeledwithforecastproductreviewspropertiesanddirection.MainlythroughLSTMalgorithm.

Key words：

productcomments;LSTM;corpus;attributesclassification

第一章绪论

1.1研究背景

随着互联网在中国的逐渐普及，网民的生活也变得和互联网密切相关。

电商则是信息化科技融入生活发展最明显的一个例子。

电子商务通过现代通信技术，使得消费者可以在互联网上或者是其他计算机网络上进行与商家的各种交易。

截至2010年12月，通过网络购物用户的比例达到1.61亿，提高了35.1%的使用率，增长了7%，用户在2010年增长了48.6%，在各种应用中增长最快，是用户增长最快的应用。

2008年以来，外国的经济受到全球金融危机蔓延的深度影响，在各行各业都受到了不同程度的冲击，但电子商务行业却一直保持着向上发展的趋势，成为新型经济的不可忽视的一部分。

特别是青年人，工作比较忙碌，导致了没有充足的时间可以来在实体店购物，那么就会选择网络购物平台。

如今，越来越多的用户选择从网络来购买自己所需的产品，就淘宝而言，数据显示，截止2014年，淘宝拥有超过5亿注册会员，每天活跃用户超过1.2亿，在线产品10亿，淘宝和天猫的交易额超过了1.5亿。

而在2017年的双十一期间，天猫最终以总共1682亿成交额定格，创下了历史新高，同比增长了39%，这是非常可观的一笔数，意味着我们电商行业每年以十分迅猛的速度在发展，因而消费者的参与度也是越来越高。

此外，京东近几年来也呈现出了飞一般的发展趋势，作为中国最大的综合网络零售商之一，主要在线销售家电、数字通信、电脑、家居百货、服装、母婴、书籍、食品、网上旅游等12类商品。

2012年，中国独有的B2C市场占据了49%的市场份额，整个供应链继续扩大其在中国电子商务市场的优势。

2014年5月，京东集团正式在美国纳斯达克上市，成为中国第一个成功的美国公司。

-上市大型综合电商平台，是中国最大互联网公司的收入，2016年京东集团市场交易额达到9392亿元，净利润261亿元，较上年同期增长43%。

越来越多的用户选择在网络上购买产品，并且已经从小的生活用品，衣着等向着更加大型，昂贵的物品发展，京东的销售额就是一个很好的例证。

在这些数以亿计的电商的浏览量中，网友无时不刻在进行着信息的交互，产品评价意见的共享，在这些评论中有包含着两方面的情感，积极的方面，也有消极的方面，同时更加注重的也是评论的分类，即这些评论都是对哪方面的情感在进行评价，比如质量，产品的重量、外观、性价比之类的类别。

情感分析的一个重要领域即是对出现在互联网上各式各样的评论挖掘和分析，本文着重于对评论的文本进行分析研究，构建基于机器学习的分类模型对电子产品的评论进行分类。

1.2研究现状

近年来，自然语言处理领域逐渐开始采用深度学习算法，因而获得了比传统的模型，例如基于词典的分类方法更加有效，更加优秀的成果，像Bengio等学者基于深度学习的思想构建的神级概率语言模型，利用各种深层神经网络通过大规模英文语料进行语言模型训练从而得到更好的语义表征，完成句法分析和情感分类等内容，这些都为大数据时代的自然语言处理提供了新的思路。

之前大多数国外的研究都是针对英文的情感分析，对于中文的情感分析研究较少，如今通过基于机器学习的情感分析方法，在中文研究上获得了较大进展，首先是要对训练样本进行分词，预处理，进行一些标注等工作，一般通过大量的手工标注来获取训练分类模型的训练样本，然后再去使用训练好的分类模型来分类测试样本，通常是分为褒贬两种情感极性。

情感极性的问题最早是由Hatzivassiloglou等人率先提出，通过人工从大量的文本集中提取形容词并判定形容词的情感倾向性来分析文本的情感倾向性，经过多年长期的发展，现在有积极（Positive）和消极（Negative）类方法，正负向种子词集合的方法，同义词关系法，和无监督的情感分类算法。

由于中文的语言复杂性，如果使用基于语义的分类方法要求计算机完全理解分析词语的语义倾向，会是很困难的。

如今网络上铺天盖地的评论量之巨大，使得现在情感分析将研究的对象瞄准产品评论，通过网络，我们可以获取大量的评论信息，但是中文方面的产品评论研究还是有些欠缺，尤其是针对口语化的评论。

1.3经济意义

通过情感分析技术对网络上出现的格式评论做挖掘与分析，产生的重大意义是之前人工分析所不能比的。

一个产品的褒贬评价能够影响大部分消费者消费的意愿，对于整个产品的销量有着不可估量的影响，进一步是对企业今后的发展有着重要的战略意义。

通过对产品评论的挖掘分析，我们可以对用户评价，用户的情感倾向和产品销量之间的关系进行研究，对评论是如何影响产品销量情况来建立理论关系模型，不止局限于大型的电商网站，互联网上任意关于该产品的评论信息都可以成为分析的输入数据源。

·电影

电影的票房往往会与网络上评价成正相关，如果好评数比较多，则票房一般来说会比较高。

利用情感分析技术，建立基本的预测模型，再讲从评论中挖掘的情感和观点引入预测模型，那么就可以通过前期的票房数和网络上的评价进行票房预测。

一些研究学者发现评论的数量和评论的评分均值均会对销量产生一定的影响，但是评分的均值影响作用力在上线的前期会更加明显，评论的数量则可能会影响后期的票房。

·电子产品

关于电子产品的评论，会对产品的销量产生一些影响，获取会有一些干扰因素，因为一些电子商务的商家会采取一些“控评”的手段，将差评删除，尤其是一些自营的商家，对评论有完全的掌控权，而淘宝或是京东这种情况较为少，更多是刷一些好评，来提高好评率；同时评论者也不是完全专业的能够给出客观的评价，这点在电子产品上体现得非常明显，许多的消费者都不能对产品的属性表达出合理的描述，对于一些性能相关的电子器件没有评论出或者找错对象，则评论的数据就缺少了很多参考价值。

但是整体的评价还是会对销量产生一定的影响。

·餐馆

我们可以收集来自餐馆顾客的评论，评论的情感与特定的词之间一般会存在一些联系，例如用“现金，只，卡，接受”等词的顾客通常都是在表达消极的情感，即对餐厅现金政策的不满；为了表达对“肉”的积极情感，人们用“嫩”、“酥脆”、“多汁”、“皮”等词。

这说明情感和我们句子中的一些中心词是有联系的，挖掘这种联系并且将情感分析的技术应用到餐厅的经营当中，可以使餐厅的发展更加有针对性，及时发现自己的不足与优势。

1.4本文工作

本文主要的研究目标实现产品评论属性类别分类方法实现，主要的目标是实现一个分类器，设计建立一个情感分类模型，可以准确识别电子产品评论的属性类别。

简要阐述一下本文研究过程主要包含的几个步骤：

（1）训练阶段

I.通过爬虫程序从京东收集语料（用爬虫程序），收集电子产品领域的中文评论语料；

II.标注评论的属性类别，进行去重等处理后得到文本文件；

III.利用LSTM序列标注模型构建学习器

（2）测试阶段

测试学习器，对其的功能和性能进行评估和优化

第二章相关知识介绍

互联网上充斥着大量的在线评论和非结构化形式的文本，情感倾向和属性分类的任务则是自动从评论中挖掘用户对产品和服务的态度。

对在线评论的情绪分析工作可分为两个重要的步骤，首先是从评论中提取出准确的属性类别特征，其次是建立模型，分析情感。

建立分类模型目前的研究主要是利用统计机器学习中的分类技术，例如基于贝叶斯分类器方法，基于递归神经网络（RNN）的方法，基于支持向量机（SVM）的方法，和最大熵分类器等等。

2.1分词技术

中文与英文不一样，中文最基本的组成单元是“字”，英文是有意义的“词”；中文具有意义的最小单位是“词”（包含单字词）；并且词与词之间是没有空格，也就是没有明确的界限，这就需要我们用到分词技术。

中国科学院计算技术研究所专门开发了汉语词法分析系统ICTCLAS（InstituteofComputingTechnology，ChineseLexicalAnalysisSystem）。

本次实验我们用python来训练，过程中一般都会用到结巴分词（JieBa）。

2.1.1关键问题

作为中文信息处理的基础步骤，分词对信息处理挖掘的性能有很大的影响。

但在分词过程中需要解决一些问题。

I.中文存在歧义。

中文词与词之间没有分隔符，例如“汽水不如果汁好喝”，可以分成“汽水/不如/果汁/好喝”，也可以被分成“汽水/不/如果/汁/好喝”；歧义可分为两种，一种为组合型歧义，即假如A和B都是词典中的词，若待切分的字符串包含“AB”这个子串，那么必然就会出现两种不同的划分情况；另外一种为交集型歧义，如果AB和BC都是词典中的词，那么如果待切分的子串又同时包含了“ABC”字符串，那也必然会出现两种分词的结果。

有时也会出现两种混合的情况，但在中文文本中，数据显示交集型歧义和组合型歧义出现的比例为22:

1。

II.未登陆词的识别困难。

一些实体名词和专业名词，例如人名、地名、机构的名字，或者是专业术语和新词语，尤其是现在收集网络上的评论信息，网购的很多消费者都是年轻一代，使用的词很多都是网络用语，因此我们的词典里有很多词都未被涵盖到，这些词没有明确的界限，并且可能本身的构成单元可以是一个独立词，例如“吴建国”，针对这些情况，只能通过外部环境上下文，或者是内部构成，文段的用字规律来解决识别问题。

当今对于人名和地名我们技术已经较为成熟，但是其他词语，特别是新词语还存在困难。

2.1.2中文分词算法

现有的分词算法可分为三大类:

基于字符串匹配的分词方法、基于理解的分词方法和统计分词方法【1】。

I.基于字符串匹配的分词方法：

它根据一定的策略对汉字字符串的分析和“大”机器字典条目的匹配，如果在字典中找到一个字符串，匹配（识别一个单词）有四种顺序：

1）正向最大匹配方法（从左到右）

2）反向最大匹配方法（从右到左）:

3）最小切割（尽量减少每句话的字数）

4）双向最大匹配方法（从左到右，从右到左）

II.基于理解的分词方法：

这种分词方法是通过使计算机模拟人对句子的理解来达到识别词的效果。

基本思想是使用句法和语义信息来处理歧义。

它通常包括三个部分:

子系统、句法语义子系统和一般控制部分。

在总控制部分的协调下，子系统可以获得词语、句子等语义信息的句法和语义信息，来判断分词歧义，即模拟人们对句子理解的过程。

这种分词方法需要大量的语言知识和信息。

由于汉语知识的普遍性和复杂性，很难将各种语言信息组织成一种可以直接通过机器阅读的形式。

因此，对分词系统的理解仍处于实验阶段。

III.基于统计的分词方法：

提出了大量的分词文本，并利用统计机器学习模型来学习分词规则（称为训练），从而实现对未知文本的分割。

例如，最大概率分词法和最大熵分词法。

随着大规模语料库的建立和统计机器学习方法的研究和发展，统计中文分词方法逐渐成为主流的方法。

IV.主要统计模型：

N元文法模型（N-gram），隐马尔可夫模型（HiddenMarkovModel，HMM），最大熵模型（ME），条件随机场模型（ConditionalRandomFields，CRF）等。

2.1.3结巴分词

结巴分词支持以下三种分词模式【2】：

1精准模式，尽量精确的裁剪句子，适合于文本分析;

2.全模式，在句子中将所有可以变成词的词被扫描出来，速度非常快，但不能解决歧义;

3.搜索引擎模式【5】。

在准确的模型基础上，将长词再次切割和切割，提高了召回率，适用于搜索引擎分词。

并且，结巴分词还支持自定义词典，使用自定义词库的功能，可以将自己的词语放入文本文件，在使用结巴分词之前加载此词典，那么可以有效的解决一些网络用语和人名地名的未登陆词问题。

2.2特征提取

在建模的过程中，其中重要的一步就是特征提取，其中特征的选择会对文本分类产生极大的影响。

基于机器学习的情感分析技术，第一步就是提取特征，一般来说需要训练集来训练分类器，然后才能达到分类的效果，而得到训练集的过程中需要大量的人工来手动对文本进行甄别判断，这样就会导致成本较高，也就是大量的人力和财力资源可能会被浪费。

此外，随着网络的逐渐扩大和网络语言内容的丰富，人工方式建立的情感词典识别效果通常会比较低。

通常的特征抽取，包含两种方法，一种是直接完全基于评论本身；另一种方法是建立情感的语义模式，学习生成独立的情感字典，然后对评论进行建模分析，通过输入来获得整个关于评论想抽取的信息。

2.2.1特征选择方法

特征选择的主要目的有两点：

1.减少特征的数量并且增加训练速度，这对于一些复杂模型是很重要的。

；

2.减少白噪音（noisefeature）来提高模型的准确性的测试集,有些噪声特征会导致错误的模型的泛化,导致测试集糟糕的性能。

此外,从模型的角度复杂性,模型的复杂性越高,越有可能过度拟合（overfitting）。

最基本的从文本中抽取特征的方法就是根据词语，在英文中即为单词，通常来说，一句话中的关键词就代表了这句话的情感，例如说评论里包含“垃圾”，那么多半这句话的情感就是偏向负面情绪。

为了提高分类的效率，我们可以在分类之前使用特征选择的方法来剔除一些不必要的词汇。

关于文本文档，我们通常使用常见的特征选择方法：

文档频率，信息增益，CHI统计，互信息等方法。

2.2.2文本向量化

想要文本在计算机上能够得到处理，那么就必须使文本转化成计算机可以读的格式，并且还要能表达这个文本的完整含义，这是自然语言处理的一个核心问题之一。

文本被表示为一种可以被计算机理解的形式，称为文本表示，文本向量化。

文本向量化可以分为向量表达、短文本向量表达、长文本向量表达，根据不同的情况需要不同的方法和处理方法。

I.向量空间模型（VSM）。

一般所指的向量空间模型也可以被称作词袋模型（Bag-of-words），Bag-of-words模型是信息检索领域常用的文档表示方法,BOW使用一组无序的单词（words）来表达文本或文档。

在信息检索中，BOW模型假设一个文档，忽略它的词序和语法、句法等元素，它只是作为几个单词的集合，文档中的每个单词的出现都是独立的，不依赖于其他单词。

换句话说，文档中任何位置出现的任何单词都与文档的意义无关。

近年来，BOW已广泛应用于计算机视觉领域。

向量空间模型对文本的表示有很好的影响作用，可以表示为空间向量，具有很强的可计算性和可操作性。

向量空间模型是文本分类中应用最广泛的文本形式化模型。

但向量空间模型的缺点也很明显,忽略了特征的顺序和位置之间的关系,而不考虑文本的长度,不管语义关系,相信所有的特征是独立的,只考虑出现在文档文本的类别特征频率,情感分类中的应用存在一定的局限性。

II.词嵌入（wordembedding）。

词嵌入的主要原理是，给出一个文档，文档就是一个单词序列比如“ABACBFG”,希望对文档中每个不同的单词都得到一个对应的向量（往往是低维向量）表示。

它的主要作用就是将自然语言中的字词转为计算机可以理解的稠密向量（DenseVector）。

词嵌入wordembedding已经不是一个新的话题了，在此之前，有很多相关的研究，比如bengio的论文“Neuralprobabilisticlanguagemodels”，更早之前，Hinton就已经提出了分布式表达（distributedrepresentation）的概念。

常见的词嵌入wordembedding方法就是先从文本中为每个单词构造一组特征，然后对这组特征做分布式表达（distributedrepresentations）。

在TomasMikolov发的这两篇paper：

分别为“EfficientEstimationofWordRepresentationsinVectorSpace”、“DistributedRepresentationsofWordsandPhrasesandtheirCompositionality”中，提出了一个word2vec的工具包，里面包含了几种wordembedding的方法。

在word2vec出现之前，自然语言处理经常把字词转为离散的单独的符号，也就是One-HotEncoder，又称一位有效编码，它主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

word2vec主要分为CBOW（ContinuousBagofWords）和Skip-Gram两种模式。

CBOW是从原始语句推测目标字词；而Skip-Gram正好相反，是从目标字词推测出原始语句。

CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。

2.3分类模型

本节主要是对我们分类用到的深度学习模型来做介绍，涉及到的有LSTM模型长短期记忆模型（long-shorttermmemory），最大熵模型，CNN卷积神经网络模型等。

2.3.1CNN（卷积神经网络）模型

卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种前馈神经网络，在其人工神经元的范围内可以作用于一部分单元的响应，对大型图像处理具有良好的性能。

它包括卷积层（convolutionallayer）和池化层（poolinglayer）。

。

近年来，卷积神经网络在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理等多个方面都取得了突破性进展。

卷积神经网络与普通神经网络的区别在于，卷积神经网络由卷积层和子采样层组成的特征提取器组成。

在卷积神经网络的卷积层中，神经元只连接到相邻层的一部分。

在CNN的一个卷积层，平面（特征图）通常包含一些特征，每个平面的特征由一些神经元的矩形排列组成，神经元的相同特征的平面共享权，这里的权重是卷积核。

卷积核通常以随机十进制矩阵的形式初始化。

在网络的训练过程中，卷积核将学习到合理的权重。

共享权重（卷积核）的直接好处是减少网络层之间的连接，同时降低过度拟合的风险。

子抽样也称为池，它通常有两种形式:

平均池和最大池。

子抽样可以看作是一个特殊的卷积过程。

卷积和子采样极大地简化了模型的复杂性，降低了模型的参数。

卷积神经网络通常包含以下几种层：

卷积层（Convolutionallayer），卷积神经网路中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。

卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。

线性整流层（RectifiedLinearUnitslayer,ReLUlayer），这一层神经的活性化函数（Activationfunction）使用线性整流（RectifiedLinearUnits,ReLU）f（x）=max（0,x）f（x）=max（0,x）。

池化层（Poolinglayer），通常在卷积

展开阅读全文