本科毕业设计中文产品评论的意见挖掘研究.docx

资源描述

本科毕业设计中文产品评论的意见挖掘研究.docx

《本科毕业设计中文产品评论的意见挖掘研究.docx》由会员分享，可在线阅读，更多相关《本科毕业设计中文产品评论的意见挖掘研究.docx（77页珍藏版）》请在冰豆网上搜索。

本科毕业设计中文产品评论的意见挖掘研究.docx

本科毕业设计中文产品评论的意见挖掘研究

硕士学位论文

中文产品评论的意见挖掘研究

ResearchonOpinionMiningof

ProductReviewsinChinese

作者：

严孙荣

导师：

瞿有利

北京交通大学

2010年5月

学位论文版权使用授权书

本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。

特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索，提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。

同意学校向国家有关部门或机构送交论文的复印件和磁盘。

（保密的学位论文在解密后适用本授权说明）

学位论文作者签名：

导师签名：

签字日期：

年月日签字日期：

年月日

中图分类号：

TP391.3

UDC：

620

学校代码：

10004

密级：

公开

北京交通大学

硕士学位论文

中文产品评论的意见挖掘研究

ResearchonOpinionminingofProductReviewsinChinese

作者姓名：

严孙荣学号：

08120510

导师姓名：

瞿有利职称：

副教授

学位类别：

工学学位级别：

硕士

学科专业：

计算机科学与技术研究方向：

自然语言处理

北京交通大学

2010年5月

致谢

本论文的工作是在我的导师瞿有利副教授的悉心指导下完成的，瞿有利副教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。

在此衷心感谢两年来瞿有利老师对我的关心和指导。

尹传环老师悉心指导我们完成了实验室的科研工作，在学习上和生活上都给予了我很大的关心和帮助，在此向尹传环老师表示衷心的谢意。

王志海和田盛丰教授对于我的科研工作和论文都提出了许多的宝贵意见，在此表示衷心的感谢。

在实验室工作及撰写论文期间，张美珍、张彦博和张尚超等同学对我论文中的意见挖掘研究工作给予了热情帮助，在此向他们表达我的感激之情。

另外也感谢女朋友符蓉，他们的理解和支持使我能够在学校专心完成我的学业。

严孙荣

2010年5月于北京

摘要

随着电子商务的迅猛发展，用户购买和使用产品之后会在Web上发表对产品的评论，产品评论的自动挖掘对于商家和潜在的消费者有着重要意义。

本文以中文产品评论为主要研究对象，从评论的整体褒贬分类和细颗粒的产品意见挖掘两个层面进行分析研究，论文主要内容如下：

采用机器学习的方法对产品评论进行整体褒贬分类研究。

构建用于产品评论褒贬分类的语料库；采用基于N-Gram文本特征抽取（分为基于词的unigram，bigram和基于字的unigram，bigram，trigram），结合不同的特征权重计算方法（TF，BOOL，TFIDF），在不同的分类算法（朴素贝叶斯、最大熵和支持向量机）进行分类实验。

实验表明使用基于字的bigram特征表示并结合基于词频的加权方法在支持向量机分类器下取得了最好的分类性能，准确率为94.74%。

在特征抽取上，采用基于后缀树结构的特征提取算法，提取关键子串组作为文本特征。

实验表明基于后缀树的关键子串组的特征表现能力强而且特征维度低，分类的准确率略高于基于N-Gram文本特征表示的分类效果。

设计并实现了基于依存句法分析的细颗粒意见挖掘算法和基于关键字匹配的细颗粒意见挖掘算法，并构建产品特征库和中文极性词典。

实验表明关键字匹配方法好于基于依存句法分析方法。

最后，设计并实现了一个产品评论意见挖掘系统，该系统可以自动抓取指定的评论页面并抽取评论内容，可从整体和细颗粒两个层面对产品评论进行意见分析，并将意见分析结果存入产品意见库中，提供可视化的统计展现。

关键词：

产品评论；情感分类；意见挖掘；自然语言处理

分类号：

TP391.3

ABSTRACT

Nowadays,theelectroniccommerceplaysamoreandmoreimportantroleinourdailylife.ConsumersalwaysexpressopinionsontheproductviatheWebafterusingtheproduct.Theautomaticminingonthesecommentsisimportantforthepotentialconsumersandenterprises.WefocusonChineseproductreviews.Weanalyzedthecommentsontwolevelsincludingdocument-levelsentimentclassificationandfeature-basedproductopinionmining.Themaincontentsareasfollows:

Weemploymachinelearningalgorithmtoperformthedocument-levelsentimentclassificationoftheproductreviews.Wecollectcorpusfromonlinereviews;investigatetheN-GrambasedfeaturerepresentationincludingWord-BasedUigram,BigramandChineseCharacter-BasedUnigram,Bigram,trigram;analysisdifferentfeatureweightingapproaches（TF,BOOL,TFIDF）,comparedifferentclassificationalgorithms（NaiveBayes,MaximumEntropyandSupportVectorMachine）.TheSVMusingChineseCharacterBigram-basedfeatureextractionmethodandwordfrequencybasedtextrepresentationhasthebestperformance,ofwhichtheaccuracywas94.74%.WeresearchedsuffixtreebasedstructurealgorithmextractingtheKeySubstringGroupfeatures.ExperimentsshowthattheKeySubstringGroupfeatureshavebetterdescriptionofthecommentssentimentclassification,lowerdimension,andbetteraccuracythanothertextfeaturesrepresentedinSVM.

Weinvestigateddependencyparsingbasedalgorithmandkeywordmatchingbasedalgorithmforfeature-basedopinionmining.WeconstructaproductfeatureslibraryandaChinesepolarityDictionary.Experimentsshowthatthekeywordbasedmethodisbetterthanthedependencyparsingbasedmethod.

Wedesignedandimplementedaproductreviewopinionminingsystem.Thesystemcanautomaticallycrawlandextractspecifiedcommentsonreviewpages,thenanalysisthereviews,savetheresultintotheproductsopinionlibrary.Userscangetvisualizedresultwhichwillbehelpfulfordecisionmaking.

KEYWORDS：

ProductReview;SentimentClassification;OpinionMinng;NaturalLanguageProcessing

CLASSNO：

TP391.3

1绪论

1.1研究背景

随着生活水平的不断提高，商品经济的不断繁荣，面对琳琅满目的各种商品，要挑选出自己真正需要的商品并不容易。

为了满足不同消费者的需求，生产厂商往往会根据不同类别的使用者生产出不同类型的产品。

然而，消费者一不小心便会买到并不适合自己的产品。

即便是口碑好的厂家，也会有设计不良的产品，而那些不良产品往往在使用一段时间后才会发现问题，而此时消费者已经后悔莫及。

随着Internet的发展和普及，Web已经成为了消费者反馈观点的主要途径。

它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据，也为消费者提供了一个产品使用体验交流以及质量评价的平台。

产品使用者可以通过商家的网站，网络论坛，以及Blog发表对于产品的看法。

因此很多网民在购买某类产品前，往往会选择先上网浏览一些相关产品的信息，了解其他消费者的使用体验，深入比较产品之间的性能，从而使自己的消费更趋理性化。

面对网上海量的良莠不齐的信息和数据，生产厂商和用户要想从产品评论中获取信息，只有通过人工阅读的方式来获取，而这是一个需要耗费大量的时间与精力且容易产生错误的过程。

因此，我们迫切需要能有一种有效的手段对各种大量数据进行整理，提供一目了然的数据统计结果的展示。

数据挖掘（DataMining）技术正是在这样的应用需求环境下产生并迅速发展起来的。

它是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中，提取隐含在其中的、先前未知的、但又是潜在有用的信息和知识的过程[1]。

对用户评论挖掘的研究，目的就在于对网上大量的评论信息进行挖掘，通过采用自然语言处理技术，对自然语言描述的无结构的用户产品评论中进行自动挖掘，找到有用的信息，并以直观的方式对挖掘结果进行表示。

对网络上的产品评论进行挖掘主要是使用现有的文本挖掘技术，文本挖掘（TextMining）是数据挖掘的一个研究分支，用于基于文本信息的知识发现[2]。

数据挖掘是揭示存储在数据库中的结构化数据的数值属性之间的关系，而文本挖掘则是分析和发现大量非结构化文本中的关系，研究的关键在于文本内容的量化表征。

文本挖掘利用智能算法，结合文字处理技术，如文本切分、词性标注、句法分析、浅层语义分析等，对大量的非结构化文本（如文档、电子表格、客户电子邮件、问题查询、网页等）进行分析，抽取文本特征，将文本数据转化为能描述文本内容的结构化或半结构化数据。

然后利用聚类、分类技术和关联分析等数据挖掘技术，形成具有一定结构文本，并根据该结构发现新的概念和相应的关系，获取有用的知识和信息[3]。

随着各种产品信息纷纷发布在网页上，消费者可以更加便捷地获取各种产品的信息。

同时产品使用者也纷纷发表使用评论，这样就又便于其他消费者能够获得最直接的产品评价。

产品评论信息作为文本内容的一种，也在网络上大量的出现。

与普通文本不同的是，这些评论内容是产品使用者把自己的使用体验写出来提供给其他用户看的，是以用户为中心的信息展示。

1.2选题意义

互联网的发展与普及已经深刻地改变了人们的生活和思维方式，极大地推动了全球信息化进程。

网络已经成为当今人们获取知识、发布信息、交流沟通的主要工具。

然而从纷繁复杂的网络世界中准确而快速地获取所需的信息也并非易事，信息检索，信息过滤，文本挖掘等信息处理技术成为解决该矛盾的主要方法。

对产品评论进行挖掘的意义主要体现为二个方面：

一、帮助用户购买适合自己的产品。

评论挖掘能够收集不同网站上大量用户所表达的使用体验，通过产品评论，产品使用者可以把自己的使用情况表达出来，目的在于为其他消费者在购买相关产品时提供一个参考意见，从而选择到称心如意的商品。

对产品评论进行挖掘可以把不同网站上、不同时间、不同用户的评价信息统计起来，全面展示产品的使用情况，帮助潜在用户挑选出适合自己的产品。

二、帮助厂家生产符合社会需求的产品。

因为评论挖掘能够揭示出产品质量的内在信息，因此对产品评论进行挖掘就能展示出产品的质量信息。

对生产厂家来说，生产出真正适合用户需求的产品才是最重要的。

通过浏览产品评论挖掘的结果，他们可以找出现有产品的不足，同时借鉴其他厂家的优良产品，不断改进自身产品的功能和性能。

因此，产品评论的挖掘能促使厂家提升其社会竞争力，生产出功能更多、性能更好、适合不同用户群的产品。

因此，对产品评论进行挖掘，目的在于帮助消费者在海量信息源中迅速找到真正需要的信息，用简单和直接的手段将评论挖掘结果展现给商家和消费者，有着广泛的应用价值和研究价值。

1.3研究现状

1.3.1文本情感分类研究现状

文本的情感分类，近年来受了广泛的关注，其目的是判断给定文本片段所体现的说话者的情感倾向，判断内容中的文字表述是主观性的评论还是客观性的介绍，是正面肯定评价还是反面否定批判。

Pang和Lee[5][6]等人最早在文本的主客观分类和极性分类方面做了一系列的研究工作。

使用基于图的minimum-cut方法，利用上下文信息提高极性分类的精度。

实验中使用了700个正面和700个负面评论，采用朴素贝叶斯、最大熵、支持向量机分类器，通过3重交叉验证对分类器进行对比评估。

实验中他们分别使用了unigram（分别用词条频率和布尔值作为特征权重）、bigram、unigram+bigram、unigram+POS、topunigram（前2633个）、unigram+position作为他们的语言特征，实验结果中，归纳出一些值得注意的结果：

（1）在使用布尔的unigram特征时得到最好的结果，而不是词频unigram。

而在主题分类中词频通常是最有效的特征加权方法之一。

（2）使用bigam+unigam特征比仅使用unigram特征性能要差。

这与通常的自然语言现象相悖。

在自然语言中，有非常多的由两个或多个单词构成的短语、复合词、句式结构等语言元素一起出现时才会表达了非常显著的情感倾向，而构成它们的那些单词中多并没有显著倾向性。

例如，“howshould”是一个很强的语气句式结构，而“how”、“should”单独使用时则一般作为中性词。

Goldberg和Zhu[7]针对电影评论的等级推理问题，提出了基于图的半监督算法，比以往采用多分类模型的方法，在性能上有较大提高。

Ni[8]将情感分类视为二分类问题，使用了NaiveBayes、SVM和Rocchio’s算法，并采用了CHI方和信息增益（InformationGain）进行特征选择，SVM分类器的性能达到最好，准确率、召回率和F1都达到了92%左右。

Whitelaw等人[9]提取含有形容词的词组及其修饰语作为特征，使用向量空间模型表示文档，并采用SVM进行分类，来区分带有正面和负面评论的文档。

Bruce和Wiebe等[10][11]利用贝叶斯分类器对句子的主客观性进行分类。

汉语文本的情感分类方面，徐军等人[12]使用朴素贝叶斯和最大熵模型，对中文网页中的新闻进行情感自动分类，采用布尔和词频特征权重，实验结论表明，布尔权重性能不比词频特征权重差，同时发现最大熵的分类方法要明显优于朴素贝叶斯方法。

唐慧丰等人[13]则对部分基于监督学习的中文情感分类技术做了比较研究，在文本特征方面，采用N-Gram以及名词、动词、形容词、副词作为不同的文本表示特征；以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法；以中心向量法、KNN、NaiveBayes和SVM作为不同的文本分类方法；并在不同的特征数量和不同规模的训练集情况下，分别进行了中文情感分类实验。

他们的实验结果表明：

采用bigram特征表示方法、信息增益特征选择方法和SVM分类方法，在足够大训练集和选择适当数量特征的情况下，能取得较好的效果情感分类。

LiJun[14]采用一元、二元和三元词语作为特征，对SVM、ME、NaiveBayes、ANN四种分类方法用于文本情感分类的效果进行了比较研究。

1.3.2词的极性分类研究现状

词的极性分类的研究主要是集中在找到带有情感倾向的词，并且判断它的情感极性。

主要分为自动发现和手工定义两种方法，其中自动发现方法又可以分为两大类：

（1）基于词典的极性词自动发现，Hu和Liu[15]提出利用词典的词汇关系来判断形容词的极性，在WordNet中形容词是以两极的群体呈现的，具有相反意义的形容词以两极的方式连结，而在这两个形容词后面分别又会将具有相似意义的形容词与带头的同义词连结，形成一个具有相反意义的形容词集合。

利用WordNet词典的特点，设计自动地完成极性词分类的算法。

这个方法的缺点在于只能对形容词判断情感极性，对于WordNet中其它没有以两极方式呈现的词性则无法判断。

也就是说利用WordNet只能作初步的处理[19]，使用WordNet生成极性词也会包含大量情感极性区分度不强的词语，还需要人工进行筛选，另外如果种子集中的形容词数目不够，那么仅仅依靠同义词的方法就会导致许多极性词不能被发现。

同时有一些形容词的情感极性是随着上下文情况不同而确定的，如：

“电池很小很薄”以及“手机屏幕太小”。

前者中“小”表达了正面的情感，后者的“小”则表达了负面的情感。

因此在观点的褒贬判定上还需要加入其它的上下文因素来辅助。

（2）基于语料的极性词自动发现。

Turney[20][21]假设经常一起出现的词语具有相同的情感极性方向。

也即正面观点与正面观点往往会一起出现，而负面观点也会靠近负面观点，采用互信息和信息检索PMI-IR相结合的方法判定词汇的极性，该方法首先建立7个单词构成的正极词汇种子集PWords（good,nice,excellent,positive,fortunate,correct,superior）和7个单词构成的负极词汇种子集NWords（bad,nasty,poor,negative,unfortunate,wrong,inferior），对需要进行极性判断的词汇UWord，分别计算UWord与PWords和NWords中的每个极性词汇的互信息，见公式（1-1）：

（1-1）

其中p（word1&word2）表示使用搜索引擎对出现word1和word2所构成的二元词对在Web检索中出现的网页数目，p（word1）和p（word2）分别表示使用搜索引擎在Web检索出现word1和word2的网页数目分别将计算得到的UWord与PWord每个极性词汇的互信息相加和UWord与NWords每个极性词汇的互信息相加，并计算两者的差，结果为正则表示UWord更靠近正性词汇，为负则表示UWord更靠近负性词汇，从而计算出词的极性方向。

Turney使用PMI计算未知观点词与正面观点和负面观点作为判断未知观点词与正面以及负面的观点出现关系的依据。

若是未知观点词与“excellent”出现的次数多于未知观点词与“poor”出现的次数，则将未知opinionword归类为正面。

用来判断未知观点词（op）的方法是将未知观点词与正面观点计算得到的PMI值减去将未知观点词与负面观点计算得到的PMI，公式如下：

（1-2）

计算完毕后，若SO（op）>0，则表示op是正面的观点；若SO（op）<0则表示op是负面的观点。

Camon和Aue[22]对这一技术作了进一步的扩展，增加了一个假设，在同一个句子中，极性相反的词语趋向于不同时出现。

Hatzuvassiloglou[25]利用形容词之间的连词存在语言学上的限制，也称为连词假设，将语料库中的形容词聚类为正性词汇和负性词汇，结果表明对形容词的极性判定具有较好的效果。

不过该文只对形容词进行了语义方向的判定，也可以采用相同的方法来确定动词和副词的极性。

人工定义的方法通过人工的分析来建立极性词汇表，这样只要直接查询极性词汇表即可获取词汇或短语的情感极性。

娄德成和姚天昉[24]分别对HowNet中的6564个词条和从2454篇汽车评论中人工选择得到的极性词汇以人工标注的方式建立中文极性词汇表，而对于在词汇表中没有的词，同样通过SO-PMI来计算出与不同极性词之间的互信息，再通过差值确实词的极性。

Hatzivassiloglou和Wiebe[25]对语义方向及程度词汇（副词和名词）对语义方向的影响进行分析，并手工建立了一个由73个单词构成的词汇表。

Wang[26]等发现产品评论一般包含两个部分的内容：

评论的标题和评论的具体内容。

由于标题往往会表示了整个评论的态度，因此可以将标题中的用户态度作为具体内容的极性标注，建立朴素贝叶斯分类器，计算评论具体内容中词汇的情感极性。

很多网站允许用户在网站提供的表情图标中选择一个来表示自己的态度：

支持/反对，Yang[27]等将博客上的回复信息的表情图标作为回复语句的极性标注，并通过计算语句中的词汇与表情图像之间的互信息来建立极性词汇表。

1.3.3产品特征抽取研究现状

产品评论挖掘的一个主要任务是需要了解用户对产品的哪些功能、部件和性能进行了评价，因此需要从产品评论中提取出用户评价的对象——产品特征。

用户在产品评论中对特征的描述，可能是厂家根本没有考虑到的一些特征，因此挖掘出产品评论中所提及的特征，了解用户对这类产品最关心的功能和性能是具有重要意义的。

产品特征的提取分为人工定义和自动提取两类。

在人工定义方面，Kobayashi、Inui和Matsumoto[28]以人工定义方式构建了针对汽车的产品特征，共有287个产品特征，每一个特征使用一个三元组进行表示（），其中Subject表示产品，Attribute表示产品的特征，Value表示对这个特征的观点；姚天昉[29][30]利用本体建立了汽车的产品特征，该系统可在电子公告板、门户网站的各大论坛上挖掘并且概括意见持有者对各种汽车品牌的不同性能指标的评论和意见，并且判断这些意见的褒贬性以及强度；LiZhuang[31]针对电影评论人工定义了电影的产品特征，将电影的产品特征分为两类：

电影的元素（screenplay,visioneffect）与和电影相关的人员（director,screenwriter,actor）。

自动提取产品特征的方法，需要使用词性标注、句法分析和文本模式等自然语言处理技术对产品评论中的语句进行分析。

自动发现产品特征，由于不需要大量的标注语料库作为训练集，因此具有较好的通用性，并且可以适用于各种产品，可以比较容易地移植到不同产品上，但它最大的缺点就是准确率比较低。

Hu和Liu[7]先对评论语料进行词性标注，然后把每个句子中的名词和名词短语提取出来，利用关联规则挖掘方法从评论语料中取出满足最小支持度的名词或名词短语生成transactionfile。

再使用CBA（ClassificationBasedonAssociations）[32]从transactionfile中挖掘出频繁项，把频繁项作为产品特征候选集，由于关联规则产生的频繁项不是全都是有用的或真正的特征词，需

展开阅读全文