从评论语料库中挖掘产品特征词毕业论文.docx

资源描述

从评论语料库中挖掘产品特征词毕业论文.docx

《从评论语料库中挖掘产品特征词毕业论文.docx》由会员分享，可在线阅读，更多相关《从评论语料库中挖掘产品特征词毕业论文.docx（24页珍藏版）》请在冰豆网上搜索。

从评论语料库中挖掘产品特征词毕业论文.docx

从评论语料库中挖掘产品特征词毕业论文

1绪论

1.1研究背景

随着Internet的广泛应用，用户使用产品会通过Web对产品进行评论，这些评论中包含用户对产品的各个方面的性能持有肯定还是否定的意见。

产品评论中蕴涵了丰富的信息，生产厂商分析产品评论可以了解产品的不足和用户实际需求以改进产品，用户浏览产品评论可以在购买产品之前更多地了解产品，从而更加合理地购买产品。

要从大量使用自然语言进行描述用户评论获取信息，只有通过人工逐一阅读，这是一个需要大量时间和精力的过程，因此，需要自动化的产品评论挖掘来更快地从大量的用户评论中获取信息。

产品评论大多用自然语言进行描述，生产厂商和用户只有采用人工阅读的方式才能从中提取信息，而这是一个费时、费力且容易产生错误的过程，因此，产生了自动产品评论挖掘的需求。

产品评论挖掘一般分为产品特征提取、主观句定位和用户词性判断和挖掘结果显示等4个阶段。

产品特征提取作为产品评论挖掘的第1个阶段，目的是从众多的用户评论中挖掘出用户所关心的产品特征，从而对实际产品销售和售后服务做出正确的评价,帮助决策者和购买者能够最大限度的了解现有产品的特点和特征。

1.2选题意义

找出用户最感兴趣和最希望提供的功能，从而改进产品。

用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验，了解产品各个方面的性能，还可以对同类型的产品按照性能进行比较，从而合理的购买产品。

产品特征提取目的是从众多的用户评论中挖掘出用户所关心的产品特征（比如：

相机的产品特征包括重量、大小、图片的质量、电池的使用时间、存储容量等；手机的产品特征包括制式、重量、体积、屏幕大小、摄像头像素等）。

由于角度不同及用户通常使用一些常识性描述，生产厂家所使用的产品功能和不见特征名称与用户所表达出来的有很多是不一样的，主要对厂家产品的规格特征和用户描述特征提取及其关系进行了研究。

抽取出产品特征之后就着重于研究用户对某个产品特征的看法，即在一个表达了用户看法的主管句中提取出产品特征、极性词汇及程度，在现有研究的处理过程中，对产品特征并未进行归类处理，所有的特征地位都是等同的，故本来处于上下位的特征可能放在不同的表示中，这样就造成用户看到的是没有主次之分的特征，同时有些本是同一特征的不同表示方法，却归纳到不同的特征中去，这种情况下虽然对某些特征进行了评价，但由于使用哪个不同的词语作为产品特征，结果对同一部件的评价放在了不同的展示中，这样展现给用户的是很多没有主次之分特征堆积。

摩托罗拉A1890（MOTOA1890）天翼3G双网双待手机的评论如图1.1所示：

图1.1摩托罗拉A1890（MOTOA1890）天翼3G双网双待手机评论

在这种情况下，对产品特征之间的层次关系合理且准确处理的要求，就显得非常急迫，本课题应运时势，对产品特征进行分层次的特征抽取。

1.3从评论语料库中挖掘产品特征词的研究现状

产品评论挖掘需要了解用户对产品的哪些功能、性能进行了评价，因此需要从产品评论语句中提取表达了用户评价的对象——产品特征。

产品特征提取的目的是发现用户在产品评论中对哪些产品特征表达了自己的看法。

用户在产品评论中对特征的描述是一个开放性的问题，可能在产品评论中发表厂家根本没有考虑到的一些性能，因此挖掘出产品评论中所提及的特征，了解用户对这类产品最关心的功能及性能是很重要的。

由于同类产品的特征基本一致，故可以利用产品特征对同类产品所获得的评价进行对比。

产品特征的提取分为人工定义和自动提取两类。

在人工定义方面，Kobayashi、Inui和Matsumoto以人工定义方式提出了针对汽车的产品特征，建立了287个产品特征，每一个特征使用一个三元组进行表示（），其中subject表示产品，attribute表示产品的特征，value表示对这个特征的观点；天昉利用本体建立了汽车的产品特征，该系统可在电子公告板、门户的各大论坛上挖掘并且概括意见持有者对各种汽车品牌的不同性能指标的评论和意见，并且判断这些意见的褒贬性以及强度；LiZhuang针对电影人工定义电影的产品特征，将电影的产品特征分为两类：

电影的元素（screenplay,visioneffect）和与和电影相关的人员（director,screenwriter,actor）。

人工定义产品特征的方法需要每一个领域的产品都有该领域的专家参与，因此不具有移植性。

同时人工定义的产品特征是静态的，当产品的功能发生改变后（比如手机加入了新的功能），只有重新召集领域专家才能将新特征加入该类产品的产品特征集合中。

而且人工定义的方法需要有人工标注的语料作为训练集，不同种类的产品就必须要标注不同的语料，这就相当耗费时间，也无法适用所有种类的产品。

1.4产品特征词挖掘的发展前景

产品评论挖掘在国外属于新的研究方向，但是这方面研究的意义非常重大，它作为自然语言处理领域的一个重要应用，涉及到了大量理论和应用技术，它对电子商务的发展有着直接的促进作用。

本文主要研究了产品评论挖掘中的产品特征词的抽取以。

产品评论挖掘是一个充满机遇和挑战的研究领域，尽管取得了一些研究成果，但是许多问题还有待进一步的探索和研究。

1.5汉语分词介绍

目前,汉语自动分词的研究重心主要集中在对传统文本的有效切分上。

在计算机科学、情报信息和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。

汉语词的规研究。

由于汉语词的规是汉语自动分词的基础。

没有统一和明确的汉语词的定义,汉有规的汉语分词词表,汉语自动分词就无从谈起。

在汉语语言学家和计算机中文信息处理研究专家们的共同努力之下,目前,我国汉语词的规研究和汉语分词规词表的制定已经有了较大突破。

《信息处理用现代汉语分词词表》的制定及不断完善,说明了我国在汉语自动分词词表方面取得了重大研究成果,这为汉语自动分词的研究铺平了道路。

汉语词自动切分算法。

分词算法研究是汉语自动分词的重点和难点,每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。

据不完全统计,目前,在汉语自动分词方法和算法研究中,已经出现了数十种分词方法和算法。

仅80年代以来见诸报端的自动分词方法和算法归纳起来就有:

最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法、特征词库法、EM算法、演化算法、直接匹配法和后缀匹配法、二分法、基于词形的分词算法、MM分词算法、改进的MM分词算法、RMM算法和DMM算法等上百种。

传统汉语分词要获得新的突破,只能在分词算法上做文章,必须在现有的分词算法和方法的基础找到一种新的分词算法,这是今后汉语自动分词努力的重要方向之一。

汉语词自动切分歧义处理。

汉语自动分词的主要困难是歧义切分,而歧义在自动分词普遍存在。

随着分词研究的突破,分词歧义处理研究也取得了重大进展。

以前的消歧方法大体可分为两类:

规则方法与统计方法。

由于自动分词中存在三种歧义类型,不同类型的歧义,其产生的根源和消除的方法各不相同。

因此,应针对不同的歧义类型采取不同的解决方法:

对于第一类歧义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上、下文语义信息,即增加语义、语用知识的处理。

这无异对自动分词的效率有很大的影响（时间上和空间上）,而且实现起来比较困难。

若是在词处理的相应阶段,结合对分词阶段未解决的歧义字段进行处理,则会起到事半功倍的效果。

统计表明,第一类歧义字段只占整个歧义字段总数的1/30以下,因此不必在分词阶段花费巨大的开销来处理它们。

目前对第二类歧义处理方法主要有以下几种:

分词知识处理法、联想—回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。

处理第三类歧义目前主要有两种方法:

一是增加构词知识,扩大词典;二是增加临时词典。

此外,还可以人工干预分词,人工分词与计算机自动分词结合。

在遇到计算机解决不了的歧义时,借助于人工干预来完成。

为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库。

随着计算机技术和汉语语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。

汉语词自动切分应用研究。

目前,汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用取得了可喜的成绩。

随着汉语自动分词技术的进展,这一研究成果将会被应用到广泛的研究领域,如词频统计、容分析、概念分析、认知心理学和汉语语言学等方面。

汉语自动分词是中文信息处理的“瓶颈”问题,它的最终解决依赖于汉语的分词结构、句法结构、语义等语言知识的深入系统的研究;依赖于对语言与思维的本质的揭示;同时,在很大程度上还依赖于神经网络、专家系统、知识工程等人工智能技术的研究进展。

计算机技术是汉语自动分词的技术基础,计算机技术发展的每一次巨大飞跃都是汉语自动分词的福音。

因为自然语言理解既是人工智能研究领域需要解决的重大课题,也是汉语自动分词研究的重要容。

因此,汉语自动分词研究的发展同时也寄希望于人工智能技术的突破。

人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:

一种是基于心理学的符号处理方法,模拟人脑的功能,像专家系统即是希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。

另一种是基于生理学的模拟方法,神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。

以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,于是产生了专家系统分词法和神经网络分词法。

目前,人工智能技术的重点研究领域主要是专家系统、神经网络技术和生物芯片技术。

从人工智能的发展和汉语自动分词的要求出发,比较理想的自动分词系统应该综合词法、句法和语义信息,而用计算机对语义、语法进行自动分析尚处在研究阶段。

因而,已经推出的汉语分词与标引系统只能采用以机械分词为主,辅之以能部分反映词法、句法和语义规则的改进算法。

但仍难以解决复杂的汉语组词关系。

因此,今后应注重汉语句法和语义的自动分析研究,并将其应用到汉语自动分词领域。

应引入知识分词的技术与方法,采用知识分词语义分析法进行自动分词系统的研究。

从目前已经公开的各种分词方法看,性能比较优异且具发展前景的当属基于符号和启发式推理的专家系统和基于数值和算法的神经网络技术。

神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点,不足的是网络连接模型表达复杂,训练过程较长,不能对自身的推理方法进行解释,对未在训练样本中出现过的新的词汇不能给予正确切分；专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解释,并可利用深层知识来切分歧义字段；缺点是不能从经验中学习,当知识库庞大时难以维护,在进行多歧义字段切分时耗时较长,同时在知识表示、知识获取和知识验证等方面存在一些问题。

因而,把神经网络技术与专家系统结合起来用于汉语自动分词与标引系统将是该领域的发展趋向。

1.5特征词挖掘的相关算法

Hu和Liu利用关联规则挖掘的方法来抽取产品的特征，对于高频特征词

首先使用关联规则寻找频繁项，裁剪低于支持度的频繁项，然后利用与形容词相

邻近的特性寻找低频特征词。

基于“支持度”算法对产品特征词进行抽取时，分为三个步骤：

对评论文本进行词性标注；寻找频繁特征词；对抽取出来的频繁特征词进行修剪。

所谓“支持度”即关联性规则的一个关键指标，它对频繁项的形成有很大的影响，它是用于描述频繁项出现频度的指标，最低支持度（Minimum_Support）意为只对达到指定频度的项集感兴趣，如果指定最低支持度为小于1的值则关联规则认为研究者们只对频度达到指定百分比的项集感兴趣。

最大支持度（Maximum_Support）则指定了项集出现频度的上限，超过上限的项集也不是研究者们感兴趣的。

Hu和Liu的用户评论抽取算法最后利用极性词与特征词的共现抽取低频特征词。

使用极性词识别低频特征词语带来这样一个问题：

它也能将与给定产品不相关的名词或名词短语找到。

这是因为人们可以使用形容词描述很多主体，既有我们感兴趣的，也有不相关的。

在M.Gamon等人的基于自由文本用户观点可视化原型系统中，介绍了使用tf/idf的方法来识别分词或者分词组合是否是真正的特征词，如果分词或者分词的组合不是真正的词语那么将在语料中很少或者几乎不出现。

E.Riloff等人通过已知的语法模型去抽取特殊的表达模式，主要考虑的模式有：

<主语>+<模式>、<模式>+<宾语>、<模式>+<名词或名词短语>，再通过这些模式去发现对应的主语、宾语、名词或名词短语作为特征词。

1.6开发环境介绍

本系统是用C#编写，C#是微软公司发布的一种面向对象的、运行于.NETFramework之上的高级程序设计语言。

并定于在微软职业开发者论坛（PDC）上登台亮相。

C#是微软公司研究员AndersHejlsberg的最新成果。

C#看起来与Java有着惊人的相似；它包括了诸如单一继承、接口、与Java几乎同样的语法和编译成中间代码再运行的过程。

但是C#与Java有着明显的不同，它借鉴了Delphi的一个特点,与COM（组件对象模型）是直接集成的，而且它是微软公司.NETwindows网络框架的主角。

C#（读做"Csharp"，中文译音暂时没有.专业人士一般读"Csharp"，现在很多非专业一般读"C井"。

C#是一种安全的、稳定的、简单的、优雅的，由C和C++衍生出来的面向对象的编程语言。

它在继承C和C++强大功能的同时去掉了一些它们的复杂特性（例如没有宏和模版，不允许多重继承）。

C#综合了VB简单的可视化操作和C++的高运行效率，以其强大的操作能力、优雅的语法风格、创新的语言特性和便捷的面向组件编程的支持成为.NET开发的首选语言。

并且C#成为ECMA与ISO标准规。

C#看似基于C++写成，但又融入其它语言如Delphi、Java、VB等。

微软C#语言定义主要是从C和C++继承而来的,而且语言中的许多元素也反映了这一点。

C#在设计者从C++继承的可选选项方面比Java要广泛一些（比如说struts）,它还增加了自己新的特点（比方说源代码版本定义），但它还太不成熟,不可能挤垮Java.C#还需要进化成一种开发者能够接受和采用的语言。

而微软当前为它的这种新语言大造声势也是值得注意的，目前大家的反应是:

这是对Java的反击。

C#更像Java一些,虽然微软在这个问题上保持沉默，这也是意料中的事情,我觉得,因为Java近来很成功而使用Java的公司都报告说它们在生产效率上比C++获得了提高。

Java所带来的巨大影响和大家对它的广泛接受已经由工作于这种语言和平台之上的程序员数量明显的说明了（估计世界围共有两百五十万程序员使用Java）。

由这种语言写成的应用程序的数量是令人惊讶的并已经渗透了每一个级别的计算,包括无线计算和移动（比如日本发明的Java）。

C#能够在用户领域获得这样的礼遇吗?

我们必须等待并观望,就像已经由SSI公司的CEO和主席KalpathiS.Suresh指出来的那样,“我发现所有这些都是渐进的。

如果C#不存在,我们总能回到Java或C和C++这些都不完全是新技术，它们在更大的意义上来说只是大公司制造的市场噱头，我们必须给他们时间安顿下来看看这些是不是真的对IT工业有什么影响”

2产品特征词的挖掘

自动识别产品评论中的产品特征对产品评论的挖掘是一个难点，因为相对普通的文本而言，产品评论是用户随意的表述，很少有完整的主谓宾结构，却有不计其数的同音错别字、简略语、拼音、英语和中文混杂。

目前对产品评论进行挖掘的研究很多都是基于英文的，基于中文的产品评论挖掘仅仅是刚起步，还有很多关键性的问题需要研究。

2.1问题的提出及相关研究

在产品评论中，用户为了能具体表达意见，可能会将产品的部件、功能、性

能及服务分成多个考虑的对象来发表相应的观点，这些被评价的对象就是产品特

征，因此产品特征与观点在产品评论中是具有对应关系的，特征观点对（f,o）就是产品评论中产品特征（feature）与对应的观点（opinion）所组成的单位。

近年来，产品特征和观点的挖掘已经有了一些研究，这些研究中对产品特征和观点词的提取分为人工定义和自动提取两类。

在人工定义方面，Kobayashi、Inui和Matsumoto等人工定义产品特征（cost,price,,performance,function,support,design）和观点（good,beautiful,bright,like/favorite,high），获取同时出现特征和观点的模式。

天昉利用本体建立了汽车的产品特征，该系统可在电子公告板、门户的各大论坛上挖掘并概括意见持有者对各种汽车品牌的不同性能指标的评论和意见，同时判断这些意见的褒贬性以及强度。

LiZhuang人工定义电影的产品特征，将电影的产品特征分为两类：

电影的元素（screenplay,visioneffect）和与电影相关的人员（director,screenwriter,actor），在得到评论中的产品特征词和观点词后，通过依存句法图来连接特征和观点生成特征观点对。

人工定义产品特征和观点需要每一个领域的产品都有该领域的专家参与，因此不具有移植性，不能应对产品发生变化的情况。

从产品评论中自动抽取产品特征和观点主要使用词性标注、句法分析、文本

模式等自然语言技术对产品评论中的语句进行分析，从中自动发现产品特征和观

点词。

KimandHovy首先寻找句子中表达主观性的词汇，然后定义一个以主观性词汇为中心，大小固定的窗口，将窗口中的名词或名词短语作为特征。

Lun-Wei

Ku使用GI（GeneralInquirer）、CNSD（ChineseNetworkSentimentDictionary）和

NTUSD（NationalTaiwanUniversitySentimentDictionary）词典，并使用同义词词林

及WordNet进行扩充，以此抽取句子中的观点词。

SooMinKim则基于人工标

注的褒贬词典找出评价词,然后借助于FrameNet分析句子的语义结构来找出评价对象。

HuandLiu首先对评论中的主观性语句进行句法分析，找到句子中的名词或名词短语，然后使用关联规则挖掘出频繁项，将得到的频繁项作为产品的特征，然后将离产品特征最近的形容词作为评价词。

Ana-MariaPopescu采用人工定义的通用文本模板，根据在具体应用领域实例化通用文本模板以形成抽取规则，再利用抽取规则进行产品特征和观点的抽取。

以上研究大多把特征和观点分开来识别，而实际上在多数评论中，产品特征都是被上下文中的观点词所修饰，特征和观点之间具有高度相关性，因此可以把特征识别和观点识别结合在一起进行。

另现有的研究没有处理多特征单观点的问题，即在产品评论中，经常会出现多个特征后面只接一个观点词的情况，如“打、播放mp3、看图片很方便”、“无论是从音场、低音效果，都非常令人咋舌”、“信号强度、按键、待机时间方面我都很满意”，本文则通过自动获得的产品特征词和观点词对多特征单观点的评价进行处理。

现有的机器学习方法很多是利用标注的训练样本，这些大规模标注过的训练数据可以提高学习算法结果的准确率，但是标注好的训练数据不容易获得，并且网上信息的增长和变化都很快，因此只使用人工标注训练数据的机器学习方法已经不能满足对网上信息进行挖掘的需求，获得的学习系统的泛化能力也不强。

同时，网上存在大量容易获得的未标注的数据，采用能结合标注好的样本和未标注数据的半监督学习方法既能获得专家的标注知识，又可以利用大量未标注数据来改善学习性能。

本文就是利用Bootstrapping半监督学习算法，结合少量的标注数据和大量的未标注数据来对产品评论进行挖掘。

2.2评论语料库使用的现状

现有的评论挖掘对产品评论的选取没有作深入的研究。

DavidBounie直接使用调查表方式获得用户对视频游戏的评价；Lun-WeiKu使用NTCIR和TREC的网络新闻语料，通过词级、句子级和文档级获得对相关事件表达的情感极性和程度，提取用户对事件的观点；MinqingHu抓取了和c|上的评论，但没有对提取到的评论容进行优劣评判；EugeneAgichtein使用了LDC的NorthAmericanNewsTextCorpus，通过滚雪球的迭代方式从种子元素到模式生成，再根据模式中从语料库提取新的元素加入种子集合获取事件对应的关系列表。

这些研究所使用的评论容大多是由专家在网络上收集挑选出来的，由于产品不断更新，产品评论不断增加，如果只能对专家挑选出的评论库进行挖掘，就会大大削弱研究的实用性。

2.3弱监督机器学习方法介绍

采用基于弱监督机器学习方法，只需提供少量的产品特征作为种子集合，自动进行文本模式的抽取，再用抽取得到的模式抽取新的产品特征。

系统以人工提供的少量产品特征作为种子集合，发现产品评论语料库中的产品特征出现语句，将这些语句按照给定的文本模式结构进行模式化表示，从中生成新的文本模式，再用这些自动获取的文本模式来抽取新的产品特征，并将新的产品特征加入产品特征种子集合。

对该过程不断地迭代，直到系统不能产生新种子或新的文本模式和达到人工指定迭代次数停止迭代，将产品特征种子集合中的种子输出作为结果，整个系统流程分为4个阶段如图2.1所示：

图2.1文本模式抽取系统流程

（1）发现产品特征种子出现语句

将语料库中的产品评论分解为语句，并对每一个句子进行词性标注，提取句子中的名词和名词短语，如果它是产品特征种子集合的一个元素，那么将出现该名词或名词短语的语句加入产品特征出现语句集合|SO|。

（2）生成文本模式

从|SO|中自动发现可用于抽取新的产品特征的文本模式，该过程分解为三个子过程：

1）模式化表示语句

通过对产品特征语料库的观察发现，一个名词所在的依存关系对该名词是否是产品特征有极大的指示作用，因此，选用基于依存关系的文本模式的表示方法。

定义1弱监督产品特征抽取的文本模式：

（1）

其中，Rel是依存关系的类型；MPos是依存关系中修饰中心词的修饰词词性；D是中心词和修饰词之间所在语句中的位置距离的差值，中心词在修饰词之前该值为正，反之为负；L是依存关系中的中心词在所在语句的句法树结构中层次数。

2）生成侯选文本模式

对|SO|中的语句进行句法分析，并生成依存关系，将每个出现名词或名词短语作为中心词的依存关系按照定义1中的文本模式结构进行模式化表示，每一个模式化表示的依存关系记为Ti，将所有模式化表示的依存关系加入集合|T|。

选用文本模式的4个元组中包含有非数值型的值（Rel,MPos）和数值型的值（D,L），因此，侯选文本模式的产生分成2步：

第1步：

将文本模式的（Rel,MPos）看作一个整体对模式化表示的语句进行分类，统计每一类中包含Ti的个数，如果该类中包含的文本模式数目大于设定的阈值，那么该类作为一个可以产生文本候选模式的类。

第2步：

根据模式的（D,L）的值，计算同类中的Ti之间的近似度，并根据近似度选择中心值的Ti作为该类的代表模式，并将该代表模式作为一个候选文本模式（Ci）加入候选文本模式集合|C|。

定义2用于计算Ti和Tj之间的相似度，Ti和Tj均来自于同一类。

定义2文本模式相似度：

展开阅读全文