从评论语料库中挖掘产品特征词.docx

上传人:b****5 文档编号:6376858 上传时间:2023-01-05 格式:DOCX 页数:19 大小:49.77KB
下载 相关 举报
从评论语料库中挖掘产品特征词.docx_第1页
第1页 / 共19页
从评论语料库中挖掘产品特征词.docx_第2页
第2页 / 共19页
从评论语料库中挖掘产品特征词.docx_第3页
第3页 / 共19页
从评论语料库中挖掘产品特征词.docx_第4页
第4页 / 共19页
从评论语料库中挖掘产品特征词.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

从评论语料库中挖掘产品特征词.docx

《从评论语料库中挖掘产品特征词.docx》由会员分享,可在线阅读,更多相关《从评论语料库中挖掘产品特征词.docx(19页珍藏版)》请在冰豆网上搜索。

从评论语料库中挖掘产品特征词.docx

从评论语料库中挖掘产品特征词

Standardizationofsanygroup#QS8QHH-HHGX8Q8-GNHHJ8-HHMHGN#

 

从评论语料库中挖掘产品特征词

重庆科技学院

毕业设计(论文)

题目从评论语料库中挖掘产品特征词

院(系)电子信息工程学院

专业班级计科应2006-01

学生姓名程学伟学号20

指导教师黄永文职称讲师

评阅教师____职称___

2010年6月10日

注意事项

1.设计(论文)的内容包括:

1)封面(按教务处制定的标准封面格式制作)

2)题名页

3)中文摘要(300字左右)、关键词

4)外文摘要、关键词

5)目次页(附件不统一编入)

6)论文主体部分:

引言(或绪论)、正文、结论、参考文献

7)附录(对论文支持必要时)

2.论文字数要求:

理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于万字。

3.附件包括:

任务书、文献综述、开题报告、外文译文、译文原文(复印件)。

4.文字、图表要求:

1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写

2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。

图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画

3)毕业论文须用A4单面打印,论文50页以上的双面打印

4)图表应绘制于无格子的页面上

5)软件工程类课题应有程序清单,并提供电子文档

5.装订顺序

1)设计(论文)

2)附件:

按照任务书、文献综述、开题报告、外文译文、译文原文(复印件)次序装订

3)其它

重庆科技学院本科生毕业设计(论文)

从评论语料库中挖掘产品特征词

院(系)电子信息工程学院

专业班级计科应2006-01

学生姓名程学伟

指导教师黄永文讲师

2010年6月10日

学生毕业设计(论文)原创性声明

本人以信誉声明:

所呈交的毕业设计(论文)是在导师的指导下进行的设计(研究)工作及取得的成果,设计(论文)中引用他(她)人的文献、数据、图件、资料均已明确标注出,论文中的结论和结果为本人独立完成,不包含他人成果及为获得重庆科技学院或其它教育机构的学位或证书而使用其材料。

与我一同工作的同志对本设计(研究)所做的任何贡献均已在论文中作了明确的说明并表示了谢意。

毕业设计(论文)作者(签字):

年月日

摘要

随着web的广泛应用,用户购买和实用产品之后会在web上发表对产品的评论,这些评论中包含用户对产品性能或者功能等方面持有肯定还是否定的态度,生产厂商和用户对产品的评论的分析可以获得大量有用信息:

生产厂商不仅可以了解用户对产品目前已经提供的性能的评价和产品的不足,还可以了解用户的需求,找出用户最感兴趣和最希望提供的功能,从而改进产品。

用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能,还可以对同类型的产品按照性能进行比较,从而合理的购买产品。

产品特征提取目的是从众多的用户评论中挖掘出用户所关心的产品特征(比如:

相机的产品特征包括重量、大小、图片的质量、电池的使用时间、存储容量等;手机的产品特征包括制式、重量、体积、屏幕大小、摄像头像素等)。

由于角度不同及用户通常使用一些常识性描述,生产厂家所使用的产品功能和不见特征名称与用户所表达出来的有很多是不一样的,主要对厂家产品的规格特征和用户描述特征提取及其关系进行了研究。

产品评论挖掘是从自然语言描述的用户评论中获取信息的过程,产品特征抽取是产品评论挖掘的第1个阶段,产品特征的好坏决定了产品评论挖掘中后续阶段的质量.采用弱监督的学习方法,只需要提供少量的产品特征作为种子,从这些种子出现的语句中抽取文本模式,利用文本模式来发现新的产品特征.实验结果表明,从英文文本中自动抽取产品特征的实验系统,取得了较好的效果。

关键字:

文本模式抽取产品评论特征提取

ABSTRACT

Withtheextensiveuseofwebusers,afterpurchasingandusefulproductswillbepublishedinthewebcommentsontheproduct,whichcontainstheusercommentsontheproductperformanceorfunctionalitysuchasholdpositiveornegativeattitude,manufacturersandusersoftheproductAnalysisofthecommentsgetalotofusefulinformation:

manufacturerscannotonlyunderstandtheusersofproductsnowprovidestheevaluationofperformanceandproductdeficiencies,butalsotounderstandtheneedsofusers,toidentifythemostinterestingandmostuserswanttoprovidethefunctiontoimprovetheproduct.Beforetheusercanpurchaseproductsalreadypurchasedtheproducttounderstandtheuserexperienceontheuseoftheproduct,understandallaspectsofproductperformance,butalsothesametypeofproductinaccordancewiththeperformancecomparisontobereasonabletopurchaseproducts.

Featureextractionaimstocommentsfrommanyusersareconcernedabouttheexcavationtotheuser'sproductcharacteristics(suchas:

cameraproductfeaturesincludeweight,size,picturequality,batterylife,storagecapacity,etc.;phoneproductfeaturesincludethestandard,weight,volume,screensize,camerapixel,etc.).Becauseuserstypicallyusedifferentperspectivesandanumberofcommon-sensedescriptionoftheproductsusedbymanufacturersoffunctionsandfeaturesnotseenexpressedinthenameoftheuseroutofmanyisnotthesame,themainfeaturesofthemanufacturersandusersoftheproductspecificationsdescribedinfeatureextractionandrelationswerestudied.

Productreviewminingisanaturallanguagedescriptionfromtheusercommentsintheprocessofobtainingtheinformation,productsfeatureextractionisaproductreviewminingstage1,theproductcharacteristicsofthedecisiongoodorbadtheproductreviewmininginthequalityoffollow-upphase.Withweaksupervisionlearningmethods,onlyasmallamountofproductfeaturestoprovideaseed,thestatementappearsfromtheseseedstoextractthetextmode,usingthetextmodetothediscoveryofnewproductfeatures.TheexperimentalresultsshowthattheEnglishtextautomaticallyextractedfromtheproductcharacteristicsoftheexperimentalsystemachievedgood.TheexperimentalresultsshowthattheEnglishtextautomaticallyextractedfromtheproductcharacteristicsoftheexperimentalsystems,achievedgoodresults.

Keywords:

Textpatternextraction;Productreviews;Thefeatureextraction

中文

 

1绪论

研究背景

随着Internet的广泛应用,用户使用产品会通过Web对产品进行评论,这些评论中包含用户对产品的各个方面的性能持有肯定还是否定的意见。

产品评论中蕴涵了丰富的信息,生产厂商分析产品评论可以了解产品的不足和用户实际需求以改进产品,用户浏览产品评论可以在购买产品之前更多地了解产品,从而更加合理地购买产品。

要从大量使用自然语言进行描述用户评论获取信息,只有通过人工逐一阅读,这是一个需要大量时间和精力的过程,因此,需要自动化的产品评论挖掘来更快地从大量的用户评论中获取信息。

产品评论大多用自然语言进行描述,生产厂商和用户只有采用人工阅读的方式才能从中提取信息,而这是一个费时、费力且容易产生错误的过程,因此,产生了自动产品评论挖掘的需求。

产品评论挖掘一般分为产品特征提取、主观句定位和用户词性判断和挖掘结果显示等4个阶段。

产品特征提取作为产品评论挖掘的第1个阶段,目的是从众多的用户评论中挖掘出用户所关心的产品特征,从而对实际产品销售和售后服务做出正确的评价,帮助决策者和购买者能够最大限度的了解现有产品的特点和特征。

选题意义

找出用户最感兴趣和最希望提供的功能,从而改进产品。

用户购买产品之前可以了解已经购买了该产品的用户关于该产品的使用体验,了解产品各个方面的性能,还可以对同类型的产品按照性能进行比较,从而合理的购买产品。

产品特征提取目的是从众多的用户评论中挖掘出用户所关心的产品特征(比如:

相机的产品特征包括重量、大小、图片的质量、电池的使用时间、存储容量等;手机的产品特征包括制式、重量、体积、屏幕大小、摄像头像素等)。

由于角度不同及用户通常使用一些常识性描述,生产厂家所使用的产品功能和不见特征名称与用户所表达出来的有很多是不一样的,主要对厂家产品的规格特征和用户描述特征提取及其关系进行了研究。

抽取出产品特征之后就着重于研究用户对某个产品特征的看法,即在一个表达了用户看法的主管句中提取出产品特征、极性词汇及程度,在现有研究的处理过程中,对产品特征并未进行归类处理,所有的特征地位都是等同的,故本来处于上下位的特征可能放在不同的表示中,这样就造成用户看到的是没有主次之分的特征,同时有些本是同一特征的不同表示方法,却归纳到不同的特征中去,这种情况下虽然对某些特征进行了评价,但由于使用哪个不同的词语作为产品特征,结果对同一部件的评价放在了不同的展示中,这样展现给用户的是很多没有主次之分特征堆积。

摩托罗拉A1890(MOTOA1890)天翼3G双网双待手机的评论如图所示:

图摩托罗拉A1890(MOTOA1890)天翼3G双网双待手机评论

在这种情况下,对产品特征之间的层次关系合理且准确处理的要求,就显得非常急迫,本课题应运时势,对产品特征进行分层次的特征抽取。

从评论语料库中挖掘产品特征词的研究现状

产品评论挖掘需要了解用户对产品的哪些功能、性能进行了评价,因此需要从产品评论语句中提取表达了用户评价的对象——产品特征。

产品特征提取的目的是发现用户在产品评论中对哪些产品特征表达了自己的看法。

用户在产品评论中对特征的描述是一个开放性的问题,可能在产品评论中发表厂家根本没有考虑到的一些性能,因此挖掘出产品评论中所提及的特征,了解用户对这类产品最关心的功能及性能是很重要的。

由于同类产品的特征基本一致,故可以利用产品特征对同类产品所获得的评价进行对比。

产品特征的提取分为人工定义和自动提取两类。

在人工定义方面,Kobayashi、Inui和Matsumoto以人工定义方式提出了针对汽车的产品特征,建立了287个产品特征,每一个特征使用一个三元组进行表示(),其中subject表示产品,attribute表示产品的特征,value表示对这个特征的观点;姚天昉利用本体建立了汽车的产品特征,该系统可在电子公告板、门户网站的各大论坛上挖掘并且概括意见持有者对各种汽车品牌的不同性能指标的评论和意见,并且判断这些意见的褒贬性以及强度;LiZhuang针对电影人工定义电影的产品特征,将电影的产品特征分为两类:

电影的元素(screenplay,visioneffect)和与和电影相关的人员(director,screenwriter,actor)。

人工定义产品特征的方法需要每一个领域的产品都有该领域的专家参与,因此不具有移植性。

同时人工定义的产品特征是静态的,当产品的功能发生改变后(比如手机加入了新的功能),只有重新召集领域专家才能将新特征加入该类产品的产品特征集合中。

而且人工定义的方法需要有人工标注的语料作为训练集,不同种类的产品就必须要标注不同的语料,这就相当耗费时间,也无法适用所有种类的产品。

产品特征词挖掘的发展前景

产品评论挖掘在国内外属于新的研究方向,但是这方面研究的意义非常重大,它作为自然语言处理领域的一个重要应用,涉及到了大量理论和应用技术,它对电子商务的发展有着直接的促进作用。

本文主要研究了产品评论挖掘中的产品特征词的抽取以。

产品评论挖掘是一个充满机遇和挑战的研究领域,尽管取得了一些研究成果,但是许多问题还有待进一步的探索和研究。

汉语分词介绍

目前,汉语自动分词的研究重心主要集中在对传统文本的有效切分上。

在计算机科学、情报信息和语言文字研究三个领域的学者专家们的共同努力之下,传统文本的有效切分已经取得了重大进展。

汉语词的规范研究。

由于汉语词的规范是汉语自动分词的基础。

没有统一和明确的汉语词的定义,汉有规范的汉语分词词表,汉语自动分词就无从谈起。

在汉语语言学家和计算机中文信息处理研究专家们的共同努力之下,目前,我国汉语词的规范研究和汉语分词规范词表的制定已经有了较大突破。

《信息处理用现代汉语分词词表》的制定及不断完善,说明了我国在汉语自动分词词表方面取得了重大研究成果,这为汉语自动分词的研究铺平了道路。

汉语词自动切分算法。

分词算法研究是汉语自动分词的重点和难点,每一次分词算法上的突破都会使汉语自动分词的速度和精度有较大提高。

据不完全统计,目前,在汉语自动分词方法和算法研究中,已经出现了数十种分词方法和算法。

仅80年代以来见诸报端的自动分词方法和算法归纳起来就有:

最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法、特征词库法、EM算法、演化算法、直接匹配法和后缀匹配法、二分法、基于词形的分词算法、MM分词算法、改进的MM分词算法、RMM算法和DMM算法等上百种。

传统汉语分词要获得新的突破,只能在分词算法上做文章,必须在现有的分词算法和方法的基础找到一种新的分词算法,这是今后汉语自动分词努力的重要方向之一。

汉语词自动切分歧义处理。

汉语自动分词的主要困难是歧义切分,而歧义在自动分词普遍存在。

随着分词研究的突破,分词歧义处理研究也取得了重大进展。

以前的消歧方法大体可分为两类:

规则方法与统计方法。

由于自动分词中存在三种歧义类型,不同类型的歧义,其产生的根源和消除的方法各不相同。

因此,应针对不同的歧义类型采取不同的解决方法:

对于第一类歧义,由于他们本身就是汉语言中的歧义问题,解决这类歧义需要依靠上、下文语义信息,即增加语义、语用知识的处理。

这无异对自动分词的效率有很大的影响(时间上和空间上),而且实现起来比较困难。

若是在词处理的相应阶段,结合对分词阶段未解决的歧义字段进行处理,则会起到事半功倍的效果。

统计表明,第一类歧义字段只占整个歧义字段总数的1/30以下,因此不必在分词阶段花费巨大的开销来处理它们。

目前对第二类歧义处理方法主要有以下几种:

分词知识处理法、联想—回溯法、基于词频统计的方法、邻接约束法、基于数学期望的方法。

处理第三类歧义目前主要有两种方法:

一是增加构词知识,扩大词典;二是增加临时词典。

此外,还可以人工干预分词,人工分词与计算机自动分词结合。

在遇到计算机解决不了的歧义时,借助于人工干预来完成。

为了有效地消除歧义字段,还可以在上述方法的基础上建立分词歧义知识库或规则库。

随着计算机技术和汉语语言研究的发展,汉语词自动切分歧义处理将会有更大的突破。

汉语词自动切分应用研究。

目前,汉语自动分词主要在信息检索、自动标引、自动文摘、机器翻译、语言文字研究、搜索引擎研究、自然语言理解和中文信息处理等方面的应用取得了可喜的成绩。

随着汉语自动分词技术的进展,这一研究成果将会被应用到广泛的研究领域,如词频统计、内容分析、概念分析、认知心理学和汉语语言学等方面。

汉语自动分词是中文信息处理的“瓶颈”问题,它的最终解决依赖于汉语的分词结构、句法结构、语义等语言知识的深入系统的研究;依赖于对语言与思维的本质的揭示;同时,在很大程度上还依赖于神经网络、专家系统、知识工程等人工智能技术的研究进展。

计算机技术是汉语自动分词的技术基础,计算机技术发展的每一次巨大飞跃都是汉语自动分词的福音。

因为自然语言理解既是人工智能研究领域需要解决的重大课题,也是汉语自动分词研究的重要内容。

因此,汉语自动分词研究的发展同时也寄希望于人工智能技术的突破。

人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:

一种是基于心理学的符号处理方法,模拟人脑的功能,像专家系统即是希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。

另一种是基于生理学的模拟方法,神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。

以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,于是产生了专家系统分词法和神经网络分词法。

目前,人工智能技术的重点研究领域主要是专家系统、神经网络技术和生物芯片技术。

从人工智能的发展和汉语自动分词的要求出发,比较理想的自动分词系统应该综合词法、句法和语义信息,而用计算机对语义、语法进行自动分析尚处在研究阶段。

因而,已经推出的汉语分词与标引系统只能采用以机械分词为主,辅之以能部分反映词法、句法和语义规则的改进算法。

但仍难以解决复杂的汉语组词关系。

因此,今后应注重汉语句法和语义的自动分析研究,并将其应用到汉语自动分词领域。

应引入知识分词的技术与方法,采用知识分词语义分析法进行自动分词系统的研究。

从目前已经公开的各种分词方法看,性能比较优异且具发展前景的当属基于符号和启发式推理的专家系统和基于数值和算法的神经网络技术。

神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点,不足的是网络连接模型表达复杂,训练过程较长,不能对自身的推理方法进行解释,对未在训练样本中出现过的新的词汇不能给予正确切分;专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解释,并可利用深层知识来切分歧义字段;缺点是不能从经验中学习,当知识库庞大时难以维护,在进行多歧义字段切分时耗时较长,同时在知识表示、知识获取和知识验证等方面存在一些问题。

因而,把神经网络技术与专家系统结合起来用于汉语自动分词与标引系统将是该领域的发展趋向。

特征词挖掘的相关算法

Hu和Liu利用关联规则挖掘的方法来抽取产品的特征,对于高频特征词

首先使用关联规则寻找频繁项,裁剪低于支持度的频繁项,然后利用与形容词相

邻近的特性寻找低频特征词。

基于“支持度”算法对产品特征词进行抽取时,分为三个步骤:

对评论文本进行词性标注;寻找频繁特征词;对抽取出来的频繁特征词进行修剪。

所谓“支持度”即关联性规则的一个关键指标,它对频繁项的形成有很大的影响,它是用于描述频繁项出现频度的指标,最低支持度(Minimum_Support)意为只对达到指定频度的项集感兴趣,如果指定最低支持度为小于1的值则关联规则认为研究者们只对频度达到指定百分比的项集感兴趣。

最大支持度(Maximum_Support)则指定了项集出现频度的上限,超过上限的项集也不是研究者们感兴趣的。

Hu和Liu的用户评论抽取算法最后利用极性词与特征词的共现抽取低频特征词。

使用极性词识别低频特征词语带来这样一个问题:

它也能将与给定产品不相关的名词或名词短语找到。

这是因为人们可以使用形容词描述很多主体,既有我们感兴趣的,也有不相关的。

在等人的基于自由文本用户观点可视化原型系统中,介绍了使用tf/idf的方法来识别分词或者分词组合是否是真正的特征词,如果分词或者分词的组合不是真正的词语那么将在语料中很少或者几乎不出现。

等人通过已知的语法模型去抽取特殊的表达模式,主要考虑的模式有:

<主语>+<模式>、<模式>+<宾语>、<模式>+<名词或名词短语>,再通过这些模式去发现对应的主语、宾语、名词或名词短语作为特征词。

开发环境介绍

本系统是用C#编写,C#是微软公司发布的一种面向对象的、运行于.NETFramework之上的高级程序设计语言。

并定于在微软职业开发者论坛(PDC)上登台亮相。

C#是微软公司研究员AndersHejlsberg的最新成果。

C#看起来与Java有着惊人的相似;它包括了诸如单一继承、接口、与Java几乎同样的语法和编译成中间代码再运行的过程。

但是C#与Java有着明显的不同,它借鉴了Delphi的一个特点,与COM(组件对象模型)是直接集成的,而且它是微软公司.NETwindows网络框架的主角。

C#(读做"Csharp",中文译音暂时没有.专业人士一般读"Csharp",现在很多非专业一般读"C井"。

C#是一种安全的、稳定的、简单的、优雅的,由C和C++衍生出来的面向对

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 预防医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1