ImageVerifierCode 换一换
格式:DOCX , 页数:46 ,大小:746.77KB ,
资源ID:6221109      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6221109.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(互联网商品评论情感倾向性分析系统.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

互联网商品评论情感倾向性分析系统.docx

1、互联网商品评论情感倾向性分析系统第六届浙江省大学生电子商务竞赛作品名称: 互联网商品评论情感倾向性分析系统 作品类别: 技术类 2011年3月15日表索引图索引第1章 项目概要1.1 项目背景随着互联网在全球范围内的快速发展和普及,网络媒体已经成为了继报纸、广播和电视之后的“第四媒体”。根据中国互联网络信息中心(CNNIC)2010年12月发布的第27次中国互联网络发展状况统计报告,截止2010年12月我国网民数达到4.57亿,互联网普及率持续上升增至34.3%。其中网络新闻用户达到3.53亿人,信息检索用户达到3.75亿人,即时通信用户达到3.53亿人,中国网页总数已经超过600亿个,其中文

2、本内容占网页总数的80%以上。另外,截至2010年12月,网络购物用户规模达到1.61亿,使用率提升至35.1%,上浮了7个百分点,2010年用户增长48.6%,增幅在各类应用中居于首位,是用户增长最快的应用,而网上支付和网上银行也以45.8%和48.2%的年增长率,远远超过其他类网络应用,我国更多的经济活动正在加速步入互联网时代。网络购物用户规模较快增长,显示出我国电子商务市场强劲的发展势头。中国网民与普及率如图1-1所示。图 11 中国网民与普及率如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用,使网络内容的数量和网络信息的访问量都以前所未有的速度增长,互联网已经成为人们表

3、达观点、获取信息的重要途径。当前互联网上的主观性文本大量存在,信息形式多种多样,如新闻、博客文章、产品评论、论坛帖子等等。随着电子商务的发展,主观性评论文章越来越多,在一定程度上帮助了潜在消费者购买抉择,同时也对产品商家和服务商提供了很好的反馈意见。如果评论信息只有几十条,普通浏览者还能应付,但如果是数以千、万计的信息量,就难以全部浏览。再加上一些枪文(收买别人帮自己做广告写的文章)等噪音的出现,并且这些噪音往往穿插在前几页,这将严重影响浏览者获取信息的全面性和判断的正确性。另外,产品商家、服务提供商也非常需要从评论中获取到顾客评价的第一手资料,以帮助其提高产品质量和改进服务。例如,阿里巴巴、

4、淘宝、卓越等电子商务网站每天新增的评论数量十分庞大,如果所有评论中的情感信息只通过人工分析和判定得出,则人力、物力将消耗巨大。当然有些网站在用户评论时,也往往要求用户给出评论对象的整体量化评分,如果只针对这些评分进行简单统计而对具体评论信息不进行语义分析和信息挖掘,则不能获取到基于商品属性的细粒度情感倾向性分析结果,而这些结果往往是用户和企业最关心的,是用户选择商品的重要参考建议,也是企业改进商品质量和服务的重要资讯来源。近年来,电子商务在第三产业迅猛发展,同时其惊人的发展速度带动了相关行业的繁荣,电子商务服务行业由此形成。这种电子服务面向电子商务应用,成为信息服务业发展中的新亮点。电子商务服

5、务业正在崛起,政府的支持、应用的丰富、分工的精细、跨界合作的实现、各类企业的涌现推动整个行业滚雪球式向前发展。本系统的创业计划以商品(包括服务性商品)评论分析为主,并逐步扩散到舆情、影评分析等各个领域,为普通消费者、企业乃至政府提供精确而全面的决策依据。本系统在传统的数据挖掘分析基础上另辟蹊径,它不仅令用户摆脱了信息轰炸的困扰,其对信息监控、民意调查、电子学习、报刊编辑、企业管理等方面也有着重要的作用和意义。1.2 项目意义目前,政府和公司企业对市场信息及用户信息的掌握主要来源于调查问卷等传统形式,这类传统方式耗费了大量的财力人力物力,但其结果并非尽如人意。如果采用本项目的文本情感倾向性分析系

6、统,就可以更方便快捷地掌握互联网各个领域的信息,更全面系统地了解公众舆论对商品的情感倾向。电子商务的快速发展使其已经拥有庞大的用户群体,电子商务的发展势头决定其潜在客户数量众多。对于这两类群体,他们可以利用本系统直观地了解到其余用户对互联网商品的评价的整体信息,帮助他们做出最优购买选择。互联网商品情感倾向性分析,就是对这些商品评论信息进行有效的分析和挖掘,识别出其情感趋向,或得出其观点是“赞同”还是“反对”,甚至情感随时间的演化规律。通过该技术的应用,本系统可以从大量商品评论文章中自动识别出情感语句以及分析出相应评价对象的倾向性结果,大大节省了人力、物力和时间。通过分析得到的数据,很容易了解用

7、户的消费需求,同时为企业、政府等机构提供重要的决策依据。因此,近年来文本情感倾向性分析已引起了人们越来越多的重视,已经成为信息检索和自然语言处理领域的热点研究问题。从近年来在ACL、WWW、SIGIR、CIKM等顶级国际会议上的文章发表情况就可以看出已经开始吸引越来越多的学者加入这方面的研究,成果也越来越丰富。同时,由于其在企业的商品评价、政府部门的网络舆情监管等方面的应用,吸引越来越多的企业参与到该领域的研发中来,如国外的Google、Autonomy公司,国内的阿里巴巴、北京拓尔思、北大方正等。本系统主要以用户的主观性文本为研究对象,由于其信息量大、非结构化等特点,文本情感倾向性分析还存在

8、不少的问题和难点,如词汇的情感强度量化、特征识别、倾向性分析具体实现方法等,导致现有文本情感倾向性分析的准确率不高,影响了实际的使用。通过研究文本情感倾向性分析的新方法,提高分析的准确率,最后在商品评价中进行示范应用,为商业推广奠定基础。综上所述,互联网商品情感分析是当今信息检索和自然语言处理领域研究的热点问题,具有重要的科学意义和实际应用价值。通过在商品评论中的示范应用,本项目将进一步推动浙江省乃至全国电子商务的发展。1.3 研究目的随着电子商务飞速发展,商品评论中的情感倾向性分析逐渐成为当前的研究热点。目的是利用网络上丰富的顾客评论资源,进行商品的市场反馈分析,为生产商和消费者提供直观的针

9、对商品各个特性的网络评价报告。当前,不少网站在提供主观性文本评论发布的基础上,还提供了针对评价对象的总体量化评分功能,如亚马逊,商品评论进行了五星制评级,5星为最好,1星为最差;还有部分网站推出了针对评价对象各个属性(特征)的细粒度评价功能,如携程网,它实现了对宾馆的房间卫生、酒店服务、周边环境、设施设备这四方面的5分制评级,并给出综合得分。但由于各个网站的细粒度评价结果基本建立在人工判定基础之上且标准不够统一,所以针对评论的细粒度倾向性自动分析是一个重要的研究趋势。在这个信息爆炸的时代,本项目的商品情感分析系统能优化商品评论分析,为互联网用户提供直观、便捷的商品评价信息,为企业提供全面、系统

10、的商品评价报告。1.4 项目主要内容本项目主要内容为:研究并创建一个具有普适性的互联网商品评价情感分析系统。此系统能够自动分析来自互联网的海量评论,同时根据不同的需求提供不同的分析结果的表达方式。本系统利用语言学知识,对句子进行了语义分析,并在此基础上结合机器学习方法实现产品评价的意见挖掘和倾向性分析。本项目的自然语言处理技术具有先进性,对文本进行句法结构分析和语义理解(主要利用语义角色标注技术)。本系统采用细粒度情感分析方式,以句子为单位,挖掘出主观句中评价对象的特征及其对应的情感词,如评价对象为酒店,其特征有设施,环境,交通,服务等。本系统为用户提供了可视化、细节化的分析结果展示。用户可以

11、自主选择自己所偏重的特征进行个性化分析,同时还能够针对同类商品的不同品牌或型号进行横向比对。而产品评价的情感倾向性分析系统分析获得的分类统计结果,既提供给厂商以进一步改进产品的质量,又提供给潜在的顾客作为选择购买产品的参考,同时还可以提供给代销商作为进货品种和数量的依据。本系统还能够提供热门商品排行。用户可以随时了解到热卖产品的信息;此外,用户还可参照本项目系统做出的趋势预测,对商品未来的发展方向有所了解。对于本项目的内容,可举下例加以说明。某用户需要了解某酒店的用户反馈情况,包括酒店的环境、设备、服务、服务等等。目前人们一般只能通过浏览各个网站上的评论信息进行决策,而评论信息数量往往十分庞大

12、。本项目的目标就是提供一个评论分析系统,用户只要设定感兴趣的酒店,本系统将会提取互联网中各大网站中关于此酒店的评论信息,并将经过分析后的分类量化结果提供给用户。用户若有个性化需求,可以设置对于此酒店的某方面信息,如设备、环境,系统将会有针对性的对这几方面进行量化分析,并根据需要列出这些评论的详细内容。同时本系统还提供对比信息,如用户需要对比酒店A和酒店B的评价分析结果,系统可以根据用户的选择,将分析结果用不同方式展现给用户,让用户有一个直观、简便的体验。此外,本系统提供的热门酒店排行可供用户参考。第2章 现状分析当前,商品评论中的情感倾向性分析成为研究热点。但由于各个网站的评价标准不够统一,再

13、加上原本的细粒度评价结果更多的是建立在人工判定基础之上,所以针对评论的细粒度倾向性自动分析是一个重要的研究趋势。从文本倾向性分析方法的研究趋势来看,更多的是利用自然语言处理技术和机器学习方法相结合,面向基于句子的细粒度倾向性分析研究。目前文本倾向性分析的方法大致有以下三类:(1) 基于一般性统计方法。主要对所有情感项进行简单的倾向性统计,统计方法有求和法和向量空间模型法,根据最终得分与事先设定阈值比较得出倾向评价,一般用于篇章级的粗粒度情感倾向性分析。(2) 基于机器学习的方法。通过对大量标注语料的训练,生成倾向分析模型,用来对测试文本进行情感分类。该方法主要依赖标注语料库,目前专门应用于情感

14、倾向性分析的语料库非常少,所以半监督机器学习方法的研究是一种趋势。(3) 基于自然语义处理技术的方法。利用成熟的自然语言处理技术,在一定程度上实现了文本的语义理解,帮助更正确的分析情感倾向性,更多的应用于句子级的细粒度情感倾向性分析。该方法一定程度上更接近人的思维和判断,它首先进行文本的语义分析,然后挖掘其中的语义关系,最后分析出评价对象的情感倾向性。2.1 国内外研究现状目前,国内外已有不少学者和机构开展了主观性文本倾向性分析研究,并设计出了一些系统应用于商品评价、舆情分析等不同领域。现将当前国内外主观性文本倾向性分析研究与应用现状和发展趋势进行总述和分析。从具体的应用来看,NEC美国研究所

15、Dave等人研究并开发的ReviewSeer是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统,通过对评论性文章的语义倾向分析,为商品的受欢迎程度进行打分评价,该评价结果是极具价值的商业信息。微软研究院的Gamon等人研究利用聚类、半监督学习方法进行句子的语义分类,并开发了Pulse系统实现自动挖掘网上用户所上载的自由文本中有关汽车评价中的褒贬信息和强弱程度。美国伊利诺大学的Liu Bing等人研究并开发了Opinion Observer系统,实现网上顾客的在线商品评价处理,对评论中出现的产品各个属性(特征)的用户褒贬意见进行统计,给出友好的产品特征分类可视化界面展示,同时还

16、提供了同类产品之间的评价比对功能,使各部分属性(特征)优劣一目了然,极大帮助了用户的购买决策。IBM研究中心的Yi等人研究并开发了一个面向在线评论的情感分析系统(Sentiment Analyzer),该系统利用自然语言处理技术建立情感词库和情感语言模式库,对在线评论进行特征术语抽取、观点提取以及观点和特征关系的关联性分析,最终实现在线评论的情感分析。美国匹兹堡大学的Wilson等人研究并开发了OpinionFinder系统,它实现了主观性句子自动识别以及句子中各种与主观性有关的成分(例如,意见源、直接的主观性表达、说话事件(Speech Event)、情感等)挖掘。英国科波拉软件公司于200

17、5年推出了一套舆情感情色彩分析软件,它主要是通过网络舆情过滤和分级技术实现的。该技术可自动分辨语法成分,例如名词、动词和形容词,并确定动词的主语和宾语,因此可以去除一些与文章主要内容无关的词语,从而判断文章的感情色彩是正面、负面还是中立的,以帮助政府和一些大公司了解民意。另外美国国土安全部于2006年起利用能概述和分析新闻报道中公众意见的情感分析软件获取民众意愿,把握社情民意的走向。从国内来看,文本倾向性分析技术更多是应用于网络舆情监控系统,如方正的智思系统、厦门美亚柏科、邦富软件和谷尼国际软件等。针对网络舆情中各类评论的情感分析,必然要用到文本倾向性分析技术,但由于上述软件更多的是基于篇章的

18、粗粒度情感倾向性分析,从技术实现上相对比较简单和传统。近几年,已有不少学者开始细粒度情感倾向性分析方法,如上海交通大学的姚天昉等研究开发了用于汉语汽车论坛的意见挖掘系统,可以实现在电子公告板、门户网站等各大论坛上的意见挖掘,对褒贬信息进行综合统计后给出可视化结果。香港城市大学的Tsou等人设计了一个面向报刊上关于政治人物具有褒贬性的报告的情感分类系统,通过利用统计分析方法得到最终的文本褒贬分类和强度。清华大学的孟凡博等人设计了一个基于关键词模板的电影评论褒贬倾向判定系统,从结果来看,集外测试的效果不够理想,主要缺乏对句子的语义理解。哈尔滨工业大学的徐军等人使用机器学习方法实现了一个新闻情感自动

19、分类系统,在一定实验环境下,最高达到了90%的准确率,领先于其他基于篇章的情感倾向性分析方法。2.2 未来发展趋势情感挖掘方面的研究刚刚起步,针对情感分析领域的研究现状,以下几个方面是未来研究中值得关注的方向:情感资源的建设和评价体系的建立。语料库的建设是相关工作顺利开展的基础,语料标注是语料库建设的关键技术,应进一步研究情感标注体系,考虑如何从包括词汇层(如词性标注)、句法层(如语法分析)和语义层(如属性和情感的对应关系)的多个分析层次体现主观性文本的语言现象,形成较细颗粒度的公开语料库。也应进一步丰富词典资源,一方面是静态层面的研究,即词语在静态词典中所表现出的褒义、贬义等情感属性,这些属

20、性可以直接在语法信息词典中描述;另一方面是描述词语的情感信息在进入句子框架下发生的偏移现象,即词语褒贬倾向的动态句法(框架)研究。统一的评价体系是对方法进行客观评价的前提,也是不可忽视的基础性工作,对相关研究的开展具有重要的意义。语句中各语义成分及其对应关系识别。情感分析的最终目标是挖掘消费者对商品属性、功能等的态度或评价。可在现有句法分析研究(如依存分析等)的基础上,结合情感知识,获得针对情感分析问题的方法或模型。系统研究的开展。目前,相关工作比较零散,而情感分析领域的问题之间具有紧密的联系,系统性地研究非常重要。一方面应该着手建立初始的情感词典资源,为较细粒度的句子情感分析提供支持,另一方

21、面也应依据句子水平的分析结果,对词语在具体上下文中的褒贬性以及情感性进行判断。在线商品评论经济价值的研究。在线评论对消费者购买行为有着巨大的影响,而相关的理论研究才刚刚起步。由于缺少对在线评论以外影响商品销售因素的控制,如商品物理属性、市场需求环境和目标客户群特征等,现有研究获得的结论并不一致,规律性的发现还不多见。因此,对在线商品评论与销售情况的影响关系及其作用机制的研究尚需进一步深入,企业应如何管理和利用在线商品评论的研究仍略显不足,这些都是值得关注的课题。2.3 竞争影响力分析根据著名的战略管理学者迈克波特的观点,在一个行业中,存在五种基本的竞争力量,即潜在的新进入者、替代品、买主、供应

22、商以及现有行业竞争者间的抗衡。潜在的新进入者:现阶段互联网情感分析系统的开发尚处于起步阶段,所以面对巨大的市场,会有很强的资金和技术投入。但是由于情感分析信息系统这个行业本身的特殊性,它要求企业不仅要有研发资金,还需要比较强的技术力量,并且拥有一些该行业的相关从业经历以及背景了解,能够很好的了解客户真正的需求,所以相对来说进入这个行业的技术以及资金要求比较高。同时一些大型的专业的软件开发公司也逐渐开始向这块业务发展,将成为潜在的进入者。替代品:目前由于情感分析系统本身就是一个新兴的事物,它的替代品很少,所以需求弹性很小。买主:分为带有电子商务业务的大、中、小型企业。大型企业:购买力巨大,尤其是

23、一些专业化很强的电子商务企业,但是他们对技术的需求也很高。中型企业:潜力很大,对与产品成本的选择稍低,购买力和上升潜力巨大。小型企业:本身处于上升阶段,追求资金和规模的积累,一旦形成规模经济,就可以考虑引入相关的系统。2.4 SWOT分析表 21 项目SWOT分析条 外 件 部 匹 环 配 境自 身因 素O:机 会市场:极具潜力的目标市场。同时,市场刚开辟,竞争力弱。消费群体:消费者的消费导向很大一部分依据网络评价。企业公司急需基于市场真实的反馈信息。T:威 胁竞争对手:来自国内与国际竞争对手的威胁。人员素质:项目人员初步接触数据挖掘技术领域,专业性以及实施能力相对薄弱。S:优 势项目基础:互

24、联网在全球范围内的快速发展和普及,用户基数庞大。技术:可依托的技术研发人员力量雄厚。人力:指导老师尽心尽力,团结进取,专业知识扎实。SO:强项与机会技术先进项目创新老师谆谆教导ST:强项与威胁市场定位专利机制团队年轻有活力W:劣 势融资:初期融资渠道不畅。产品:初期系统功能不完善,市场认可低。团队:团队管理经验不足。销售渠道:建立销售渠道有一定难度。WO:弱项与机会项目开发市场认可拓宽融资渠道WT:弱项与威胁欠缺资金支持广告宣传项目管理难点2.5 市场需求分析2.5.1 针对大型评价网站的市场需求根据上文提到,截止2010年12月我国网民数达到4.57亿,互联网普及率持续上升增至34.3%。网

25、民当中很大一部分的网络行为为娱乐、商务、交易、沟通等。在如今网络当中充斥着铺天盖地的网络信息,想要在这些商务信息当中获得自己需要的,就必须花费大量的时间与精力进行网络信息收集,而对于大多数网民来说,信息检索技术并不是每个人都有相应的了解与运用。基于此问题,口碑网、大众点评网等大型评价网的出现在很大程度上解决了这个难题,但是问题仍未解决。比如,在现今电子商务网站提供主观性文本评论发布的基础上,还提供了针对评价对象的总体量化评分功能,如亚马逊,商品评论进行了五星制评级,5星为最好,1星为最差;还有部分网站推出了针对评价对象各个属性(特征)的细粒度评价功能,如携程网,它实现了对宾馆的房间卫生、酒店服

26、务、周边环境、设施设备这四方面的5分制评级,并给出综合得分。这个决策从表面上可以认为解决了对商品评论的评级机制,然而,我们忽略了一点,人是一种复杂的生物,他们的思维与行动有可能会背道而驰,真正能展示一个真实情感的路径,就是通过对主观性文本分析。现今的评论网站可以看到不同人对网络商品不同的评价,但是缺少一个系统的、直观的、整体的评价。因此,通过本项目开发一种高效的主观性文本情感倾向分析软件迫在眉睫。对大型评价网站来说,使用本系统可以提高在电子商务领域的竞争力,使网站更具有客观真实的参考价值。用户更可以一键获取有关商品的整体评价。2.5.2 针对商品生产商的市场需求商品的生产商或者服务的提供商通过

27、本项目的预期成果,能够及时了解本企业所提供的商品或服务的反馈信息,为改善产品性能、提高服务质量赢得更快和更有效的机遇,这相当于为企业节约了大量的市场调研和市场反馈信息获取的成本,间接地加快了企业产品、服务升级的进程。2.6 市场定位及特点本系统的应用范围相当广泛,目标用户可以是普通个人和企业。对于普通个人用户,利用本系统所提供的功能,可以直观的了解到目标商品(服务)的细粒度量化评价结果,而不需要逐句浏览大量的评论来全面获取此商品(服务)的评价信息,同时还可以根据不同的商品特性进行分类查看。系统的自动比对功能也给用户在不同商品进行艰难抉择的困境下提供有力的支持,根据选择自己感兴趣的商品特性,真正

28、做到适合自己的才是最好的。对于企业用户,此分析结果无形中节省了他们大量的市场调查费用,从此评论分析系统中他们可以了解到消费者关注的是哪些商品,这些商品的哪些特性是消费者重视的,哪些问题是消费者敏感的,哪些商品易于被消费者接受等等。这些信息对于一个企业来说无疑是一笔巨大的财富。同时对于有特殊要求的企业,本系统可以提供更详细的评论分析服务。对他们有针对性的要求,进行系统升级、改造。特别对于大型评论网站,可以直接引用系统的分析结果,或者与本团队合作,根据不同的需要对系统进行特殊化调整,以适应网站的运行策略。根据不同的侧重面,此系统还能够提供网络舆情分析、网络信息抽取、竞争新报系统等方面的应用。2.7

29、 市场优势随着电子商务的不断发展,用户对目标商品的已有评论数据越来越关注,利用本项目的研究结果可以帮助电子商务网站针对本地海量评论数据实现自动化统计分析和可视化结果展示,使顾客可以一目了然的了解各种商品的细粒度评价结果,节省了大量的时间和精力,从而一定程度上也提高了该电子商务网站的点击率和人气。当前,电子商务发展迅猛,网站数量与日俱增,本项目的市场前景十分看好。互联网上的信息日新月异,政府相关部门针对网络舆情有监控和分析的需求,如宣传系统、关注民情和民生部门、监督监察部门、产业经济部门等等,这些部门机构在省市县三级都有设置,全国的市场容量和潜力是巨大的。本项目研究的文本情感倾向性分析技术可以应

30、用于舆情信息的极性判断及热点事情的发现和追踪,具有重要性意义。因此,本项目的研究内容市场前景良好。第3章 平台模块与整体架构平台整体架构分为三大模块:爬虫模块(crawler)、分析模块(analyser)、展示模块(layout)。框架如图3-1所示。图 31 整体框架示意图3.1 爬虫模块图 32 爬虫模块(1) 文本提取模块该模块用于提取指定网页中的评论内容,可根据不同的页面编辑不同的模板精确提取目标内容。(2) 预处理模块预处理提取的文本评论:去除HTML标签,去除重复标点符号,去除空行,去除多余空格,断句,分词,POS标注,SRL标注(POS,SRL为自然语言处理技术,在第四章详细介

31、绍),最后将文本评论结构化后存入数据库供进一步分析使用。3.2 分析模块图 33 分析模块分析模块是整个系统的核心部分,承担着分析自然语言的任务。在此模块中对评论文本进行“流水线”处理。(1) 关键词(特征-情感词对)提取模块将爬虫模块处理过的结构化文本评论转化为机器学习要求的格式,并使用机器学习技术提取关键词(包括特征词,情感词,程度副词等),最后将提取的关键词存入数据库。(2) 情感倾向性分析与量化模块此模块分词特征-情感词对的情感倾向性,使用基于字频的倾向性分析,并配合哈工大同义词林进行情感倾向的量化计算。(3) 特征词聚类模块此模块将根据需要对特征进行归类,既将描述类似或相同特征的词归

32、为一类。需要分为两种,其一为特征预先设定(由系统直接设定,或由用户设定),其二为选择出现频率靠前的一些特征,最后将归类结果储存进数据库。(4) 评论整体倾向性计算模块该模块基于以上模块分析计算结果,根据不同特征设定不同权重,对评论中所有特征-情感词对进行计算,得出评论整体情感倾向性,存入数据库。3.3 展示模块图 34 展示模块展示模块使分析结果具有灵活的表现形式,可根据不同需求使用相对应的展现方式。(1) 图形化显示模块以图形方式显示评论情感倾向性,包括显示评论整体情感倾向性,特定句子情感倾向性,以及特定特征情感倾向性。(2) 颜色标记模块用户可根据个人喜好设定不同颜色标记不同的关键词,以便于评论的阅读。(3) 摘要模块综合显示某商品的所有评论分析结果,使用图形化显示模块显示所有特征情感倾向性结果,并以颜色标记模块显示包含特征-情

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1