文章极性分析Word格式.docx
《文章极性分析Word格式.docx》由会员分享,可在线阅读,更多相关《文章极性分析Word格式.docx(46页珍藏版)》请在冰豆网上搜索。
申请学位
工学硕士
学科
计算机科学与技术
所在单位
计算机科学与技术学院
答辩日期
授予学位单位
哈尔滨工业大学
ClassifiedIndex:
TP391.3
U.D.C:
621.3
DissertationfortheMasterDegreeofEngineering
Candidate:
YingtingFan
Supervisor:
Prof.XiaolongWang
AcademicDegreeAppliedfor:
MasterofEngineering
Specialty:
ComputerScienceandTechnology
Affiliation:
DateofDefence:
Dec,2010
Degree-Conferring-Institution:
HarbinInstituteofTechnology
摘要
近年来,随着在线服务的飞速发展,互联网形成了一个巨大、内容丰富的信息库,在线服务主要包括:
百科知识、个人博客、在线论坛等等。
其中,在线论坛作为一个特殊的网络虚拟空间,在这里用户可以提出问题、讨论问题、并愿意与其他用户一起分享知识及观点,并在一定的奖惩机制下激发用户空前的兴趣。
在这样的背景下,用户如果对某一个产品或者信息感兴趣的话,就需要去各个网站、论坛浏览或者搜索相关的信息,不仅费时费力,而且获取的信息往往凌乱不全面。
而我们的金融观点问答系统,正是满足了用户这样的需要,系统将金融信息作为主题和切入点,针对用户的提问检索相关金融观点后,主动为用户进行分类整理和统计,信息量大且友好。
本课题构建了面向金融观点的自动问答系统,主要解决以下三方面的问题:
1.论坛中金融观点挖掘:
论坛中数据的组织形式通常为一个主贴、若干个跟帖,整个帖子中可能包含多个讨论对象以及观点评论,但也充斥着这种噪音,导致观点所占的比例较少,为了有效识别这些观点评论,本课题采用了两个步骤进行过滤和分类。
第一步采用规则匹配的方法对明显不是观点的内容进行过滤,有效减少进入分类器的句子数量,这样不但能降低分类的代价,而且能提高正确率;
第二步构造观点分类器,对句子提取了各种类型的布尔特征,使用信息增益进行特征选择,通过支持向量机方法进行分类性能测试。
对新测试数据的分类精度达到83.11%。
2.观点倾向判别:
对于已经识别为观点的句子,需要进一步判别其倾向,观点倾向总共分为四类,包括积极、消极、中立以及比较。
考虑到倾向性标注语料数量有限,并且特征分布稀疏,本课题采用基于图的半监督学习方法对分类为观点的未标注倾向语料进行扩展:
学习方法采用句子相似度建立图模型,相似度计算包括两个句子中词的相似度、词的语义相似度、句子间语义相似度、比较类模板相似度以及正负情感词相似度等;
采用改进后的迭代标注传播算法对语料倾向进行相似性传递,并且极大减少图传递的时间复杂度;
之后在扩展语料的基础上进行训练,十种类型的特征,包括词、扩展词、二元词、语义、正负情感词、正负模板、比较类模板以及句子结构特征等,使用信息增益进行特征选择,通过支持向量机方法进行分类性能测试,同等条件下,取得了比全监督分类方法更高的准确率。
此外,还需识别句子的评论对象,若句子不存在承前省略的情况,可直接匹配一个或多个对象;
若存在承前省略,则需要通过规则匹配的方法向前回溯找到一个或多个对象,采用规则在人工标注的语料中测试,正确率达到86%。
3.实时观点库:
经过观点挖掘、倾向判别和评论对象识别的句子,需要作为答案被保存在观点库中以备检索。
由于金融观点实时性较强,需要每天定时更新以保证系统的有效性。
当用户输入查询条件时,从观点库中获得最新的若干条记录,并由系统自动统计结果数据,经过整理后按倾向类别分别返回给用户,给用户提供最直观的结果。
关键词:
金融观点挖掘;
金融观点倾向判别;
基于图的半监督学习;
机器学习;
数据挖掘
Abstract
Inrecentyears,thedevelopmentofonlineservicessuppliesgreatarchivesforthemanufactureofacollectionofQ&
A,formingahuge,richcontentinformationdatabase,forexample:
encyclopedicknowledge,personalBLOG,onlineforumsetc.Withonlineforum,forexample:
itusuallyfocusonaparticulararea,suchastrafficBBS,technologyandfinancialBBSetc,itisaspecificnetworkfictitiousspacewherepeoplecananswerquestions,anddiscusstheproblem,andwillingtosharetheirknowledgewithothers,withaseriesofoperations,incentives,theinterestofgainandextractknowledgeisunprecedented.Becauseoftheabovecharacteristics,forumswhichcontainalargenumberofseriesofpracticaldiscussion,canmakethestudyextremelysignificance.
Inthissituation,ifusersfeelinterestedinsomeproductorinformation,theyneedtobrowseorretrieveinmanywebsites,notonlywastetime,butalsocouldn’tgetenoughimformationtheyneed.Basedontheseproblems,ourfinancialopinionautomaticQ&
Asystemwillsearchtherelavantopinionsofstock,classifyandfigureouttheprobabilityofeachcategoryforusersautomaticly,thustheamountofimformationofanswersisbigandtheinteractivemodeisfriendly.
Inthispaper,webuildafinancialopinionautomaticQ&
Asystem,whichfocusonsolvingthefollowingthreeissues:
a.Financialopinionminingfromonlineforums:
Theorganizationformatofoneforumthreadisoneinitialpostandseveralfollowingposts.Inonethread,theremaybeseveralobjectsbeingdiscussedandmanyopinions.Sometimes,becauseofthenoiseandthechaosofcontent,thepercentageofopinionscouldbequitesmall.Inordertoidentifytheseopinionseffectively,weadopttwostepstofilterandclassifythesesentences.
Infirststep,weuserulestofilterallthecontentsbeingdownloadedtoreducethenumberofsentencesintoclassification.Thisstepwillnotonlyreducethecostofclassificationbutalsoincreasetheprecisionrate.Insecondstep,weextracttenfeatures,useinformationgainforfeatureselection,usesupportvectormachineforperformancetesting.Thisclassifierreached83.11%accuracyintatallynewtestset.
b.Financialopinionpolarityclassification:
Sentenceswhichbelongtofinancialopinionsneedtobeclassifiedintodifferentpolaritiesincludingpositive,negative,neutralandcompare.Consideringthelimitationofpolaritylabeledcorpus,weusegraph-basedsemi-supervisedlearningtogetthepolarityofopinionlabeledcorpusinordertoexpandthescaleofcorpus:
weadoptsimilarityofsentencestobuildthegraphmodel,includingtherateofallkindsoffeatures,thehownetsimilarityofsentencesandsoon;
afterthatweusesummarizationforlabelpropagating,todecreasealotoftime.Thenweusetheexpandedcorpusforlearning,extracttenfeaturesincludingunigram,extendedunigram,bigram,sematicfeature,positiveandnegativewords,positiveandnegativetemplatesandthestructureofsentence,useinformationgainforfeatureselection,thenusesupportvectormachineforperformancetesting.Inthesamesituation,fourpolaritytestdatareachedhigherprecisionthansupervisedlearning.
Besides,weneedtodecidetheobjectofopinion.Ifthereisnoemitioninsentence,wecandirectlygetobjectsbymatching,butifthereisemition,weneedtofindoneormoreobjectsfromcontextbycertainrules.Wedesignandtesttherulesinlabeledcorpuswhichexistemitions,theprecisionreachedabout86%.
c.Informationretrievalbasedonopinionlib:
Sentencesaftertheopinionclassification,thepolarityclassicationandtheobjectidentification,willbesavedinopinionlib.Asfinancialopinionsaresensitivetotime,oursystemshouldupdatathisopinionlibeveryday.Whenoursystemgetstheinputfromusers,itgetsseveralrecordsuptodatefromopinionlib,returnstousersthemostdirectanswerafteranalysis.
Keywords:
financialopinionmining;
financialopinionpolarityclassification;
graphbasedsemi-supervisedlearing;
machinelearning;
datamining
目录
摘要…...I
AbstractIII
第1章绪论1
1.1课题背景、目的和意义1
1.2观点挖掘技术国内外发展概况2
1.2.1文本情感分类3
1.2.2基于特征的观点挖掘4
1.2.3观点挖掘系统构建现状4
1.3本文主要研究内容与组织6
1.3.1本文的内容6
1.3.2本文的组织6
第2章面向金融问答的论坛观点挖掘技术概述7
2.1面向金融问答的论坛观点挖掘系统流程图7
2.2论坛金融观点挖掘8
2.3金融观点倾向判别9
2.4金融问答观点库的建立与更新10
2.5机器学习方法简介11
2.5.1支持向量机11
2.5.2基于图的半监督学习11
2.6本章小结14
第3章论坛金融观点挖掘15
3.1引言15
3.2帖子内容过滤15
3.2.1不规则符号的过滤15
3.2.2噪音的定义与过滤16
3.2.3多句表述的拆分17
3.3金融观点挖掘17
3.3.1观点标注17
3.3.2观点特征提取20
3.3.3实验过程描述21
3.3.4实验结果分析21
3.4本章小结24
第4章金融观点倾向判别25
4.1引言25
4.2数据预处理25
4.2.1已标注语料处理25
4.2.2未标注数据处理26
4.3基于图的半监督学习方法27
4.3.1句子相似度计算27
4.3.2图模型的建立29
4.3.3图模型标注传递算法和适应性改进30
4.4金融观点倾向判别32
4.4.1倾向特征提取32
4.4.2实验过程描述33
4.4.3实验结果分析33
4.5金融观点对象判别35
4.5.1判别规则定义35
4.5.2实验过程与结果分析35
4.6本章小结36
第5章海天园-金融观点问答系统37
5.1海天园-金融观点问答系统实现37
5.2海天园-金融观点问答系统演示界面38
结论40
参考文献41
攻读硕士学位期间发表的学术论文46
哈尔滨工业大学硕士学位论文原创性声明47
致谢48
第1章绪论
1.1课题背景、目的和意义
互联网实现了知识与信息在世界范围内的平等共享和快速传播,而其中以Google、XX为代表的第二代搜索引擎实现了互联网上数十亿网页的基于关键词的快速检索,满足了人们最基本的信息检索需求。
但这种传统的信息检索方式往往存在着检索不全面、精度不高、使用不方便、提供主动服务和为用户定制个性化服务能力差等问题,其中主要有以下三个方面:
一是重复或无关的信息太多,需要用户主动从这些信息中寻找答案;
二是检索方式单一,用户无法将自己的检索意图表达清楚;
三是检索仍然停留在语言的表层,没有触及语义导致效果差强人意。
随着互联网的迅速发展和广泛普及,网上信息呈现爆炸性的增长。
传统的信息检索方式已不能满足人们的需要,人们希望通过网络信息检索迅速快捷地定位到自己所需要的信息,因此产生了问答式信息检索。
而一般的问答式信息检索虽然可以基本解决目前搜索引擎的缺点,采用简洁的自然语言回答用户提出的问题,但承载的信息量却非常有限,答案往往只是针对客观性问题能达到比较高的精确度,面对主观性问题时往往力不从心,缺乏实用价值和综合性;
另外,还存在着知识服务较差和不能主动提供个性化服务等的问题。
基于这样的背景,能够为人们提供主观性知识服务的问答式信息检索平台变得极为重要。
近年来,随着互联网的迅速发展和广泛普及,在线服务飞速发展,形成了一个巨大、内容丰富的信息仓库,这为观点问答集合的发现和生成创造了极为有利的条件。
在线服务主要包括:
百科知识、个人博客、在线论坛等等,以在线论坛为例:
论坛通常侧重于某一特定的领域,比如交通论坛、医药论坛、技术论坛和金融论坛等,论坛是人们能够提问、进行回答和讨论某个特定领域问题的网络虚拟空间,在这里,人们乐于将自己的知识与别人共享,加上一系列运作、奖励惩罚机制,使得人们提供、获得和提取知识的兴趣被空前激励。
正是因为论坛的以上特性,使其包含了大量的一连串实用的讨论,并且更新快,能够为我们提供实时数据,从而使这项研究的数据来源得到的数量和质量的保证,真实性也使研究极富意义。
此外,论坛中的一组讨论中通常包含一个主贴,也叫发起贴和若干个跟帖,也叫回复帖,通常有多个讨论对象和观点蕴含其中;
一组讨论的参与者并非物理上同时出现,因此回复的时间可能有所滞后;
正是这种异步的、多个参与者、多个讨论对象以及多个观点评论交织的模式给我们的研究工作带来了相当的难度和挑战。
因此,本课题的目标是实现特定领域的观点问答式信息检索系统,针对用户的提问检索相应观点后,能主动为用户进行分类整理和统计,提供知识服务,保证答案信息量大、结构清晰并且交互方式友好。
考虑到课题现阶段分析海量在线服务数据的实现难度,以及海天园项目要求,即知识服务平台的侧重性,本课题将研究对象锁定为国内金融领域较为热门的中文论坛,比如:
和讯网金融论坛、东方财富网金融论坛以及证券之星等。
研究着重分析真实环境下的用户基本数据和发起、回复数据,采用观点形式挖掘中文金融论坛的知识,进而建立海天园的金融观点自动问答系统和补充现有问答库,为平台的建设和发展提供基础支持。
1.2观点挖掘技术国内外发展概况
如今,互联网的迅猛发展已经彻底改变了人们表达观点的方式和习惯,用户不仅可以在商业网站上表达自己对某个产品服务的看法,而且还可以在论坛中、个人主页中发表自己的观点,因此,以文本形式出现的观点评论信息也越来越多,逐渐成为我们最容易获取,同时表达最为丰富的一种交互资源,由此产生了观点挖掘。
所谓观点挖掘,即获取互联网上的有效观点评论的技术,有效评论包括用户对产品及服务的观点、对某一事件及热点的观点、政治态度等。
观点挖掘结合了当前自然语言处理与数据挖掘的主要技术,是当前科研人员研究的热点之一,同时也是难点之一。
人们可以通过词法分析找到表达情感的词汇和常用表达,通过语义分析找到深层次语义信息,还可以通过句法分析了解句子的语法结构等方法从文本中抽取评论信息,从大量的评论文本中提取其中包含的情感信息,进而以一定的组织方式为潜在用户及消费者、商家以及管理者提供参考价值。
学术界对观点挖掘的兴趣是从上个世纪90年代末开始逐步增加,在AAAI2004的“ExploringAttitudeandAffectionText:
TheoriesandApplication”春季会议上的36篇论文标志着这一领域受到了极大的关注。
目前国内外关于观点挖掘的研究主要分为文本级别情感分类和语句级别情感分类两大类,具体研究状况如下。
1.2.1文本情感分类
近年来,文本级别的情感分类受到了广泛关注,分类的目的是对于给定的文本片段判断说话者的情感倾向,判断给定的文本片段中的文字表述是主观性的评论还是客观性的介绍,是肯定的正面评价还是否定的反面批判。
最初,Pang和Lee等人[5][6]在文本级别的主、客观分类和极性判断方面做了一些研究工作。
他们采用基于图的minimun-cut方法,并利用上下文的信息提高极性分类的精度,但是该方法的局限性在于只能对文本进行二分类。
实验采用朴素贝叶斯、最大熵以及支持向量机等常用机器学习方法,通过多重交叉检验对分类器的性能进行对比评估。
Ni和Xue等人[7]同样将文本情感分类视为二分类问题,论文中使用了朴素贝叶斯、支持向量机和Roechio’s等机器学习方法,并采用了信息增益(InformationGain)和开方(CHI)方法进行特征选择,其中支持向量机分类器的实验性能最好。
另外,Whitelaw等人[8]进行词法分析,提取语料中包含形容词的词组及其修饰语作为特征,文档利用向量空间模型来表示,之后采用支持向量机方法进行分类,来区分文档的极性。
与以往的研究相比,Goldberg和Zhu等人[9]提出了基于图的半监督学习算法,他们对电影评论进行等级划分,实现多分类模型,并且在性能上取得了较大的提高。
中文文本的情感分类方面,徐军等人[10]对新闻进行情感自动分类,论文采用朴素贝叶斯和最大熵模型,采用布尔和词频作为特征,实验结果表明最大熵方法明显优于朴素贝叶斯,同时证明了布尔特征的有效性。
另外,唐慧丰等人[11]对全监督学习的中文情感分类技术做了比较研究,论文中采用N-Gram和各种词性的词作为特征;
采用常用特征选择方法如互信息、信息增益、CHI以及文档频率等;
以K近邻、朴素贝叶斯、支持向量机和中心向量方法作为分类方法;
并在不同的特征集合和训练规模下进行了对比。
结果表明:
采用二元词作为特征、信息增益方法作为特征选择方法、采用SVM方法构造分类器,能取得较好效果情感分类。
但是,很多时候仅仅是这种总体上的判断远远不够,因为人们对于某一话题进行观点和态度