基于复合特征模板下最大熵模型的产品属性挖掘研究.docx-资源下载

基于复合特征模板下最大熵模型的产品属性挖掘研究.docx

1、基于复合特征模板下最大熵模型的产品属性挖掘研究基于最大熵模型下复合特征模板的产品属性挖掘研究李博，董晓凯，莫苏宁，陆伟（武汉大学信息管理学院，武汉 430072）摘要：最大熵模型是产品属性挖掘研究领域的一个热点。本文通过对产品属性挖掘中，构造最大熵模型复合特征模板的两对主要影响因素：词形与词性、中心词与非中心词，对最终挖掘结果影响的探讨，得到在其他条件基本相同的情况下，词性关系加入对挖掘效果的影响要优于词形关系；中心词关系加入提升查准率降低查全率，非中心词则相反，但二者综合效果相差不大，选用情况取决于实验目的。关键词：产品属性；属性挖掘；最大熵模型；复合特征A Research of Pro

2、duct Features Mining Based on Maximum Entropy Model and Compound TemplatesLI Bo,DONG Xiaokai, MO Suning, LU Wei(School of Information Management, Wuhan University, Wuhan 430072, China)Abstract： It is a hot research point to apply maximum entropy model in Product Features Mining field. This paper mai

3、nly discusses the impact of two main pairs of elements: morphology and part of speech; center-word and none-center-word, which are the structure factors of compound features template of maximum entropy model. The result is that morphology can improve the result of mining more than part of speech doe

4、s; center-word will improve the precision, but decrease the recall and none-center-word works adversely. But on a comprehensive way, the two elements effects on result are pretty alike, thus which one to choose decides on the purpose of experiment.Keywords：Product features; features mining; maximum

5、entropy model; compound features; 近年来，随着Web2.0与电子商务的快速发展，互联网上各类产品的主观评论数量急剧增长，这些观点评论对于用户做出购买决策，企业做出生产决策、改进客户关系等具有重要意义，针对产品的意见挖掘研究领域也因此成为研究热点之一。在早期研究中，对产品的意见挖掘大多针对产品的整体极性，而对于产品具体属性的极性则无法判断。在实际中，评论者可能对产品的某些属性做出正面评价，同时对另一些属性做出负面评价，这种整体挖掘显然是无法满足用户与企业的需求的。【1】。产品意见挖掘因此逐步开始向较深层次的挖掘发展，产品属性挖掘就是其中的热门分支之一。 1产品属

6、性挖掘的研究现状根据Kim和Hovy对意见的定义，意见由四个元素组成：即主题(Topic)、持有者(Holder)、陈述(Claim)、情感(Sentiment)。该四元素之间具有内在联系。【2】。Popescu A M在此基础上将产品意见挖掘划分为三个子任务：（1）挖掘产品特征（2）判定句子的语义倾向性（3）总结挖掘结果【3】，以此确立了产品意见挖掘的基本思路。典型的深层次的产品意见挖掘致力于前两个子任务的研究，通常可分为属性驱动模式和情感驱动模式【4】，产品属性挖掘则是产品意见挖掘在属性驱动模式下的研究领域。所谓产品属性挖掘, 就是从句子si= w1 , w2 ,wn 所构成的序列中找到

7、f1 , f2 , , fn 集合中的产品属性fi，并以此辅助意见挖掘的研究。由于属性多表现为名词和名词短语,因此属性挖掘可以理解为被评论的名词或名词短语的识别。【5】在大量真实评论文本中，这些属性通常是以以下两种方式出现：（1）产品的部分（2）产品的特征及其外延。【6】例如：iphone4的屏幕很好看，但性价比不高。上例中“屏幕”、“性价比”都是iphone4这款手机的属性，也是属性挖掘的对象。产品属性挖掘早期大多是由人工完成，如Zhang L等人建立电影元素属性表【7】。国内姚天昉团队在其汽车评论挖掘中引入了领域本体的思想【8】，构建汽车领域本体。这两种方法本质上均属于人工定义形式的挖掘

8、方式，均对个人有相当程度的依赖，需要本领域专家参与才能完成。一旦领域迁移或产品功能发生变化，则需重新构造，因此也使得这些方法移植性与动态性较差，较难推广使用。当前较为主流的方法是计算机辅助属性挖掘。计算机辅助挖掘通过给定的模板、词典、标注语料等，利用计算机执行一定的规则，辅助挖掘评论中的产品属性。按其依据的理论基础可分为两类。第一类以语言学为基础，依靠人类语言中的结构、规则等来挖掘产品属性。Hu在 Mining and Summarizing Customer Reviews【3】中提出的一种较早的基于语言规则的“关联规则”法就是此类方法中的早期的典型。Popescu在Hu的基础上提出点互信息

9、法（Point-wise Mutual Information PMI）作为改进，以较小查全率的代价大幅提升了该方法的查准率。Kim SM等人则首先定位句子中的主观极性词汇，然后以该主观极性词汇为中心，确定一定长度的窗口，向前或向后搜索名词或名词短语。该类方法依赖模板、词典等，以单句为属性挖掘对象。这类方法的优点是召回率高，不足之处在于容易产生冗余属性，而且需要较多的人工干预。第二类方法以概率统计学为基础，依靠大量评论文本挖掘出特征最为突出的属性。该类方法的优势在于能够很大程度上减少对人工干预的依赖，具有较高的自动化程度，同时不依赖于给定词典，具有较强的领域移植性，是具有相当发展潜力的一类方

10、法。这类方法典型代表有：潜在语义分析法、潜在狄利克雷分布法、相关主题模型法等等。但这类方法往往针对集合整体，对于单句属性则无能为力。鉴于以上两类方法均具有各自不可替代的优势，一些研究者尝试将这两类方法结合起来，最大熵模型应用于产品属性挖掘就是这种结合的典型代表。2最大熵模型与产品属性挖掘建模2.1最大熵模型原理最大熵模型是当前自然语言研究领域最为盛行的方法之一，【9】它最早由Borthwick引入到英文命名实体的识别中，它的特点是对于未知的事件，该模型总是使概率分布尽可能的均匀,以满足限定条件下的熵值最大化为准则，对各种不同类型的特征训练给出一组对应的权值，然后通过线性组合，把他们整合到一个

11、统一的模型中，即熵最大。10它的主要优点是：建模时，试验者只需集中精力选择特征，而不需要花费精力考虑如何使用这些特征；特征选择灵活，且不需要额外的独立假定或内在约束；模型应用在不同领域时的可移植性强；可结合更丰富的信息等。其基本思想为，对于给定的训练数据。选择一个适当的统计模型，使其满足所有已知的事实，而对未知的事实则不作任何假设，这也使得最大熵模型从理论上来说更为客观。112.2特征选择特征的本意指事物异于其他事物的特点10。在最大熵方法中，我们称规则为特征。而规则是从语料中得到的语言知识。一条规则一般由两部分组成，一部分是条件，另一部分是在条件满足时应采取的行动。例如，如果“一个待定词的前

12、后两个相邻词均是动词”，则“标注该待定词为名词”就由“如果”和“则”两部分组成的特征。前者描述条件，后者描述行动。这样一种用简单的语言描述复杂的语言现象，不做任何独立假设地承认已有的可观察事实的方法，就是最大熵模型中的特征选择，文本中的所有特征成为最大熵模型的特征集合。最大熵模型的关键问题在于如何针对特定的任务选择最能代表对象的特征。可以说，特征选择的好坏直接关系到最大熵模型的效果。2.3特征模板最大熵模型中的特征是通过使用人工构造的特征模板在语料库中匹配生成的。特征模板的定义通常是首选固定一个窗口，然后考虑这个窗口中构成该语境的各种因素的影响，如词形、词性、特征标注等，在这些影响因素中词形

13、与词性的影响是最为主要的，因此也是本文研究的对象10。同时因为这些影响因素对于特征的影响是复杂的，既可以单独产生影响，又可以相互组合产生影响。目前学者在进行相关研究时，通常将特征划分为原子特征与复合特征，与之相对应的用于挖掘这两类特征的模板可以分为简单模板与复合模板。从目前最大熵模型特征选择的效果来看，在其他条件大体相同的情况下，简单模板效果较差，而且不具有太高的领域移植性。鉴于此，本文使用复合特征模板作为最大熵模型特征选择的基础。试图通过实验找出复合特征下词形与词性在模板中的平衡点，使最终结果不仅在本领域查全、查准率上取得较好成绩，同时在跨领域的属性挖掘上也取得良好效果。2.4模型求解在使用

14、最大熵模型挖掘产品属性时，我们将语句看作由单个词构成的N元序列，对这些词进行状态标注，通过状态序列即可识别出句子中的属性。若以X=x1,x2,x3xn表示待标注语句，Y=y1,y2,y3yn表示标注序列。对于待标注语句X，从中提取出一些特征Y=y1,y2,y3yn，使得对于每一个特征fi，其权重为wi，目标是为这个待标注语句X选择一个类别。对于给定的实验对象X，每一个特定类别y的概率值可根据下式来计算:Py(y|x)= i f i(x,y)z(x)= exp(i f i(x,y)上式中，f(x,y)表示的是特征函数，它是一个二值函数，即当所有条件满足该特征条件是，该函数值为1，其他则为0。表示

15、该特征的权重。z(x) 是一个归一化因子，表示将 x 判别成各个 y 的模型得分总值通过分析可以看出，结合最大熵模型后的产品属性挖掘问题常被转化成求解特征函数的权重值，这些权重值可通过数值计算方法求得，其中比较常用的是IIS迭代算法（The Improved Iteration Scaling Algorithm）。本文求解参数时采用的方法便是IIS迭代算法。3 研究实验3.1实验设计思路鉴于以往此类研究往往大多只讨论了特征模板的构造对于最大熵模型在本领域的挖掘效果的影响，关注的对象多为本领域实验语料下属性挖掘查全率与查准率的高低，缺乏对于其他领域属性挖掘的对比。本文选取构造特征模板中的两个最

16、主要且最具有代表性的影响因素：词形与词性，通过不同的组合构造获取特征的不同复合模板。通过设计实验找出这些不同复合模板中，能使属性挖掘效果不仅在本领域取得高查全率和高查准率，同时也在其他不同领域中取得良好效果的组合。以此在基本保证本领域的挖掘效果的前提下，对跨领域产品属性挖掘中的影响因素做出初步探索。3.2实验数据本文采用来自中关村在线（选取1000条笔记本相关语料与1000条手机相关语料作为实验对象。每条评论均经过分词与标注两个步骤，分词使用中科院分词器ICTCLAS，然后用最大熵模型中的特征标注（以名词为中心），如下例：“衡量打印机好坏的指标有三项：打印分辨率，打印速度和噪声”分词后得到：

17、 “衡量/v 打印机/n 好坏/n 的/ude1 指标/n 有/v三/m 项/q ：/wp打印/v 分辨率/n ，/wd打印/v 速度/n 和/cc 噪声/n 。”标注后得到： 1.p=n f=衡量fp=v a=好坏ap=n 02.p=n f=打印机fp=n a=的ap=ude1 03.p=n f=的fp=ude1 a=有ap=v 04.p=n f=打印fp=v a=0 ap=0 15.p=n f=打印fp=v a=和ap=cc16.p=n f=和fp=cc a=0ap=0 03.3构造模板本文复合模板由各词词形与词性之间不同组合构成，为保证对于本领域属性的挖掘效果，每个模板中均加入了由简单特

18、征构成的简单模板，在此基础上模板按照影响因素不同划分为：前后词形影响、前后词性影响、中心词形影响、中心词性影响。本文复合模板窗口大小设置为3，假设在分词后模板窗口内信息表示为：“词1+词2（中心词）+词3”。令w1=词1词形，w2=词2词形，w3=词3词形p1=词1词性，p2=词2词性，p3=词3词性A=p1、p2、p3、w1、w2、w3B1= p1/p2B2= p1/p3B3= p2/p3B4= w1/w2B5= w1/w3B6= w2/w3 对以上特征进行组合，构成复合特征模板，共10组。（1）A。简单模板，仅包含前向、后向词汇的词形及词性。该模板作为其他各组模板的效果对比。（2）A+B1

19、+B2+B3。简单模板+词性影响，在模板（1）之中加入了全部词汇的词性关系。验证窗口中各词汇词性之间关系对于最终结果的影响。（3）A+B4+B5+B6。简单模板+词形影响，在模板（1）之中加入了全部词汇的词形关系。验证窗口中各词汇词形之间关系对最终结果的影响。（4）A+B1+B2+B3+B4+B5+B6。简单模板+词性影响+词形影响，在模板（1）之中加入了全部词汇的词性和词形关系。与（2）、（3）结果进行对比。（5）A+B2。简单模板+中心词词形影响，在（1）中加入中心词汇的词形。验证中心词汇词形对最终结果的影响。（6）A+B5。简单模板+中心词词性影响，在（1）中加入中心词汇的词性。验证中心

20、词汇词性对最终结果的影响。（7）A+B1+B3。简单模板+非中心词词形影响，在（1）中加入非中心词汇的词形。验证非中心词汇词形对最终结果的影响。（8）A+B4+B6。简单模板+非中心词词性影响，在（1）中加入非中心词汇的词性。验证非中心词汇词性对最终结果的影响。（9）A+B2+B4。简单模板+中心词形词性影响，在（1）中加入中心词汇的词形词性。验证中心词词形词性对最终结果的影响，对比（5）、（6）。（10）A+B1+B3+B4+B6。简单模板+非中心词词形词性影响，在（1）中加入非中心词汇的词形词性。验证非中心词词形词性对最终结果的影响，对比（7）、（8）3.4实验结果与分析一、实验中的性能指

21、标定义如下：查准率(Precision)=正确标注的命名实体数/标注的命名实体数*100；查全率(Recall)=正确标注的命名实体数/语料含有的命名实体数*100。令P1、R1为描述笔记本电脑语料实验指标，P2、R2为描述手机实验语料指标；AP为笔记本语料及手机语料的平均查准率，AR为笔记本语料及手机语料的平均查全率，AF为考察查准率及查全率的综合性能指标；则：AP=（P1+P2）/2； AR=（R1+R2）/2； AF=（AP+AR）/2。二、实验结果如下：笔记本电脑实验语料手机实验语料查全率查准率查全率查准率（1）83.21%87.18%60.53%71.43%（2）80.77%89.2

22、1%55.24%73.50%（3）73.21%89.87%51.22%73.46%（4）71.28%89.96%50.22%74.61%（5）83.54%86.56%63.25%71.45%（6）83.22%87.17%61.26%71.63%（7）82.25%88.75%59.25%74.36%（8）85.46%85.36%58.63%73.56%（9）84.23%87.25%62.10%70.33%（10）83.45%86.45%61.02%70.69%APARAF（1）79.31%71.87%75.59%（2）81.36%68.01%74.68%（3）81.67%62.22%71.94%

23、（4）82.29%60.75%71.52%（5）79.01%73.40%76.20%（6）79.40%72.24%75.82%（7）81.56%70.75%76.15%（8）79.46%72.05%75.75%（9）78.79%73.17%75.98%（10）78.57%72.24%75.40%三、实验结果分析（一）查全率：比较（1）（4），查全率随着限制条件的增多逐渐下降。其中词形关系的加入使得查全率下降了平均9.66%，影响较大，词性关系对查全率的影响较小，仅3.87%。比较（5）（10），在词形词性对查全率的影响中，中心词限制对于查全率影响较小，而非中心词限制对查全率影响较大。（二）

24、查准率：比较（1）（4），加入词形关系后查准率上升2.05%，加入词性关系后查准率上升2.36%，稍高于词形限制。比较（5）（10），词形词性对于查准率的影响中，中心词限制对于查准率影响较小，而非中心词限制对查准率影响较大。（三）综合性能：加入全部的限定关系（4），取得了最高的平均查准率82.29%，同时也使得查全率降到最低60.75%。而取得最高平均查全率73.40%的（5），其查准率则为79.01%。AF值最高方案为（5），最低位（4），且加入词形关系的方案均取得相对低的AF值。通过对实验结果的分析、观察和比较，我们发现：从总体上看，在基于复合模板的最大熵模型下进行属性挖掘，其查全率

25、与查准率基本符合反比变化规律。从影响因素上看，词形、词性关系对于实验的查全、查准均有一定影响。在查全率上，加入词形关系使得查全率出现较大程度的减少，同时其在查准率上的提升并不明显。单就词形、词性两个因素综合影响而言，使用词性限制的挖掘效果要优于词形。中心词与非中心词对于挖掘效果的影响相对于词形、词性较小，使用中心词限制会使查全率有所提升，查准率出现相应的下降；使用非中心词限制则出现相反效果；但总的来说，两种限制在查全率与查准率的变化上基本平衡，最终综合效果相差无几。如果对查全率有较高要求，可以使用中心词限制；反之使用非中心词限制。对于本领域语料，实验结果中查全率与查准率一般在80%以上，查准

26、率更接近90%，基本与当前同类研究水平持平；但对于非本领域语料（本文中为手机领域），查全率与查准率则相对较低，与本领域相比尚具有较大提升空间。4总结与展望本文通过实验探讨了在产品属性挖掘中，构造最大熵模型复合特征模板的两个主要影响因素：词形与词性，对最终挖掘结果的影响，并比较了二者对于查全查准率的影响。同时将这种影响划分为中心词汇与非中心词汇影响，利用实验数据对二者的影响力大小进行了测试，指出了中心词与非中心词影响的适用范围。在保证本领域挖掘效果的基础上，对于跨领域属性挖掘做出了初步探讨。下一步，笔者将继续基于复合模板下最大熵模型的探索，并将重点放在基于复合模板下最大熵模型的领域可移植性课题上

27、。参考文献：1余传明.从用户评论中挖掘产品属性-基于SOM.现代图书情报技术2009（5）：61-662Soo-Min Kim, Eduard Hovy. Determining the Sentiment of Opinions. COLING 04 Proceedings of the 20th international conference on Computational Linguistics, 20043Minqing Hu, Bing Liu. Mining and summarizing customer reviews. KDD 04 Proceedings of the

28、tenth ACM SIGKDD international conference on Knowledge discovery and data mining, 2004. 168-1774赫博一,夏云庆,郑方. PINAX：一个有效的产品属性挖掘系统.第四届全国信息检索与内容安全学术会议论文集：281-2905余传明.从产品评论中挖掘观点: 原理与算法分析.情报理论与实践2009（7）：124-1286宋晓雷，王素格，李红霞.面向特定领域的产品评价对象自动识别研究.中文信息学报2010,24（1）：89-937Li Zhuang, Feng Jing, Xiao-Yan Zhu. Movi

29、e Review Mining and Summarization. CIKM 06 Proceedings of the 15th ACM international conference on Information and knowledge management, 20068 姚天昉，聂春阳，李建超等.一个用于汉语汽车评论的意见挖掘系统.中文信息处理前沿进展中国中文信息学会二十五周年学术会议：260-2819吴月萍，陈玉泉.基于Web的概念属性抽取的研究.中国管理信息化2009（10）：98-10110王江伟.基于最大熵模型的中文命名实体识别D.南京：南京理工大学,200511余传明,黄建秋,郭飞.从客户评论中识别命名实体基于最大熵模型的实现J.现代图书情报技术 2011(5)作者简介：李博男，本科生董晓凯男，本科生莫苏宁女，本科生陆伟男，博士，教授，博士生导师，现任武汉大学信息管理学院实验中心主任，主要研究兴趣为信息检索、Web智能挖掘、数字图书馆、知识管理等

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？