话题模型话题跟踪技术研究进展.docx
《话题模型话题跟踪技术研究进展.docx》由会员分享,可在线阅读,更多相关《话题模型话题跟踪技术研究进展.docx(9页珍藏版)》请在冰豆网上搜索。
话题模型话题跟踪技术研究进展
话题模型、话题跟踪技术研究进展
张皓
(IBMGDORACLE,lonelydemon0001@,10222010023)
摘要:
为自然语言处理一个新的研究方向,话题识别与跟踪旨在发展一系列基于事
件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态
跟踪。
自1997年以来连续举行的多次大规模评测使得话题识别与跟踪研究正逐步成为近来
自然语言处理尤其是信息检索领域的一个研究热点。
本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法,并对其效果进行了比较。
关键词:
话题检测与跟踪,向量空间模型,语言模型,信息检索,自然语言处理
1引言
随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。
在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确的获取感兴趣的信息才是人们关注的主要问题。
目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。
由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。
一般的检索工具都是基于关键词的,返回的信息冗余度过高,很多不相关的信息仅仅是因为含有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。
话题检测与跟踪(TopicDetectionandTracking,以下简称TDT)技术就是在这种情况下应运而生的。
通过话题发现与跟踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现事件的各种因素之间的相互关系,从整体上了解一个事件的全部细节以及与该事件与其它事件之间的关系。
目前此方面的研究已经引起了人们的普遍兴趣。
TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告,在信息安全、金融证券、行业调研等领域都有广阔的应用前景。
此外,它还可以用来跟踪某个话题的来龙去脉,进行历史性质的研究。
2几个基本概念
话题(Topic)是话题识别与跟踪研究中的一个最基本的概念,它的含义与语言学上使用的概念不同。
在最初的研究阶段(1999年前),话题与事件含义相同。
一个话题指由某些原因,条件引起,发生在特定时间,地点,并可能伴随某些必然结果的一个事件,如"俄克拉荷马城1995年4月19日发生的大爆炸"。
在目前使用的话题概念要相对宽泛一些,它包括一个核心事件或活动以及所有与之直接相关的事件和活动。
如果一篇报道讨论了与某个话题的核心事件直接相关的事件或活动,那么就认为该报道与此话题相关。
比如,搜寻飞机失事的幸存者,安葬死难者都被看作与某次飞机失事事件直接相关。
在上面的叙述中使用了报道(Story)这一概念,在话题识别与跟踪领域,它是指一个与话题紧密相关的,包含两个或多个独立陈述某个事件的子句的新闻片断与话题相应的一个概念是主题(Subject),它的含义更广些。
话题与某个具体事件相关,而主题可以涵盖多个类似的具体事件或者根本不涉及任何具体事件。
如,"飞机失事"是一个主题,而"2002年5月7日北方航空公司一架客机在大连失事"则是一个话题。
再比如,"自然灾害"是一个主题,而属于此主题类别的文本未必有与之直接相关的事件发生,如讲述自然灾害预防的文章。
3TDT任务分类
NIST为TDT研究设立了五项基础性的研究任务,包括面向新闻广播类报道的切分任务;面向已知话题的跟踪任务;面向未知话题的检测任务;对未知话题首次相关报道的检测任务和报道间相关性的检测任务。
3.1 报道切分任务
报道切分(StorySegmentationTask,简称SST)的主要任务是将原始数据流切分成具有完整结构和统一主题的报道。
比如,一段新闻广播包括对股市行情、体育赛事和人物明星的分类报道,SST要求系统能够模拟人对新闻报道的识别,将这段新闻广播切分成不同话题的报道。
SST面向的数据流主要是新闻广播,因此切分的方式可以分为两类:
一类是直接针对音频信号进行切分;另一类则将音频信号翻录为文本形式的信息流进行切分。
3.2 话题跟踪任务
话题跟踪(TopicTrackingTask,简称TT)的主要任务是跟踪已知话题的后续报道。
其中,已知话题没有明确的描述,而是通过若干篇先验的相关报道隐含地给定。
通常话题跟踪开始之前,NIST为每一个待测话题提供1至4篇相关报道对其进行描述。
同时NIST还为话题提供了相应的训练语料,从而辅助跟踪系统训练和更新话题模型。
在此基础上,TT逐一判断后续数据流中每一篇报道与话题的相关性并收集相关报道,从而实现跟踪功能。
3.3 话题检测任务
话题检测(TopicDetectionTask,简称TD)的主要任务是检测和组织系统预先未知的话题,TD
的特点在于系统欠缺话题的先验知识。
因此,TD系统必须在对所有话题毫不了解的情况下构造话题的检测模型,并且该模型不能独立于某一个话题特例。
换言之,TD系统必须预先设计一个善于检测和识别所有话题的检测模型,并根据这一模型检测陆续到达的报道流,从中鉴别最新的话题;同时还需要根据已经识别到的话题,收集后续与其相关的报道。
3.4 首次报道检测任务
在话题检测任务中,最新话题的识别都要从检测出该话题的第一篇报道开始,首次报道检测任务(First2StoryDetectionTask,简称FSD)就是面向这种应用产生的。
FSD的主要任务是从具有时间顺序的报道流中自动锁定未知话题出现的第一篇相关报道。
大体上,FSD与TD面向的问题基本类似,但是FSD输出的是一篇报道,而TD输出的是一类相关于某一话题的报道集合,此外,FSD与早期TDTPilot中的在线检测任务(On2lineDetection)也具备同样的共性。
3.5 关联检测任务
关联检测(LinkDetectionTask,简称LDT)的主要任务是裁决两篇报道是否论述同一个话题。
与TD类似,对于每一篇报道,不具备事先经过验证的话题作为参照,每对参加关联检测的报道都没有先验知识辅助系统进行评判。
因此,LDT系统必须预先设计不独立于特定报道对的检测模型,在没有明确话题作为参照的情况下,自主地分析报道论述的话题,并通过对比报道对的话题模型裁决其相关性。
LDT研究可以广泛地作为TDT中其他各项任务的辅助研究,比如TD与TT等等。
随着话题检测与跟踪研究的逐步深入与发展,历次NIST举行的TDT评测都对该领域内的各项子课题提出了新的设想与方向,因此相应的评测任务也随之有所更改。
比如,TDT2004撤销了报道切分任务(SST),其原因不仅在于评测语料TDT5中没有包含广播类新闻报道,同时也由于应用中的大部分实例片断本身具备了良好的可区分性。
此外,TDT2004将首次报道检测任务(FSD)转换成新事件检测任务。
虽然TDT2004对NED与FSD给与了相同的定义,但本文将这两者定义为目的不同但相互依存的任务。
FSD与NED的区别在于前者注重鉴别事件初次报道的时空位置,后者除此之外还需要检测更多相关于事件的报道并进行汇总。
此外,TDT2004首次提出了有指导的自适应话题跟踪(AdaptiveTopicTracking,简称ATT)和层次话题检测(HierarchicalTopicDetection,简称HTD)概念。
4主要实现方法
构造一个实用化的TDT系统是进行TDT研究的主要目的之一,也是检验现有方法优劣的基础。
从参评的数量来看,话题发现和话题跟踪两个子任务最受关注。
因此我们介绍的实现方法也以这两个任务为主。
总体而言,要实现话题发现与跟踪功能,需要解决以下主要问题:
(1)话题/报道的模型化
(2)话题-报道相似度的计算
(3)聚类策略
(4)分类策略(阈值选择策略)
整个系统的流程大致是(以话题跟踪为例):
话题模型化
报道模型化
相似度计算
阈值比较
判定和话题的相关性
针对以上问题,我们将逐一介绍一些已经被广泛采用并得到实际评测验证的方法。
4.1话题/报道模型
要判断某个报道是否和话题相关,首先就需要解决话题和报道如何表示便于计算和比较的问题,也就是话题/报道用什么模型来表示。
目前常用的模型主要有语言模型(LanguageModel,LM)和向量空间模型(VectorSpaceModel,VSM)。
4.1.1语言模型
语言模型是一种概率模型。
假设报道中出现的词δn各不相关,则某则报道S和话题C相关的概率:
P(C|S)=
其中p(C)是任何一则新报道和话题C相关的先验概率,p(δn|C)是表示词δn在某话题C中的生成概率。
p(δn|C)可以表示成一个两态的混合模型。
其中一个状态是词在该话题中所有报道的分布,另一个状态是词在整个语料中的分布。
这样就构成了一个词的生成模型。
计算此模型中的两个状态采用的是最大似然估计(ML),即该话题的所有报道中δn出现的次数除以该话题所有报道包含的总词数。
因为话题语言模型很稀疏,这里必须解决未见词的0概率问题,通常采用线性插值法把背景语言模型加入进去:
p’(δn|C)=α·p(δn|C)+(1-α)·p(δn)
一般英语状态分布和话题状态分布采用期望最大化(EM)算法估算,EM算法能够对与话题相关的词汇赋予较高概率。
4.1.2向量空间模型
向量空间模型是目前最简便高效的文本表示模型之一。
其基本思想是:
给定一自然语言文档D=D(t1,w1;t2,w2;…;tN,wN),其中ti是从文档D中选出的特征项,wi是项的权重,1≤i≤N。
为了简化分析,通常不考虑tk在文档中的先后顺序并要求tk互异(即没有重复)。
这时可以把t1,t2,…,tN看成一个N维的坐标系,而w1,w2,…,wN为相应的坐标值,因而D(w1,w2,…,wN)被看成是N维空间中的一个向量,而两个文档D1和D2之间的(内容)相关程度常常用它们之间的相似度Sim(D1,D2)来度量。
当文档被表示为文档空间的向量,我们就可以借助于向量之间的某种距离来表示文档间的相似度。
在实际的参评系统中,基本上都以词作为文本特征项。
特征(词)加权采用的是IR系统中常用的tf*idf加权策略。
tf是词在文档中的出现次数,表示词对于描述文档的重要程度,idf是包含词的文档数的倒数,用于削弱那些在语料中频繁出现的词的重要程度,因为它们没有什么区分能力。
某些系统把词分成命名实体和内容词两类,视其对文档表达的重要度的不同赋予不同的权重。
4.1.3中心向量模型
中心向量模型实际是向量空间模型的一种变形。
每个话题用一个中心向量表示,所谓中心向量就是在此类中所有报道的向量表示的平均值。
输入的报道和每个话题的中心向量相比较,选择最相似的那个话题。
如果报道和话题的相似度超过一个阈值qmatch,则认为该报道“过旧”,如果相似度超过第二个阈值qcertain,则把新报道加入到该话题中并调整类的中心向量。
如果相似度不超过qmatch,则认为该报道为新,并创建一个新的话题,以此报道作为其中心向量。
无论选择哪种模型,一般都需要进行初始化,即消去禁用词,对于英语而言,还需要做词根还原的工作。
4.2相似度计算
对所有的话题C1、C2、……Cn,要判断某一则报道S属于哪一个话题,就需要计算报道和各个话题之间的相似程度,最后把最高相似度和阈值进行比较,对于语言模型而言,就是寻找k满足:
在实际应用中,常取log值,因此,相似度计算公式就表示为
D(S,C)=
通常用语言模型算出的话题与话题之间的相似度不可比较,因为单个语言模型都有各自不同的概率特征,比如,有的话题所用的词很特殊,像“霍根班德在200米自由泳中击败索普”,而有的话题用词就很普通,像“克林顿总统访问中国”。
这样测试文档和不同话题之间算出的分数差异很大,不能用单一的阈值进行比较,此时必须进行归一化。
一种简单方法是用分数除以文档长度。
但考虑到用上面的D(S,C)算出的值基本上是一组独立的随机离散变量值,如果值足够多的话,由中心极限理论,其分布近似为高斯分布,假设t为原来的概率,m为所有报道对某话题概率的平均值,s是这些概率的标准方差,则新的分值可以归一化为:
t’=(t-m)/s
向量空间模型和中心向量模型通常采用cosine公式来计算报道-话题的相似度,即求两者的内积,则相似度计算公式可表示为
D(S,C)=
其中qi、di分别是报道和话题中的特征项的权值。
cosine相似度在比较两个长文档时比较有效,此时如果两个文档的向量维数不进行任何压缩,系统性能最佳;当其中一个维数降低时,性能就会下降。
因为本身已进行了长度归一化,所以cosine相似度不依赖于特定的特征加权方法。
近来有些系统开始尝试用OKAPI公式来计算报道-话题相似度,其形式是:
Ok(d1,d2;cl)=
所得结果表示文档和文档之间的距离,其中d1,d2是两个文档,cl是d1,d2中较早出现的那个文档所属的话题。
是词w在文档i中调整后的词频,对其进行归一化处理使得独立于的长度,idf(w)是词w的倒文档频率,是包含词w的文档数目,是话题cl中文档的数目,是话题cl中包含词w的文档的数目,λ是控制词的权值中和话题相关的那部分“动态权值”的可调参数。
文档和话题之间的分数是一个平均值:
Ok(d,cl)=|cl|-1
在做跟踪训练时,把所有的训练报道分成一个或多个话题,然后对每一则测试报道计算它跟某个话题之间的分数。
根据分数做两个阈值判断。
如果分数超过高阈值Θm,则把该报道并入话题(因而通过ncl影响了将来的分数)。
如果分数超过了低阈值Θd,则表示此报道与话题相关,但不把它并入聚类。
4.3聚类分类策略
判断某个新报道是属于已有话题还是一个新话题,往往是同时进行的。
通常的做法是把新报道和已有话题进行比较,如果相似度高于某个阈值,则把新报道归入相似度最高的话题中,如果对所有话题的相似度都低于阈值,则创建一个新话题。
但在具体实现中,还牵涉到选用哪些聚类、分类和根据反馈进行参数调整的策略。
最简单的方法称为增量聚类算法,它顺序处理报道,一次处理一则,对每一则报道它执行两个步骤:
1.选择:
选出和报道最相似的聚类
2.比较阈值:
把报道和阈值相比较,决定是把报道分到聚类里还是创建一个新的聚类。
这种算法非常直观,便于实现,但它的缺点也很明显:
?
对一则报道只能做一次决策,因此早期根据很少的信息所做的错误判断累计到后面可能相当可观;?
随着报道的不断处理,计算开销会越来越大。
对语料库处理的后期,系统可能需要把每则报道和几千个聚类相比较。
针对这些缺点稍加改进,就形成了增量k-means方法,它在当前报道窗口中进行迭代操作,每一次迭代都要做适当的改变。
具体步骤是:
1.使用增量聚类算法处理当前可调整窗口中的全部报道。
2.把可调整窗口中的每一则报道和旧的聚类进行比较,判断每则报道是要合并到聚类中去还是用作新聚类的种子。
3.根据计算结果立刻更新所有的聚类。
4.重复步骤
(2)-(3),直到所有的聚类不再变化
5.查看下一批报道,转向
(1)。
KNN算法是一种常用的文本分类算法,它应用在话题跟踪上也有比较好的效果,其基本思想是把新报道和所有的报道逐一比较,计算其相似度,然后选择最相近的k个“邻居”(报道),在这k个邻居中,如果某个话题包含的报道数最多,则把新报道也归入该话题,并对话题模型重新训练。
对于参数调整,各个系统也采用不同的策略。
有些系统只根据正例(和话题相关)对话题模型进行调整,而有些系统则兼顾正例和反例。
对以向量空间表示的话题而言,Rocchio方法是一种较为有效的参数调整方法,其形式为:
其中是调整之后的权值,是原来的权值,i表示已处理的报道,C表示某个话题,是i中的特征项,n是已处理报道的总数,是正例的总数。
除此之外,有些研究机构也在尝试新的算法,比如支持向量机(SupportVectorMachine)、最大熵(MaximumEntropy)、文档扩展等,但都还需要在评测中实际验证其效果。
4.4性能比较
CMU对各种分类器在TDT上的应用做了一个比较,结果如表二、表三所示:
系统(在TDT1上调整参数)
AA
d
AB
d
kNN。
avg1(k=5)
。
0033
34%
。
0063
57%
Rocchio(g=-2,n=200)
。
0022
3%
。
0060
55%
LM(a=0。
025)
。
0035
40%
。
0045
38%
BORG(综合以方法)
。
0021
-
。
0028
-
表二
系统(在TDT3上调整参数)
AA
d
AB
d
kNN。
avg1(k=2000)
。
0023
0%
。
0030
13%
Rocchio(g=-。
25,n=200)
。
0026
12%
。
0033
21%
LM(a=0。
25)
。
0040
43%
。
0040
33%
BORG(综合以上方法)
。
0023
-
。
0027
-
表三
其中,括号内是各个方法设定的参数。
表一中的AA表示在TDT1上训练并测试,AB表示在TDT1上训练,在TDT3上测试。
表二中的AA表示在TDT3上训练并测试,AB表示在TDT3上训练,在TDT1上测试。
d是BORG方法相对于其它方法分数提高的百分比。
测试分数是归一化之后的CDet,显然,这个值越低越好。
综上来看,TDT系统采用的方法在各个子任务中已经取得了很大进展,尤其是话题跟踪,已经取得了相当好的分数,但也有以下主要问题:
(1)所用到的主要技术与文本分类聚类、信息检索、信息过滤、信息抽取等比较相似,可以直接用在相关的评测中;
(2)针对TDT特定需求的方法基本上没有进展;
(3)对话题本身的特征关注不够,比如可以考虑引入规则是否有效,这个想法基于以下事实,即:
如果两则报道讨论的是在同一个地点发生的关于同一个人的事,那么这两则报道讨论的可能就是同一件事;
(4)评测中最好系统的成绩虽然比以前有了很大提高,但和全面实用还有一段距离。
结束语
目前来看,TDT的研究呈现以下特点:
(1)大多数已公开系统采用的方法主要还是传统的文本分类、信息过滤和检索的方法,专门针对话题发现与跟踪自身特点的算法还未形成;
(2)要取得整体上比较满意的效果并不太困难,但对某个用户感兴趣的特定话题,现有系统都无法保证取得满意的效果,比如对于用户当前最为关注的“伊拉克战争”,系统不能保证取得高于平均值的准确率;
(3)综合使用多种相对成熟的方法,从长期来看在实际应用中可能效果最佳,同时这也是将来的一个研究发展方向。
总而言之,TDT是自然语言处理领域中的一个新兴的研究课题。
通过评测驱动的方式,TDT的研究已经取得了相当大的进展。
但当前的研究主要还是基于传统的统计方法,这些方法在文本分类、信息检索、信息过滤等领域得到广泛的应用。
将来的发展应主要关注话题本身的特性,并考虑多种方法的综合运用。
TDT的发展和实际应用息息相关,它能够弥补信息检索的一些不足,在国家信息安全、企业市场调查、个人信息定制等方面都存在着实际需求。
随着现有系统性能的不断提高,TDT在各个领域必将得到越来越广泛地应用。
参考文献
[1]S.A.Lowe,“TheBeta-BinomialMixtureModelforWordFrequenciesinDocumentswithApplicationstoInformationRetrieval,”ProceedingsofEurospeech’99,Budapest,September1999.
[2]S.A.Lowe,“TheBeta-BinomialMixtureModelandItsApplicationtoTDTTrackingandDetection,”ProceedingsoftheDARPABroadcastNewsWorkshop,February1999.
[3]W.LamandH.MengandK.Hui.“MultilingualTopicDetectionUsingaParallelCorpus”.InProceedingsoftheDARPATDT2000Workshop,November2000.
[4]Jin,H.,R.Schwartz,S.SistaandF.Walls,“TopicTrackingforRadio,TVBroadcastandNewswire,”ProceedingsoftheDARPABroadcastNewsWorkshop,Herndon,Va,1999.
[5]Schwartz,R.,Imai,T.,Nguyen,L.,andMakhoul,J.,“AmaximumLikelihoodModelforTopicCalssificationofBroadcastNews,”inProc.Eurospeech,Rhodes,Greece,September,1997.
[6]Walls,F.,Jin,H.,Sista,S.,andSchwartz,R.,“TopicDetectioninBroadcastNews,”inProceedingsoftheDARPABroadcastNewsWorkshop,Herndon,Va,1999.
[7]J.P.Yamron,I.Carp,L.Gillick,S.A.Lowe,andP.vanMulbregt,“TopicTrackinginaNewsStream”,ProceedingsoftheDARPABroadcastNewsWorkshop,February1999.