MTRF融合空间信息的主题模型.docx

上传人:b****8 文档编号:28333459 上传时间:2023-07-10 格式:DOCX 页数:13 大小:25.55KB
下载 相关 举报
MTRF融合空间信息的主题模型.docx_第1页
第1页 / 共13页
MTRF融合空间信息的主题模型.docx_第2页
第2页 / 共13页
MTRF融合空间信息的主题模型.docx_第3页
第3页 / 共13页
MTRF融合空间信息的主题模型.docx_第4页
第4页 / 共13页
MTRF融合空间信息的主题模型.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

MTRF融合空间信息的主题模型.docx

《MTRF融合空间信息的主题模型.docx》由会员分享,可在线阅读,更多相关《MTRF融合空间信息的主题模型.docx(13页珍藏版)》请在冰豆网上搜索。

MTRF融合空间信息的主题模型.docx

MTRF融合空间信息的主题模型

MTRF融合空间信息的主题模型

  摘要:

针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。

根据相邻视觉词汇以很大概率产生于同一主题的特点,该算法在产生主题的过程中,通过视觉词汇间是否产生于同一主题,来判断主题产生于马尔可夫随机场(MRF),还是产生于多项式分布。

同时,从理论和实验两方面论证了主题并非对象的实例,而是以中层特征的形式表达对象的各个组成部件。

与隐狄利克雷分配(LDA)相比,MTRF在Caltech101上的平均准确率(averageaccuracy)提高了3.91%;在VOC2007数据集上的平均精度均值(mAP)提高了2.03%;此外,MTRF更准确地为视觉词汇分配了主题,能产生更有效表达对象的组成部件的中层特征。

实验结果表明,MTRF有效地利用了空间信息,提高了模型的准确率。

  关键词:

主题模型;隐狄利克雷分配模型;马尔可夫随机场;空间关系;中层特征;图像分类

  中图分类号:

TP181;TP391

  文献标志码:

A

  Abstract:

Toovercomethelimitationoftheassumptionsoftopicmodel―wordindependenceandtopicindependence,atopicmodelwhichinosculatedthespatialrelationshipofvisualwordswasproposed,namelyMarkovTopicRandomField(MTRF).Inaddition,itwasdiscussedthatthe"topic"oftopicmodelrepresentedthepartofobjectinimageprocessing.Thereisahighprobabilityoftheneighborvisualwordsgeneratedfromthesametopic,andwhetherthevisualwordsweregeneratedfromthesametopicdeterminedthetopicwasgeneratedfromMarkovRandomField(MRF)ormultinomialdistributionoftopicmodel.Meanwhile,boththeoreticalanalysisandexperimentalresultsprovethat"topic"oftopicmodelappearedasmidlevelfeaturetorepresentthepartsofobjectsratherthantheinstancesofobjects.Inexperimentsofimageclassification,theaverageaccuracyofMTRFwas3.91%higherthanthatofLatentDirichletAllocation(LDA)onCaltech101dataset,andthemeanAveragePrecision(mAP)ofMTRFwas2.03%higherthanthatofLDAonVOC2007dataset.Furthermore,MTRFassignedtopicstovisualwordsmoreaccuratelyandgotthemidlevelfeatureswhichrepresentedthepartsofobjectsmoreeffectivelythanLDA.TheexperimentalresultsshowthatMTRFmakesuseofthespatialinformationeffectivelyandimprovestheaccuracyofthemodel.

  Keywords:

topicmodel;LatentDirichletAllocation(LDA)model;MarkovRandomField(MRF);spatialrelationship;midlevelfeature;imageclassification

  0引言

  图像分类和对象识别问题一直是计算机视觉中的重要问题,对图像理解起着至关重要的作用,而描述对象的特征直接决定着图像分类和对象识别的准确率。

现在常用的特征是局部特征,它在局部区域内具有不变性和可区分性,常用的主要有尺度不变特征转换(ScaleInvariantFeatureTransform,SIFT)[1]和方向梯度直方图(HistogramofOrientedGradient,HOG)[2]。

但局部特征是底层特征,本身并不具有实际的语义,与语义词汇间存在着“语义鸿沟”,这严重影响了图像分类和对象识别的准确率。

为解决这一问题,近年来研究者们提出中层特征(midlevelfeature)的方法[3-7],主要包括模板匹配、深度学习方法和主题模型,并已成为图像分类和对象识别问题的重要研究方向。

  模板匹配方法通过对图像中对象的学习,形成基于HOG特征的模板作为中层特征,应用于对象识别和检测问题[3-6]。

但模板的表达能力直接影响着中层特征对于对象的表达,这在一定程度上影响着算法的应用。

深度学习方法通过多层神经网络,表达不同层次、不同意义的中层特征[7]。

但模型的结构复杂、参数多,需要足够多的训练数据进行长时间的学习才能得到合适的模型参数。

作为底层特征与上层语义间的桥梁,中层特征一般是对底层特征的聚类,表现为对象的一个或几个部件的集合。

在图像处理领域中,主题模型(TopicModel)在目标检测[8-9]和场景分类[10-12]等问题中已经得到了很好的应用。

主题模型的主题是底层特征所形成的视觉词汇的聚类,可以有效地表达中层特征。

比较典型的主题模型主要有概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)模型[13]和隐狄利克雷分配(LatentDirichletAllocation,LDA)[14]模型。

PLSA模型是一个非完全的产生式模型,模型参数的数量会随着训练数据的增加而呈线性增长,容易产生“过拟合”现象。

LDA模型通过引入狄利克雷超参数解决了PLSA所面临的问题,现在已经成为最主要的主题模型。

主题模型有两个重要假设:

词汇完全独立和主题完全独立,这在很大程度上简化了模型的数学复杂度;但在实际问题中,尤其对于视觉词汇,这两个假设条件却很难满足,一定程度上限制了模型的应用。

  相邻视觉词汇间的空间关系,直接决定着产生视觉词汇的主题间的关系,从而对图像分类和对象检测的准确率造成很大的影响。

为解决这一问题,近年来也提出了基于主题模型在图像处理中的扩展算法[15-21],并且取得了一定的提高,但还存在一定的问题。

文献[15]在PLSA模型的主题间建立马尔可夫随机场(MarkovRandomField,MRF),但无法避免前文提到的PLSA的不足。

文献[17-19]首先对图像进行过分割,分割区内的特征属于同一主题,但过分割会造成信息丢失(如较小尺度的对象)或者对象被拆分到几个区域等问题。

文献[16,20]在过分割区域间利用马尔可夫随机场,结合图像块或者区域的标注信息,在图像分割问题上表现出很好的效果。

但文献中利用变分推理算法学习模型参数,受到参数初始值影响,可能陷入局部最优值。

同时,模型的准确率受到标注信息准确性的直接影响。

文献[21]利用LDA与条件随机场(ConditionalRandomField,CRF)结合实现目标检测,利用CRF建立起视觉标签间的关系,弥补了空间关系对LDA的影响;但与文献[16,20]相似,模型依赖于视觉词汇的标注信息的准确性;更重要的是上述文献中都未讨论主题在对象上的具体表现形式,而直接设定主题表现为对象在图像中的实例,但在很多时候,这样的设定并不准确(见后面论证结果)。

  本文利用马尔可夫随机场对LDA模型进行扩展,提出了融合视觉词汇空间关系的主题模型,称之为马尔可夫主题随机场(MarkovTopicRandomField,MTRF),使视觉词汇的主题分配更准确,形成了更有效的中层特征;并且从理论和实验两方面,讨论了主题在图像中的表现形式。

与上述文献相比,主要在以下几个方面进行改进:

1)基于LDA模型进行扩展,是无监督学习,不需要标注信息的参与;2)论证了主题并非对象的实例,而是以中层特征的形式表达对象的各个组成部分,并且MTRF能比LDA形成更有效的中层特征;3)从图像中的均匀图像块上提取特征并形成视觉词汇,避免由于过分割算法造成的对象信息丢失等问题;4)利用Gibbs采样算法进行近似估计,所达到的稳态分布与各状态的初始值无关,在一定程度上避免了陷入局部极值的问题,得到的结果往往优于变分推理算法的结果[22]。

  本文在第二部分简述LDA模型,第三部分主要对马尔可夫主题随机场进行阐述,第四部分对比实验和结果分析,并讨论主题在图像中的表现形式,第五部分为总结和对未来工作的展望。

  1LDA

  LDA[14]是Blei等在2003年提出的一种概率产生式模型,是当前最主要的主题模型算法,其主要思想是一篇文档由多个主题以一定的概率分布混合而成,而文档中的各个词汇是以不同的概率产生于主题。

  1.1LDA的变量表述

  设语料库由M篇文档组成,每篇文档分别包含N个词汇。

参数α和β分别表示文档中主题和词汇所服从的狄利克雷分布的超参,φ表示主题中词汇的概率分布,θ表示各文档中主题的概率分布。

文档中的主题与词汇分别来自于为主题集合Z={z1,z2,…,zk}和词汇表W={w1,w2,…,wn}。

LDA模型的概率图模型如图1所示。

  1.2LDA产生文档的过程

  结合概率图模型,每篇文档的产生过程主要为两部分:

  1)文档中主题分布θ服从参数为α的狄利克雷分布,θ~Dir(α)。

  2)一篇具有N个词汇的文档,其词汇wn的产生过程为:

  a)文档中的主题服从参数为θ的多项式分布,抽取主题zn,zn~Multi(θ);

  b)每一个词汇wn以概率p(wn|zn,β)产生。

  通过对主题在文档中的概率分布和词汇在主题中的概率分布,实现对文档的分类和检索。

LDA模型在图像理解和图像分类,尤其是自然场景分类中,得到了很好地应用[11-12],但LDA模型的独立性假设使模型在图像上的应用和主题所表现中层特征都受到了很大的影响。

  2MTRF

  视觉词汇是对象上的局部特征,是一个多维向量,自身并没有实际语义,与相邻视觉词汇组合后才能表现对象,在空间上存在着一定的关系,主要表现为相邻视觉词汇由同一主题产生的概率较高,而LDA模型的条件独立性假设不能体现视觉词汇间的这种空间位置关系,在很大程度上限制了模型在图像处理中的应用。

视觉词汇都是以一定的概率产生于主题,因此主题间的关系可以体现视觉词汇的关系。

本文利用马尔可夫随机场建立起相邻主题间的关系,为视觉词汇分配更准确的主题,形成更有效的中层特征。

  2.1MTRF在图像中的变量表述

  以整幅图像作为文档,从均匀的图像块上提取denseSIFT特征并通过聚类作为词汇,称为视觉词汇,视觉词汇表W={w1,w2,…,wn},主题集合Z={z1,z2,…,zk}。

设图像库由M幅图像组成,每幅图像分别包含N个视觉词汇;参数α和β分别表示图像中主题和视觉词汇所服从的狄利克雷分布的超参,φ表示主题中词汇的概率分布,θ表示图像中主题的概率分布;主题zi表示视觉词汇wi上分配的主题;zi与zj之间的边代表相邻主题是否存在关系。

MTRF的概率图模型如图2所示。

  2.2MTRF产生图像的过程

  视觉词汇间的空间关系主要体现在产生相邻视觉词汇的主题是否相同,因此本文利用Potts模型建立马尔可夫随机场,以f(zi,zj)表示主题与其直接相邻的主题间的关系:

  f(zi,zj)∝exp(∑iσI(zi,zj))

(1)

  其中指示函数I体现主题间是否相同的关系:

  I(zi,zj)=

  1,zi=zj

  0,zi≠zj

(2)

  其中:

σ为马尔可夫随机场参数,一般根据经验设定,在本文中设置为1。

由于在主题间引入马尔可夫随机场,主题的产生过程不仅要考虑多项式分布,更重要地是考虑相邻位置的主题产生的影响。

本文利用参数λ表达对主题产生主要作用的分布形式,具体表现为:

相邻主题间存在关系时,主题受到相邻主题影响,由马尔可夫随机场产生(λ=1);否则主题间独立,主题由多项式分布产生(λ=0),即  p(Z|θ,λ)∝λf(zi,zj)+(1-λ)p(Z|θ)(3)

  由此,图像的产生过程主要为:

  1)主题分布θ服从参数为α的狄利克雷分布,θ~Dir(α)。

  2)具有N个视觉词汇的图像,其视觉词汇wn的产生过程为:

  a)检测主题的产生方式,抽取主题zn;

  b)每一个视觉词汇wn以概率p(wn|zn,β)产生。

  2.3MTRF参数估计

  MTRF中主题是一个隐变量,无法观测到产生视觉词汇的主题,而后验概率p(Z|W)的准确值和分布也是无法直接计算的,只能利用变分推理或采样算法进行近似估计。

本文采用Gibbs采样算法对后验概率p(zi|wi)进行采样更新。

  利用式(7)对图像中各个词汇上的主题进行采样,经过一定次数的迭代,得到p(Z|W)的稳态分布,并且为每一个视觉词汇分配一个主题。

由于考虑了产生相邻视觉词汇的主题间关系,主题间不再像LDA模型一样完全独立,因此在空间上,主题的分配更符合图像中对象的实际特点,分配给视觉词汇的主题更加准确,克服了LDA模型中条件独立性的不足。

统计图像中产生视觉词汇的主题,利用式(8)~(9)得到图像中主题的分布和主题中视觉词汇的分布。

  图像中主题的分布θ从全局的角度表达图像中包含各个对象组成部件的情况,可以作为有效的分类器特征实现图像分类。

同时结合空间金字塔匹配(SpatialPyramidMatching,SPM)算法,对图像进行不同尺度的划分,在各级区域内计算主题分布,可以更有效地表达图像的高维特征,提高分类准确率。

视觉词汇在主题中的分布φ可以对不同对象的主题进行有效的评价和利用,以提高主题(中层特征)的表达能力。

  3实验与分析

  3.1主要数据集

  本文主要在三个标准数据集上进行对比实验:

  1)微软对象识别库MSRC数据集,主要包括9类对象,共240幅图像。

本文对每类对象取70%作为训练集,其余图像作为测试集,主要评价算法在图像分类和对象分割中的应用。

  2)Caltach101数据集,包括102类对象(其中一类为背景),共9144幅图像,主要评价算法在图像分类和对象检测中的应用。

  3)VOC2007数据集,主要包括20类对象,共9963幅图像。

本文利用trainval集训练模型,test集合对模型进行测试和评价,主要评价算法在图像分类和对象检测中的应用。

  3.2对比实验

  主题模型的应用受到形成视觉词汇的局部特征、词汇总数、主题数和超参等模型参数的影响,本文主要在相同参数条件下,对比马尔可夫主题随机场(MTRF)和LDA主题模型在主题所表现的中层特征和图像分类问题中的表现。

由于本文并没有考虑如何选择最优参数,本文中的实验数据并非MTRF的最优值,因此未与其他主流算法(如深度学习等)进行比较。

  3.2.1主题表现为中层特征

  从理论方面来说,视觉词汇是由主题产生的,主题是视觉词汇的聚类结果。

视觉词汇是描述图像中所有对象(包括背景对象)的局部特征,在不同对象上是共享的,主题在不同对象上也是共享的。

所以主题在视觉词汇与对象之间起着承上启下的作用,即主题表现为中层特征,因此主题在图像中并不能完全表现为一个对象的实例,而是表现为对象的组成部分。

  在MSRC数据集上以实验来说明主题表现为中层特征。

MSRC数据集中有9类主要对象,实验中设置主题数为9,并以不同颜色表示主题在视觉词汇上的分配情况。

如果主题代表对象的实例,图像中的对象应表现为一个主题,即由一种颜色表达。

图3对比了LDA和MTRF在MSRC数据集的部分实验结果,可以看出图像中的对象都是由多个主题所组成的,因此主题不是对象的实例。

  以方块分别表示图像中各个主题。

图4为LDA和MTRF设置主题数为10时在MSRC数据集上的部分结果。

由于考虑了空间信息,MTRF主题使视觉词汇聚类更明显,在同类对象的图像中,形成更有效地表达相同部件的中层特征,而在其他对象上以不同概率少量出现;虽然LDA的主题虽然也可以表达相同部件,但在不同对象上出现概率更接近于随机分配。

  因此,从理论和实验两方面来看,主题是视觉词汇的聚类,在图像中以中层特征的形式表达对象的各个组成部分,而不是对象的实例。

与LDA相比,由于MTRF考虑了视觉词汇的空间关系,为视觉词汇分配更准确的主题,因此对视觉词汇的聚类更准确,形成的中层特征更有效。

  3.2.2图像分类

  实验主要对比LDA、MTRF、MRF和BOW(bagofwords)在Caltach101数据集上的图像分类结果。

在图像上以8(像素)×8(像素)大小划分图像块(Patch),块中心间距为4像素提取denseSIFT形成视觉词汇,设置主题数为50。

利用空间特征金字塔SPM[23]方法,在图像上按1×1、2×2、4×4划分区域,BOW利用TFIDF方法统计各区域底层视觉词汇直方图,其他模型统计各区域主题直方图,形成高维特征,利用linearSVM(liblinearSVM)[24]实现分类。

由于分类中正负样本图片数目相差较大,因此以ROC(ReceiverOperatingCharacteristiccurve)曲线下方面积AUC(AreaUndertheCurve)值作为算法的评价指标。

对比实验结果,MTRF有65类的分类结果优于LDA,68类优于MRF,99类优于BOW。

  对比BOW模型,主题模型形成的中层特征不仅在分类准确率方面明显优于底层特征,而且从特征维度来看,本文中设视觉词汇数为1000,主题数为50,则特征维度从1000×21=21000维下降到50×21=1050维。

因此中层特征对于底层视觉词汇起到了明显的降维作用,提高了模型的应用效率。

  由于MTRF在99类的分类结果上优于BOW,因此未列出二者的对比。

表1~2列举MTRF比LDA、MRF高的前5类对象和低的前5类对象,高的前5类对象AUC相差较大,MTRF准确率明显高于其他算法;低的前5类对象AUC相差较小,MTRF准确率与其他算法较为接近。

因此MTRF在分类准确率上优于其他算法。

MTRF考虑了视觉词汇的空间关系,使相邻视觉词汇更大概率地分配到相同的主题,既解决了LDA模型条件独立性假设的问题,又解决了MRF中视觉词汇上分配的标注过于依赖相邻视觉词汇的问题,能形成更有效的中层特征,提高了分类准确率。

  3.2.3图像局部区域的分类

  在MSRC数据集的图像上,以一定大小的窗口将图像分为多个子窗口,利用数据集上的标注信息标注各个窗口的类别。

计算各子窗口中主题(中层特征)的直方图作为libSVM分类器的特征,以AUC值评价MRF、LDA和MTRF三种算法在局部区域内分类的性能。

图5为在不同主题数下的,三种算法在局部区域分类上的对比结果。

在大多数情况下,MTRF的分类准确率都高于其他两种算法,说明MTRF在局部区域内的主题分配更准确,形成的中层特征更有效;MRF主要利用相邻主题间关系,但未考虑具有独立性的主题的产生方式,因此准确率低于MTRF;而LDA模型更多地考虑主题在全局上的分配,因此在局部内的准确率也低于MTRF。

同时,图5也表明不同的主题数(Topics表示模型所设置的不同主题数)对于模型有一定的影响。

  3.2.4参数对分类结果的影响

  模型参数对模型的应用起着重要作用,在实验中主要对比超参α、β和主题数对图像分类的影响。

建立与3.2.2节相同的特征金字塔并统计各区域内稳定的主题分配,训练liblinearSVM[24]分类器,表3~4对比了MTRF和LDA模型在Caltech101和VOC2007数据集上的图像分类准确率。

  在Caltech101数据集上,本文进行10次随机抽样实验,每次实验从各个类别中随机抽取30个图像作为训练数据,其余作为测试数据,计算平均准确率(AveragePrecision)对模型进行评价。

在VOC2007数据集上,本文以trainval集为训练数据,test集为测试数据,以平均精度均值(meanAveragePrecision,mAP)(meanAveragePrecision)对模型进行评价。

  随着主题数的增加,图像分类的准确率有一定的提高,并不断趋于稳定。

α、β分别影响着主题在图像中的分布和视觉词汇在主题中的分布,表5表明在主题数为50时,不同超参对VOC2007图像分类平均精度均值的影响。

表5中的几种设置方式中,MTRF的平均精度均值相差4.39%,LDA相差3.76%,因此超参对于主题模型的应用也产生着很大的影响,设置合适的模型参数,可以得到更为准确的分类结果。

本文仅列举几个参数的设置,但未对如何选择和设置参数进行讨论。

  4结语

  主题模型的主题是底层特征的聚类,是对底层特征有效降维的一种方法。

在图像处理中,主题并不是表现为对象的具体实例,而是以中层特征的形式表达对象。

LDA模型的主题可以表达出对象的中层特征,但MTRF利用马尔可夫随机场很好地克服了LDA模型在表达空间关系方面的不足,可为视觉词汇分配更准确的主题,形成更有效的中层特征。

同时,MTRF形成的中层特征不仅更准确地表达对象的部件,而且可以利用图像中主题分布或区域上的主题分布形成更有效的分类器特征,有效地提高图像分类效果,尤其是局部区域分类的准确率。

  MTRF形成的中层特征较好地表达了对象的组成部件,同时还反映出对象比较稳定的组成结构。

  利用基于部件(Partbased)的图像分类模型和结构化学习(StructuredLearning)等具有结构信息的算法,可以通过学习对象的组成结构,建立起更有效的对象检测方法,提高对象检测的准确率。

  参考文献:

  [1]LOWEDG.Distinctiveimagefeaturesfromscaleinvariantkeypoints[J].InternationalJournalofComputerVision,2004,60

(2):

91-110.

  [2]DALALN,TRIGGSB.Histogramsoforientedgradientsforhumandetection[C]//CVPR2005:

Proceedingsofthe2005IEEEComputerSocietyConferenceonComputer

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 思想汇报心得体会

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1