标签复杂的对象多视角多实例多标记学习详述Word文档格式.docx

资源描述

标签复杂的对象多视角多实例多标记学习详述Word文档格式.docx

《标签复杂的对象多视角多实例多标记学习详述Word文档格式.docx》由会员分享，可在线阅读，更多相关《标签复杂的对象多视角多实例多标记学习详述Word文档格式.docx（13页珍藏版）》请在冰豆网上搜索。

标签复杂的对象多视角多实例多标记学习详述Word文档格式.docx

图1︰多视图MIML学习︰例子/袋（如视频）由多实例的多视图（例如︰星星=声音的线段多边形=相框）;

（颜色）的标签附加到袋在训练过程中。

原始MIML设置只处理情况下，数据来自单一的功能集（单视图）。

然而，对于许多复杂的数据，是单一的功能集来捕获大量的类别的标签所需的信息，很难。

因此，很自然地考虑有可能利用多个功能集（多视图）的有用性。

例如，可以使用视觉和音频信号到标签的视频;

或者利用标题和注释图像的视觉内容。

鉴于上述情况，我们正式的多视角多实例多标记学习如下问题。

让

Y={yl|l=......L}

表示一组

标签，和

D={（Xn，Yn）|n=1...N}

表示训练数据集，在第n个示例

Xn由实例一袋从V的意见，和

Yn={ynl|l=1...Ln}接Y

集

（袋）标签的第n个实例。

在这里，我们有

Xn={xnvm|v

=1...V，m

=1...Mnv}

在哪里

Mnv

指示的第n个示例中，第五个视图中的实例和每个实例数

xnvm

∈

RDv

由

的视图的高维特征向量

v。

多视图MIML学习的目标是预测袋标签

Yn0

为例看不见

Xn0

以及其各个实例的标签

xn0vm

v视图（见图1）。

此外，它是可取的多视图的部分实例，即与在某些视图中没有实例的例子工作方法。

这是因为多视图数据集经常损坏，并且可以在现实场景中的缺失值。

例如，对感官的数据集，一些输入信号，如视觉、听觉可能是由于一些腐败从环境而丢失。

一般情况下，一个分别，了解每个视图中的MIML模型，即可结合单视图MIML模型的学习，可以依靠任何以前的方法（周etal.，2012年）的单一视图MIML模型的输出。

然而，在每个singleview学习用这种方式，不能充分利用可用的信息。

此外，由于MIML探讨了结构实例和标签之间，利用充分信息的影响可能比传统的单实例单标签方案中更巨大。

结果，它有利于考虑作为一个整体的多视图MIML问题。

在本文中，我们提出了一个名为多实例方法

基于分层贝叶斯网络，在那里标签被假定为"

主题"

，获取标签之间的关系;

从采样的混合多标签（MIMLmix）和实例（从多视图）的样本从混合组件所在的标签表示在多角度的混合模型。

在连续的特征空间（连续视图），标签代表由高斯分布，而在离散特征空间（离散视图），标签由多项式分布。

基于贝叶斯方法的使用，可以帮助处理缺少的信息，如丢失的实例的标签或完整的示例。

本文的其余部分分为4部分。

我们首先重温一些相关的工作，然后提出了我们的方法（MIMLmix），其次是实验和结论。

相关的工作

周等人（2007年;

2012年）配方的MIML（多实例多标签）框架，提出了几种算法，并应用于图像和文本的应用程序。

后来，许多MIML算法被提出，许多应用程序有报道;

举几个例子，MIML算法基于狄利克雷-伯努利对齐方式（杨，咋了和胡2009年），基于条件随机域（闸etal.2008年），基于单实例变性（阮2010年），基于度量学习（金、王和周2009年）等。

MIML技术已经被发现好有用的应用，如图像检索和批注（阮等2013年）、视频注释（徐、薛和周2011年）、基因模式注释（李etal.，2012b）、关系抽取在自然语言处理（苏尔代亚努etal.，2012年）等。

（李等人2012a;

提出了大量的MIML方法，发现袋标签和实例之间的关系布里格斯，小丽和散户2012年）。

多视图学习中处理的数据多个视图，即多个功能集。

目标是提高性能或降低样品复杂性。

好在学习与未标记数据研究了多视图学习。

一些研究多视图配合使用的半监督学习（百隆和米切尔1998年;

王和忻州2010b;

周、詹和杨2007年），或与积极的学习（王和周2010a）。

试图建立一个潜在的子空间的假设实例（在不同视图中）属于相同的例子还有附近后映射到潜在的子空间（白等人2012;

王、聂和黄2013年）。

要组合从传统的监督学习的多视图的信息，一个人可以在特征级或分类级别（Atreyetal.，2010年）使用融合技术。

几乎所有以前的MIML研究集中在singleview设置和几乎所有以前的多视图学习

图2:

MIMLmix有主题标签部分（θ0

到

y）和labelinstance部分（θ为

x）.

Λ={η，ξ}

是一组连接的主题标签部分和标签实例部分的参数

MIMLmix算法1生成过程

对于每个示例

做

.主题标签部分︰LDA模型

主题。

示例主题分布

为每个标签做

示例主题指示器

样品标签

标签实例部分︰为

意见，

标签

示例标签分布

为每个实例

nvm

在视图中

10:

示例标签指示器

∼多（θn

）

11:

示例

∼p（xnvm|znvm=y，βv

）.

研究集中在单实例和/或单标签学习。

尽我们所知，唯一的例外是（阮、詹和周2013年），提出的M3LDA方法了。

我们的做法，然而，是更普遍和更有效比M3LDA，将在下一节中详细讨论。

它也是重要的是突出一些相关的贝叶斯网络的结构依赖LDA（鲁宾etal.，2012年）、通用汽车LDA和CorrLDA（布莱和约旦2003年）等。

这些方法并不适用于MIML，因为依赖LDA运作与文本文档;

和通用LDA、科尔LDA的无监督学习，即不利用标签。

MIMLmix模型

灵感来自贝叶斯网络方法（阮etal。

2010年;

2013;

鲁宾等人2012;

阮、粮站、周

2013年），我们建议MIMLmix模型（多实例多标签混合模型）的多视图MIML（图2），由两部分组成:

（1）主题标签部分是LDA主题模型的

主题（布莱，吴荣和约旦2003年），主题在哪里捕捉标签相关关系;

和

（2）labelinstance部分在哪里从混合高斯/多项式分布函数生成实例。

生成过程如Alg.1所示。

和图2。

在标签实例部分，例如

，我们将设置为标签分配事先

，其中

是一种面向元素的产品，和

RL。

培训期间，

=0,

ynl

1如果等于

l-th标签是在

和零否则，因而αnl

的标签不在零

Yn。

在测试，期间

设置为一个非零常数和中的所有元素

初始化为

来触发所有标签的推理，货值

控制多少主题分布影响标签分布θ。

潜变量

代表袋标签实例隐藏的任务。

如果

是我们正式离散，

p（xnvm|znvm

=y，βv）=p（xnvm|

）

使用Multinomimal分布与参数βvy

RDv。

在这里，我们删除索引

n、m、v

为简单起见︰

（x

（1）

在哪里||x||1

P我

x我。

如果特征空间

是我们正式连续，

p（xnvm|

作为一个高斯分布在哪里

也已撤掉为简单起见。

作为MIMLmix允许从离散和连续的意见的情况下，它是比M3LDA更一般（阮、詹和周2013年），这只适用于离散的意见。

在续集中，我们将获得一种基于变分的推理的MIMLmix比吉布斯更有效的训练方法在M3LDA采样。

此外，而不是通过实例的标签"

硬"

分配

（z

取一袋标签集值），变分推理介绍了通过φ，一"

软"

任务（Py

φy

-变分变量

z），它允许一个实例要与多个相关标签关联。

培训与MIMLmix

作为

观察期间培训，两个部分（p（θ0,g，Y

和（

pθ,z、X|

Y，

可以独立学会））。

在下文中，我们显示标签实例部分变分推断。

变分推理置于潜变量分布的一个简单的家庭︰

（z,θ）=Q

（Θn|

）Qv，m

q（znvm|

（3）

在哪里θ

∼Dir（γn）

和

∼多（φnvm）

和γ

和φ

（Py

φnvm，y

=1）。

我们然后获得证据下限（反向）

Eq[登录p（θ,z、X|

）]−

Eq[登录q（z,θ）]

（4）

培训是通过最大化反向使用EM算法相似（布莱，吴荣和约旦2003年）执行。

在这里，E步试图通过交替下列更新将在袋标签标签分配给实例︰

nvmy

∝exp{Eq[日志θ纽约州]+登录p（xnvm|znvm=y，βv）}

（5）

纽约州=

纽约州X+

（）6

[日志θ纽约州]=Ψ（γ纽约州）−Ψ（Py0

γ纽约州0）

（Ψ

表示双伽玛函数）。

请注意，我们不认为我们中的所有标签

为每袋

但只属于标签

Yn，因此来这里演出E步是高效。

给出了估计的φ

为所有

，M步更新如下最大化反向的全局变量︰

MIMLmix算法2训练

.主题标签部分

火车上的LDA

（布莱，吴荣和约旦2003年）。

.标签实例部分

初始化β

所有视图

∈Y.

而相对有所改善L

10−6

做6:

n=1到

做{E步}

初始化γ

重复

为每个视图

宏

和标签

更新φ

nvm、y

根据式[5].

更新γ

纽约州根据对情商[6]。

12:

直到1/L

[变化γ纽约州]

13:

，和

∈Y做{M步}

14:

更新β

根据情商[7]或情商的人。

[89]取决视图

用MIMLmix测试算法3

测试包

0初始化

=1,∀l

∈Y和

Ξ.

关于φ执行推理

0像E步的算法2给出了α的当前值

0根据多项式区由参数化（标准化）

vmn

估计

使用LDA（布莱等人（2003年））。

更新

的变化直到

小于阈值。

输出γ

0和φ

包和实例批注。

•

是一个离散的看法，更新β

内华达州

vyi

∝XXx

nvm，我φ

（7）

nm=1

是一个连续的看法，更新β

={µ

vy,Σvy}

（8）

（）9

在Alg.2，总结了训练算法。

用MIMLmix进行测试

在测试，例如新期间

0我们设置

为大于0的常量（ξ

=0.1

，默认情况下），初始化

yn0l

=1,∀l;

因此，我们有αn0l

0,∀l。

通过这样做，我们触发审议的所有标签。

在Alg.3，总结了算法。

信息从标签实例部分通过传递给主题标签部分利用标签分配实例的多视图（第4行），和从主题标签一部分到标签实例部分通过αn0，其中

yn0

隐式设置为

（线6）。

在实施中，以减少采样步骤4，号线的随机性我们获得平均的主题分布θ

在所有迭代，然后用它来更新最后的袋和实例批注的先验信息。

多视图与不平等的重要性

是随机变量，它表示的每个示例中，第五个视图的实例数和假设

服从泊松分布

∼大埔（λv）。

假设我们修复的实例数为常量的视图之间

λ、条件分布

P（lv|Λ）

如下参数ρ的一个多项式分布

=（ρ1，...，ρV

），在那里

。

我们然后改写联合概率

p（zn,Xn|

）:

p（zn，Xn|

）=Qvm

p（x|

znvmnvm

）wv

（10）的地方wv=λρv衍射v=1，上述方程是相同作为原始但用新的眼光"

在一个袋子里的一个实例的视图

重复

λ五倍，而不是重复的实例作为

λv，我们重复它与

wvλv

λρv

倍"

替换该约束

与

wv=1，一个可以更改实例在不同视图中的权重。

我们同样，修改变分分布和获得的职权范围涉及修改反向

，如下所示︰

L[wv]

=Xw

{Eq[登录p（zvi|

）−Eq[登录q（zvi|

六）]

我

Eq[登录p（x六|z六，β1:

）]}

（11）

在哪里我跑过去

填写所涉

在vth实例查看从培训的例子。

∆v

=1/M填写所涉v（∂L/∂wv），它是直观，

措施如何可能的一个实例在视图

生成给袋标签。

最大化

∆vwv

极端，结果是为具有最大视图

将接收所有的重量，而有些则是

为零。

我们然后找到简单的解决方案，通过设置

∝∆v+τv

在哪里∆v

=日志

（∆v

−min我∆我+2）是的缩放的值∆v

;

和

Τv

可以被解释为先验的v-th视图。

Φ和β的更新，则与算法2仍然相同视图重量是消除了由于正常化或司内每个视图，用于γ的更新纽约州更改为γ

纽约州+

wvφ

在测试期间，我们样品的

中的归一化算法3

Pvm

wvφn0vm。

请注意所有的实验，在下届会议中的多视图数据集进行以MIMLmix这个变形。

实验

我们在数据集多视图2和3单视图数据集上进行实验。

在表1中给出这些数据集的摘要。

Citeseerx-10k[1]

包含两个视图，即，内容（v1）和引文中的科学论文（v2）。

ImageCLEF（穆勒etal.，2010年）包含两个视图的图像:

视觉（v1）和文本（v2）。

在这里，我们使用已被（阮、詹和周2013年）相同子集。

每个示例的可视视图由分割区域一袋、一个区域由1000个视觉单词，通过聚类的对手SIFTs（VandeSande，Gevers和杖鱼2010年）得到一个频率向量。

Citeseerx-10k有1072年部分例子，ImageCLEF有2114年部分例子;

大多数的部分示例表1︰实验数据集︰#ipb是#instances每袋。

数据集

#bags

#labels

#ipb

#dim

Citeseerx-10K（2意见）

10,799

500

35.7

48.3

2,000

ImageCLEF（2意见）

8,000

18.4

2.6

1,000

806

信卡罗尔

166

4.3

MSRCv2

591

2.97

IAPRTC-12

5,000

244

5.09

没有第二种观点。

在单视图数据集，LetterCarroll，MSRCv2被所得（布里格斯，小丽和散户2012年）;

和IAPRTC-12数据集选择了从（埃斯卡兰特等人，2010年）。

评价︰MIML方法评价从三个方面，即示例数据透视评价使用汉明损失（h.l.）和平均精度（美联社）（周和张2007年）;

标签数据透视评价使用意味着平均精度（m.a.p）和宏-F1（马f1）出现在训练和测试数据集（鲁宾等人2012年）;

至少一次的标签和instancepivot评价实例准确性（insacc）（布里格斯，小丽和散户2012年）。

衡量恒力、马f1、顶部

L¯

标签与最高的决定，作为每个示例注释选择值。

在这里，

选择的基础平均每例的标签数量。

我们进行30次评价为ImageCLEF，每次我们使用1000年例子为培训和1000年例子进行测试;

10倍crossvalidation被进行其他数据集。

只有singleview数据集有insacc评价实例标签。

比较方法︰对多视图的数据集，以下方法进行比较和对比︰MIMLmix;

MIMLmix*（MIMLmix与

=0）;

M3LDA（阮、詹和周2013年）;

政务司司长。

支持向量机相结合的单一视图，决策值成本敏感型支持向量机;

和MIMLmix与个别意见（MIMLmix.v1和MIMLmix.v2）。

为了培养单视图支持向量机，我们积累获得每袋，单个实例的多个实例，然后onevs全用于多标记学习。

在单视图的数据集，MIMLmix，MIMLmix*与包括RankLossSVM（布里格斯等人（2012年））;

其他MIML方法进行了比较MIMLSVM（周和张2007年）;

MISVM（安德鲁斯等人（2002））建立成本敏感多实例支持向量机的每个标签;

和DBA（杨等人（2009年））。

多视图数据集不完整的示例

表2︰在没有完整的示例的多视图数据集上的性能。

在这里，v1/v2平均含量/引文对Citeseerx-10k;

和视觉/文本在ImageCLEF上。

（）表明方法显著差（优于）MIMLmix与

95%

图3︰表演（Mmx）MIMLmix、MIMLmix*（Mmx*）、M3LDA（M3），政务司司长。

支持向量机（SVM），MIMLmix.v2（Mmx.v2）在部分例子说明与暗的酒吧。

对应于"

不采用"

光颜色条中没有完整的示例（表2）的引用的情况下显示这些方法的结果。

我们评价MIMLmix和比较的方法，在案件没有完整的示例，得到的去除多视图数据集的所有部分的示例。

对于MIMLmix方法，我们设置

α0

=0.1,

=200

为两个数据集的默认值设置

.3,

为10kCiteseerx和

=10

为ImageCLEF。

M3LDA进行相同的设置（阮、詹，和周2013年）上ImageCLEF;

=200,

.5，和采样迭代的次数

300

对Citeseerx-10k。

一个vs所有cs。

支持向量机分类器会接受训练，每个视图，使用LIBSVM（昌和林2011年）提供默认参数，只积极的和消极的类的权重设置为每个标签#pos#+pos#neg

和#pos#+neg#neg，哪里#pos

#neg

分别是正面和负面的包，数目。

我们结合决策值的单视图cs。

支持向量机使用规则（.3×

v1+.7×

v2）上ImageCLEf，和（.6×

v1+.4×

v2）上Citeseerx，选择这些参数通过尝试不同的值的组合。

实验结果表示在表2中。

可以看到，MIMLmix优于其他多视图方法包括MIMLmix*在大多数情况。

特别是，M3LDA的性能不是在CiteSeerx数据集，主要是由于我们设置以满足时间约束的采样迭代小数目上令人满意的。

有关计算比较的更多详细信息将在本节后面讨论。

MIMLmix优于MIMLmix*由上ImageCLEF标签有高度相关性较大的差距。

与单一视图MIMLmix模型相比，MIMLmix是在两个多视点的数据集上明显更好。

这将验证相结合的多视图，以获得更好的性能的重要性。

MIMLmix是明显优于cs。

支持向量机在大多数情况下只对ImageCLEFm.a.p。

有趣的是，在ImageCLEF数据集，政务司司长。

支持向量机达到比MIMLmix多糟马f1，虽然它具有更高的m.a.p.通过检查cs的联合的决策值。

支持向量机，我们看到，虽然cs。

支持向量机获得好的排名，对于一些罕见的标签的例子，罕见标签的值不是足够大，以满足

展开阅读全文

标签复杂的对象 多视角多实例多标记学习详述Word文档格式.docx

标签复杂的对象多视角多实例多标记学习详述Word文档格式.docx