基于约束非负矩阵分解的图像表示.docx

资源描述

基于约束非负矩阵分解的图像表示.docx

《基于约束非负矩阵分解的图像表示.docx》由会员分享，可在线阅读，更多相关《基于约束非负矩阵分解的图像表示.docx（16页珍藏版）》请在冰豆网上搜索。

基于约束非负矩阵分解的图像表示.docx

基于约束非负矩阵分解的图像表示

对于图像的约束非负矩阵分解

摘要：

非负矩阵分解（NMF）对于寻找非负数据的块基础和线性表示是一个常用的方法。

它已经广泛的应用于各种应用，比如模式识别，信息检索，计算机视觉。

但是，NMF本质上是一个非监督方法，不能利用标签信息。

在本文中，我们提出一种新的半监督矩阵分解方法，叫约束非负矩阵分解（CNMF），将标签作为附加约束合并进来。

特别地，本文显示出结合标签信息能非常简洁地提高矩阵分解的识别能力。

我们利用两个函数公式和提供的相应优化问题的更新解决方法来研究所提出的CNMF方法。

通过实际数据的评估，我们所提出的方法和最先进的方法相比更有效。

索引词：

非负矩阵分解，半监督学习，降维，聚类

1.简介

许多数据分析中一个基础的问题就是寻找一个合适的表示数据[1]，[2]，[3]，

[4]，[5]，[6]，[7]，[8]。

可以应用一个非常有效的方法表示数据之间的潜在结构。

矩阵分解技术作为这类数据表示的基础工具已经得到越来越多的注意。

运用不同的标准已经得到了大量不同的方法。

最流行的技术包括主成分分析（PCA）[9]，奇异值分解（SVD）[10],和向量量化[11]。

矩阵分解的中心是找到两个或者更多的因子产生原始数据的一个好的逼近。

在实际应用中，分解之后的矩阵维数通常远远小于原始数据的维数。

这就引起了数据的压缩表示，促进了其他研究比如聚类和分类。

在矩阵分解方法中，非负矩阵分解（NMF）有一个限制即所有的矩阵因子都必须是非负的，即所有的因子必须大于等于零。

这个非负性约束使NMF从感觉上只能对原始数据进行加操作不能减。

因此，对于图像处理，人脸识别[2][12]，文件聚类[13][14]是一个理想的降维方法，它们就是由部分组成整体的。

NMF是一个非监督学习方法。

NMF不能应用于许多实际的问题当专家认为是可行的有限知识中。

但是许多机器语言的研究发现未标签的数据当与一些少量的标签数据相结合时在研究精确度上会产生相当大的提高[15][16][17]。

全标签训练集的处理过程可能会很昂贵，然而少量的标签数据的获得相对便宜。

在这种情况下，半监督学习方法就有很大的实用价值。

因此，用半监督学习方法研究NMF很有意义。

最近，蔡登等人提出了一种图表正则化NMF（GNMF）方法来编码数据空间的几何信息。

GNMF构建一个最近邻图表模拟多种结构。

当标签信息可行时，它自然地应用到图表结构中。

特别地，如果两个数据点使用同一个标签，大的权重会被分配到边缘连接它们。

如果两个数据点使用不同的标签，相应的权重都是0。

这就引起了半监督GNMF。

这个方法的最大缺点是相同类别的数据点将会一起映射到一个新的表示空间，而且怎样有原则的选取权重并不清晰，这一观点没有理论保证。

本文中，我们提出一种新的矩阵分解方法，叫约束非负矩阵分解（CNMF），将标签信息作为附加的约束。

我们算法的中心是相同类别的数据可以在一个新的表示空间中合并。

这样，已经获得的部分表示就有和原始数据一致的标签，因此就有多的识别能力。

我们方法的另一个优点是参数自由，避免了参数调试来获得更好的结果。

这就使我们的算法更容易方便的应用于真实世界应用中。

我们还讨论了怎样高效的解决相应的最优化问题。

给出最优化收敛性证明。

本文贡献如下：

1.标准NMF是一个非监督学习算法不需要结合标签信息。

本文中，我们将它扩展为半监督学习算法。

此外，我们将标签信息作为约束；这样一来，有相同标签的数据在新的表示空间里就有相同的坐标。

通过这种方法，表示可以有更多的识别能力。

2.以前的研究[18]显示NMF和概率潜在语义分析（PLSA）都是多项式PCA的实例。

特别的是，PLSA利用KL[19][20]分解解决NMF问题。

为了更深入的探讨，我们将CNMF应用于KL分解公式中并且提供更新规则解决最优化问题。

3.与半监督GNMF不同，我们算法的优点是参数自由。

因此不用靠调参来获得更好的结果。

CNMF算法更容易方便的应用于真实世界中。

实验结果表明，该算法能有效提高聚类性能。

4.就我们目前的知识而言，没有一种方法能直接获得NMF的解决办法。

目前最好的方法是使用更新迭代获得目标函数的最优解。

因此算法的效率对真实应用很重要。

本文中，我们定性的分析算法复杂度并通过实验测试收敛率定量地证明算法效率。

本文结构如下：

第二部分，我们简要的介绍了NMF的背景和相关工作；第三部分介绍了NMF约束的相关工作，具体的算法和理论证明在第四和第五部分，第六部分讨论了算法的复杂度。

第七部分实验结果，第八部分是总结。

2.相关工作

矩阵分解存在大量方法，如PCA,SVD,每种分解方法都有相应的约束条件，

NMF的约束条件是分解因子矩阵元素必须非负。

假设矩阵X・Rnd，行代表样

本点，列代表样本维数。

NMF的目的是找到满足XUVT的两个非负因子矩阵U,V。

逼近质量由代价函数评价，一种是欧式距离平方度量Jf,另一种是

Kwellback-Liebler散度或相对熵Jkl，这两种目标函数都是关于U,V的非凸函数，很难得到J的全局最小值，因此只能用迭代更新算法寻找上述优化问题的局部最小值及局部最优解U和V。

NMF中X在基函数U上的投影值是V，即NMF将d维向量X映射到k维向量V，新空间是由U张成的。

因此当k"时，NMF可作为一种降维方法。

（可与其他降维方法比较）

NMF没有利用样别标签信息，它是一种无监督的学习方法。

3.半监督NMF思想

（硬约束条件A＞软约束条件B，奇稀疏表示或后验概率）（Xdn二UdkVknT,Vnk二Ann丄cZN丄c】k）L=N监督NMF

4•最优化问题及更新算法

4.1更新算法

利用F范数，带标签约束的CNMF算法变为最小化下式函数：

Of=|x—uztat|⑴

其中Ui,j，Zi,j是非负的。

（1）中U,Z都是非凸的，要想找到Of的全局最小量不切实际。

接下来我们用迭代更新算法获得Of。

利用矩阵性质TrAB二TrBA，目标函数Of重新写作

Of二Tr（X-UZtAt）=Tr（（X-UZTAT）（X-UZTAT）T）

二Tr（XXT）_2Tr（XAZUjTrUZTATAZUT

«ij，Rj分别是Uj^O，Zj30的拉格朗日乘子，pij1，P=3j丨，拉格朗日函数L是：

L=OfTr：

UTTr"E：

L分别对U,Z求偏导，我们得到：

—=-2XAZ2UZTATAZ：

乱2AtXtU2AtAZUTU：

-z

根据Kuhn-Tucker条件：

ijuij^0，■ijzij=^0，可以得到关于uij，Zj等式：

XAZjUj-UZTATAZ严=0,

（atxtu[Zj—（atazutu》Zj=0

这些等式带来下面的更新准则：

Uj"

（XAZ）j

UijUZTATAZq，（）

atxtui.

Zj「：

ZjTTj⑶

j（atazutu

关于上面的迭代准则有下面的定理：

定理1：

（1）中目标函数Of在⑵（3）条件下不会增长。

当且仅当U,Z在稳定点时,目标函数不会变化。

4.2收敛证明

为了证明定理1,我们利用一个辅助函数的性质。

引理2:

如果存在辅助函数G,满足Gx,x_Fx和Gx,x=Fx，则F在更新条件

t1'

xargminGx,x（4）

下不会增长。

等式F（£來）=F（£）当且仅当xt是G（x,£）的最小化时满足。

重复迭代（4），序列收敛于xmin=argminxFx的最小值。

我们通过定义一个合适的辅助函数来表示。

首先，我们证明⑶的收敛性。

zab是Z中任意一个元素，卩弘表示zab的F范数。

由迭代本质上是元素的变化，因此每个在步骤（3）中都是不变的。

下面证

明：

引理3：

F'是Z的一阶导数。

tt'tt

G乙Zab二FzabZab电zabz-zab

ATAZUTUt2（5）

1—abz-zL

Zab

G（z,z；b是Fzab的辅助函数，是Of的一部分。

证明：

G（z,z）=Fzab（z），根据辅助函数定义，要证明G（z,zL）>FzaJz）。

为了达

到结果，将（5）式中的G（z,z：

b）和Fzb泰勒展开式作比较:

t'工t1''工t2

Fzabz二FzabZab艮z一恋石Fz,Z-Zab

F是对Z的二阶偏导。

Fzab

=—=-2AtXtU2AtAZUtU

.：

Zabab

Fz]ATAaaUPbb

将（7）放到⑹中和⑸式作比较，要证明G乙現-Fzabz，就是证明

即:

ATAZUTUab订ATAZalUTUlb-ATAZabUTUbb

一二ATAalz；bUTUbb

F面定义公式

（2）中的辅助函数，F%表示Uab的F范数。

引理4:

tab

（8）

tt't

GU,Uab二FuabUabFUabUabu~u

UZTATAZt2

t更U-Uabuab

引理4和引理3证明相似，有这些引理，得出定理1的证明:

定理1证明：

将⑸中Gz,z：

b放到⑷中

由于（5）是一个辅助函数，在定理3的更新迭代下不会增长。

类似的，将（8）中Gu,u：

b放到⑷中,

ua^=argminG（u,u：

b）皿

l如

由于（8）是一个辅助函数，Fuab根据引理4不会增长。

4.3梯度下降法

⑴中CNMF的目标函数能通过梯度下降法最小化，利用梯度下降法，

（1）式变化

为：

Uj•Uj，j也

v和j是控制梯度下降步长参数，我们设置:

&=_Y.=

j2UZtAtAZ'j2AtAZUtU

ijij

可以得到:

十严（XAZ）j

Uj'-jUjtT

UjUZAAZ

z令z祸

是⑵（3）式的多线性更新。

5•算法最大限度的减少KL散度

5.1更新算法

如果我们用KL散度测量从矩阵分解积中得到的原始数据的距离，则目标函

数为

为使该结果更接近原始数据，我们的目标就是最小化上式

通过下面的更新准则可获得（9）式最小化:

类似的，我们得到以下定理：

定理5：

（9）式中的目标函数Okl在（10）（11）的更新下不会增长.当且仅当U,Z在稳定点时目标函数保持不变。

定理5确保了（10）（11）中迭代的收敛性，因此得到局部最优解。

下面证明定

理5.

5.2收敛证明

和定理4证明相似，我们引入一个辅助函数引理6:

函数

是（9）中目标函数的辅助函数

Fu八州log

i,jV

實Xj_Xj+送UikVjk

JkUikVjkk

证明：

显然Gu,u二Fu;根据对数函数凸性质

令：

・k=磐匸ZsuisVjs

从这个不等式得出，

对于变量z,同样定义一个辅助函数:

引理7:

函数

是（9）中目标函数的辅助函数

证明：

Gz,z=Fz，根据对数函数凸性质,

■uikais^—sk

—log'uikajszsk虫；：

klogsk,sk

uikajszsk

冬丄叫阳og

k，s：

「s

suikajkzsk令，k=—j—T,

Jp,suipajszsp

通过该不等式，我们得到Gz,zt-Fz

定理5证明：

Gu,ut对u的偏导由令式（12）为零决定

■uik

m^-Xij占「丄m（16）

jsUisVjsUikUikj

U；F「XjVjk'sZ

jVjk

（17）

（17）中Vjk通过AZjk代替并改变标签信息，（17）和（10）格式相同。

根据引理6,由于G是辅助函数，F在此更新下不会增长。

类似的有

（19）和（11）格式相同。

根据引理7,由于G是辅助函数，F在此更新下不会增长。

5.3梯度下降算法关系

第四部分已经说明，CNMF的目标函数可以通过梯度下降算法最小化。

当我们试

着最小化KL散度时，我们可以设置梯度下降算法步长：

附加更新准则变为

uij，i伞

CUij

=Uij

Uij

■-Vkj

XikVkj

二uij

k^xikakszsj/送

p,q

uipakpzqp

-OkL

-zij

z（（

W.为Usjaki：

Jk,sUsjaki,k,sk,sI

p,q

Jk,s（XskUsjaki匚p,qUspakpzqp）

jk,sUsja

因此我们可以得到（10）（11）中乘法迭代。

6•计算复杂度分析

在此算法中，目标函数通过迭代更新最小化。

因此算法复杂性对算法效率非常重要。

还有收敛率。

这部分我们讨论更新算法的计算复杂度。

下部分我们用实验表示收敛率。

对于NMF和CNMF算法的大0分析是相同的。

为清楚的表示两种算法的不同，我们列出每种算法的操作数量。

更新计算有三部：

加法，乘法，除法。

所有这些操作用的都是浮点数据。

计算复杂度中用到的参数在表2列出。

以更新原则为基础，我们计算每个更新步骤的操作数并且在表1中列出。

对

于每一步，NMF的总数是O（mnk）,在F范数中的CNMF总数是一样的；在散度公式中的CNMF变为0（n（m+n）k）。

我们发现辅助矩阵会导致更多的计算复杂度为了更新KL散度函数中目标函数的解决方法。

但是算法复杂度的阶数相同。

辅助矩阵A是一个稀疏矩阵，主要部分是一个特性矩阵。

如果我们根据具体应用中详细的A的具体优化，那么算法复杂度会大幅减少。

每步更新中，KL散度公式中CNMF比NMF消耗大一点。

由于从迭代到收敛的数量不同，CNMFkl总算法复杂度可能会减慢。

下部分我们用实验来研究收敛速率。

假设NMF,CNMF,CNMFkl的乘法更新分别在t1,t2,t3之后结束，则这些算法的整体复杂度分别是0t|imnk，0t2mnk，0t3n（m-n）k。

表1

NMF和CNMF每种迭代比较

F范数公式

加法

乘法

除法

总共

NMF

2nmk+2（m+n）k

2nmk+2（m+n）k+（m+n）k

（m+n）k

0（mnk）

CNMF

（2m+2n-1+cj（n-1+c）k

P（m+n）k2

（2m+2n-丨+cj[n-丨+c）k

+2（m+n）k+（m+n-l+c）k

（m+n_丨+c）k

0（mnk）

KL散度公式

加法

乘法

除法

总共

NMF

4mnk十（m+n）k

4mnk+（m十n）k

2mn十（m+n）k

0（mnk）

CNMF

2n（n-丨+c）k+4mnk+2n（n-丨+c）+（m+n）k

2n（n-丨+c）k+4mnk+（m+n）k+2（n-丨+c）k

2mn

+（m+n_丨+c）k

0（n（mj）

表2

计算复杂度中所用参数

参数

描述

每个数据点特征数

数据点数

因子数

标签数据数

种类数

表3

数据集信息

数据

长度

维数

种类

ORL

400

1024

Yale

165

1024

Corel

4970

500

Caltech-101

3044

500

7•实验结果

这部分我们研究所提出的CNMF算法对数据聚类的用法。

实验结果表明我

们的算法对图像聚类的有效性。

7.1评估矩阵

我们用两个矩阵测试聚类[1][13]。

通过比较每个样本的聚类标签得到结果。

AC用来测试正确标签的百分比。

给定一个数据集含有n个图像，对于每个图像，

li是通过应用不同的算法得到的聚类标签，ri是原数据标签。

精确度定义为：

AC='y、ri,maPh（20）

x,y是：

函数，当x=y时：

x,，否则是0，mapli是映射函数将聚类

标签h映射到由数据集得到的相应的标签。

通过K-M算法能找到最好的映射。

第二个矩阵是归一化互信息MT。

在聚类应用中，互信息用来测量两个聚

类集的相似度。

给定两个图像聚类C和C，互信息矩阵MIC,C定义为：

P（Ci,Cj）

MIC,C二、pq,Cjlog（21）

C0c'◎P（Ci），P（Cj）

pC和Pcj分别是从C和c'任意选取的图像概率，pCi,cj表示这两个任意

选取的图像同时属于C和c'的联合概率。

MlcC的取值在0和

maxHC,HC'之间。

HC和HC分别是C和c'的熵。

当两个图片相同

时达到最大值maxHC,HC'，当相互独立时为0.MIC,C'的重要特性是

对于所有类型的排列都保持不变。

在本实验中我们用归一化矩阵MIC,C'，值

在0-1之间。

MIC,C'

MIC,C—（22）

max（H（C）,H（C））

7.2评估和比较

为了表明评估效果，利用本文方法和其他相关方法在4组数据上做实验，用到的算法如下：

1.F范数CNMF算法

2.CNMFkl算法

3.NMF聚类。

我们利用在[13]中提出的常规NMF切割权重方法。

4.NTF[35].NTF是NMF的张量扩展。

在NTF中，每个人脸图像代表一个二阶张量而不是向量。

5.图表规范化NMF，将数据空间的几何信息编码到矩阵分解中。

6.半监督图表规范化NMF[1]（SemiGNMF），这个方法通过修改权重矩阵将标签信息合并到图表结构中。

7.概念分解为基础的聚类（CF）[36].

在4个图像数据集上进行操作。

这些数据集包含了大量的类别，表3总结了数据集的重要信息。

对于每个数据集，测试从2-10的不同数量的聚类。

对于固定的聚类数k，实验过程如下：

1.从数据集中随机选取k类，将k类图像混合作为X集用于聚类。

对于半监督算法（CNMF，CNMFkl和SemiGNMF），我们随机的选取每类X中10%的图像并用它们的类别数作为可用标签信息。

ORL数据是例外，因为每类ORL只有10副图像，10%就只有1副图像。

这对CNMF没有意义因为算法是将相同标签的图像映射到相同点。

那么对于ORL，我们随机的选取每类中的两幅图像来提供标签信息。

2.在聚类集中，我们应用上面提到的不同矩阵分解算法来获得新的数据代表V。

设置新空间维数和聚类数相同（相同的技术也应用在谱技术中）。

本步骤就是将原始空间数据映射到低维空间（K-维）中。

3.K均值应用于图像聚类的新数据代表V中。

K均值重复20次，每次不同的起点，并记录K均值函数的最好结果。

4.将获得的聚类和原始图像类别作比较用来计算准确度和归一化互信息。

上面的步骤重复10次并计算平均聚类作为最后的结果。

前面提到，我们提出的方法中没有参数，其他方法中，参数都设定为最好效果的那个值。

7.2.1ORL数据

AT&TORL数据由40个不同条目，每个条目有10副图像，总共有400个图像。

对于某些条目，图像有不同的次数，从灯光，面部表情（睁/闭眼，笑/不笑），脸部特写（戴眼镜/不戴眼镜）。

但所有的图片都是在相似的黑色背景下拍摄的，取人脸的正面。

所有试验中，图像都要经过预处理。

原始图像首先要经过比例和方向上的归一化，使两个眼睛对齐在同一位置。

然后脸部区域就被截图到最后的图片里。

每幅图像都是32X32个像素点，每个像素点256个水平灰度。

图1是准确度和聚类数量以及互信息和聚类数量的折线图。

我们提出的CNMF和CNMFkl比其他方法都好。

在这个数据集中，CNMF效果最好，CNMFKL次之。

随机选取ORL数据中25个条目，并在这250副图像中运行我们的算法。

结果在图2，第一幅图有25个条目，其他三幅图是通过NMF，CNMF，CNMFKL获得的基向量。

表4表示聚类准确度和规范化互信息。

最后一行是平均准确度（标准互信息）。

拿其他方法里准确度最高的方法SemiGNMF和本文提出的CNMF相比较，CNMF准确度高出3.24，对于互信息，CNMF高出3.34。

722Yale数据

Yale数据数据包含15个独立的165个灰度级。

每个条目有11个图像，每个都有不同的面部表情和配置：

中心点，W/眼镜，开心，左边亮，W/没有眼镜，

正常，右边亮，伤心，睡觉，惊喜，眨眼。

我们做和ORL数据相同的预处理。

这样每幅图像就由图像空间中1024维向量来表示。

图3是Yale数据的聚类表示。

CNMFKL效果最好，CNMF次之。

SemiGNMF不能完全利用标签信息，在某些情况下比GNMF和NMF效果更差。

这是因为使用相同标签的数据点能方便的从一个映射到另一个这一结论没有理论保证。

表5表示聚类准确度和规范化互信息。

拿其他方法里准确度最高的方法NMF和本文提出的CNMF，CNMFkl相比较，CNMFkl准确度高出9.51，CNMF高出6.01。

对于互信息，CNMFkl高出14.62，CNMF高出8.81。

7.2.3Corel数据

Corel数据是从50个语义中获取的4970个图像。

和脸部图像不同，这些图像不能简单的通过像素来表示。

我们用通过SIFT特性得到的编码词来表示这些图像。

首先，SIFT描述符从每幅图像中提取出来，通过使用VL公开源数据库。

每个描述符都由128维向量表示。

从Corel数据中提取的SIFT描述符总数是1755935。

然后运用可视几何群体提供的K均值算法将其整理成500个聚类。

每个聚类中心对应一个代码。

通过设定描述符到最近的代码，根据描述符数每幅图像都由一个500维的频率直方图表示。

由于没有这些特征的张量信息，在这个数据上不能和NTF算法作比较。

表6是聚类结果。

图4是折线图。

NMF,GNMF，SemiGNMF有相似的结果。

虽然SemiGNMF利用了全部标签信息但是并没有比NMF,GNMF效果好。

CNMF和CNMFkl比其他三种方法效果更好，CNMFkl是最好的。

从表6中，拿其他方法里准确度最高的方法SemiGNMF和本文提出的CNMF，CNMFkl相比较，CNMFkl准确度高出7.46,CNMF高出4.41。

对于互信息，CNMFKL高出8.38，CNMF高出4.81

7.2.4Caltech-101数据

Caltech-101是由Caltech大学获得101个目标类别的数字图像。

每类包含大约40

展开阅读全文