基于视频的人脸识别研究进展Word文档格式.docx
《基于视频的人脸识别研究进展Word文档格式.docx》由会员分享,可在线阅读,更多相关《基于视频的人脸识别研究进展Word文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
人脸识别;
基于视频的人脸识别;
进展;
综述
中图法分类号TP391
1引言
人脸识别具有巨大的理论意义和应用价值.人脸识别的研究对于图象处理、模式识别、计算机视觉、计算机图形学等领域的发展具有巨大的推动作用,同时在生物特征认证、视频监控、安全等各个领域也有着广泛的应用.
经过多年研究,人脸识别技术已取得了长足的进步和发展.随着视频监控、信息安全、访问控制等应用领域的发展需求,基于视频的人脸识别已成为人脸识别领域最为活跃的研究方向之一[1-4].如何充分利用视频中人脸的时间和空间信息克服视频中人脸分辨率低,尺度变化范围大,光照、姿态变化剧烈以及时常发生遮挡等困难是研究的重点.国内外众多的大学和研究机构,如美国的MIT[5]、CMU[6,7]、UIUC[8,9]、Maryland大学[10-12]、英国的剑桥大学[13-15]、日本的Toshiba公司[16-18]和国内的中科院自动化所[19-21]都对基于视频的人脸识别进行了广泛而深入的研究.鉴于目前现有的人脸识别国内外综述文献主要针对基于静止图像的人脸识别研究[1-3],因此有必要对现阶段基于视频的人脸识别研究情况进行分析和总结,期望能够更好地指导未来的研究工作.
2人脸识别概述
一个自动的基于视频的人脸识别系统包括了人脸检测模块、人脸跟踪模块、人脸特征提取模块和人脸识别模块[22].关于人脸检测、人脸跟踪和人脸特征提取的研究进展可以参考综述文献[1-3].本文重点介绍基于视频的人脸识别研究进展.
人脸识别问题可以定义成:
输入(查询)场景中的静止图像或者视频,使用人脸数据库识别或验证场景中的一个人或者多个人[1,2].基于静止图像的人脸识别通常是指输入(查询)一幅静止的图像,使用人脸数据库进行识别或验证图像中的人脸.而基于视频的人脸识别是指输入(查询)一段视频,使用人脸数据库进行识别或验证视频中的人脸.如不考虑视频的时间连续信息,问题也可以变成采用多幅图像(时间上不一定连续)作为输入(查询)进行识别或验证.因此按照上面的分析,根据输入(查询)和人脸数据库的不同,人脸识别可以分成如表1所示的四种情况:
表1输入(查询)和数据库不同情况下的人脸识别
输入(查询)数据库
图像(多幅图像)
视频
图像
图像-图像(多幅图像)
图像-视频
视频-图像(多幅图像)
视频-视频
其中“图像-图像(多幅图像)”人脸识别就是传统的基于静止图像的人脸识别[1-3].而“图像-视频”人脸识别是指利用人脸图像作为输入采用视频人脸数据库进行识别或验证.通常的应用领域是基于人脸的视频信息检索.本文重点介绍的基于视频的人脸识别主要是指后面两种情况,即“视频-图像(多幅图像)”人脸识别和“视频-视频”人脸识别.“视频-图像(多幅图像)”人脸识别是指输入(查询)一段人脸视频,利用静止图像人脸数据库进行识别或验证.“视频-视频”人脸识别是指输入和数据库都利用视频进行人脸识别或验证.相对于前面三种情况,“视频-视频”人脸识别可以利用的信息最多.视频中可以利用的信息包括[4]:
多幅同一个人的人脸图像,视频中人脸在时间和空间上的连续性,利用视频生成的三维(3D)人脸模型等.需要强调的是本文这样分类的目的是为了能够对整个人脸识别领域的研究现状有一个宏观上的认识,并区分不同情况下的人脸识别.事实上不同情况下人脸识别采用的技术可以是相同的,例如对所有人脸视频序列的处理是按照某种规则(如大小、姿态、清晰度等)提取一张人脸图像,则上面的情况都可以采用基于静止图像的人脸识别技术.
本文首先对现阶段基于视频的人脸识别研究现状进行了详细的分析和讨论,接着介绍了常用的视频人脸数据库和实验结果,最后展望了未来的发展方向.本文假设已经得到图像或者视频中需识别人脸的位置.对静止图像中人脸的定位可参见文献[23-24],对视频中人脸的定位和分割可参见文献[25].
3基于视频的人脸识别
根据上一节的讨论,下面把基于视频的人脸识别分成“视频-图像(多幅图像)”人脸识别和“视频-视频”人脸识别两种情况分别给予综述.
3.1“视频-图像(多幅图像)”人脸识别
“视频-图像(多幅图像)”人脸识别是指采用人脸视频作为输入(查询)利用静止图像人脸数据库进行识别或验证.由于现有的大部分人脸数据库都是静止图像人脸数据库,如何充分利用视频中的人脸信息更好地进行人脸识别是现阶段迫切需要解决的问题.
解决这类问题的传统做法[26-28]可以分成两大类:
一类方法对输入视频中的人脸进行跟踪,寻找满足一定规则(如大小、姿态、清晰度等)的人脸图像,然后利用基于静止图像的人脸识别方法.这类方法的缺点是规则很难定义,并且没有最大限度地利用人脸视频中的时间和空间连续信息.另一类方法利用视频中的空间信息进行人脸识别.通过对输入视频中每一幅人脸或者若干幅人脸采用基于静止图像的人脸识别方法[1-3],利用各种联合规则[29](如多数投票或者概率/距离累加等方法)再进行最终的识别.这类方法的缺点是联合规则常有相当的随机性[4].
近年来,一些研究者开始利用视频中人脸的时间和空间连续信息进行识别.文献[10]讨论了在贝叶斯理论的框架下统一解决人脸识别和跟踪问题.采用时间序列模型刻画人脸的动态变化,把身份变量和运动矢量作为状态变量从而引进时间和空间的信息.利用序贯重要度采样(SequentialImportanceSampling,SIS)的方法有效估计出身份变量和运动矢量的联合后验概率分布,通过边缘化提取出身份变量的概率分布.实验结果表明该算法的有效性.不过当姿态变化时识别率只有57%.之所以出现姿态变化时识别率低的原因是对时间连续性的利用体现在人脸外观一致上,而随着光照或姿态的变化会导致外观的明显不同.因此文献[11]进一步提出了自适应外观变化模型并且采用自适应运动模型更准确地处理姿态的变化.并且对运动模型中噪声的方差和采样算法中的粒子数根据计算得到外观模型的误差进行更新.采用鲁棒统计学(robuststatistics)处理脸部遮挡问题.利用基于贝叶斯人脸识别[30]方法的似然函数进行权重更新使得整个算法更加有效.
文献[31,32]通过对输入视频中人脸的脸部特征或外观的跟踪进行人脸验证.基本思想是,如果是正确的输入(对应数据库中要验证的人脸),则跟踪的轨迹基本一致;
而如果是不正确的输入,则跟踪轨迹没有规律性.相应的数学模型就是考虑所得到的运动矢量分布,如果呈现尖峰(一致的运动参数)则认为是正确的人脸.如果没有呈现尖峰,而是类似均匀分布,则认为是错误的人脸.
上述方法中都采用贝叶斯理论引进了时间信息,极大的提高了识别率.并且采用序贯重要度采样克服非高斯分布和非线性系统带来的难以估计概率密度的问题.但是估计概率密度需要大量的粒子,导致其计算量比较大.
3.2“视频-视频”人脸识别
“视频-视频”人脸识别是指输入和数据库中的人脸均是以视频的形式存在.大量的文献对如何同时利用输入和数据库中的人脸视频进行了深入的研究.现有文献中对视频中人脸信息的描述方式总结起来有下面几种:
(1)利用一幅代表性的图像得到的特征(矢量表示),如主成分分析(PCA)降维后的矢量等;
(2)利用所有图像得到的特征(矩阵表示),如特征空间,示例(exemplar)等;
(3)利用概率密度函数刻画视频中的人脸分布,如高斯模型等;
(4)利用动态模型刻画视频中人脸随时间的动态变化,如隐马尔可夫模型等;
(5)利用流形(manifold)刻画视频中的人脸分布,如分段线性PCA子空间等.
上述各种描述方式(矢量、矩阵、概率密度、动态模型、流形)之间可能的度量如表2所示:
表2描述方式之间的度量
数据库
输入
矢量(x)
矩阵(X)
概率密度(f)
动态模型(D)
流形(M)
d(x,x)
d(x,X)
f(x)
D(x)
M(x)
d(X,x)
d(X,X)
f(X)
D(X)
M(X)
d(f,f)
\
d(D,D)
d(D,M)
d(M,D)
d(M,M)
表2中d代表两个模型之间的距离或相似度,f(X),M(X)代表概率/距离累加或多数投票,D(X)代表各帧后验概率.
下面按照对输入描述方式的不同,分成矢量、矩阵、概率、动态模型、流形五个小节分别给予介绍.
3.2.1矢量
利用矢量作为输入描述方式的基本思想是利用视频得到一个反映输入人脸视频特性(如均值人脸图像,最好的正面图像等)的特征(矢量表示),和数据库中的人脸视频描述方式进行匹配.数据库中人脸视频的描述方式可以是矢量、矩阵、概率、动态模型、流形等.
文献[33]对数据库中的每类人脸建立一个PCA子空间,利用与各个人脸子空间的距离对输入视频中的所有人脸进行标注.文献[34]介绍了一种基于视频的人脸验证方法,采用形状和归一化纹理的联合外观模型(ActiveAppearanceModel,AAM)来表示人脸,通过加入类别信息的改进线性鉴别分析(LinearDiscriminantAnalysis,LDA)分离出身份变量(identity)和其他变化因素(姿态、光照和表情).采用卡尔曼滤波器(Kalmanfilter)对身份变量进行跟踪得到的稳定值就是身份稳定估计量.人脸验证就可以通过对输入人脸视频进行跟踪得到的估计量和数据库得到的身份估计量进行比较看是否大于某个阈值来实现.与基于静止图像的人脸验证方法相比,采用基于视频的人脸验证能利用更多的信息,效果更好.算法采用ASM(ActiveShapeModel)进行人脸定位可以避免误配准带来的影响.但是一旦定位不准,则对后继的参数跟踪会产生很大的误差,导致识别率下降.并且对于达到稳定估计值需要的视频长度无法计算和估计.另一个借助视觉约束的人脸跟踪和识别方法可见文献[35].
3.2.2矩阵
采用矩阵作为输入描述方式进行人脸识别的算法可以分成两类,一类是利用得到的特征(矩阵表示)逐个与数据库中的人脸描述方式进行比较(相当于每次取出矩阵的一行或者一列),然后利用多数投票或者概率(距离)累加最大的方法进行识别.另一类是把得到的特征(矩阵表示)看成一个整体和数据库中的人脸描述方式进行比较.相对于前面一种方法,后者采用矩阵作为整体更能利用视频的空间连续信息.数据库中人脸视频的描述方式可以是矢量、矩阵、概率、动态模型、流形等.
文献[36]采用总体PCA方法进行降维,在低维空间中采用混合高斯模型(Gaussianmixturemodel,GMM)来表示数据库中每个人脸.通过计算输入视频中每一帧人脸的后验概率,采用多数投票和概率累加最大的方法得到最终结果.文献[37]对数据库的每类人脸建立多个匹配模板,并根据视频中的动态的信息(如人脸姿态,运动模糊等)对多个模板进行自适应的融合.文献[16]对输入的人脸序列和数据库中的人脸序列分别建立一个PCA特征子空间,两个特征子空间之间的距离由它们之间的夹角确定.为了进一步去除光照、姿态、表情等的影响,把子空间重新投影到限制子空间(constraintsubspace)中,限制子空间只包含对识别有用的成分(身份)[17].为了解决限制子空间中需要大量样本的问题,进一步利用整体学习(ensemblelearning)的方法训练出M个限制子空间,通过投影到这M个限制子空间的距离加权和作为人脸之间距离的度量[18].该类算法的主要缺点在于没有考虑每一类人脸的整体概率分布,没有利用每一类的均值和特征值,在投影到限制子空间时可能会产生一定的问题,并且参数的设定和空间维数都需要通过经验给出.
由于人脸在姿态、光照、表情变化时呈现非线性分布,文献[38]在线性空间中通过核的方法映射到高维的非线性空间(核Hilbert空间),在高维空间中的夹角(核主成分夹角)作为矩阵的相似性度量,并且利用正定的核函数就可以和SVM(supportvectormachine)结合起来提高分类的性能.文献[19,20]首先通过LDA进行线性降维,然后对每个人的人脸视频通过矢量量化技术或者K均值聚类形成K个类别,每个类别用聚类中心和聚类的权重来表示.最后采用EMD(earthmover’sdistance)距离作为相似性度量进行人脸识别.
文献[39]利用聚类的方法建立局部参数模型,对数据库中的每个人脸建立多个局部流形.首先对数据库中的每段人脸视频经过LDA进行线性降维,通过采取ISOMAP(isometricfeaturemapping)[40]提取各点的测地距离(geodesicdistance)作为人脸之间的距离,从而可以更准确的刻画各点在流形空间中的位置关系,然后采用HAC(hierarchicalagglomerativeclustering)聚类方法得到K个示例,对每一示例采用类似文献[41]的方法对每个局部模型建立双子空间(dualsubspace)概率模型,使用概率测度作为相似性度量,采用多数投票进行识别.文献[6]对每段人脸视频建立一个特征空间并把视频中人脸的变化看成一个非平稳的随机过程(AR模型),采用逐步更新特征空间的方法并且引进了权重的概念,对新的样本权重大,对以前的样本权重小.该文中针对每个人脸建立两个特征空间,包括训练集中的特征空间和识别后不断更新建立的新的特征空间来解决过慢学习的问题.文献[42-43]利用数据库中的人脸视频得到三维模型生成查询人脸视频条件下的光照和姿态变化,然后逐一进行比对,采用距离累计最大的方法得到识别结果.
3.2.3概率
采用概率作为输入描述形式的基本思想是把视频中人脸的动态变化看成是满足一定的概率分布的高维随机变量.一般对数据库中视频的描述方式也是概率方式,通过比较概率密度函数的相似性来度量人脸之间相似性.
文献[13]采用GMM模型学习不同姿态和光照条件下的人脸分布,对输入人脸视频和数据库中的人脸视频都利用GMM模型进行建模,采用K-L散度(Kullback-Leiblerdivergence)作为人脸之间相似性度量.文献[5]把人脸识别问题看成是一个假设检验问题,证明了如果人脸视频中每一帧之间是相互独立的,则得到的最优准则是K-L散度.假设每个人脸服从高斯分布,采用K-L散度作为相似性度量.但是由于假设是单高斯分布,因此无法刻画由于光照或者是姿态变化导致人脸呈现流形的情况,并且K-L散度本身是一种非对称的度量方式.文献[14]采用基于核函数方法把低维空间映射到高维空间,这样就可以在高维空间中利用低维空间中的线性方法(如PCA)来解决一般的复杂的非线性问题,采用RAD(resistor-averagedistance)作为人脸相似性度量.为了解决配准误差所带来的识别率下降的问题,利用了多幅图像和RANSAC(randomsampleconsensus)算法来解决.另外文献[44]利用了核的方法,把原来的矢量空间映射到高维非线性空间中RKHS(reproducingkernelHilbertspace)中计算概率分布之间的距离.
3.2.4动态模型
无论是矢量,矩阵和概率都没有利用时间连续的信息,所以可以自然地推广到多幅人脸图像(时间上不必连续)作为输入时的人脸识别问题.而动态模型则利用了人脸的时间和空间连续变化的信息,能够更好地刻画人脸的动态变化特性.数据库通常的描述方式可以是矩阵、动态模型、流形.
文献[10]中采用3.1节中介绍的概率模型,通过自动选择人脸视频中的示例(在线K均值聚类),把人脸示例的索引也作为状态变量,采用SIS的方法估计出联合概率密度分布,最后通过边缘化求出身份变量的分布进行人脸识别.文献[7]中对数据库中的每段人脸视频采用PCA变换建立了特征子空间,在特征子空间中建立一个自适应隐马尔可夫模型(hiddenMarkovmodel,HMM),识别阶段就可以计算每个识别序列的后验概率作为相似性度量,并且当满足一定条件时对HMM模型进行更新.文献[12]把运动人脸建模成一个ARMA(auto-regressiveandmovingaverage)模型(用姿态作为状态量,采用外观作为观测量),采用ARMA子空间之间的夹角作为相似性度量.
文献[8,9]和文献[10]的想法类似,认为应该把跟踪和识别结合起来,减少跟踪的误配准对识别的影响.对不同姿态下的人脸构造一个低维分段线性流形.为了引进时间信息,采用贝叶斯推理的方法,建立了不同姿态之间的转移矩阵,该文的算法能够很好地处理人脸的大规模旋转时的识别和跟踪问题.文献[21]首先对所有的人脸利用LLE(locallylinearembedding)降维后建立整体分段线性模型,根据到各个分段子流形的距离采用贝叶斯推理的方法计算最大后验概率.在文献[45]中作者通过实验结果指出利用时空结构的HMM[7]大于一定长度时要优于基于静止图像的多数投票方法,但是当视频的长度过短时则不一定.这说明时间长短对动态模型的识别率会有一定影响.
3.2.5流形
人脸在不同的光照、姿态变化下会构成一个的低维空间的流形[39,46].所以利用流形作为输入描述可以更好地描述人脸的分布.一般对数据库中的人脸采用同样的描述方法.比较输入和数据库中流形的相似性作为度量.
文献[47-49]使用流形来解决基于视频的人脸识别问题,首先建立了一个多视角动态人脸模型,包含了一个3D模型,一个和形状姿态无关的纹理模型,一个仿射变化模型.其基本思想是基于分析的合成,通过最小化损失函数,求解出模型的参数.在视频序列中该问题可以进一步简化,利用Kalman滤波求解出形状和纹理.人脸纹理通过KDA(kerneldiscriminantanalysis)降维后对单个人脸序列建立一个分段的线性流形(特征矢量随着姿态的变化).接着就可以通过比较轨迹的匹配程度进行人脸识别.但是要进行3D模型的估计需要大量的多视角图像,计算复杂度较大.
现有文献中的典型算法总结如表3所示.
表3典型的“视频-视频”人脸识别的方法
输入描述
数据库中人脸的描述
度量方法
典型文献
矢量
PCA特征子空间
重构误差d(x,X)
[33]
LDA降维后跟踪得到身份稳定估计量
欧式距离d(x,x)
[34]
矩阵
混合高斯模型
多数投票/概率累加f(X)
[35]
PCA特征子空间
子空间夹角d(X,X)
[16-18]
核Hilbert空间
核主成分角d(X,X)
[37]
矢量量化/K-均值聚类得到示例
EMDd(X,X)
[19,20]
每个人脸由多个局部模型组成
每个局部模型建立双子空间概率模型
多数投票f(X)
[38]
两个PCA特征子空间
多数投票d(X,X)
[6]
3D模型得到的合成人脸图像
距离累加d(X,X)
[42]
概率
K-L测度d(f,f)
[13]
单高斯模型
[5]
核PCA建立的单高斯模型
RAD测度d(f,f)
[14]
动态模型
在线K均值聚类得到示例
最大后验概率D(X)
[10]
隐马尔可夫(HMM)模型
最大后验概率d(D,D)
[7]
自回归滑动平均(ARMA)模型
ARMA子空间夹角d(D,D)
[12]
PCA子空间内分段线性流形
最大后验概率d(D,M)
[8,9]
LLE降维后分段线性流形
[21]
流形
KDA降维后分段线性流形
轨迹匹配d(M,M)
[47-49]
3.3小结
综上可以看出“视频-图像(多幅图像)”人脸识别和“视频-视频”人脸识别研究的主要问题包括:
(1)如何对高维的人脸图像降维;
(2)如何对降维后的人脸序列进行描述;
(3)如何刻画描述方式之间的度量;
人脸数据降维的目的是得到表达性特征(如主成分分析等)或鉴别性特征(如线性鉴别分析等)以降低高维人脸数据的计算复杂度和减弱噪声、表情、光照等因素的影响[50].对各种常见线性和非线性的降维方法研究的介绍可参考文献[51].
现阶段对降维后的人脸序列描述方式包括矢量、矩阵、概率、动态模型、流形等.其中采用概率和流形的方法需要大量反映人脸分布的样本才能更准确的刻画人脸的分布,达到较好的性能.利用动态模型能够很好地利用时间和空间的信息,但是方法相对比较复杂,计算量一般都比较大.而利用矢量作为输入描述方式的主要缺点是样本选取的随机性.矩阵方式最为简单,并且可以应用到时间上不连续的多幅图像情况,但如何更好地刻画矩阵之间的度量是一个值得研究的内容.
4常用的视频人脸数据库及一些实验结果
目前基于视频的人脸识别常用的视频人脸数据库包括Mobo(motionofbody)数据库[52]和Honda/UCSD数据库[8,9].Mobo数据库最初是CMU为了HumanID计划进行步态识别而采集的数据库.整个数据库包含25个人在跑步机上以四种不同的方式行走的视频序列.行走的方式包括慢速行走、快速行走、斜面行走和拿球行走.正面角度拍摄的视频序列共99段(一段丢失).UCSD/Honda数据库包含20个人的共52段视频.数据库中的人脸视频包含了大规模的2D(平面内)和3D(平面外)的头部旋转.另外