人脸识别综述.docx

资源描述

人脸识别综述.docx

《人脸识别综述.docx》由会员分享，可在线阅读，更多相关《人脸识别综述.docx（10页珍藏版）》请在冰豆网上搜索。

人脸识别综述.docx

人脸识别综述

1引言

人脸识别技术的研究始于20世纪50年代，当时的研究人员主要涉及的是社会心理学领域；最早AFR（AutoFaceRecognition）的研究论文见于1965年陈（Chan）和布莱索（Bledsoe）在PanoramicResearchInc.发表的技术报告。

近年来，人脸识别研究得到了诸多研究人员的青睐，涌现出了诸多技术方法。

尤其是1990年以来，人脸识别更得到了长足的发展。

几乎所有知名的理工科大学和主要IT产业公司都有研究组在从事相关研究。

人脸识别研究的发展可分为以下三个阶段：

第一阶段（1964年~1990年）。

这一阶段人脸识别通常只是作为一个一般性的模式识别问题来研究，所采用的主要技术方案是基于人脸几何结构特征（Geometricfeaturebased）的方法。

第二阶段（1991年~1997年）。

这一阶段尽管时间相对短暂，但却是人脸识别研究的高潮期，可谓硕果累累：

不但诞生了若干代表性的人脸识别算法，美国军方还组织了著名的FERET人脸识别算法测试，并出现了若干商业化运作的人脸识别系统，比如最为著名的Visionics（现为Identix）的FaceIt系统。

美国麻省理工学院（MIT）媒体实验室的特克（Turk）和潘特（Pentland）提出的“特征脸”方法无疑是这一时期内最负盛名的人脸识别方法。

第三阶段（1998年~现在）。

FERET’96人脸识别算法评估表明：

主流的人脸识别技术对光照、姿态等由于非理想采集条件或者对象不配合造成的变化鲁棒性比较差。

因此，光照、姿态、表情、遮挡问题逐渐成为研究热点。

人脸识别是一项既有科学研究价值，又有广泛应用前景的研究课题。

国际上大量研究人员几十年的研究取得了丰硕的研究成果，自动人脸识别技术已经在某些限定条件下得到了成功应用，人脸识别技术的研究对模式识别，人工智能，计算机视觉，图像处理等领域的发展有巨大的推动作用。

人脸识别问题可以定义成:

输入（查询）场景中的静止图像或者视频，使用人脸数据库识别或验证场景中的一个人或者多个人。

基于静止图像的人脸识别通常是指输入（查询）一幅静止的图像，使用人脸数据库进行识别或验证图像中的人脸。

而基于视频的人脸识别是指输入（查询）一段视频，使用人脸数据库进行识别或验证视频中的人脸。

如不考虑视频的时间连续信息，问题也可以变成采用多幅图像（时间上不一定连续）作为输入（查询）进行识别或验证。

人脸自动识别系统包括三个主要模块[1]：

首先是图像预处理模块，由于实际成像系统多少存在不完善的地方以及外界光照条件等因素的影响，在一定程度上增加了图像的噪声，使图像变得模糊、对比度低、区域灰度不平衡等。

为了提高图像的质量，保证提取特征的有有效性，进而提高识别系统的识别率，在提取特征之前，有必要对图像进行预处理操作；其次人脸的检测和定位模块，即从预处理的图像中，利用人类检测器（目前人脸检测方法主要以Adaboost算法为主，OPENCV在这方面做的比较好）找出人脸及人脸所在的位置，并将人脸从背景中分割出来，对库中所有的人脸图像大小和各器官的位置归一化；最后是对归一化的人脸图像进行特征提取（提取局部特征已逐渐成为主流），建立特征描述子，将图像之间的特征进行匹配进而完成识别。

2概述

人脸识别方法大致分为以下几种：

基于几何特征、基于代数特征[2]、基于神经网络模型以及基于三维模型。

（1）基于几何特征

基于几何特征的人脸识别方法是在抽取人脸图像上显著特征的相对位置及其参数的基础上进行识别。

最早的人脸识别是用手工的方法确定人脸特征点的位置并将其输入计算机中。

识别工作的流程大体如下：

首先检测出面部特征点，通过测量这些关键点之间的相对距离（欧式距离、马氏距离等），得到描述每个脸的特征矢量，比如眼睛、鼻子和嘴的位置和宽度，眉毛的厚度和弯曲程度等，以及这些特征之间的关系，用这些特征来表示人脸。

比较未知脸和库中已知脸中的这些特征矢量，来决定最佳匹配[3]。

基于小模板匹配的方法属于几何特征识别，是已知一个小模板，在人脸的大图像中进行匹配，如果匹配成功，就可以确定其坐标位置[4]。

基于几何特征的缺点显而易见，对获得的图像要求很高，特征点的定位非常重要，通常人脸特征点的定位会存在误差，这种方法对正面人脸可以取得一定识别效果，如果人脸姿态存在一定的偏转或有遮挡都会很大程度上影响识别的准确性。

（2）基于代数特征

基于代数特征的人脸识别方法具有代表性的是PCA（主元分析法）[5]、K-L（卡胡南－列夫）[6]变换和SVD（奇异值分解）[7]等方法。

其主要思想：

对于一副由N个象素组成的图像，可以看作是一个N维矢量空间，采用不同的变换方法，能够有效的提取主分量，通过对人脸样本集的自相关矩阵的特征矢量的选取，构成一个正交的低维人脸空间，从而达到降低冗余、提高识别率的目的。

利用主元分析法（PrincipleComponentAnalysis简称PCA）进行识别是由Anderson和Kohonen提出的。

PCA方法最早由Sirovitch和Kirb[8,9]引入人脸识别领域,并因为它的有效很快流行起来。

简单地说，它的原理就是将一高维的向量，通过一个特殊的特征向量矩阵，投影到一个低维的向量空间中，表征为一个低维向量，并不会损失任何有用信息。

也就是说，通过低维表征的向量和这个特征向量矩阵，可以完全重构出所对应的原来的高维向量。

K-L变换与SVD分解的思想同PCA都差不多，降维到低维向量空间后要运算的分量大大地减少了。

采用代数特征识别人脸具有以下的特征：

良好的稳定性；位移不变性；特征向量与图像的高度成比例变化；转置不变性等。

但是代数特征对表情不能很好地描述，难以用于表情分析和表情识别。

（3）基于神经网络模型

神经网络由许多并行运算的功能简单的单元组成，是一个非线性动力学系统，其特色在于信息的分布式存储的并行协同处理，具有良好的容错能力。

神经网络主要的应用是对已经提取主特征的特征值进行分类。

比较成熟的是PCA+ANN（主元分析+人工神经网络），用K-L+ANN（K-L变换+人工神经网络）[10]、SVD+ANN（奇异值分解+人工神经网络），也有直接用NN+NN（神经网络+神经网络）进行人脸识别的，不过这样所要计算的分量太大了，训练与工作的时间要长很多。

有代表性的神经网络模型有：

BP网络、RBF网络、Hopfield模型等。

如图所示的是PCA＋BP神经网络的例子，其中输入层结点的个数与主元分析后低维向量的个数相等输入到BP神经网络的输入层结点中，隐层结点的个数在构造BP网络时就已经定义好了，输出层结点的个数与样本的数量有关，要能达到分类的目的。

基于神经网络的方法，结构上类似于人脑，但由于原始灰度图像数据量十分庞大，神经元数目通常很多，训练时间很长，而基于冯诺伊曼结构也受到了限制。

（4）基于三维模型

三维人脸识别[11]最初是从几何方法发展来的，出发点是希望利用三维的人脸识别处理技术，解决传统二维照片识别中因为人脸的姿态、光照等对识别造成的干扰问题，在三维的基础上进行特征的提取和识别将有更为丰富灵活详尽的信息可以利用。

三维数据获取已经成为可能（如三维激光扫描技术、CT成像技术、结构光方法等），使得图形技术得到了应用的可能，可以完成人头三维面貌数据获取。

在合成特定人的头部模型时，需要一个基本头部模型，该模型是一个通用的模型，特定人的模型都可以通过对该模型的修改得到。

人类面部特征的位置、分布基本上是一样的，因而特定人脸的模型可以通过对一个原始模型中的特征和其它一些网络点位置进行自动或交互调整而得到。

系统的内部有一个原始的人头模型，以后所有特定模型的建立都是基于这个原始模型。

基于三维模型的识别方法是未来的对人进行识别的方向，因为在三维模型中，可以对人的头部从任意角度获得信息，具有良好的抗干扰能力，该方法的重点和难点是如何建立人脸三维模型以及如何在模型之间实现匹配。

基于三维的人脸识别还需要做很多的工作，目前还没有什么实质性的研究应用成果。

由文献[12]看出早期的图像目标识别技术采用基于模型的方法，这种方法需要以目标的三维模型作为系统的输入，由于图像中通常存在遮挡、背景干扰以及光照等成像条件变化，建立目标的三维模型往往比较困难，因此基于模型的方法通常在图像背景较简单的情况下可以取得较好的效果。

文献[13-26]看出人们逐渐将研究的重点转向了基于目标表象的识别方法。

其中文献[13][14][15]是基于全局特征的方法，根据图像整体的信息建立模型，因此这类方法对于图像中的背景干扰和遮挡比较敏感，当待识别图像中背景干扰和遮挡影响较小，或者待识别目标可以较好地从待识别图像中分割出来时，这类方法可以取得理想的识别效果。

文献[16-26]是基于局部特征的方法。

其中[17][18][22][23][24][25][26]是基于局部不变特征的方法，此方法利用从图像中提取的局部不变特征来对图像目标建模，可以有效克服背景杂波以及遮挡等的影响，综合近年文献资料及VOC（VisualObjectClassChallenge）竞赛报告不难看出，基于外观表象的局部不变特征方法已经取代全局特征方法成为了主流方法。

文献[27][28][29][30][31]介绍了在图像局部不变特征提取的基础上，基于词汇包（Bow）的图像表征和目标建模方法是目前的典型方法。

文献[32]利用奇异值提取人脸的全局特征和6个关键部分的局部特征进行加权融合得出特征融合矩阵有效解决了SVD识别率不高和LDA小样本空间问题。

文献[33,34]采用的人脸识别方法都是以提取SIFT（ScaleInvariantFeatureTransform）特征为基础。

其中文献[33]基于SIFT算子识别方法，结合K-means聚类的模式匹配策略，采用局部相似性和全局相似性的计算方法对人脸图像进行相似度匹配，并在匹配过程中使用基于概率统计的权值赋予方案和相似度的平方来提高识别的准确性。

文献[34]提出一种基于尺度不变特征变换（SIFT）和增强Hough变换的人脸识别方法。

利用SIFT的位置、尺度、方向和描述符4个信息，通过增强Hough变换消除错配，将候选匹配点和离散点距离进行加权累计获得高辨别力的匹配分。

文献[35]中介绍了在随着目标数目及特征样本数量的增加，关键特征词类属概率倾向性逐渐减弱的情况下，采用基于SOM神经网络的聚类树方法对近500类目标5万多幅图片提取的2百多万个SIFT特征描述子进行聚类，得到了25300多个特征词汇。

文献[35]提出了一种基于RSOM（recursivesel-forganizingmapping,RSOM）树、利用SIFT（scaleinvariantfeaturetrans-form）特征为索引的海量图像集中K近邻的求解方案。

对图像编号并提取SIFT特征,依据SIFT特征将图像的编号存储至RSOM树的叶节点中;搜索时用匹配的SIFT特征个数作为指标获得K近邻图像的候选集,用迭代Pro-crustes方法几何约束得到精确求解结果。

文献[37]介绍了属性图理论，他为将一幅图像的局部特征及其空间布局关系作为一个整体这种结构化数据的表示和分析提供了理论基础。

由于现有的大部分人脸数据库都是静止图像人脸数据库,如何充分利用视频中的人脸信息更好地进行人脸识别是现阶段迫切需要解决的问题。

解决这类问题的传统做法[38-40]可以分成两大类:

一类方法对输入视频中的人脸进行跟踪,寻找满足一定规则（如大小、姿态、清晰度等）的人脸图像,然后利用基于静止图像的人脸识别方法；另一类方法利用视频中的空间信息进行人脸识别,通过对输入视频中每一幅人脸或者若干幅人脸采用基于静止图像的人脸识别方法[41-43]。

近年来,一些研究者开始利用视频

展开阅读全文