人脸识别系统之我见.docx
《人脸识别系统之我见.docx》由会员分享,可在线阅读,更多相关《人脸识别系统之我见.docx(16页珍藏版)》请在冰豆网上搜索。
人脸识别系统之我见
自动人脸识别之见解
2009-12-22
最早的人脸识别研究可以追溯到上世纪50年代Bruner和Tagiuri于1954年从心理学角度进行的研究,20世纪60年代Bledsoe从工程学角度进行了探索。
早期的研究工作包括Galton对人脸轮廓的生物学测定和Darwin对基于情感的人脸表情研究,但真正的人脸机器自动识别则起步于20世纪70年代。
自上世纪90年代后,自动人脸识别研究越来越受到国内外学者的广泛关注,也积累了大量的研究成果,提出了许多人脸识别技术方法。
我们可以将自动人脸识别技术研究大体分为以下三个阶段:
人脸识别的研究历史比较悠久。
高尔顿(Galton)早在1888年和1910年就分别在《Nature》杂志发表了两篇关于利用人脸进行身份识别的文章,对人类自身的人脸识别能力进行了分析。
但当时还不可能涉及到人脸的自动识别问题。
最早的AFR1的研究论文见于1965年陈(Chan)和布莱索(Bledsoe)在PanoramicResearchInc.发表的技术报告,至今已有四十年的历史。
近年来,人脸识别研究得到了诸多研究人员的青睐,涌现出了诸多技术方法。
尤其是1990年以来,人脸识别更得到了长足的发展。
为了更好地对人脸识别研究的历史和现状进行介绍,本文将AFR的研究历史按照研究内容、技术方法等方面的特点大体划分为三个时间阶段。
自动人脸识别技术(AFR)是一项极具挑战性的前沿研究课题。
它试图通过计算机分析人脸图像并从中提取有效识别信息,达到辨认人员身份的目的。
对AFR技术的研究不仅具有重大的理论和学术研究意义,而且具有潜在的巨大应用价值。
人脸识别是一个热门的研究课题,主要研究方法有:
1)以PCA和LDA为代表的全局特征提取方法,相关论文不断涌现。
个人认为,相关改进方法具有很大的投机性,因为其一般在所选择的几个数据集上说明效果似乎比现有相关方法好(很多时候,现有的方法没有得到很好的实现,如参数的调整等),但是,事实上,这些所谓的新方法在一些更难的数据集上并不能比现有的方法好(在这方面,我有两篇讨论论文,一篇发表在PR,一篇IVC)。
此外,这类方法,很多时候是一种概念上炒作,比如2D等。
这类方法的局限性在于,以传统模式识别的思路来思考人脸识别问题,很少真正意义上考虑人脸的图像属性(也许有人说2D考虑了,但是,我要说,这是个美丽的谎言)。
2)局部算子,以LBP、SIFT等为代表。
这些方法考虑了图像的纹理特征,在FERET上的实验表明,优于1)中的方法。
当然,此类方法,还应该包括局部化的PCA和LDA(这里的局部化指通过划分子模式,而非现在流行的LPP之类方法)。
个人认为,这类方法考虑到了人脸的图像特征,应该是未来值得深入研究的方向。
但是,在这类方法中,块到底分多大(LBP声称对块大小不敏感,这应该是个美丽的谎言),以及开发出更有效的算子是一个值得研究的课题。
3)前两种方法的组合。
目前人脸识别的benchmark以室内受控的图像库为主,但是以FRGC为代表的新数据库开始关注outdoor图像。
我个人认为,就人脸识别而言,再花大精力改进传统统计特征提取方法,并在简单的诸如ORL、YALE上验证其有效性,应该没有多大前途。
我们应该更多以图像的思维来思考人脸识别,提高人脸识别在实际outdoor场合的效果,也许是搞人脸识别人的出路。
欢迎讨论,以促进人脸识别的发展(国内这方面的研究应该还是有相当的实力的,因为,北大和清华都参加了FRGC2006测试,并且结果似乎不怎么坏)。
----------------------------------------------------------------------------------------------------------------------
看到j.liu关于人脸识别的帖子,萌发写这个帖子的念头。
没有别的意思,就是想抛砖引玉,把问题说的全面一点,希望j.liu和回其帖子的兄弟姐妹们不要介意。
如有兴趣,欢迎继续讨论。
在以下讨论中
TPAMI=IEEETransactionsonPAMI这个杂志
PAMI 是指PatternAnalysisandMachineIntelligence这两个领域
1)PCA和LDA及其相关方法
Eigenfaces和Fisherfaces无疑是人脸识别中里程碑式的工作。
就使用的方法而言,PCA和LDA都不是新方法,但是他们都是被第一次十分明确的用在人脸识别中的方法。
之所以说"十分明确",是因为就发表的时间来看,这两个论文都不是首次把这两个方法用在PAMI相关的分类识别中。
这给我们一个小小的启示:
一个新的方法专注于解决一个具体的问题可能会带来更大的影响,虽然这个方法具有一般性。
在现在人脸识别的方法中,这两个方法也是follow的人最多的。
究其原因,除了其有效性之外,简单是其最大的特点。
纵观PAMI历史风云,能经受住时间考验而流传下来的方法,除了有效之外一般都有两个特点其一:
1)简单(PCA,LDA,K-Means,NormalizedCutsetc.);2)复杂,但是解决一个具有一般性而且很难被解决的问题(在AAM、3dmorphablemodel有深刻影响的Lucas-Kanade算法)。
所以如果你的方法一般人都有能力做得到,那就尽量把你的方法做的简单明确。
这就是外国人推崇备至的所谓的Ockham'sRazor原理(就个人情感而言,我十分讨厌这个名词)。
在这里我要强调一点是,这里说的简单并不是说原理简单,NormalizedCuts就方法本身来说简单,但是原理并不简单;微分几何中的Gauss-Bonnet定理形式非常简单,内涵何其丰富。
在此我想多提两句。
由于国内有诸多发论文的方法论,其中一个流传下来的一句话就是:
系统做的越简单越好,理论做的越复杂越好。
不可否认,这句话有它有道理的地方,但是如果用这句话教育后人,误人子弟矣。
后来出现了许多新的与之类似的方法,就TPAMI上发表的来看,比较有代表性就是HEXiaofei的LPP和YANShuicheng的MFA。
关于这两个方法的评论大家可参看j.liu贴中knato的回帖。
在这里我想谈谈我的个人见解。
首先这两个方法的出现有它们的意义。
LPP是流形学习中LaplacianEigenmaps线性化,这样无疑会带动其它流形学习方法在识别问题中的尝试,一个为解决问题找到一个思路,二个为进入寒冬的流形学习找到新的用武之地,虽然这两个都不是上档次的思路,但是潜在影响还是有的。
后来YANGJian的UDP就是在LPP号召下在TPAMI上的产物。
LPP是非监督方法,所以它的识别性能比LDA好的概率极其微弱。
MFA是基于局部数据关系的监督鉴别方法。
它有两个最近临近点数量的参数要调。
这两个参数是这个方法的双刃剑。
参数调的好,MFA会比LDA效果好,调的不好则不行。
这样MFA用起来比LDA复杂,这样如果MFA的性能比LDA好的有限,而用起来复杂得多的话,它终将被历史所抛弃。
另外就像j.Liu在他的帖子中说出的一样,这些方法有一定的投机性,比如这两篇文章的试验,他们都把Fisherfaces(PCA+LDA)设为c-1,虽然这是按照原始论文的取法,但是做过这方面工作的人都知道PCA的主元数目如果取得太大,PCA+LDA的性能会显著降低,在WANGXiaogang的IJCV上的RandomsamplingLDA中清楚地给出了图形说明。
所以他们论文中给出的实验比较不具可信性。
LPP,UDP,MFA都是我们中国人(至少这些方法发表时还都是)为第一作者发表的方法,个人认为其存在有一定的价值,但它们将是PAMI研究发展中的过眼烟云,无法与PCA,LDA相媲美。
2)LDA奇异性问题
众所周知,LDA是基于求解广义特征值问题(Sb*u=Alpha*Sw*u),所以在实际应用时遇到奇异性的问题,就是Sw矩阵不可逆。
在人脸识别中解决这一问题的论文“浩如烟海”。
这也说明了LDA的影响力之大。
在这一类方法中,也有风格之分。
o.PCA降维
在Fisherfaces中采用的就是先用PCA降维,再用LDA,这也是现在处理这一问题的一般方法。
这里有个比较讽刺的事情。
Belhumeur在他的论文里说:
PCAactuallysmearstheclassestogether。
那末既然smearstheclassestogether,既然PCA破坏类的结构,那为什么还要用PCA降维?
而且事实证明,即使在Sw可逆的情况下,用PCAfeatures也会增强LDA在人脸识别中的性能。
这里只能说明,PCA的作用或是PCAfeatures并不是Belhumeur和其以后follow这样说法的人叙述的那样。
PCA虽然简单,但是人们应该对它有个正确的认识,这个以后如果有机会再谈。
a.RDA
至今影响最大最实用的还是基于regularization思想的RDA。
其实这个问题不仅仅在人脸识别中才被注意到。
很早在统计中就被解决过,RDA发表于1989的JournaloftheAmericalStatisticalAssociation杂志上,可见其久远。
在Sw上加一个扰动项也是解决这一问题的最简单方法。
b.子空间投影
论文最多的也就在这一块。
应用knato类似的排列组合方法,令image(Sw)和null(Sw)分别表示Sw的列(像)空间和零空间,则我们可很容易的就列出如下组合方法(强调:
这里却不是提供给大家发论文的方法论,而是以较形象的方式叙述!
),把样本投影到:
aa.image(Sb),bb.null(Sw),cc.image(Sw),dd.image(Sw)+null(Sw),ee.image(Sb)+null(Sw)可并列可串行,ff.image(St)+null(Sw)
以上每一种组合就代表不止一篇论文,在此就不详细列举了。
另外,你还可以把randomsampling技术加进来,这样就可以不止翻倍。
还有,你还可以把同样的技术用到KPCA、KLDA(kFA)上,这样又可翻倍。
更进一步,你还可以把ICA、LBP、Gaborfeatures等诸如此类的东西和以上子空间混合,...,子子孙孙无穷尽焉。
把这个东西做到极致的是国内的YANGJian。
另外香港中文大学的TANGXiaoou和他以前的学生WANGXiaogang也做这相关的工作,但是他们做一个idea就是一个,没有灌水之嫌。
YANGJian的工作可以用他在TPAMI上的KPCAplusLDA这篇文章来概括,虽然他灌水无数,但就子空间方法而言,他这篇文章还有他发表在国内自动化学报上的那篇长文还是有东西的。
如果你想做这一块的工作,值得看一看,是个较为全面的总结。
TANGXiaoou在子空间方面的代表工作(开山之作)就是dualspacesLDA,randomsampling(andbagging)LDA,unifiedsubspaces。
(在此之后他还有学生一直在做,就不详细列举了。
)
我建议想做这一块工作的同学们,要把TANGandYANG的工作烂熟于心,取长补短,相互学习,取其精华,这样可以较为快速而全面地掌握。
c.QR分解
矩阵和数值功底比较好的人,能做得更像模像样。
CheongHeePark和YEJieping无疑是这方面的高手。
去看看他们在TPAMI、JMLR和SIAM的J.MatrixAnal.&Appl上发表的论文可知一二。
d.相关性
如果Sw可逆,则Sb*u=Alpha*Sw*u可以转化为inv(Sw)*Sb*u=Alpha*u。
那末就可以考察Sw的子空间和Sb子空间的相关性。
这方面的代表工作就是AleixM.Martinez在TPAMI上长文的那个工作。
e.变商为差
变u'*Sb*u/(u'*Sw*u)为u'*(Sb-Sw)*u。
3)基于图像局部结构的方法
这一类获得广泛认可的方法有Gabor和LBP,另外还有可能有用的SIFT和differentialfeatures。
Gabor应用比较早且有影响力的代表作就是EBGM。
Gabor也是提取用来识别的visualfeature的最常用手段。
有无数人因为LBP的极其简单而怀疑它的性能,但是有趣的是最近Ahonen在TPAMI上的短文,就是把LBP应用在人脸识别上,没有任何新的改进,这也说明Reviewer们和editor对这类方法的肯定和鼓励。
在非监督featureextraction中,LBP有明显的优势,但是绝对没有达到作者在论文显示的那个水平。
在他的论文中,LBP特别weightedLBP效果非常好,这和他们应用的FERET人脸库的人脸crop形式有关。
他们应用CSU的椭圆模板来crop人脸,如果应用正方形的模板weightedLBP提高很有限。
特别在FRGCVersion2上测试,LBP绝对没有一般监督性的识别方法好。
另外这也给我们一个小小启示,就是加个weight其识别性能就能大大提高,这说明什么问题呢?
另外我不敢苟同j.liu在他文章说的LBP对imageblocks大小不敏感是个美丽谎言的说法。
首先,有一定的敏感性,这个是要承认的。
但是LBP有一个性能稳定的imageblocks,并不是人们认为的histogram要符合一定的统计性等等。
这个blocksize的选取比最优的PCA主元数目的选取要容易得多。
当然这些都是小问题。
国内有人做Gabor和LBP的结合。
当然是值得探索的,但是我个人认为不应该在这两种方法结合上花费太多精力。
完全可以用类似形式考虑别的思路。
4)Sparserepresentation
NMF和NTF都属于sparserepresentation的方法,都曾被应用在人脸识别中,但效果都非常有限。
特别是NTF,属于数学理论上非常优美,但是实际效果很勉强的典型。
另外,Sparserepresentation(coding)是一个很有趣也是很有前途的方法,Sparserepresentation有很多方式,关键要看你怎莫用、解决怎样的问题。
过段时间我们还有机会再谈。
5)Tensor方法
Tensor在人脸识别中至少到现在为止,还非常得不成功。
最典型的就是M.AlexO.Vasilescu在ECCV'02上的tensorfaces。
他们对于问题的分析和tensor的对应天衣无缝,非常有道理,数学实现上也同样简单,但是自从那个方法发表出来以后基本无人follow。
究其原因,个人认为就是把本来简单的问题复杂化,最重要的就是复杂化以后并没有带来该有的益处。
Alex对tensor的应用是flatteninghigh-waytensor。
这是一种常见的处理tensor的方法,这样做的好处就是使tensor好处理易于计算。
two-waytensorfaces就是我们理解的Eigenfaces。
但是同样是tensor,这种tensor和AmnonShashua的NTF有着本质的区别。
NTF是纯正的tensor思想。
但是它实现起来过于复杂,又加上原理比Alex的tensor更复杂,所以无人问津。
但是不可否认,它们都是数学上十分优美的方法。
如果你想学习tensor而又不想枯燥,我推荐你去看这三篇论文(Shashua两篇)。
6)参数模型
参数模型的应用也多种多样,比如HMM、GMM等。
这两个都是一般性的建模方法,所以应用也很庞杂,而且在人脸识别中的应用大多是从speechrecognition中的方法转化而来,在此就不多谈。
有兴趣的同学们可以参看H.Othman在PAMI上的论文和ConradSanderson在PR上的论文。
但是在此其中,最简单的是BabackMoghaddam在TPAMI上那个ProbabilisticSubspaces的文章,这个文章也是WANGXiaogang的unifiedspaces的参考原本。
7)3D模型
代表作是VolkerBlanz在TPAMI上的那个文章。
不过个人十分不看好。
8)PersonalPerspectives
a.基于子空间的方法很难在实际应用中有所用处。
b.基于找图像局部结构的方法更有希望。
像EBGM、LBP、SIFT之类可以给我们很多有益的启示。
这点和j.liu的观点一致。
c.把人脸识别中的方法推广开来,应用到一般的分类和统计问题中,这也是人脸识别衍生出来的一大作用。
d.由于我们国内的特殊研究环境,大家一般都喜欢做简易快的工作,所以人脸识别这一领域出现有华人名字的论文为数可观。
其实在某些压力之下这也无可厚非,但是还是希望我们国人在有条件的情况下,不要以发论文为主,多关注于解决问题本身、尽量向推动理论发展的方向努力。
我们绝对有这个能力。
君不见,NIPS‘06两篇Beststudentpaper被在国外留学的中国人获得,CVPR'07更是又传来喜讯:
Beststudentpaper由清华学生获得,这些都是迹象。
我们正处于一个意气风发、大有可为的时代。
就本人学术水平和资历来说,绝没有资格来说这些话,这只不过是个人的一点心愿和号召而已,同时更是勉励自己。
以上均是dodo个人拙见,囿于本人才疏学浅,难免出现挂一漏万和观点偏颇的情况,还请大家及时批评指正,以免曲彼误人。
----------------------------------------------------------------------------------------------------------------------
在人脸识别系统跟前,可疑学生必须现场拍照,随即在2至3秒之内就能完成传递和检验。
对方将核对现场照片以及库里的照片的相符程度,通过纹理、瞳距等科学手段进行鉴别。
由于技术比较先进,测试时发现即便是双胞胎都能分辨,只要不是一个人,就一定能够鉴别。
看到“人脸识别系统”放在教学楼正中央,视频摄像头与电脑屏幕、读卡器等相连,如果发现可疑考生,考试后就会被带到系统跟前现场拍照“取证识别”。
由于担心机器判断核对会出现疏忽,判断是否替考最终裁定权在招办,由考务人员进行干预。
考试过程中,若监考人员发现考生身份可疑,可在考试结束后对考生进行摄像,通过“人脸识别系统”,对考生的面部进行识别,如面部轮廓、五官、皮肤纹理等,可与考生报考时的资料进行对比核实,只需3秒便可确认考生身份。
通过人脸识别技术,可完美地解决以上所存在的各种问题,计算机不仅分析特征数据而不会被任何外在因素所欺骗,可以快速的进行照片的录入,面部特征提取、分析及验证,也可在指定范围内进行快速的照片搜索和身份判别。
能快速、准确地判定人员和其所持的证件上的照片是否为同一个人。
人脸识别身份验证系统的用途非常广泛。
按照细分的技术应用方向,可应用在公安、国防、金融行业、教育行业、医疗行业、电信和政府行业等需要对人员管理高度敏感和控制的行业。
人脸身份验证的唯一性可杜绝过往通过伪造身份证件来冒充本人的方式,极大提高了行政管理效率。
人脸识别是近年来随着计算机技术、图像处理技术、模式识别技术等技术的快速进步而出现的一种崭新的生物特征识别技术。
它是基于人的脸部特征,对输入的人脸图像或者视频流作分析,进行面部特征提取、分析,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份。
主要分为三个方向:
人脸识别身份验证、人脸识别监控、人脸识别大型搜索与比对。
也可根据客户需求,为其量身定制系统。
人脸识别产品支持一对一验证,一对多识别,以及海量数据库和百万、千万人级模版库,速度快、准确率高、比对准确率接近100%。
支持WEB页面操作及管理,支持多种图像采集设备,支持第二代居民身份证相片的识别比对。
1、人脸识别搜索信息平台
本系统主要应用于公安及国家安全部门,采用国际先进的人脸分析及识别算法,结合本公司在图像处理及大型数据库应用方面的优势与经验,解决了以往通过人工目视识别相貌进行身份甄别所存在的种种弊端。
对于存有百万级人员的数据库,系统在接受客户端的比对请求后,完成面部分析、匹配等一系列过程仅需3秒钟左右,在搜索出数据库内最匹配的人员照片及相应信息的同时,也可根据客户需要列出若干比对分值靠前的人员以扩大搜索范围。
而系统的后台信息自动同步建模服务,可与第三方系统(如全国在逃人员信息系统等)实现数据实时同步。
客户端控件可支持多种图像采集源设备(如数码相机、摄像头、扫描仪等)。
可为公安及国家安全部门建立一个实时的高效的综合信息交互系统,在追逃、破案、寻人、布控人员等应用中发挥巨大的作用,可以大大加快对犯罪嫌疑人员及重点受控人员的身份确认过程。
也可应用于公安系统对常住人口、暂住人口、流动人口、重点人口等系统的计算机管理中,为各系统中的数据比对提供新的手段。
系统性能(100万人数据库):
(1) 平均识别率>88%
(2) 首位命中率>81%,
(3) 前50位命中率>91%,
(4) 误识率<1%;
(5) 单张搜索比对时间<3秒。
系统拓扑图:
2、人脸识别监控系统
本系统是基于布控与监控的需求,利用人脸识别算法与视频监控技术相结合开发出的,对重点监控人员的实时追踪报警的智能视频监控产品。
特别适用于商场、机场、关口、火车站、汽车站、码头、银行等公共场合。
系统在目标进入摄像机的监控范围就能捕获其清晰的面像照片,并可跟踪捕捉其面部照片,将其中某些不能满足质量要求的照片自动过滤掉,把符合质量要求的照片和数据库内监控名单进行比对,如达到预设的相似度,系统会自动给出声、光报警,提示人工处理;同时保存相应照片、时间、通道等记录信息。
系统采用高清工业级摄像机,能使获得的图像能满足识别的质量要求,提高了准确率,支持各种模拟或数字视频输入;采用高性能比对服务计算机,保证系统处理速度能满足实际需求,提高了效率。
前台采用C/S结构,系统稳定;后台采用B/S结构,使管理人员能实现远程统一管理及集中处理;降低了人工监视值守的工作强度,减少人工疲劳,提高工作效率。
系统性能
(1) 人脸捕捉及识别准确率>99%,
(2) 动态匹配成功率>80%,
(3) 误识率<1%;
(4) 单张搜索比对时间<1秒;
(5) 检测8-10帧/秒,4幅人脸/帧
系统拓扑图:
3、人脸识别身份验证系统
传统的身份鉴定方法包括身份标识物品(如钥匙、证件、ATM卡等)和身份标识知识(如用户名和密码)但由于主要借助体外物,一旦证明身份的标识物品和标识知识被盗或遗忘,其身份就容易被他人冒充或取代。
而借助人脸识别技术,可完美地解决以上所存在的各种问题,计算机仅分析特征数据而不会被任何外在因素所欺骗,可以快速的进行照片的录入,面部特征提取、分析及验证,也可在指定范围内进行快速的照片搜索和身份判别。
能快速、准确地判定人员和其所持的证件上的照片是否为同一个人。
人脸识别身份验证系统的用途非常广泛。
按照细分的技术应用方向,可应用在公安、国防、金融行业、教育行业、医疗行业、电信和政府行业等需要对人员管理高度敏感和控制的行业。
人像身份验证的唯一性可杜绝过往通过伪造身份证件来冒充本人的方式,极大提高了行政管理效率。
系统性能
(1)单张比对速度<300毫秒;
(2)系统响应响应时间<3秒;
(3)识别率>99.5%;
(4)误识率<0.1%.
工作流程图
4、考生身份验证管理系统
可应用于各省、市招生考试委员会组织的各类型教育招生和资格考试。
在受理考生