计算机视觉：人脸识别综述与展望

时间：2012-08-16 16:10:56

关键字：人脸识别计算机视觉 HM 矢量

手机看文章

扫描二维码
随时随地手机看文章

[导读]摘　要　本文综述了人脸识别理论的研究现状，根据人脸自动识别技术发展的时间进行了分类，分析和比较各种识别方法优缺点，讨论了其中的关键技术及发展前景。关键词　人脸识别；特征提取1　人脸识别技术概述近年来，随

摘　要　本文综述了人脸识别理论的研究现状，根据人脸自动识别技术发展的时间进行了分类，分析和比较各种识别方法优缺点，讨论了其中的关键技术及发展前景。

关键词　人脸识别；特征提取

1　人脸识别技术概述

近年来，随着计算机技术的迅速发展，人脸自动识别技术得到广泛研究与开发，人脸识别成为近30年里模式识别和图像处理中最热门的研究主题之一。人脸识别的目的是从人脸图像中抽取人的个性化特征，并以此来识别人的身份。一个简单的自动人脸识别系统，包括以下4个方面的内容：

（1）人脸检测（Detection）：即从各种不同的场景中检测出人脸的存在并确定其位置。

（2）人脸的规范化（Normalization）：校正人脸在尺度、光照和旋转等方面的变化。

（3）人脸表征（Face Representation）：采取某种方式表示检测出人脸和数据库中的已知人脸。

（4）人脸识别（Recognition）：将待识别的人脸与数据库中的已知人脸比较，得出相关信息。

2　人脸识别算法的框架

人脸识别算法描述属于典型的模式识别问题，主要有在线匹配和离线学习两个过程组成，如图1所示。

图1 一般人脸识别算法框架

在人脸识别中，特征的分类能力、算法复杂度和可实现性是确定特征提取法需要考虑的因素。所提取特征对最终分类结果有着决定性的影响。分类器所能实现的分辨率上限就是各类特征间最大可区分度。因此，人脸识别的实现需要综合考虑特征选择、特征提取和分类器设计。

3　人脸识别的发展历史及分类

人脸识别的研究已经有相当长的历史，它的发展大致可以分为四个阶段：

第一阶段：人类最早的研究工作至少可追朔到二十世纪五十年代在心理学方面的研究和六十年代在工程学方面的研究。

J. S. Bruner于1954年写下了关于心理学的The perception of people，Bledsoe在1964年就工程学写了Facial Recognition Project Report，国外有许多学校在研究人脸识别技术［1］，其中有从感知和心理学角度探索人类识别人脸机理的，如美国Texas at Dallas大学的Abdi和Tool小组［2、3］，由Stirling大学的Bruce教授和Glasgow大学的Burton教授合作领导的小组等［3］；也有从视觉机理角度进行研究的，如英国的Graw小组［4、5］和荷兰Groningen大学的Petkov小组［6］等。

第二阶段：关于人脸的机器识别研究开始于二十世纪七十年代。

Allen 和Parke 为代表，主要研究人脸识别所需要的面部特征。研究者用计算机实现了较高质量的人脸灰度图模型。这一阶段工作的特点是识别过程全部依赖于操作人员，不是一种可以完成自动识别的系统。

第三阶段：人机交互式识别阶段。

Harmon 和Lesk 用几何特征参数来表示人脸正面图像。他们采用多维特征矢量表示人脸面部特征，并设计了基于这一特征表示法的识别系统。Kaya和Kobayashi 则采用了统计识别方法，用欧氏距离来表征人脸特征。但这类方法需要利用操作员的某些先验知识，仍然摆脱不了人的干预。

第四阶段：20世纪90年代以来，随着高性能计算机的出现，人脸识别方法有了重大突破，才进入了真正的机器自动识别阶段。在用静态图像或视频图像做人脸识别的领域中，国际上形成了以下几类主要的人脸识别方法：

1）基于几何特征的人脸识别方法

基于几何特征的方法是早期的人脸识别方法之一［7］。常采用的几何特征有人脸的五官如眼睛、鼻子、嘴巴等的局部形状特征。脸型特征以及五官在脸上分布的几何特征。提取特征时往往要用到人脸结构的一些先验知识。识别所采用的几何特征是以人脸器官的形状和几何关系为基础的特征矢量，本质上是特征矢量之间的匹配，其分量通常包括人脸指定两点间的欧式距离、曲率、角度等。

基于几何特征的识别方法比较简单、容易理解，但没有形成统一的特征提取标准；从图像中抽取稳定的特征较困难，特别是特征受到遮挡时；对较大的表情变化或姿态变化的鲁棒性较差。

2）基于相关匹配的方法

基于相关匹配的方法包括模板匹配法和等强度线方法。

①模板匹配法：Poggio和Brunelli［10］专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法，并得出结论：基于几何特征的人脸识别方法具有识别速度快和内存要求小的优点，但在识别率上模板匹配要优于基于几何特征的识别方法。

②等强度线法：等强度线利用灰度图像的多级灰度值的等强度线作为特征进行两幅人脸图像的匹配识别。等强度曲线反映了人脸的凸凹信息。这些等强度线法必须在背景与头发均为黑色，表面光照均匀的前提下才能求出符合人脸真实形状的等强度线。

3）基于子空间方法

常用的线性子空间方法有：本征子空间、区别子空间、独立分量子空间等。此外，还有局部特征分析法、因子分析法等。这些方法也分别被扩展到混合线性子空间和非线性子空间。

Turk等［11］采用本征脸（Eigenfaces）方法实现人脸识别。由于每个本征矢量的图像形式类似于人脸，所以称本征脸。对原始图像和重构图像的差分图像再次进行K-L变换，得到二阶本征空间，又称二阶本征脸［12］。Pentland等［13］提出对于眼、鼻和嘴等特征分别建立一个本征子空间，并联合本征脸子空间的方法获得了好的识别结果。Shan等［14］采用特定人的本征空间法获得了好于本征脸方法的识别结果。Albert等［15］提出了TPCA（Topological PCA）方法，识别率有所提高。Penev等［16］提出的局部特征分析（LFA Local Feature Analysis）法的识别效果好于本征脸方法。当每个人有多个样本图像时，本征空间法没有考虑样本类别间的信息，因此，基于线性区别分析（LDA Linear Discriminant Analysis ），Belhumeur等［17］提出了Fisherfaces方法，获得了较好的识别结果。Bartlett等［18］采用独立分量分析（ICA，Independent Component Analysis）的方法识别人脸，获得了比PCA方法更好的识别效果。

4）基于统计的识别方法

该类方法包括有：KL算法、奇异值分解（SVD）、隐马尔可夫（HMM）法。

①KL变换：将人脸图像按行（列）展开所形成的一个高维向量看作是一种随机向量，因此采用K-L变换获得其正交K-L基底，对应其中较大特征值基底具有与人脸相似的形状。国外，在用静态图像或视频图像做人脸识别的领域中，比较有影响的有MIT的Media实验室的Pentland小组，他们主要是用基于KL变换的本征空间的特征提取法，名为“本征脸（Eigenface）［19］。

②隐马尔可夫模型：剑桥大学的Samaria和Fallside［20］对多个样本图像的空间序列训练出一个HMM模型，它的参数就是特征值；基于人脸从上到下、从左到右的结构特征；Samatia等［21］首先将1-D HMM和2-D Pseudo HMM用于人脸识别。Kohir等［22］采用低频DCT系数作为观察矢量获得了好的识别效果，如图2（a）所示。Eickeler等［23］采用2-D Pseudo HMM识别DCT压缩的JPEG图像中的人脸图像；Nefian等采用嵌入式HMM识别人脸［24］，如图2（b）所示。后来集成coupled HMM和HMM通过对超状态和各嵌入状态采用不同的模型构成混合系统结构［25］。

基于HMM的人脸识别方法具有以下优点：第一，能够允许人脸有表情变化，较大的头部转动；第二，扩容性好。即增加新样本不需要对所有的样本进行训练；第三，较高的识别率。

（a）（b）

图2 （a）人脸图像的1-D HMM （b）嵌入式隐马尔科夫模型

5）基于神经网络的方法

Gutta等［26］提出了混合神经网络、Lawrence等［27］通过一个多级的SOM实现样本的聚类，将卷积神经网络CNN用于人脸识别、Lin等［28］采用基于概率决策的神经网络方法、Demers等［29］提出采用主元神经网络方法提取人脸图像特征，用自相关神经网络进一步压缩特征，最后采用一个MLP来实现人脸识别。Er等［30］采用PCA进行维数压缩，再用LDA抽取特征，然后基于RBF进行人脸识别。Haddadnia等［31］基于PZMI特征，并采用混合学习算法的RBF神经网络进行人脸识别。神经网络的优势是通过学习的过程获得对这些规律和规则的隐性表达，它的适应性较强。

6）弹性图匹配方法

Lades等提出采用动态链接结构（DLA，Dynamic Link Architecture）［32］的方法识别人脸。它将人脸用格状的稀疏图如图3所示。

图3 人脸识别的弹性匹配方法

图3中的节点用图像位置的Gabor小波分解得到的特征向量标记，图的边用连接节点的距离向量标记。Wiskott等人使用弹性图匹配方法，准确率达到97.3%。Wiskott等［33］将人脸特征上的一些点作为基准点，构成弹性图。采用每个基准点存储一串具有代表性的特征矢量，减少了系统的存储量。Wurtz等［34］只使用人脸ICI部的特征，进一步消除了结构中的冗余信息和背景信息，并使用一个多层的分级结构。Grudin等［35］也采用分级结构的弹性图，通过去除了一些冗余节点，形成稀疏的人脸描述结构。另一种方法是，Nastar等［36］提出将人脸图像I（x，y）表示为可变形的3D网格表（x，y，I（x，y）），将人脸匹配问题转换为曲面匹配问题，利用有限分析的方法进行曲面变形，根据两幅图像之间变形匹配的程度识别人脸。

7）几种混合方法的有效性

（1）K-L投影和奇异值分解（SVD）相融合的分类判别方法。

K-L变换的核心过程是计算特征值和特征向量。而图像的奇异值具有良好的稳定性，当图像有小的扰动时，奇异值的变化不大。奇异值表示了图像的代数特征，在某种程度上，SVD特征同时拥有代数与几何两方面的不变性。利用K-L投影后的主分量特征向量与SVD特征向量对人脸进行识别，提高识别的准确性［37］。

（2）HMM和奇异值分解相融合的分类判别方法。

采用奇异值分解方法进行特征提取，一般是把一幅图像（长为H）看成一个N×M的矩阵，求取其奇异值作为人脸识别的特征。在这里我们采用采样窗对同一幅图片进行重叠采样（如图4），对采样所得到的矩阵分别求其对应的前k个最大的奇异值，分别对每一组奇异值进行矢量标准化和矢量重新排序，把这些处理后的奇异值按采样顺序组成一组向量，这组向量是惟一的［38］。

图4 采样窗采样

综合上述论文中的实验数据表明［39］，如表1：

表1 人脸识别算法比较

8）基于三维模型的方法

该类方法一般先在图像上检测出与通用模型顶点对应的特征点，然后根据特征点调节通用模型，最后通过纹理映射得到特定人脸的3D模型。Tibbalds［40］基于结构光源和立体视觉理论，通过摄像机获取立体图像，根据图像特征点之间匹配构造人脸的三维表面，如图5所示。

图5 三维人脸表面模型图6 合成的不同姿态和光照条件下二维人脸表面模

Zhao［41］提出了一个新的SSFS（Symetric Shape- from-Shading）理论来处理像人脸这类对称对象的识别问题，基于SSFS理论和一个一般的三维人脸模型来解决光照变化问题，通过基于SFS的视图合成技术解决人脸姿态问题，针对不同姿态和光照条件合成的三维人脸模型如图6所示。

三维图像有三种建模方法：基于图像特征的方法［42、43］、基于几何［44］、基于模型可变参数的方法［45］。其中，基于模型可变参数的方法与基于图像特征的方法的最大区别在于：后者在人脸姿态每变化一次后，需要重新搜索特征点的坐标，而前者只需调整3D 变形模型的参数。三维重建的系统框图，如图7所示。

图7　三维建模的系统框图

三维人脸建模、待识别人脸的姿态估计和识别匹配算法的选取是实现三维人脸识别的关键技术。随着采用三维图像识别人脸技术的发展，利用直线的三维图像信息进行人脸识别已经成为人们研究的重心。

4　总结与展望

人脸自动识别技术已取得了巨大的成就，随着科技的发展，在实际应用中仍然面临困难，不仅要达到准确、快速的检测并分割出人脸部分，而且要有效的变化补偿、特征描述、准确的分类的效果，还需要注重和提高以下几个方面：