多方向多层交叉模式的鲁棒人脸识别外文翻译资料
2022-12-10 16:04:54
英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
多方向多层交叉模式的鲁棒人脸识别
摘要:为了证明无约束的人脸在变化的光照、不同的姿态和不同的表情等因素的影响下的识别的鲁棒性,本文提出了一种新的从人脸图像上提取多方向多层交叉模式(Multi-Directional Multi-Level Dual-Cross Patterns, MDML-DCPs)的方法。MDML-DCPs方法利用高斯向量的一阶导数来减少由于光照的不同对人脸识别造成的影响,并且计算整体和部分的DCP特征。DCP是根据人脸独有的纹理结构建立的一张全新的人脸图像描述。它在计算上十分有效,而且仅在处理局部二进制图案时耗时较多。但是这种发放在处理姿态和表情的变化时鲁棒性很好。总的来说,MDML-DCPs在编码来自多个级别的能够区别个人间的差异性而对个人内部是呈现鲁棒性的面部图像能够有效得到不变的特征。DCP在FERET、CAS-PERL-R1、FRGC2.0和LFW人脸库上完成的人脸识别和人脸验证的任务得到了更好地人脸局部描述。更令人深刻的是用MDML-DCPs方法在LFW和FRGC2.0人脸库上得到了最好的表现。
关键词:人脸识别;人脸图像描述符;人脸图像的表示。
- 引言
人脸识别因科学上的挑战和它在大范围的实际应用中存在的潜在价值已经成为大家热门研究的对象。但是人脸识别只在可控的环境下得到了满意的结果。近期,对于无约束的人脸识别的需求越来越多,例如从网络上搜集的、手机拍摄的和相机拍摄的图像。由于人脸图像的质量的低下和姿态、光照、表情的千变万化,无约束人脸识别成为一个难题。
一个人脸识别系统同城包括人脸表示部分和人脸匹配部分。在人脸匹配部分有多类分类器和两类分类器。多类分类器包括最近邻近分类器(Nearest Neighbor, NN)和稀疏表示分类器(Sparse Representation Classifier, SRC)等。两类分类器包括支持向量机(Support Vector Machine, SVM)和常被用做人脸验证的贝叶斯分析法。在人脸表示中,好的人脸表示是区别个人间的差异性而对个人内部的变化是呈现鲁棒性的。在近期的研究中,有两种主要的人脸识别的方法。一种是以人脸图像描述为基础的方法,另一种是以深度学习为基础的方法。前者有使用方便、数据独立和处理实际环境例如光照和表情变化的影响下的鲁棒性。所以,设计一个有效的人脸图像描述可以看作是人脸识别的重中之重。在设计方法论的基础上,我们可以把已有的人脸图像认为两大类:人为设定描述和以学习为基础的描述。
大部分的人脸描述都是人为设定的,常用的两种设定方法有:局部二进制模式(Local Binary Patterns, LBP)和Gabor小波。LBP主要是将每一个中心像素及其周围的像素的灰度值差异编译成二进制值,最终的人脸图像可以表示为二进制值的级联空间直方图。有许多以LBP为基础的变形方法被提出过。例如,局部三元模式(Local Ternary Patterns, LTP)被提出的主要目的是加强LBP在有噪声的情况下的鲁棒性。过度LBP(Transition LBP, tLBP)和LBP方向编码(Direction coded LBP, dLBP)被提出主要是为了用全新的编码提取LBP的互补信息。此外,Gabor小波的目的在于对多刻度、多方位的人脸图像信息进行编码。其他的著名的人脸识别描述包括局部相位量化(Local Phase Quantization, LPQ)和面向边缘幅度的模式(Patterns of Oriented Edge Magnitudes, POEM)。在LPQ方法中,将对人脸图像的模糊不变量进行编码,并且这种方法在无约束条件下有较好的结果。POEM方法主要是计算图像边缘幅度的LBP特征。
最近以学习为基础的描述符LE,局部边缘模式(Local Quantized Patterns, LQP)和判别人脸描述符(Discriminant Face Descriptor, DFD)等以无监督和监督的学习方法为基础的优化编码器被提出。以学习为基础的描述符优于认为设定的描述符的一个很重要的原因是他在样本行政和大小上更加多样化。
尽管现有的人脸图像描述已经有很成功的应用,但是以下三点值得注意。首先,人类面孔的文本特征在现有的描述的设计中被忽略了。其次,人为设定的描述采用大样本所产生的编码方案和特征尺寸大的并发症一般是禁止的(例如,直方图的数量)。然而,一个大的采样大小是可取的,因为它提供了更好的辨别力,并且已被证明的以学习为基础的描述符,因此,有理由考虑对于认为设定描述是不可能利用大样本的大小。第三、虽然最近提出的描述符如Gabor滤波和码本的学习有良好的性能,但是需要使用成本昂贵的计算技术。因此,它将是可取的,以获得具有优异的性能,保留了较低的计算成本和特征尺寸的人脸图像描述符。
为了解决这三个现有技术的局限性,本文提出了一种新的人脸图像描述称为双十字图案(Dual-Cross Patterns, DCP)。灵感来自人类面临的独特结构,DCP编码阶判别信息的主要面部组件的方向:水平方向的眼睛,眉毛和嘴唇;在垂直方向上的鼻子和面部组件的端部的对角线方向(、)。采样策略采用样本的像素为LBP的两倍。在最大联合熵的角度通过适当的分组采样的像素,我们保持DCP的特征尺寸合理。DCP是非常有效的,计算成本只有LBP的两倍。明显的,当sub-DCP(DCP- 1和 DCP-2)和LBP有完全相同的时间和内存时能够表现出更好的性能。
一个强大的人脸表示方案和一个良好的人脸图像描述在进行不受约束的人脸识别时同样重要。为了提高人脸表示的区别性,甚至更一般的图像表示,通常的方法是融合不同的描述符和在不同的尺度提取的信息。为了提高鲁棒性的姿态变化,Wright扩展了图像修补程序的空间位置,并用直方图量化的补丁描述符代表了脸图像。Ding提出表示人脸图像只使用未被遮挡的面部纹理,在三维自动检测对归一化的人脸图像。近年来,人脸定位技术的快速发展得益于人脸表征。例如,Chen从多尺度图像补丁周围密集的面部特征点提取LBP特征建立了一个高维人脸表示。对于其他有代表性的面孔表示,我们呈现给作者最近的一些文章。
在本文中,我们提出了一个非常强大并且有很强的区分能力的人脸表示方法称为多方向多层次的双十字图案(MDML-DCPs)。 具体而言,该方案利用高斯算子的一阶导数进行多向过滤,从而减少光照差异的影响。本文将在整体和局部分别计算出DCP特征。其一是整体的特点,结合面部轮廓和面部组件及其配置。其二局部的特点,是针对于一个人脸中每个组成部分的描述。因此,该方法能够得到综合编码多层次不变特征的人脸图像。
无论是DCP描述符还是MDML-DCPs的方法在FERET、CAS-PEAL-R1、FRGC2.0和LFW四个大型数据库上得到了很好的结果。DCP描述符在人脸识别和人脸验证表现了一致的性能优越。更令人印象深刻,该方法仅仅利用一个单一的描述符,但是却在FRGC2.0和LFW这两个无约束人脸库有最佳性能。再者,本文在先进的人脸描述却很少在人脸识别领域中使用的方法中提供了一个公平和系统的比较。论文的其余部分如下:第2结详细介绍DCP描述符。第3节详细介绍了如何建设MDML-DCPs人脸代表的方法。第4节首先介绍了用MDML-DCPs实现人脸识别。第5节为实验结果,第6节为结论。
- 双交叉模式
人脸图像描述符的设计包括三个主要部分:图像滤波,局部采样,模式编码。图像滤波的实现比较灵活,可能的方法包括Gabor小波,高斯差(DoG),或最近提出的有差别的图像过滤器。在本文中,我们重点针对于局部采样和模式编码的研究,同时也是人脸图像描述符的核心部件。
2.1 局部采样
DCP的本质是进行局部采样和在人脸图像中最有代表性的方向编码的模式编码。对于人脸识别,有用的人脸图像信息由两部分组成:面部组分结构和每个面部组分的形状。事实上,面部组件的形状是相当规则的。在将人脸图像几何归一化后,中央部分的几个面部组成部分,即眉毛,眼睛,鼻子和嘴,延伸或水平或垂直的,当它们的末端收敛于大约对角线方向(和)。在此外,额头上的皱纹是平的,而那些在脸颊上的则是向上或倾斜。
图1 Dual-Cross模式的局部采样
在图1中,16个点围绕着中心点O。 属于内圈,半径为,同时 属于外圈,其半径为。基于上述观察,局部采样DCP是如图1所示进行。对于每个图像中的像素,我们对称的取样。我们选取在本地附近的 和共八个方向进行取样,因为这是足够总结主要面部纹理的方向。在每个方向上选取两个像素点进行采样。由此产生的采样点被表示为。是内半径为 的圆上均匀分布的八个点,而是是外半径为 的圆上均匀分布的八个点。
2.2 模式编码
实现采样点的编码共有两个步骤。首先,纹理信息中的八个方向独立编码。其次,模式在所有八个方向结合形成DCP编码。
为了量化在每个采样方向的纹理信息,我们指定每个为一个十进制数:
(1)
其中:
(2)
,和分别是点和的灰度值。因此,根据每个方向的二阶编码定义了四种模式,这四种模式中的每一种都表示一种纹理结构。
由于同时考虑所有八个方向,DCP编码总数是。这个数字对于实际人脸识别应用而言显得过大的;因此,我们采取以下策略。八个方向被分为2个子集,每个子集进一步制定编码器。以这种方式,总数目减少到,这使得计算效率更高。虽然这一战略会丢失信息,描述符的紧凑性和鲁棒性被推广。在下面的小节,我们定义最佳的分组模式。
2.3 双交叉分组
在前面的小节中介绍的八个方向的分组策略产生35个组合。尽量减少信息损失,我们利用最大联合熵的方法来寻找最佳组合。
结合上述分析,是离散的,变量有四个可能的值:0,1,2,和3。不考虑亏损的一般性,的联合熵的表示为:
(3)
其中和分别对应和的值。特别的发生的概率相同。当他们相互独立的时候能够得到最大联合熵。
在真实的图像中,更稀少的像素是分散的,他们更是独立。因此,每个子集的最大联合熵产生的条件是采样点之间的距离最大。因此,我们定义 作为第一部分,作为第二部分。由此产生的两个子集如图2所示。由于这两个子集的每个构造的形状是一个交叉, 建议的描述符被命名为双交叉模式。 在第5.1节中,经过我们的经经验证,双交叉分组的所有分组模式在FERET数据库中能够达到最大联合熵。
2.4 DCP的人脸图像描述符
我们的命名两个编码器分别为和。由编码器产生的对于每个像素点的编码表示为
(4)
(5)
图像中的每个像素点的DCP描述符由两个交叉编码器生成的两码级联:
(6)
在用双十字编码器对人脸图像中的每个像素进行编码后,我们得到两个被分为一个网格的非重叠区的码图。计算各DCP编码的直方图区域,最终将所有直方图被连接起来形成整体人脸表示。上述的人脸表示方法的整体框架如图2所示。这种人脸表示可以直接用来衡量两张人脸图像的相似性。DCP的描述符的特征尺寸是LBP的两倍,并且是一种非常有效的方法。
我们注意到最近提出两个的描述符 DFD和中心对称的双像素(Center Symmetric of Pixels, CCS-POP)采用了和DCP类似的采样模式。不过 他们和DCP的本质不同。第一,无法确认通过那两种采样模式得到的结果是否与原图像合适。第二, 模式编码策略是不同的:两个描述符都用如第1节中所提到的学习算法来处理大样本量问题。
图2 双交叉模式的人脸识别
在图2中,归一化后的人脸图像分别被2个交叉编码器编码。DCP编码区域的直方图组合形式的人脸表示DCP。
3. 多方向多层次的交叉模式
为了解决无约束人脸识别的问题,我们现在提出了一种基于 DCP方法的获取人脸代表的方法称为多方向多层次的双交叉模式(MDML-DCPs)。
3.1 MDML-DCPs方法
无约束人脸识别的一个主要困难是许多因素使得人脸图像产生显著的个体差异,特别是 光照变化、图像模糊、遮挡、姿势变化和表情变化。我们利用多向梯度过滤减轻这些因素对多层次人脸表示的影响。
在MDML-DCPs方法中,高斯算子的一阶导数(FDG)是用来将一个灰度人脸图像变为对光照变化有更好的鲁棒性的多向梯度图像。FDG在梯度方向为 情况下的滤波器可以表示如下:
(7)
其中 表示滤波方向的向量和 表示二维高斯滤波器。FDG的应用的灵感来自于Canny的经典作品。这表明,根据信噪比 (信噪比)最大化,边缘定位精度保护和单刃单响应三个标准,FDG是最优梯度滤波器。这三个标准可以用来提高面部纹理信息,抑制噪声。FDG相比其他梯度的过滤器明显节省了计算成本,例如Gabor小波。我们将从滤波器中提取的图像作为MD-DCPs。
为了建立的姿态强大的人脸表示,MDML-DCPs利用基于相似变换和仿射变换将人脸图像进行归一化。相似变换能够保留面部轮廓信息和面部组件和它们的配置。仿射变换减少由姿态变化引起的外观差异。
MDML-DCPs是利用两种变换结合正常人脸图像整体水平和局部水平的方法。整体水平能够捕捉面部组成和面部轮廓的综合信息。但是,它对外观上的每个由闭塞、姿态和表情变化引起的变化很敏感。相比之下,局部水平的功能重点在于描述一个单一的面部成分。因此,局部水平是独立于外观上其他组成部分的变化。用这种方式的信息得到的这2个功能级别是互补的,并且
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[31188],资料为PDF文档或Word文档,PDF文档可免费转换为Word