基于嵌入式平台的人脸检测系统设计外文翻译资料
2022-11-03 18:08:54
基于多任务级联卷积神经网络的人脸检测与对准
Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, Senior Member, IEEE, and Yu Qiao, Senior Member, IEEE
摘要:在无约束环境中的面部检测和对准具有很强的挑战性,这是由于人脸可以摆出各种姿势,照明条件不一和遮挡问题。最近的研究表明,深入学习的方法可以在这两个任务上取得令人印象深刻的表现。 在这个论文中,我们提出了一个深层次的多任务框架,利用它们之间的固有相关性来提升他们的性能。特别是我们的框架采用级联方式结构,有三个阶段的经过仔细设计的深卷积网络,去粗取精地预测面部和人脸关键点位置。另外,在学习过程中,我们提出一种新的在线hard sample mining策略,可以自动提高性能,而无需手动sample selection。实验证明,我们的方法在具有挑战性的FDDB和WIDER人脸测试标准集上具有很高的精度,并且在AFLW基准也表现出良好的性能。
关键词:人脸检测,面部对准,级联卷积神经网络
1.引言
面部检测和对准对于许多基于人脸的应用场景来说至关重要,例如如面部识别和面部表情分析。然而,当面部发生大的视觉变化,如遮挡,大姿势变化和极端照明,这就对实现上述两项任务应用于实际场景提出了巨大挑战。
由Viola和Jones提出的级联面部检测器[2]利用Haar-Like功能和AdaBoost来训练级联分类器,实现了良好的性能和检测效率。然而,很多作品[1,3,4]表明当受到光照、姿态、表情、噪声和遮挡等因素的影响,即使使用更高级的特征和更多的分类器,该检测器在现实世界的应用程序中效果还是欠佳。 除了级联结构,[5,6,7]引入了可变形部件模型(DPM),他们在面部检测上取得了显着成绩。然而,他们需要耗费时间进行大量计算,而且在模型训练阶段还人为对训练集做大量的注解。最近,卷积神经网络在计算机视觉领域的任务中取得了令人满意的效果,例如图像分类和人脸识别。在最近几年中,由于卷积神经网络在计算机视觉任务上的出色表现,越来越多的基于卷积神经网络的人脸检测方法被提出。Yang et al.[11]为面部属性识别建立并训练了深度卷积神经网络,来获得很高的面部召回率,从而产生面部识别候选窗口。然而由于复杂的卷积神经网络结构,这种方法在实际中要花费大量时间。Li et al.[19]使用级联卷积神经网络来进行面部检测,但是这种方法既要求在面部检测中耗费巨大资源进行运算来获得人脸边框校准,也忽略了面部关键点定位与人脸边框回归之间的内在联系。
对面部对准的研究从来都是计算机视觉领域的热点。基于回归的方法和基于模板匹配的方法是两种流行[12,13,16]的方式。最近,Zhang et 等人提出了一种使用面部属性识别作为辅助任务来增强面部对准的效果,他使用了深度卷积神经网络。
然而,大多数现有的人脸检测和人脸对准方法忽略了人脸检测和对准的内在联系。虽然有几件作品尝试将这两个问题同时解决,但他们的作品仍存在着局限性。例如,Chen等人[18]利用像素值差异特征使用自由树算法进行人脸检测和对准,但是,人为定义的特征限制了其使用效果。Zhang等人使用多任务卷积神经网络来提高多视角面部检测的准确性,然而检测的准确率却受限于弱检测器产生的初始人脸窗口。
另一方面,在模型训练过程中,困难样本采样的挖掘对增强检测器的效果来说至关重要。然而,传统的困难样本采样通常使用离线方式,这就显著增加了手工操作。由此,我们想为人脸检测与对准设计一种在线困难样本采样,用于自动适应当前的训练过程。
在这篇论文中,我们提出了一个新的框架来整合两项任务,通过使用多任务学习统一级联的神经网络。我们提出的卷积神经网络由三个阶段组成。在第一阶段,通过一个浅层的神经网络快速产生人脸候选窗口,然后,通过一个稍微复杂的CNN过滤掉一大部分非人脸窗口。最终,我们使用一个更加复杂强大CNN来限制检测结果并输出面部关键信息点。由于这个多任务学习框架,算法的性能得到了显著提高。本文的贡献主要总结如下:(1)我们为人脸检测和对准提出了一种级联卷积神经网络框架,并出于实时性能的考虑设计了轻量级CNN架构。(2)我们通过使用困难样本在线采样的方式来提高性能。(3)我们在具有挑战性的人脸标准集上进行了大量实验,以显示与现有方法相比本方法在人脸检测和对准上有显著的效果。
2.方法
在这部分,我们会仔细描述本文多提出的人脸检测和对准方法。
A. 整体框架
我们方法总体流程如图1所示。给定一张图片,我们最初将其大小调整到不同的尺度来构建一个图像金字塔,它将作为以下三个卷积神经网络的输入.
图1 我们的级联框架的流程,包括三阶段多任务深卷积网络。首先,通过快速提案网络(P-Net)生成候选窗口。之后,下一阶段我们通过精简网络(R-
Net)改进这些候选人在。在第三阶段,输出网络(O-Net)产生最终边界框和面部关键信息的位置。
Stage 1:我们利用一个完全卷积的网络[?],叫做预处理网络(P-Net),获取候选窗口和它们的边界框回归向量如[29]所示。 然后我们使用估计的边界框回归向量校准候选人。之后,我们使用非最大抑制(NMS)合并高度重叠候选人。
Stage 2:所有的候选窗口被输入另一个CNN,称为精化网络(R-Net),进一步拒绝大量虚假候选窗口,使用边界框回归执行校准,使用NMS合并候选窗口
Stage 3:这个阶段类似于第二阶段,但是在这个阶段我们的目标是更详细地描述脸部位置。尤其是,该网络将输出五个面部关键点信息的位置。
B. 卷积神经网络架构
在[19]中,多个CNN被设计用于面部检测。但是,我们注意到其性能可能受到以下因素限制:(1)一些过滤器缺乏权重的多样性,这可能限制他们产生判别性描述,即具有好的判断力。(2)与其他多类目标检测和分类任务相比,面部检测是二分类任务,所以可能需要较少数量的过滤器,但是需要更多具有判别性的过滤器。为此,我们减少了过滤器的数量,并将5times;5滤波器更改为3times;3滤波器以减少计算量,同时增加深度以获得更好的性能。这些改进,与以前的架构相比[19]我们可以通过较少的运行时间获得更好的性能(结果如表1所示。为了公平比较,我们使用相同的数据进行人脸检测和对准)。我们的CNN架构如图2所示。
C 训练
我们利用三项任务来训练我们的CNN检测器:面部/非面部分类,边界框回归和面部关键信息点定位。
1)面部分类:学习目标制定为两类分类问题。 对于每个样本,我们使用交叉熵损失:
表示一个样本是人脸的概率,概率由网络产生。属于{0,1}代表了参考标准。1表示正样本,0表示负样本。
2)边界框回归:对于每个候选窗口,我们预测其与最近的参考标准之间的偏移(即,边界框的左上角,高度和宽度)。学习目标被定义为回归问题,我们采用每个样本的欧氏距离损失:
是从网络中获得的边界框回归量, 表示参考标准。有四个点的坐标。包括左上、右下、高度和长度,因此是4维的。
3)面部关键信息点定位:类似于边框回归任务,面部关键信息点检测被定义为一个回归问题,我们最小化欧几里德的损失:
是由网路产生的面部关键点的坐标,是参考标准。其中有个5个关键点,包括左眼、右眼、鼻子、左嘴角和右嘴角。因此是10维的。
4)多源培训:由于我们在每个CNN采用不同的任务,因此在学习过程有不同类型的训练图像,如面部,非面部分和部分对齐面部。 在这种情况下,一些损失函数(即等式(1)-(3))没有使用 例如,对于背景区域的样本,我们只计算,另外两个损失设置为0。这可以直接用样本类型指示符来实现。那么整体学习目标可以表达为:
N是训练样本的数量,代表了任务的重要性。我们在P-net和R-net中上使用(=1,=0.5,=0.5 ),在O-net中为了更准确地定位面部关键点使用(=1,=0.5,=1)。{0,1}表示样本类型监视器。在这种情况下,我们使用随机梯度下降训练CNN。
5)在线困难样本采样:与原始分类器训练后的传统困难样本挖掘不同,我们在面部分类任务中进行在线困难样本抽样挖掘,以适应培训过程。
特别地,在每个小批量中,我们对从所有样本的正向传播阶段计算出的loss进行排序,并将其前70%作为硬样本进行选择。 那么我们只计算从反向传播阶段的硬样本的梯度。这意味着我们忽略了在训练时那些对加强探测器没有很大帮助的简便样本。实验表明,这种策略在没有手动样品选择的情况下可以发挥更好的性能。其效果在第三节中得到体现
3、实验
在本节中,我们首先评估困难样本采样策略的有效性。然后,我们将面部检测器和对准与面部检测数据集和基准(FDDB)中的最先进的方法进行比较[25]WIDER FACE [24],以及Wider Benchmarl(AFLW)基准[8]。 FDDB数据集包含一组2,845张图像中5,171个面的注释。 WIDER FACE数据集由32203个图像中的393,703个标记的边界框组成,其中50%的图像根据图像的难度进行三个子集测试,40%用于训练,剩余的用于验证。AFLW包含24,386个面部的面部关键点注释,我们使用与[22]相同的测试子集。最后,我们评估了我们的面部检测器的计算效率。
A 训练数据集
由于我们联合地进行面部检测和校准,我们在训练过程中使用了四种不同的数据注释:(i)负样本:与参考标准的交叠率小于0.3; (ii)正样本:IoU高于参考标准0.65以上; (iii)部分样本:相对参考标准的IoU在0.4和0.65之间; 和(iv)面部关键信息点:标有5个位置的面孔。负样本和正样本用于面部分类任务,正面和部分面部用于边界框回归,并且面部关键点信息用于面部关键点定位。每个网络的训练数据描述如下:
1)P-Net:我们从WIDER FACE [24]随机裁剪多个多块,以收集正面,负面和部分面部。 然后,我们将CelebA [23]的面孔作为面部关键信息。
2)R-Net:我们使用我们框架的第一阶段来检测来自WIDER FACE [24]的面部收集正面,负面和部分面部。,从CelebS [23]中检测标志性面部。
3)O-Net:类似于R-Net来收集数据,但是我们使用我们框架的前两个阶段来检测面部。
B. 困难样本采样的效率
为了评估提出的在线困难样本挖掘策略的贡献,我们训练两个O网(分别采用有和没有在线困难样本挖掘),并比较它们的损失曲线。为了更直接地进行比较,我们只训练O-Nets来进行面部分类任务。所有训练参数,包括网络初始化在这两个O-net中是相同的。为了更容易地比较它们,我们使用修复学习率。 图3(a)显示了两种不同训练方式的损失曲线。明显可以看出,困难样本抽样有利于性能的提高。
C 联合
为了评估联合检测和对齐的贡献,我们评估了在FDDB上(相同的P-Net和R-Net进行公平比较)的两个不同O-Nets(一个网络使用联合检测,另一个不使用联合检测)的性能。我们也比较这两个O-net中边界框回归的性能。图3(b)表明联合面部关键点定位学习任务对于面部分类和边界框回归任务都是有益的。
D面部检测评价
为了评估我们的面部检测方法的性能,我们比较了我们的方法与FDDB中最先进的方法[1,5,6,11,18,19,26,27,28,29],而WIDER FACE中最先进的方法[1,24,11]。 图4(a)(d)表明,我们的方法在两个基准上都大大优于所有先前的方法。 我们也在一些具有挑战性的照片上进行评估我们的方法。
E面部对准评价
在这部分中,我们与以下方法比较了面部对齐性能:RCPR [12],TSPM [7],Luxand face SDK [17],ESR [13],CDM [15],SDM [21] 和TCDCN [22]。 在测试阶段,有13个图像我们的方法无法检测到脸。因此,我们将这13张图像的中心区域作为O-Net的输入。平均误差由估计的标志和参考标准之间的距离来衡量,并且相对于标准化到眼间距离。 图4(e)表明我们的方法优于所有最先进的方法。
F运行效率
给定级联结构,我们的方法可以在联合面部检测和对齐中实现非常快的速度。 在2.60GHz CPU上占用16fps,GPU(Nvidia Titan Black)为99fps。 我们的实现目前是基于未优化的MATLAB码。
图4(a)对FDDB的评估。(b-d)评估WIDER FACE的三个子集 该方法后的数字表示平均精度。(e)AFLW上的面部对齐评估
5 总结
在本文中,我们提出了一种多任务级联CNN的框架,用于联合面部检测和对齐。实验结果表明,我们的方法在保持实时性能的同时,在多个具有挑战性的基准(包括用于面部检测的FDDB和WIDER FACE基准面以及面对齐的AFLW基准)中始终优于最先进的方法。将来我们将利用面部检测和其他面部分析任务之间的固有相关性,进一步提高性能。
参考文献
- Yang B, Yan J, Lei Z, et al. Aggregate channel features for multi-view face detection[C]//Biometrics (IJCB), 2014 IEEE International Joint Conference on. IEEE, 2014: 1-8.
-
P. Viola and M. J. Jones, “Robust real-time face detection. Internationaljournal
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[141040],资料为PDF文档或Word文档,PDF文档可免费转换为Word