使用多任务级联卷积网络进行联合人脸检测和对齐外文翻译资料

2022-12-19 17:33:49

英语原文共 5 页，剩余内容已隐藏，支付完成后下载完整资料

使用多任务级联卷积网络进行联合人脸检测和对齐

摘要：由于各种姿势，照明和遮挡，无约束环境中的人脸检测和对齐非常具有挑战性。最近的研究表明，深度学习方法可以在这两项任务上取得令人瞩目的成果。在这篇文章中，我们提出了一个深度级联多任务框架，它利用检测和对齐之间的内在联系来提高其性能。特别是，我们的框架利用级联架构，通过三个阶段精心设计的深度卷积网络，以粗略到精细的方式预测面部和关键点位置。此外，我们提出了一种新的在线难样本挖掘策略，可进一步提高实践中的性能。我们的方法在具有挑战性的人脸检测数据集和基准测试以及用于人脸检测的WIDER FACE基准测试中获得了最先进技术的精确度，并在面部对齐的普遍基准测试中注释了面部标志，同时保持了实时性能。

关键词：级联卷积神经网络（CNN），面部对齐，面部检测

引言

人脸检测和对齐在人脸识别和面部表情分析等许多应用中都是必不可少的。然而，人脸的巨大视觉变化，如遮挡、巨大的姿态变化和极端的光照，在现实应用中给这些任务带来了巨大的挑战。
Viola和Jones[2]提出的级联人脸检测器利用Haar-Like特征和AdaBoost对级联分类组进行训练，取得了良好的性能和实时性。然而，相当多的工作[1]，[3]，[4]表明，即使有更先进的特征和分类器，这种探测器在现实世界的应用中也可能会有明显降低，人脸的视觉变化也更大。除了级联结构，Mathias等人[5]-[7]还引入了可变形部件模型用于人脸检测，取得了显著的性能。然而，它们在计算上是昂贵的，并且通常在训练阶段需要昂贵的注释。近年来，卷积神经网络(CNNs)在图像分类[9]和人脸识别[10]等多种计算机视觉任务中取得了显著的进展。受计算机视觉任务中深度学习方法显著成功的启发，一些研究利用深度CNNs进行人脸检测。Yang等人利用[11]训练深度神经网络进行人脸属性识别，得到人脸区域的高响应，从而得到人脸的候选窗口。然而，由于其复杂的CNN结构，这种方法在实践中是费时的。Li等人[19]使用级联CNNs进行人脸检测，但该方法在计算开销较大的情况下，只从人脸检测中提取边界框标定，忽略了人脸关键点定位与边界框回归之间的内在相关性。
人脸对齐也引起了广泛的研究兴趣。该领域的研究工作大致可分为两大类:基于回归的方法[12]、[13]、[16]，以及模板拟合方法[7]、[14]、[15]。最近，Zhang等人提出利用深度CNN将人脸属性识别作为辅助任务来增强人脸对齐性能。
然而，以往的人脸检测和人脸对齐方法大多忽略了这两个任务之间的内在联系。虽然已有的一些研究试图共同解决这些问题，但这些研究仍然存在局限性。例如Chen等人利用像素值差的特征与随机森林联合进行比对和检测。但是，这些人造特点限制了它的性能。Zhang等人[20]使用多任务CNN来提高多视图人脸检测的准确性，但是检测的回归率受到弱人脸检测器产生的初始检测窗口的限制。
另一方面，在训练中挖掘难样本对增强探测器的功率至关重要。然而，传统的难样本挖掘通常以脱机方式进行，这大大增加了手动操作。设计一种在线硬质样本挖掘的人脸检测方法显得很有必要，它能够自动适应当前的训练状态。
在本文中，我们提出了一个新的框架来整合这两个任务使用统一级联的CNNs多任务学习。建议的CNNs包括三个阶段。在第一阶段，它通过一个浅CNN快速生成候选窗口。然后，它通过一个更复杂的CNN来拒绝大量的非人脸窗口，从而改进了窗口。最后，使用更强大的CNN对结果进行再次细化，输出5个面部关键点位置。利用该多任务学习框架，可以显著提高算法的性能。

图1.我们的级联框架的结构，包括三级多任务深度卷积网络。首先，候选窗口是通过快速P-Net生成的。之后，我们通过R-Net在下一阶段对这些候选项进行完善。在第三阶段，O-Net产生最终的边界框和人脸关键点位置。

本文的主要贡献如下:

1）我们提出了一种新的级联CNNs框架，用于联合面部检测和对齐，并精心设计轻量级CNN架构以实现实时性能。

2）我们提出了一种有效的方法来进行在线困难样本挖掘，以提高性能。

3）在具有挑战性的基准测试中进行了广泛的实验，以显示与人脸检测和面部对齐任务中的最新技术相比所提出的方法的显着性能改进。

方法

在本节中,我们将描述我们对人脸检测和校准的方法。

2.1.总体框架

我们方法的总体流程如图1所示。对于给定的图像，我们首先将其大小调整到不同的比例来构建一个图像金字塔，这是以下三个阶段级联框架的输入。

第1阶段:我们利用一个全卷积网络，称为提议网络(P-Net)，来获得候选人脸窗口及其边界框的回归向量。然后根据估计的边界框回归向量校准候选框。之后，我们采用非最大抑制（NMS）来合并高度重叠的候选框。

第2阶段：所有候选人被送到另一个CNN，称为精炼网络（R-Net），它进一步拒绝大量错误候选框，使用边界框回归执行校准，并进行NMS。

第3阶段：这个阶段类似于第二阶段，但在这个阶段，我们的目标是识别更多监督的面部区域。特别的，网络将输出五个面部关键点的位置。

2.2. CNN架构

在[19]中，多个CNN被设计用于人脸检测。但是，我们注意到它的性能可能受到以下事实的限制：（1）卷积层中的一些滤波器缺乏可能限制其辨别能力的多样性; （2）与其他多类异议检测和分类任务相比，人脸检测是一项具有挑战性的二进制分类任务，因此每层可能需要较少数量的过滤器。为此，我们减少了滤波器的数量并将5times;5滤波器改为3times;3滤波器以减少计算量，同时增加深度以获得更好的性能。通过这些改进，与[19]中的先前架构相比，我们可以用更少的运行时间获得更好的性能（训练阶段的结果显示在表I中。为了公平比较，我们在每个中使用相同的训练和验证数据组）。我们的CNN架构如图2所示。我们将PReLU [30]应用为卷积和完全连接层（输出层除外）之后的非线性激活函数。

2.3.实践

我们利用三个任务来实验我们的CNN探测器：面部/非面部分类，边界框回归和面部关键点定位。

面部分类：学习目标被制定为两类分类问题。对于每个样本Xi，我们使用交叉熵损失函数

其中pi是网络产生的概率，表明样本x是一个面。符号yidetisin;{0,1}表示基本事实标签。

边界框回归：对于每个候选窗口，我们预测它与最近的基准实况之间的偏移（即边界框的左，顶部，高度和宽度）。学习目标被表述为回归问题，我们对每个样本xi使用欧几里德损失

其中ybox是从网络获得的回归目标，ybox是人脸实况坐标。有四个坐标，包括左,顶部，高度和宽度，因此yboxisin;R4。

图2. P-Net，R-Net和O-Net的体系结构，其中“MP”表示最大池化，“Conv”表示卷积。卷积和合并中的步长分别为1和2。

3)人脸关键点定位:与边界框回归任务类似，将人脸关键点检测问题表示为回归问题，将欧式损失最小化为

其中ylandmark是从网络获得的面部关键点的坐标，而ylandmark是第i个样本的关键点实况坐标。有五个面部关键点标志，包括左眼，右眼，鼻子，左嘴角和右嘴角，

因此ylandmarkisin;R10。

4）多元训练：因为我们在每个CNN中使用不同的任务，在学习过程中存在不同类型的训练图像，例如面部，非面部和部分对齐的面部。在这种情况下，不使用一些损失函数[即，（1） - （3）]。例如，对于背景区域的样本，我们仅计算Ld e t，而另外两个损失设置为0.这可以直接使用样本类型指示符来实现。然后，整体学习目标可以表述为

其中N是训练样本的数量，alpha;j表示任务重要性。我们在P-Net和R-Net中使用（alpha;det= 1，alpha;box= 0.5，alpha;landmark= 0.5），而在输出网络（O-Net）中使用（alpha;det= 1，alpha;box= 0.5，alpha;landmark= 1）以获得更准确的面部关键点。 beta;ijisin;{0,1}是样本类型指标。在这种情况下，采用随机梯度下降来训练这些CNN是很自然的。

5）在线难样本挖掘：与原始分类器训练后进行传统难样本挖掘不同，我们在面向/非面分类任务中进行在线硬质样本挖掘，适应训练过程。

特别是，在每个小批量中，我们对来自所有样本的前向传播中计算的损失进行排序，并选择其中前70％作为难样本。然后，我们仅在向后传播中计算来自这些难样本的梯度。这意味着我们忽略了在训练期间不太有助于加强探测器的简单样本。实验表明，该策略无需手动选择样本即可获得更好的性能。其有效性在第III节中得到证明。

图3.（a）有和没有在线难样本挖掘的P-Net的检测性能。（b）“JA”表示O-Net中的联合面部对齐学习，而“No JA”表示不联合它。 “BBR中没有JA”表示使用“No JA”O-Net进行边界框回归。

三、实验

在本节中，我们首先评估拟议的难样本挖掘策略的有效性。然后，我们将人脸检测器和人脸检测与人脸检测数据集和基准（FDDB）[25]，WIDER FACE [24]以及野外注释面部标志（AFLW）基准[最新]方法进行比较[ 8]。 FDDB数据集包含一组2845个图像中5171个人脸的注释。 WIDER FACE数据集由32203个图像中的393703个标记的面部边界框组成，其中50％用于测试（根据图像的难度分为三个子集），40％用于训练，剩余用于验证。 AFLW包含24386个面部的面部标志注释，我们使用与[22]相同的测试子集。最后，我们评估人脸检测器的计算效率。

3.1培训数据

由于我们联合进行人脸检测和对齐，这里我们在训练过程中使用以下四种不同的数据注释：

1）否定：与任何标准的脸相交的（IoU）比率小于0.3的区域；

2）积极因素：IoU高于标准的脸0.65；

3）部分面孔：IoU介于0.4和0.65之间；

4）地标面孔：标有五个关键点位置的面孔。部分面部和负面部分之间存在不明确的差距，并且不同的面部注释之间存在差异。因此，我们选择0.3到0.4之间的IoU差距。负面和正面用于面部分类任务，正面和部分面用于边界框回归，地标面用于面部标志定位。总训练数据由3：1：1：2（负数/正数/部分面/地标面）数据组成。每个网络的培训数据收集描述如下：

1）P-Net：我们从WIDER FACE [24]中随机裁剪几个补丁来收集正面，负面和部分面部。然后，我们将CelebA [23]的面孔裁剪为具有里程碑意义的面孔。

2）R-Net：我们使用框架的第一阶段来检测来自WIDER FACE [24]的面部，以收集正面，负面和部分面部，同时从CelebA检测到地标面部[23]。

3）O-Net：SimilartoR-Nettocollectdata，但是我们的框架的前两个阶段用于检测面部和

收集据。

图4. FDDB评估。（b） - （d）对WIDER FACE的三个子集进行评估。该方法后面的数字表示平均准确度。

图5.面部对齐的AFLW评估。

3.2 在线难样本挖掘的有效性

为了评估拟议的在线难样本挖掘策略的贡献，我们训练两个P-Nets（有和没有在线难样本挖掘）并比较它们在FDDB上的表现。图3（a）显示了FDDB上两个不同P-Nets的结果。很明显，在线难样本挖掘对提高性能是有益的。它可以为FDDB带来约1.5％的整体性能提升。

3.3 联合检测和对齐的有效性

为了评估联合检测和对齐的贡献，我们评估了FDDB（具有相同的P-Net和R-Net）的两个不同O-Nets（联合面部关键点回归学习并且不联合它）的性能。我们还比较了这两个O-Nets中边界框回归的性能。图3（b）表明联合关键点定位任务学习有助于增强人脸分类和边界框回归任务。

3.4 人脸检测评估

为了评估我们的人脸检测方法的性能，我们将我们的方法与最先进的方法进行了比较[1]，[5]，[6]，[11]，[18]，[19]，[26] ] - FDDB中的[29]，以及WIDER FACE中最先进的方法[1]，[11]，[24]。图4（a） - （d）表明，我们的方法在两个基准测试中始终优于所有比较的方法。我们还评估了我们对一些具有挑战性的照片的方法。

3.5 面部对齐评估

在这一部分中，我们将我们方法的面部对齐性能与以下方法进行比较：RCPR [12]，TSPM [7]，Luxand face SDK [17]，ESR [13]，CDM [15]，SDM [21]，和TCDCN [22]。平均误差通过估计的地标与地面实况之间的距离来衡量，并且相对于双眼距离是标准的。图5显示我们的方法优于所有最先进的方法并带有余量。它还表明我们的方法在口角定位中表现出较少的优势。这可能是由于我们的训练数据中表达的微小差异，这对口角位置有很大影响。

3.6 运行时效率

鉴于级联结构，我们的方法可以实现面部检测和对准的高速度。我们将我们的方法与GPU上最先进的技术进行比较，结果如表II所示。值得注意的是，我们当前的实现基于未经优化的M

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[19873]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码

使用多任务级联卷积网络进行联合人脸检测和对齐外文翻译资料

使用多任务级联卷积网络进行联合人脸检测和对齐

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

使用多任务级联卷积网络进行联合人脸检测和对齐外文翻译资料

使用多任务级联卷积网络进行联合人脸检测和对齐

您可能感兴趣的文章

最新文档

推荐栏目