从10000个类别中深度学习人脸表征外文翻译资料
2022-10-23 10:27:33
英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
从10000个类别中深度学习人脸表征
摘要
本文提出学习一套通过深度学习的高水平的特征表示。称为深部隐藏身份特征(DeepID)人脸验证。 我们认为DeepID可以有效地通过具挑战性的多人脸识别任务学习。而他们可以推广到其他任务(例如验证)和隐藏在训练集的新身份。此外,DeepID的泛化能力随着需要在训练中预测的类的的增加而增加。 DeepID特征来自深度卷积神经网络(ConvNets)最后的隐层神经元激活。当它作为分类器来识别训练集中10000张人脸身份和根据特征提取的层次结构配置减少神经元的数量,这些深度卷积网路在神经元个数较少的顶层逐渐形成紧凑的身份相关的特征。被提出的特征来自各种形成互补和过完备表征的脸部区域。任何高水平的分类器可以基于学习这种高级的表征来进行人脸识别。LFW已实现弱一致的脸型识别正确率达到97.45%。
1.前言
近年来在约束条件下的人脸检定已被广泛研究[21, 15, 7, 34, 17, 26,18, 8, 2, 9, 3, 29, 6],由于它的实际应用和LFW的发行 [19],LFW是一个被广泛报道的人脸识别算法数据集。目前表现最好的人脸验证算法通常表示面临过完备低阶特征的问题,其次是浅层模型 [9, 29, 6]。最近,深度模型如卷积神经网络 [24]在提取高层视觉特征 [9, 29, 6]时被证明是有效的而且被用于人脸识别[18, 5, 31, 32, 36]。Huang 等人提出无监督学习生成深度模型。Cai等人提出深度学习非线性指标。在文献 [31]中,深度模型由二进制的脸验证指标来监督。不同的是,在本文中,我们提出用深度模型学习高层人脸辨识特征通过人脸识别。也就是说,将一个训练的图片分类到n个身份中的一个(在本项实验中n约为10000)。高维的预测任务比人脸识别更具挑战性。然而,这导致已学的特征表示有良好的泛化,尽管通过识别学习,这些特征在人脸识别和训练集中隐藏的新面孔中显示是有效的。
图1.一个图的特征提取过程,箭头指示前向传播方向。多重深度卷积神经网络每一层神经元的数目标记在旁边的每一层中。DeepID的特点是由每一个深度卷积网络最后的隐藏层提取出来的。然后用于预测身份,特征数目随着特征提取级联层递进而减少,直到DeepID层。
我们提出一种有效的方式来用深度卷积网络学习高阶过完备的特征。我们特征提取过程的一个高阶的图示如图1所示。卷积神经网络通过学习来训练分类所有的面孔和他们的身份。最后隐层神经元激活作为特征(也叫深度隐藏身份特征或 DeepID)。每个深度卷积网络用一个脸部小碎片作为底层输入然后提取出低层局部特征。随着特征提取逐步级联,特征数目越来越少,同时在顶层逐渐形成更多全面的高阶的特征。在级联的末端能获得高度紧凑的160维的DeepID它包含了丰富的身份信息,而且能直接预测更多的身份类(10000)。同时分类所有的标识而不是训练一个二元分类器是基于两点考虑。预测一个训练样本到许多类之一比完成二分类问题要难,这一具有挑战性的任务,可以充分利用神经网络的超级学习能力为人脸识别提取有效特征。第二,它隐含地为卷积神经网络增加了强大的正则化。这有助于形成分享更好的分类的隐层表征。因此,学习到的高阶特征具有良好的泛化能力,训练脸的小子集也不会出现过拟合。我们限制DeepID将明显少于他们预测的身份的类。这是使学习紧凑和坚定特征的关键。我们进一步地连接从各种各样脸部区域提取出来的DeepID来形成互补和过完备表示形式,学习到的特征能很好地泛化到测试中的新身份,这些在训练中是无法看到的。而且轻易能与先进的人脸识别器(如联合贝叶斯[8])结合用于人脸识别。
我们的方法在LFW上仅用弱一致的脸能达到人脸识别97.45%的正确率,这几乎和人类对人脸的识别正确率97.53%一样好。我们还观察到,随着训练的身份数量的增加,识别性能稳步提高。虽然在培训阶段的预测任务变得更具挑战性,学习特征的识别能力和泛化能力增加。这为未来在训练更多数据时提高识别的准确性敞开了大门。
2.相关研究
许多人脸检定方法通过高维过完备的人脸描述符来描述人脸,其次是浅层模型。cao等人将每个人脸图像编码为26K学习基描述符,然后在PCA之后计算L2和LE描述符距离。chen等人用多尺度和联合贝叶斯方法[8] 提取100K LBP描述符勇于描述人脸显著特征,用于PCA后的识别。Simonyan等人[29]计算出在规模和空间上都很密集的1.7M SIFT描述符,把稠密的SIFT特征编码成Fisher向量,然后为了减少有区分的维度学习线性映射。Huang等人[17]结合1.2M CMD [33]和SLBP [1]描述符并学习了稀疏马氏指标用于人脸检定。
以前许多研究进一步学习了基于低层特征的与身份相关的特征。Kumar等人[21]训练属性和明喻分类器来检测面部属性和度量一个训练集里人脸相似性。Berg 和Belhumeur[2, 3]训练了分类器来区别两个不同的人的脸。特征是学习后的分类器的输出。他们使用SVM分类器,它是浅层的结构,它学习到的是相对低层的特征。相反,我们将同时分类训练集的所有的身份。此外,我们使用最后隐层激活作为分类器的特征而不是分类器的输出。在我们的卷积神经网络中,最后一层的隐层神经元数目远小于输出,这迫使最后的隐层学习共享不同的人脸的隐层表征已达到将他们很好的分类的目的。这样能造成特征具有高区分性的、紧凑和良好的泛化能力。
一些深度模型已经被用来进行人脸识别或鉴定。Chopra等人[10]使用一个Siamese网络[4]用于深度学习。这个Siamese网络分别得从两个相同的子网络的对比的输入中提取特征,将两个子网络的输出间的距离作为差异点。[10]中用深度卷积网络作为子网络。与Siamese网络中通过人脸识别标记同时进行特征提取和识别相比,我们分两步进行特征提取和识别,特征提取的第一步是用人脸识别的目标,它是一个比校验更强有力的监管信号。Huang等人[18]进而用CDBNs [25]的方法来学习特征,然后用ITML [13]和线性支持向量机的方法用于分类。Cai等人[5]在Siamese网络框架下学习深度指标,但用了一个两层的ISA网络[23]代替子网络。Zhu等人[35, 36]学习深度神经网络来转化任意姿势下的脸和不同光照强度下的正面的脸,然后用最后隐藏层的特征或者是转化后的脸来进行人脸检定。Sun等人[31]用多重深度卷积神经网络来学习高阶的人脸的相似性特征,训练RBM [22]分类器用于人脸检定。他们的特征是从一副脸中共同提取出来的而不是从一张单一的脸中提出。学习DeepID用于人脸检定。
3. 学习DeepID人脸验证
3.1深度卷积神经网络
我们的深度卷积神经网络包含四个卷积层来分层地提取特征,之后是完全连接的DeepID 层和softmax输出层指示标识类。输入是39 times;31 times; k的矩形补丁,正方形补丁的大小是31 times; 31 times; k,当k = 3 时时彩色补丁,当k = 1时为灰色补丁。图2展示了卷积神经网络的详细结构,当输入为39times;31times;1的数据,预测N个身份类时(例如 n = 10, 000)。当输入的大小改变时,在下面的图层地图的高度和宽度将相应地改变。DeepID层的维度固定为160,而输出层的维度根据预测类的数目而改变。沿着层次结构特征提取数目减少,直到最后的隐藏层(DeepID 层),它形成了高度紧凑和预测型的特征,这些特征只用加上少数几个新特征就能预测一个更大数目的身份集。
图2.卷积神经网络结构。每一个立方体的长度、宽度和高度指示map的个数和所有输入、卷积的和最大池层的每个映射的维度。内部的小立方体和正方形分别指示卷积中3D卷积核的大小和最大池层中2D池区域的大小。最后两个全互连层的神经元数目被标记在了旁边。
卷积公式表示为:
(1)
是第i个输入map,是第j个输出map。是第i个输入map和第j个输出map之间的卷积核。符号lowast;指示卷积。是第j个输出map的偏置项,我们用ReLU对隐层神经元做非线性运算(y = max (0, x)),它比sigmoid函数有更好的拟合能力[20]。我们的卷积神经网络中较高的卷积层中的权重局部上分享学习在不同的区域的不同的中层或者高层特征[18]。公式1中的r指示一个权重共享的局部区域,在第三个卷积层,权重在2 times; 2区域里局部共享,第4个卷积层权重是完全共享的。最大池的计算为:
(2)
第i个输出map为池中每一个神经元s times; s非重叠的局部范围。
DeepID 的最后一级的隐藏层完全连接到第三层卷积层和第四层卷积层(在最大池之后)。例如,多尺度特征[28],(第四个卷积层中的特征比第三个卷积层中的特征更加全局化)。在沿着梯级连续采样后,第四个卷积层包含的神经元太少,成为了信息传播的瓶颈,因此这对特征学习来说是两面性的。添加第三个卷积层(称为跳跃层)和最后隐藏层的旁路连接减少第四个卷积层可能造成的信息丢失。最后的隐藏层用下面的函数:
(3)
x1, w 1 , x 2 , w 2分别指示第三、四个卷积层神经元的权重,它线性地结合了前两个卷积层中的特征,随后就是非线性的激活函数。卷积神经网络的输出是一个N分类的softmax分类器预测的分类的可能值,它有n个不同的类别。
(4)
线性地结合了160个DeepID 中神经元j的特征x。yj是它的输出,卷积神经网络通过最小化第t个标签类logyt。用反向传播算法计算随机梯度下降算法中要用的梯度。
3.2特征提取
由Sun 等人[30]提出的脸部的点检测方法中我们检测5个脸部的标识,包括两个眼睛的中心、鼻尖和两个嘴角。通过两个眼球中心和两个嘴角的中心的相似转化脸全部被对齐了。从60个包含了10个区域的脸部碎片中提取到的特征。图3中显示了10个脸部区域和三个特定的区域。我们训练60个卷积神经网络,它们中的每一个都从一个特定的修补碎片和它对应的水平翻转中提取2个160维的DeepID向量。一个特殊的情况是采用的碎片是在两只眼睛中心和两个嘴角的周围,它本身就不能被翻转。但是它的碎片是对称的,(例如,在左眼中心翻转的对应区域是右眼中心),整个DeepID的长度是19, 200 (160times;2times;60),这是为最终的人脸识别做准备。
图3 上面是10个中等大小的脸部区域。上方左边的5张图是取自弱对齐的脸的全部区域,剩下的在上方右边的5张是在5个脸上标识(两个眼睛中心、鼻尖、两个嘴角)为中心的局部区域,底下是两个特定的碎片的三种不同的尺度。
3.3脸部识别
我们用联合贝叶斯[8]技术来做基于DeepID的人脸识别。联合贝叶斯方法在人脸识别方面已取得了大的成功[9, 6],它用两个独立的高斯变量来表示提取的特征x(在减去平均之后)
(5)
代表脸部的标签,代表内在传播的变化范围。联合贝叶斯概率模型计算了两个脸的内在和外在的变化假设的联合可能性和从公式5可以看出这两个概率都是高斯函数的变异。
(6)
和
(7)
和能从EM算法中学习数据,
在测试中,计算似然比:
(8)
它是有效的和具有闭合解的。我们也会训练其他的神经网络用于人脸识别,并且和联合贝叶斯方法比较,看看其他模型是否也能从提取的特征中学习,它们学到了多少特征,一个好的人脸识别模型对最后的分类效果能产生多大的影响。神经网络包含一个输入层,一个局部连接层,一个全部连接层和一个单一的输出神经元指示脸的相似处。输入特征分为60组,每一个组包含640个特征,这些特征都是从一个特定的卷积神经网络和一个特定的碎片对中提取出来的。同一组中的特征是高度相关的,在局部连接层的神经元仅与一个单一组的特征相连来学习它们局部的联系同时减少特征的维数。第二个隐藏层是全连接到第一个隐藏层来学习全局的联系。单一的输出神经元是全连接第二个隐藏层。隐层神经元采用sigmoid激活函数。图4是一个神经网络结构的图解。它包含38, 400输入神经元和从每一个碎片中学习到的19, 200 DeepID 特征。在接下来的两个隐层中有4800个神经元,第一个隐层中的神经元中,每80个神经元都与输入层60组神经元中一组局部相连。
Dropout learning(”辍学学习“)[16]用于所有的隐层神经元,输入神经元不能被“辍学“因为学习的特征是紧凑且是分布式表达的(用非常少的神经元表示大量的类别),而且要与其他神经元合作更好地表达类别。另一个方面,不用“辍学“来学习高维的特征是非常困难的因为梯度扩散的问题。为了解决这个问题,我们首先训练了60个子网络,每一个都有一个单一组的特征作为输入,图4中说明了一个特殊的子网络,然后我们用子网络的第一层的权重来初始化这些原始网络,用第一层权重的修订值来调整第二层和第三层网络的权重。
图4 用于人脸检定的神经网络的结构每一层的类型和维度都标记在该层的旁边,固定的神经元形成一个子网。 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[152701],资料为PDF文档或Word文档,PDF文档可免费转换为Word