用极简CNN-集成模型对人脸图像的性别进行预测外文翻译资料
2022-12-16 11:49:57
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
模式识别快报70(2016)59-65
用极简CNN-集成模型对人脸图像的性别进行预测
Grigory Antipov,Sid-Ahmed Berrani,Jean-Luc Dugelay
摘要
尽管在文献中被广泛地研究,但当处理跨数据集协议中不受约束的图片时,从面部图像进行性别识别这个问题仍然困难。在这项工作中,我们在当今国家最先进,且最有挑战性的人脸图像数据集LFM(人脸数据集)中的人脸图像的基础上,提出一个卷积神经网络集成模式来提高人脸识别精度。我们发现,卷积神经网络比以前提出的方法需要较少的训练数据且获得国家的最先进的性能。此外,我们的集成模型故意设计成内存需求和运行时间都最小化的方式。这使我们能够预见在嵌入式设备或云平台构建的模型的一个对海量影像数据库的集约利用的潜在使用性。
关键词:从人脸图像进行性别识别,卷积神经网络,神经网络优化
- 介绍
人的性别在社会交往中起着基础性的作用。自动性别分类有许多重要的应用,如智能用户界面、视觉监控、市场营销等,因此,人脸图像的自动性别识别已被广泛研究的计算机视觉。然而,这个问题的难度很大程度上取决于应用背景和实验协议:一个识别模型可以从同一数据集或从不同的数据集上的人脸图像被训练和测试(即跨数据集实验),输入的人脸图像在可控或不受控制的条件下可以拍摄,并且在最后性别预测之前可以人脸对准。在最严格的条件下,国家的最先进的达到96.86%的人脸识别精度(即跨数据集,不受控制的环境中,没有图像的预处理)是最近由Jia和Cristianini [ 11 ]利用一个巨大的4000000幅私人训练数据集得到的。
深度卷积神经网络(CNNs)[ 13 ]最近已经成为对象识别]的黄金标准[12,25]。今天,CNNs是种类繁多的计算机视觉任务的首要选择[8,27,30]。但是,有2个问题使得CNNs在某些情况下的实际使用变得困难。第一个问题与大量的训练数据有关。收集大量的人脸数据集是昂贵的并且可能会引起一些关于隐私保护的问题。这就是为什么成功的人脸相关的应用细胞神经网络应用常常训练包含几百万图像的庞大私有数据集(像[27]里的)对科学界不可再现。第二个问题在于计算的域和CNNs的内存需求[7,9]。这个问题往往阻碍将卷积神经网络导入到嵌入式平台如智能手机和平板电脑或者它在云计算中的使用。比如,在[25]中描述的16层的卷积神经网络有一个权重大于500M的文件并且每个图像要求约3.1 · 1010的浮点运算。具体地,它重量的90%被其完全连接的层吸收,其90%以上的运行时间被卷积层占用[9]。这意味着,如果我们想将运行时间和所需内存最小化,必须将完全连接的层和卷积层都最小化。
在这项工作中,我们从人脸图像中解决性别识别的问题,就要考虑通过使用相对较小的训练数据集降低内存和运行时间。特别是我们在最严格的条件下设计了一个基于CNNs的集成模型,能获得我们国家在性别识别方面最先进的性能。我们采用人脸图像的可公开获得的数据集来训练我们的CNNs模型,获得的最高的识别准确率比国家最先进的文献[11]中的训练数据约低10倍。我们的模型在运行时间和存储器方面也都是最小化的,使得它的使用即使在内存有限且没有专用图像计算处理器的设备上也变得可能。
本文的其余部分安排如下:相关文献的综述在第2节进行;用于训练和测试数据集在章节3中;在CNN的提出和逐步最小化的方法在第4节提出的;CNN最小化的过程在第5节提出;第7节中进行了总结。
2.相关工作
在本节中,我们就从人脸图像性别识别现有的工程进行概述。
早期从人脸图像进行性别识别的工作重点在于识别是对在受控的实验室环境中的正面人脸。在90年代初,许多作者试图通过神经网络来处理这个问题,例如,哥伦布等[6],培养了2层完全连接的神经网络,并取得了91.90%准确度的测试集的图像。正面的基准数据面临受控环境是FERET [20]。随着SVM的出现,Moghaddam和Yang [18]采用这种分类与在原始像素上的RBF内核合并,在FERET中获得96.62%的准确度(结果有同一人在训练和测试组提出的)。相比使用SVM,Baluja和Rowley [2]采用AdaBoost的原料像素,并没有将训练和测试集的人员混合,在FERET获得96.40%准确率。 Li等人[15]通过服装和头发成分在FERET的数据集计算面部信息获得95.10%的准确率。Ullah等 [29]使用的韦伯局部纹理描述符在FERET达到99.08%的近乎完美的表现。这一结果表明,该FERET基准是饱和的且对现代方法来说挑战性不够。
其结果是,现在的大部分工作是处理在不受控制的环境中,从人脸图像中进行识别性别的问题。在这种情况下,人脸数据集(LFW)是最常用的[10]。表1中比较了在不受控制环境下对性别识别的不同研究。Shan[23]采用局部二值模式(LBP)与一个AdaBoost分类器在LFW获得94.81%准确率。Shih[24] 为了对齐面部图像使用主动外观模型(AAM),并且为了建立模型使用在标志性建筑周围检测到的小布丁。贝叶斯框架用作分类器。结合了FERET的颜色和LFW数据集的组合模型获得86.50%的分类准确率。Tapia和Perez[28] 将LBP的特征融合不同半径和空间尺度和功能融合,并使用上面提到的SVM分类器。作者进行了两个实验:在第一个实验中,他们训练和测试他们的模型上LFW的不同子集,而在第二个实验中,所述训练在一个单独的数据集进行。这两个实验的结果(95.60%和98.01%)有很明显的不同,证明跨数据协议更具有挑战性。Bekios-Calfa等人表明这可能对同时预测人的性别和人的年龄和在照片中的姿势是很有用的。他们训练他们在GROUPS数据集上的模型和测试LFW数据集并得到了79.11%的性别识别准确率。最近采用卷积神经网络从人脸图像进行性别识别的尝试是由Levi和Hassner完成[14]。作者在新创建的Adience数据集训练CNNs。他们获得了相对适中的准确性86.80%,主要是因为Adience的图像像素低。最后,跨数据库协议下的LFW数据集的最新结果由Jia和Cristianini获得[11]。作者用一个巨大的私人400万的图像数据集训练一个C-Pegasos分类器(SVM的变化)并基于LBP特征,他们获得了96.86%准确率。
在这项工作中,我们使用Jia和Cristianini的结果作为基准与我们的模型比较。
3.数据集
在这部分,我们展示已经在我们实验中使用过的人脸数据集。
我们已经使用2个可公开获得的人脸数据集:CASIA WebFace和可标记人脸数据集(LFW)。第一个是用于训练和验证而第二个仅用于测试。当收集中科院自动化所WebFace数据集时,其作者确信WebFace和 LFW之间并没有交集[32]。
3.1 CASIA WebFace 数据集
CASIA WebFace数据集由Yi等人出于脸识别的目的收集[32]。这个数据集包含从IMDB 网站获得的1940年和2014年之间出生的男女演员照片。CASIA WebFace的数据包括姿态的随机变化,光照,面部表情和图像分辨率。总共有10,575实验对象494414人脸图像。据我们所知,CASIA WebFace是今天最大的可公开获得的数据集。这就是为什么在这项研究中中我们用它来训练卷积神经网络。CASIA WebFace的作者提供10,575个实验对象的姓名但不提供他们的性别。我们注解的性别由IMDB提供的元数据也由人工标注提供。
3.2 数据预处理
CASIA WebFace和LFW的图像都具有面心并且具有250times;250像素的初始分辨率。这两个数据集以同样的方式被处理:人脸首先用Viola–Jones面部检测器进行提取[31],然后将它们重新调节到一定的正方形的大小(具体大小取决于一个CNN的输入尺寸)。此过程示于图1。如果在一个图像中有几个人脸,只有最大的那个才会被获取;如果一个图像中没有人脸,这个图像就会被忽视。在人脸提取后,我们可以从CASIA WebFace数据集提取出452,042幅脸部图像。这些图像被分割成训练和验证集的比例分别为95%和5%的部分。我们已确保训练和验证集之间没有交集的部分。为了能够将我们的结果与现在LFW上我们国家最先进的在性别识别相比较,我们已经使用完全相同的10147个人脸图像的测试集作为作者当前在LFW中的最佳结果[11]。在他们的工作之后,我们没有在性别分类前对测试图像进行任何种类的对齐,数据分为训练,验证和测试集的详细信息,在表2中给出。
表1 不受控制环境中的性别识别结果
图1 输入到CNN中的脸部提取的例子
表2 数据分为培训,验证和测试集
致谢
我们对Jia and Cristianini提供给我们他们试验中和与性别识别相关的人脸图像表示感谢。我们也感谢匿名评审建设性的建议和相关评论,这有助于我们在改善论文的质量。
参考文献
[1] G. Antipov, S.-A. Berrani, N. Ruchaud, J.-L. Dugelay, Learned vs. hand-crafted features for pedestrian gender recognition, in: Proceedings of the Conference on Multimedia, ACM, Brisbane, Australia, 2015.
[2] S. Baluja, H.A. Rowley, Boosting sex identification performance, Int. J. Comput. Vis.71 (1) (2007) 111–119.
[3] F. Bastien, P. Lamblin, R. Pascanu, J. Bergstra, I. Goodfellow, A. Bergeron, N. Bouchard, D. Warde-Farley, Y. Bengio, Theano: new features and speed improvements, CoRR abs/1211.5590 (2012).
[4] J. Bekios-Calfa, J.M. Buenaposada, L. Baumela, Robust gender recognition by exploiting facial attributes dependencies, Pattern Recognit. Lett. 36 (2014) 228–234.
[5] J. Flora, D. Lochtefeld, D. Bruening, K. Iftekharuddin, Improved gender classification using nonpathological gait kinematics in full-motion video, IEEE Trans. Human-Mach. Syst. 45 (3) (2015) 304–314.
[6] B.A. Golomb, D.T. Lawrence, T.J. Sejnowski, Sexnet: a neural network identifies sex from human faces., in: Proceedings of the conference on Advances in Neural Information Processing Systems, Denver, USA, 1990.
[7] Y. Gong, L. Liu, M. Yang, L. Bourdev, Compressing deep convolutional networks
using vector quantization, CoRR (2014). arXiv:org/abs/1412.6115.
[8] I.J. Goodfellow, Y. Bulatov, J. Ibarz, S. Arnoud, V. Shet, Multi-digit number recognition from street view imagery using deep convolutional neural networks, CoRR (2013). arXiv:org/abs/1312.6082.
[9] K. He, J. Sun, Convolutional neural networks at constrained time cost, CoRR (2014). arXiv:org/abs/1412.1710.
[10] G.B. Huang, M. Ramesh, T. Berg, E. Learned-Miller, Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments, Technical Report, University of Massachusetts, Amherst, 200
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[30557],资料为PDF文档或Word文档,PDF文档可免费转换为Word