基于卷积神经网络的人脸检测程序设计文献综述

2020-04-29 18:50:39

1．目的及意义
在图像分类[1]、语音识别、自然语音等多个领域深度学习[2]都取得了巨大成功，而目前最热门的人脸识别[3]便是其中最为典型的应用案例。人脸识别是通过人的面部信息进行身份确认的生物特征识别技术，细数起来已有数十年的研究历史。一般来说，人脸识别系统由人脸检测、特征点定位、人脸识别等模块组成，其中面部识别主要包括这三种方式：几何结构、子空间局部特征以及深度学习。目前主流商业系统都采用的是深度学习来实现各种功能。
早在2001年，Viola和Jones[4]共同提出的一种人脸检测框架利用了Haar-Like特性和AdaBoost来训练级联分类器，这是第一个实时的人脸检测算法，它实现了实时效率的良好性能。然而，不少研究[5][6][7] 表明，即使使用更先进的特征和分类器，这种检测器在真实世界的应用中可能会显着降低人脸的视觉变化。除了级联结构外，Mathias和Benenson[8][9][10]等人引入了用于人脸检测的可变性的组件模型（DPM），并取得了显着的性能。但是，他们需要高昂的计算成本，并且在训练阶段通常可能需要昂贵的标注。
后来，卷积神经网络（CNNs）在诸如图像分类和人脸识别等各种计算机视觉任务中取得了显着的进步。受CNN在计算机视觉任务中的良好表现的启发，近年来已提出了一些基于CNN的人脸检测方法。S.Yang[11]等人通过训练多个神经网络获得人脸多个部件的响应来检测人脸候选，然后再训练一个新的神经网络进行人脸候选的分类确认。但是，由于其复杂的CNN结构，这种方法在实践中耗费时间。H.Li[12]等人使用级联CNN进行人脸检测，但它需要从面部检测中进行包围盒校准，并带来额外的计算成本，并忽略面部特征定位和边界框回归之间的固有关联。
面部对齐也吸引了广泛的兴趣。基于回归的方法[13][14][15] 和模板拟合方法[16][17][10]是两个流行的类别。最近，Z.Zhang[18]等人提出使用面部属性识别作为辅助任务来增强使用深度卷积神经网络的人脸对准性能。
然而，大多数可用的人脸检测和人脸对齐方法忽略了这两个任务之间的内在关联。虽然有几部作品试图联合解决，但这些作品仍然存在局限性。例如，D.Chen[19]等人使用像素值差异特征共同进行随机森林的对齐和检测。但是，所使用的手工特征限制了其性能。C.Zhang[20]等人使用多任务卷积神经网络来提高多视角人脸检测的准确性，但检测精度受到弱脸检测器产生的初始检测窗口的限制。
本设计中的主要技术就是多任务卷积神经网络[21]，并且提出了一个新的框架，使用统一的多任务学习级联卷积神经网络来整合人脸检测和人脸对齐这两个任务。本设计的意义在于建立一个实时性的轻量级卷积神经网络架构来减少人工操作，提高和改善性能，进一步简化了面部识别的方法，可以详细了解面部图像的规律，不但能够快速学习，而且所消耗的时间也更短，具有较高的识别效率，能够在人脸识别领域中得到广泛应用。

{title}

2. 研究的基本内容与方案

{title}

基本内容及目标
本设计利用多任务卷积神经网络（Multi-task Convolutional Neural Networks, MTCNN）在图像与视频中检测人脸，包括：MTCNN模型包含的三个网络P-Net,R-Net,O-Net的功能与结构，MTCNN模型构建与训练，利用导出模型设计人脸检测与人脸对齐算法。

拟采用的方案及措施
本设计系统开发平台是Ubuntu系统，卷积神经网络的开发框架为caffe。

在此基础上综合运用所学的C 等编程知识完成系统的设计与实现工作。

本设计采用三阶段多任务深卷积网络：首先P-Net主要获得了人脸区域的候选窗口和边界框的回归向量。

并用该边界框做回归，对候选窗口进行校准，然后通过非极大值抑制（NMS）来合并高度重叠的候选框。

之后，在下一阶段R-Net通过边界框回归和NMS来去掉那些false-positive区域。

在第三阶段，O-Net产生最终的边界框和面部特征。

3. 参考文献
[1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural information processing systems, 2012, pp. 1097-1105.
[2] [美]Ian Goodfellow，[加]Yoshua Bengio著；深度学习，人民邮电出版社，2017-08
[3] Y. Sun, Y. Chen, X. Wang, and X. Tang, “Deep learning face representation by joint identification-verification,” in Advances in Neural Information Processing Systems, 2014, pp. 1988-1996.
[4] P. Viola and M. J. Jones, “Robust real-time face detection. International journal of computer vision,” vol. 57, no. 2, pp. 137-154, 2004
[5] B. Yang, J. Yan, Z. Lei, and S. Z. Li, “Aggregate channel eatures for multi-view face detection,” in IEEE International Joint Conference on Biometrics, 2014, pp. 1-8.
[6] M. T. Pham, Y. Gao, V. D. D. Hoang, and T. J. Cham, “Fast polygonal integration and its application in extending haar-like features to improve object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, 2010, pp. 942-949.
[7] Q. Zhu, M. C. Yeh, K. T. Cheng, and S. Avidan, “Fast human detection using a cascade of histograms of oriented gradients,” in IEEE Computer Conference on Computer Vision and Pattern Recognition, 2006, pp. 1491-1498.
[8] M. Mathias, R. Benenson, M. Pedersoli, and L. Van Gool, “Face detection without bells and whistles,” in European Conference on Computer Vision, 2014, pp. 720-735.
[9] J. Yan, Z. Lei, L. Wen, and S. Li, “The fastest deformable part model for object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 2497-2504.
[10] X. Zhu, and D. Ramanan, “Face detection, pose estimation, and landmark localization in the wild,” in IEEE Conference on Computer Vision and Pattern Recognition, 2012, pp. 2879-2886.
[11] S. Yang, P. Luo, C. C. Loy, and X. Tang, “From facial parts responses to face detection: A deep learning approach,” in IEEE International Conference on Computer Vision, 2015, pp. 3676-3684.
[12] H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua, “A convolutional neural network cascade for face detection,” in IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 5325-5334
[13] X. P. Burgos-Artizzu, P. Perona, and P. Dollar, “Robust face landmark estimation under occlusion,” in IEEE International Conference on Computer Vision, 2013, pp. 1513-1520.
[14] X. Cao, Y. Wei, F. Wen, and J. Sun, “Face alignment by explicit shape regression,” International Journal of Computer Vision, vol 107, no. 2, pp.177-190, 2012.
[15] J. Zhang, S. Shan, M. Kan, and X. Chen, “Coarse-to-fine auto-encoder networks (CFAN) for real-time face alignment,” in European Conference on Computer Vision, 2014, pp. 1-16.
[16] T. F. Cootes, G. J. Edwards, and C. J. Taylor, “Active appearance models,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 6, pp. 681-685, 2001.
[17] X. Yu, J. Huang, S. Zhang, W. Yan, and D. Metaxas, “Pose-free facial landmark fitting via optimized part mixtures and cascaded deformable shape model,” in IEEE International Conference on Computer Vision, 2013, pp. 1944-1951.
[18] Z. Zhang, P. Luo, C. C. Loy, and X. Tang, “Facial landmark detection by deep multi-task learning,” in European Conference on Computer Vision, 2014, pp. 94-108.
[19] D. Chen, S. Ren, Y. Wei, X. Cao, and J. Sun, “Joint cascade face detection and alignment,” in European Conference on Computer Vision, 2014, pp.109-122.
[20] C. Zhang, and Z. Zhang, “Improving multiview face detection with multi-task deep convolutional neural networks,” IEEE Winter Conference on Applications of Computer Vision, 2014, pp. 1036-1041.
[21] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, Yu Qiao. Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks. IEEE Signal Processing Letters, Volume: 23, Issue: 10, Oct. 2016

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码