基于深度学习的行人识别文献综述
2020-04-30 16:14:04
随着模式识别和机器视觉的发展,目标检测技术得到了广泛的应用。行人识别作为目标识别的一种,有着非常重要以及广泛的应用性,在对在近年来成为国内外关注的计算机视觉领域研究热点之一,在视频监控、智能交通系统、以及安全驾驶辅助系统等应用都是核心技术。但由于行人目标的特殊性、以及行人目标所处背景的复杂性、拍摄角度、光照条件等多种因素影响,给行人识别的准确性和识别率会造成巨大的影响。
目前行人识别的方法大体上可以分为两类,基于背景建模和基于统计学习的方法,基于背景建模就是利用背景建模方法,提取出前景运动的目标,在目标区域内进行特征提取,然后利用分类器进行分类,判断是否包含行人。但背景建模目前主要存在的问题:1、必须适应环境的变化(比如光照的变化造成图像色度的变化);2、相机抖动引起画面的抖动(比如手持相机拍照时候的移动);3、图像中密集出现的物体(比如树叶或树干等密集出现的物体,要正确的检测出来);4、必须能够正确的检测出背景物体的改变(比如新停下的车必须及时的归为背景物体,而有静止开始移动的物体也需要及时的检测出来)。5、物体检测中往往会出现Ghost区域,Ghost区域也就是指当一个原本静止的物体开始运动,背静差检测算法可能会将原来该物体所覆盖的区域错误的检测为运动的,这块区域就成为Ghost,当然原来运动的物体变为静止的也会引入Ghost区域,Ghost区域在检测中必须被尽快的消除。而基于统计学习的方法是目前行人检测最常用的方法,根据大量的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。统计学习目前存在的难点:1、行人的姿态、服饰各不相同、复杂的背景、不同的行人尺度以及不同的关照环境。2、提取的特征在特征空间中的分布不够紧凑;3、分类器的性能受训练样本的影响较大;4、离线训练时的负样本无法涵盖所有真实应用场景的情况;
目前国内外的行人识别都采用基于深度学习的方法,而深度学习中卷积神经网络CNN具有优秀的特征学习能力,尤其是在自动提取图像的纹理梯度特征方面,表现出了较强的学习能力和适用性,能够有效的提取数据样本潜藏的特征信息。卷积神经网络尤其是对边缘、纹理和梯度特征,具有很强的学习和表示能力。
CNN流行之后,Szegedy做过将detection问题作为回归问题的尝试(Deep Neural Networks for Object Detection),但是效果差强人意,在VOC2007上mAP只有30.5%。而RGB利用CNN在分类问题上效果优越的特点,将detection问题转化为分类问题,提出了RCNN。RBG的RCNN使用region proposal来得到有可能得到是object的若干(大概10^3量级)图像局部区域,然后把这些区域分别输入到CNN中,得到区域的feature,再在feature上加上分类器,判断feature对应的区域是属于具体某类object还是背景。当然,RBG还用了区域对应的feature做了针对boundingbox的回归,用来修正预测的boundingbox的位置。RCNN在VOC2007上的mAP是58%左右。
但RCNN存在着重复计算的问题(proposal的region有几千个,多数都是互相重叠,重叠部分会被多次重复提取feature),于是RBG借鉴Kaiming He的SPP-net的思路提出了Fast-RCNN,跟RCNN最大区别就是Fast-RCNN将proposal的region映射到CNN的最后一层conv layer的feature map上,这样一张图片只需要提取一次feature,大大提高了速度,也由于流程的整合以及其他原因,在VOC2007上的mAP也提高到了68%。本课题的目的旨在通过仔细研究和分析行人识别算法核心内容,在此基础上实现基于深度学习的行人识别算法的设计。同时在设计中学习深度学习、卷积神经网络、分类器等相关机器学习理论,选取合适的行人数据库、损失函数,以及特征提取网络,结合以上所提到的,设计完成一个基于深度学习的行人识别模型。最后对其进行功能测试和性能测试。
随着深度学习的日益流行和深入研究,以及众多行人样本数据库的日益完善,如MIT、INRIA、Daimler等等行人数据库,国内外的优秀学者也在不断提出新的、更好更快的行人识别算法。行人识别技术的发展对于视频监控、智能交通系统、以及安全驾驶辅助系统这些与生活息息相关的应用有重要意义,因此,本课题对于行人识别方法的研究非常有必要,并且具有很好的发展前景。{title}2. 研究的基本内容与方案
{title} 本项目基于深度学习理论,以及卷积神经网络算法,使用Python语言开发,其实现的基本内容包括: 1、基于深度学习理论以及人工神经网络算法。构建出能够检测识别图片中的行人的深度模型。 2、通过特定的训练数据集对该模型进行训练,使其模型能够有效检测识别给定的图片中的行人。 3、可以将照片中的行人用方框标记。本文提出一种基于快速区域的卷积网络方法用于行人识别。具体的技术方案如下: 1、首先其网络结构整体大体可以总结为:13个convolutionlayers 4个pooling layers RoI layer 2个fc layer 两个parrel层(即SoftmaxLoss layer和SmoothL1Loss layer)。 2、预训练的ImageNet采用VGG16网络,既VGG16模型以初始化RoI layer以前的所有层。 3、网络训练阶段采用softmax classifer和bounding-box regressors联合训练的方式更新CNN网络所有层参数。 4、在检测阶段的大型全连接层使用Truncated SVD(奇异值分解)压缩来加速计算。 5、行人数据库采用网上目前较为流行MIT、INRIA、Daimler等作为训练数据。
整体网络框架流程: 网络将整个图像和一组object proposals作为输入,首先使用几个卷积(conv)和最大池层来处理整个图像,以产生conv feature map。然后,对于每个对象proposal,感兴趣区域(Rol)池层从特征图中抽取固定长度的特征向量。每个特征向量被馈送到完全连接(fc)层序列,其最终分支成两个同级输出层:一个产生对K个对象类加上全部捕获的“背景”类的softmax概率估计,另一个对每个K对象类输出四个实数,每组4个值编码提炼定义K个类中的一个的的边界框位置。
|
[1]王若辰,基于深度学习的目标检测和分割算法研究[D].北京:北京工业大学电子信息与控制工程学院,2016
[2]苪挺,费建超,周遊,方虎生,朱经纬.基于深度卷积神经网络的行人检测[A].见:陶小学编.计算机工程与应用[C].北京:华北计算机研究所.2016.162-166
[3]徐忠成.基于卷积神经网络的行人检测与识别研究[D].武汉:华中师范大学教育信息技术学院,2015
[4]陶峥嵘.基于机器学习的行人检测[J].电子技术设计与应用,2017,52-56
[5]郭丽丽,丁世飞.深度学习研究进展[J].计算机科学.2015(05)
[6] D.Tomè, F. Monti, L. Baroffio, L. Bondi, M. Tagliasacchi, S. Tubaro.Deepconvolutional neural networks for pedestrian detection[J]. Signal Processing: Image Communication.2016(47)
[7]向应.基于视频的行人检测与跟踪技术研究[D].四川:西南交通大学.2014
[8]杨钰源.基于度量学习和深度学习的行人重识别研究[D].重庆:重庆大学通信工程学院.2016
[9]马惠云, 视频图像中行人识别技术研究[D].西安:西安电子科技大学.2014
[10]王枫,刘青山.基于双卷积神经网络的行人精细化识别[J].中国科技论文.2017(14),1578-1582
[11]SIMONYANK,ZISSERMAN A.Very deep convolutional networks for large-scale imagerecognition[J]. International Conference on Learning Representations . 2015
[12] GIRSHICK R.Fast R-CNN. Proceedings of theIEEE International Conference on Computer Vision . 2015
[13]曹诗雨,刘跃虎,李辛昭.基于Fast R-CNN的车辆目标检测[J].中国图像图形学报.2017(05),671-677
[14]孙志远,鲁成祥,史忠植,马刚.深度学习研究与进展[J].计算机科学,2016(02).1-8
[15]王功鹏.基于卷积神经网络的一般物体识别研究及应用[D].河南:郑州大学信息工程学院,2017 1.目的及意义随着模式识别和机器视觉的发展,目标检测技术得到了广泛的应用。行人识别作为目标识别的一种,有着非常重要以及广泛的应用性,在对在近年来成为国内外关注的计算机视觉领域研究热点之一,在视频监控、智能交通系统、以及安全驾驶辅助系统等应用都是核心技术。但由于行人目标的特殊性、以及行人目标所处背景的复杂性、拍摄角度、光照条件等多种因素影响,给行人识别的准确性和识别率会造成巨大的影响。
目前行人识别的方法大体上可以分为两类,基于背景建模和基于统计学习的方法,基于背景建模就是利用背景建模方法,提取出前景运动的目标,在目标区域内进行特征提取,然后利用分类器进行分类,判断是否包含行人。但背景建模目前主要存在的问题:1、必须适应环境的变化(比如光照的变化造成图像色度的变化);2、相机抖动引起画面的抖动(比如手持相机拍照时候的移动);3、图像中密集出现的物体(比如树叶或树干等密集出现的物体,要正确的检测出来);4、必须能够正确的检测出背景物体的改变(比如新停下的车必须及时的归为背景物体,而有静止开始移动的物体也需要及时的检测出来)。5、物体检测中往往会出现Ghost区域,Ghost区域也就是指当一个原本静止的物体开始运动,背静差检测算法可能会将原来该物体所覆盖的区域错误的检测为运动的,这块区域就成为Ghost,当然原来运动的物体变为静止的也会引入Ghost区域,Ghost区域在检测中必须被尽快的消除。而基于统计学习的方法是目前行人检测最常用的方法,根据大量的样本构建行人检测分类器。提取的特征主要有目标的灰度、边缘、纹理、颜色、梯度直方图等信息。分类器主要包括神经网络、SVM、adaboost以及现在被计算机视觉视为宠儿的深度学习。统计学习目前存在的难点:1、行人的姿态、服饰各不相同、复杂的背景、不同的行人尺度以及不同的关照环境。2、提取的特征在特征空间中的分布不够紧凑;3、分类器的性能受训练样本的影响较大;4、离线训练时的负样本无法涵盖所有真实应用场景的情况;
目前国内外的行人识别都采用基于深度学习的方法,而深度学习中卷积神经网络CNN具有优秀的特征学习能力,尤其是在自动提取图像的纹理梯度特征方面,表现出了较强的学习能力和适用性,能够有效的提取数据样本潜藏的特征信息。卷积神经网络尤其是对边缘、纹理和梯度特征,具有很强的学习和表示能力。
CNN流行之后,Szegedy做过将detection问题作为回归问题的尝试(Deep Neural Networks for Object Detection),但是效果差强人意,在VOC2007上mAP只有30.5%。而RGB利用CNN在分类问题上效果优越的特点,将detection问题转化为分类问题,提出了RCNN。RBG的RCNN使用region proposal来得到有可能得到是object的若干(大概10^3量级)图像局部区域,然后把这些区域分别输入到CNN中,得到区域的feature,再在feature上加上分类器,判断feature对应的区域是属于具体某类object还是背景。当然,RBG还用了区域对应的feature做了针对boundingbox的回归,用来修正预测的boundingbox的位置。RCNN在VOC2007上的mAP是58%左右。
但RCNN存在着重复计算的问题(proposal的region有几千个,多数都是互相重叠,重叠部分会被多次重复提取feature),于是RBG借鉴Kaiming He的SPP-net的思路提出了Fast-RCNN,跟RCNN最大区别就是Fast-RCNN将proposal的region映射到CNN的最后一层conv layer的feature map上,这样一张图片只需要提取一次feature,大大提高了速度,也由于流程的整合以及其他原因,在VOC2007上的mAP也提高到了68%。本课题的目的旨在通过仔细研究和分析行人识别算法核心内容,在此基础上实现基于深度学习的行人识别算法的设计。同时在设计中学习深度学习、卷积神经网络、分类器等相关机器学习理论,选取合适的行人数据库、损失函数,以及特征提取网络,结合以上所提到的,设计完成一个基于深度学习的行人识别模型。最后对其进行功能测试和性能测试。