针对遮挡问题的深度学习目标检测算法研究文献综述
2020-04-15 17:44:20
1.目的及意义
1. 意义
视觉,作为人类接收信息的主要方式之一,负责超过 80%的信息获取。视觉计算理论创始人 Marr认为视觉的主要作用是将二维的图像通过计算进行三维重建,也就是对空间物体的识别和理解。和人类视觉基本功能一样,计算机视觉中物体的分类和检测,一直是一个重要问题。
随着计算机技术的迅猛发展,目标检测已在人脸识别、行人跟踪、车牌识别、无人驾驶等领域获得广泛应用。相比于图像分类,目标检测更具难度。目标检测,就是将目标定位和目标分类结合起来,利用图像处理技术、机器学习等多方向的知识,从图像(视频)中定位感兴趣的对象。目标分类负责判断输入的图像中是否包含所需物体,目标定位则负责表示目标物体的位置,并用外接矩形框定位。这需要计算机在准确判断目标类别的同时,还要给出每个目标相对精确的位置。目标检测虽然存在诸多困难,但却是让计算机“睁眼看世界”处理高级视觉任务的第一步。
2. 研究现状
自从目标检测的概念提出以来,国内外学者针对这个问题做出了不懈探索。传统的目标检测算法,多是基于滑动窗口的框架或是根据特征点进行匹配。自 2012年AlexNet在当年度 ImageNet大规模视觉识别挑战赛中一举夺冠,且效果远超传统算法,将大众的视野重新带回到深度神经网络。2014年R-CNN的提出,使得基于CNN的目标检测算法逐渐成为主流。深度学习的应用,使检测精度和检测速度都获得了改善。
不同于传统的目标类别检测,如AdaBoost算法框架、HOG特征和支持向量机等方法,卷积神经网络不仅能够提取更高层、表达能力更好的特征,还能在同一个模型中完成对于特征的提取、选择和分类。在这方面,主要有两种主流的算法:一类是结合region proposal、CNN网络的,基于分类的 R-CNN 系列目标检测框架(R-CNN、Fast-RCNN、Faster-RCNN)和OverFeat等;另一类则是将目标检测转换为回归问题的算法,如YOLO、SSD和YOLOv2等。
这些深度学习算法在实验中具有较高的识别率,但是在实际应用过程中,会出现检测目标图像有重叠的情况或者被检测目标的一部分被遮挡。这种问题会使得深度学习网络进行目标检测时,有误检和漏检的错误。所以如何减少遮挡问题对检测结果的影响,成为目标检测发展过程中一项重点课题。
3. 目的
在本次课题中,需要完成对各类深度学习网络的学习和研究。利用实验结果,对比几种深度学习检测网络的检测算法各自的优劣性。同时在已有的研究基础上,提出一种能有效避免遮挡带来误差的算法。对比该算法和其他算法的实验结果,分析算法的优劣性。
{title}
1. 意义
视觉,作为人类接收信息的主要方式之一,负责超过 80%的信息获取。视觉计算理论创始人 Marr认为视觉的主要作用是将二维的图像通过计算进行三维重建,也就是对空间物体的识别和理解。和人类视觉基本功能一样,计算机视觉中物体的分类和检测,一直是一个重要问题。
随着计算机技术的迅猛发展,目标检测已在人脸识别、行人跟踪、车牌识别、无人驾驶等领域获得广泛应用。相比于图像分类,目标检测更具难度。目标检测,就是将目标定位和目标分类结合起来,利用图像处理技术、机器学习等多方向的知识,从图像(视频)中定位感兴趣的对象。目标分类负责判断输入的图像中是否包含所需物体,目标定位则负责表示目标物体的位置,并用外接矩形框定位。这需要计算机在准确判断目标类别的同时,还要给出每个目标相对精确的位置。目标检测虽然存在诸多困难,但却是让计算机“睁眼看世界”处理高级视觉任务的第一步。
2. 研究现状
自从目标检测的概念提出以来,国内外学者针对这个问题做出了不懈探索。传统的目标检测算法,多是基于滑动窗口的框架或是根据特征点进行匹配。自 2012年AlexNet在当年度 ImageNet大规模视觉识别挑战赛中一举夺冠,且效果远超传统算法,将大众的视野重新带回到深度神经网络。2014年R-CNN的提出,使得基于CNN的目标检测算法逐渐成为主流。深度学习的应用,使检测精度和检测速度都获得了改善。
不同于传统的目标类别检测,如AdaBoost算法框架、HOG特征和支持向量机等方法,卷积神经网络不仅能够提取更高层、表达能力更好的特征,还能在同一个模型中完成对于特征的提取、选择和分类。在这方面,主要有两种主流的算法:一类是结合region proposal、CNN网络的,基于分类的 R-CNN 系列目标检测框架(R-CNN、Fast-RCNN、Faster-RCNN)和OverFeat等;另一类则是将目标检测转换为回归问题的算法,如YOLO、SSD和YOLOv2等。
这些深度学习算法在实验中具有较高的识别率,但是在实际应用过程中,会出现检测目标图像有重叠的情况或者被检测目标的一部分被遮挡。这种问题会使得深度学习网络进行目标检测时,有误检和漏检的错误。所以如何减少遮挡问题对检测结果的影响,成为目标检测发展过程中一项重点课题。
3. 目的
在本次课题中,需要完成对各类深度学习网络的学习和研究。利用实验结果,对比几种深度学习检测网络的检测算法各自的优劣性。同时在已有的研究基础上,提出一种能有效避免遮挡带来误差的算法。对比该算法和其他算法的实验结果,分析算法的优劣性。
2. 研究的基本内容与方案
{title}1.基本内容
- 查阅资料,研究深度学习工作原理以及其中常用的网络类型,如卷积神经网络(CNN)、受限玻尔兹曼机(RBM)和深度置信网路(DBN)等;
- 对比研究几种基于深度学习的目标检测算法,了解其算法原理并比较优劣;
- 通过设计实验,研究遮挡问题对于深度学习目标检测精度的影响;
- 提出一种抑制遮挡问题深度学习目标检测算法,并设计实验验证所提算法的有效性。
2.目标
- 熟悉深度学习的工作原理和常用的网络结构。
- 熟悉各种效果较优的检测网络,对每一种算法都进行实验,能了解他们相互之间的异同点和优劣性。
- 能针对遮挡问题提出一种行之有效的算法,并进行实验来验证算法的性能。
3. 拟采用的技术方案及措施
- 梯度方向直方图(HOG)是一种边缘特征,它利用了边缘的朝向和强度信息,后来被广泛应用于车辆检测,车牌检测等视觉目标检测问题。HOG的做法是固定大小的图像先计算梯度,然后进行网格划分,计算每个点处的梯度朝向和强度,然后形成网格内的所有像素的梯度方向分分布直方图,最后汇总起来,形成整个直方图特征。得到候选区域的HOG特征后,需要利用分类器对该区域进行分类,确定是行人还是背景区域。在实现时,使用了线性支持向量机,这是因为采用非线性核的支持向量机在预测时的计算量太大,与支持向量的个数成正比。
- YOLO算法将目标检测与识别当作一种回归问题,通过回归方式来检测目标的位置以及识别目标的类别。而且以回归的方式只需要用单一的网络对整张图片做一次评估就可以得到目标边界框和类别。
- Faster-RCNN克服了RCNN提取卷积特征时冗余操作的缺点,将目标检测的特征提取、分类和边框回归统一到了一个框架中该算法引入了一个新的概念——区域生成网络(RPN)来进行目标候选区的提取。
- SSD在YOLO的基础上加入了Faster-RCNN中的anchor机制,这相当于在回归的基础上结合了一部分区域建议的功能,对比两者所用特征,SSD并没有用这个图像的全局特征,只用了每个目标周围的深层特征去检测识别目标,而且SSD在深度网络不同层的特征图上提取特征,然后分别用这些特征回归预测目标,从而能够对一个目标做更多判断,并且在不影响速度的前提下提高精度。
- RepLoss由face 提出,主要目标是解决遮挡问题。行人检测中,密集人群的人体检测一直是一个难题。物体遮挡问题可以分为类内遮挡和类间遮挡两类。类内遮挡指同类物体间相互遮挡,在行人检测中,这种遮挡在所占比例更大,严重影响着行人检测器的性能。针对这个问题,作者设计也一种称为RepLoss的损失函数,这是一种具有排斥力的损失函数。
[1] Wang, Xinlong, et al."Repulsion Loss: Detecting Pedestrians in a Crowd." arXiv preprintarXiv:1711.07752, 2017.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付