登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

针对遮挡问题的深度学习目标检测算法研究毕业论文

 2020-02-18 11:56:09  

摘 要

随着深度学习算法的发展,目标检测技术逐渐成为计算机视觉领域的研究热点。在视频智能监控、智能交通等领域,通用目标检测算法都发挥出了极高的应用价值。但是由于目标间存在着遮挡情况,使得部分遮挡情况下通用目标检测算法的精度很难提高。因此本文以遮挡的情况下的目标检测为主要研究对象,在通用深度学习目标检测算法的基础上,研究了针对遮挡问题的检测优化算法。主要研究工作如下。

首先,本文研究了通用目标检测算法的检测原理。分析了FPN算法融合特征金字塔时的策略和Mask-RCNN算法对掩码分割部分的设计方案。并根据算法原理分析各自的损失函数设定和训练策略。在VOC2007数据集中对两种算法进行对比实验,实验结果表明,Mask-RCNN算法检测性能精确度更佳。

其次,研究了Mask-RCNN目标检测算法在遮挡情况下的检测效果。在Citypersons遮挡数据集上的测试结果表明,遮挡情况下该算法检测精度不高。当发生多目标遮挡时,每个目标都会有相应的预测框。但是在计算过程中,由于被遮挡的目标特征不明显,本属于各自目标的预测框之间也会发生融合现象,从而产生漏检现象。

然后,研究了遮挡情况下的改进目标检测算法。在Mask-RCNN目标检测算法上提出了两种改进算法。一种是通过增大遮挡损失量的Repulsion Loss算法,另一种是改变预测框取舍策略的Soft-NMS算法。这两种改进算法都可以抑制属于不同目标的预测框融合在一起。实验结果表明,在Citypersons数据集测试中,两种改进算法均降低了目标的漏检率,Soft-NMS算法降低了12.72%的漏检率,Repulsion Loss算法降低了15.96%的漏检率。Repulsion Loss算法改善的程度最高,漏检率最低。

最后,进行了Repulsion Loss算法在常规场景下的检测。在VOC2007数据集中,该算法也能提高普通场景下的目标检测的精度,使检测平均精度mAP达到了77.49%的高度。较原算法提高了1.8%。

关键词:目标检测,遮挡检测,深度卷积网络

Abstract

With the development of deep learning algorithms, target detection technology has gradually become a research hotspot in the field of computer vision. In the fields of video intelligent monitoring and intelligent transportation, the general target detection algorithms have exerted extremely high application value. However, due to the occlusion situation between the targets, the accuracy of the general target detection algorithm in partial occlusion is difficult to improve. Therefore, the target detection in the case of occlusion is taken as the main research object. Based on the general depth learning target detection algorithm, the detection optimization algorithm for occlusion problem is studied. The main research work is as follows.

First of all, this paper studies the detection principle of the general target detection algorithm. The strategy of FPN algorithm fusion feature pyramid and the design scheme of mask division part of Mask-RCNN algorithm are analyzed. And according to the algorithm principle, analyze their respective loss function settings and training strategies. The two algorithms are compared in the VOC2007 dataset. The experimental results show that the Mask-RCNN algorithm has better performance.

Secondly, the detection effect of Mask-RCNN target detection algorithm under occlusion is studied. The test results on the Citypersons occlusion dataset show that the detection accuracy of the algorithm is not high under occlusion. When multi-target occlusion occurs, each target will have a corresponding prediction box. However, in the calculation process, since the occluded target features are not obvious, the fusion phenomenon occurs between the prediction frames belonging to the respective targets, thereby causing a missed detection phenomenon.

Then, the improved target detection algorithm under occlusion is studied. Two improved algorithms are proposed on the Mask-RCNN target detection algorithm. One is the Repulsion Loss algorithm by increasing the amount of occlusion loss, and the other is the Soft-NMS algorithm which changes the prediction box selection strategy. Both of these improved algorithms can suppress the prediction boxes that belong to different targets. The experimental results show that in the Citypersons dataset test, the two improved algorithms reduce the missed detection rate of the target, the Soft-NMS algorithm reduces the missed detection rate by 12.72%, and the Repulsion Loss algorithm reduces the missed detection rate by 15.96%. The Repulsion Loss algorithm has the highest degree of improvement and the lowest rate of missed detection.

Finally, the Repulsion Loss algorithm is tested in the normal scene. In the VOC2007 dataset, the algorithm can also improve the accuracy of target detection in common scenarios, so that the detection average accuracy mAP reaches 77.49%. It is 1.8% higher than the original algorithm.

Keywords: target detection, occlusion detection, deep convolutional network

目 录

1 绪论 1

1.1 研究背景及意义 1

1.2 目标检测算法的国内外研究现状 2

1.3 本文主要工作和组织结构 4

2 基于深度学习的目标检测网络研究 6

2.1 神经网络结构的优选 6

2.1.1 BP神经网络原理分析 6

2.1.2 卷积神经网络原理分析 7

2.1.3 神经网络结构的对比和优选 8

2.2 基于卷积神经网络的特征提取网络优选 9

2.2.1 VGGNet卷积网络模型研究 9

2.2.2 ResNet卷积网络模型研究 10

2.2.3 VGGNet和ResNet网络模型的对比和优选 11

2.3 ResNet卷积神经网络的优化 11

2.3.1 激活函数的优选 11

2.3.2 基于随机梯度下降的反向传播权值更新 13

2.3.3 基于正则化的防止过拟合策略研究 14

2.4 本章小结 14

3 基于卷积神经网络的通用目标检测算法对比分析 15

3.1 基于特征金字塔top-down融合的FPN算法研究 15

3.1.1 FPN算法网络结构原理研究 15

3.1.2 FPN算法损失函数和训练策略研究 17

3.2 基于object mask输出的Mask-RCNN算法研究 18

3.2.1 Mask-RCNN算法网络结构原理研究 18

3.2.2 Mask-RCNN损失函数和训练策略研究 20

3.3 通用目标检测算法的对比实验和结果分析 20

3.3.1 数据集和软件硬件平台 20

3.3.2 遮挡情况的检测评定指标设计 21

3.3.3 FPN和Mask-RCNN实验对比和分析 22

3.4 本章小结 25

4 目标检测算法的抗遮挡策略研究和实验 26

4.1 基于Repulsion Loss的抗遮挡策略研究 26

4.1.1 传统损失函数原理研究 26

4.1.2 Repulsion Loss原理研究 26

4.2 基于Soft-NMS的检测框取舍算法研究 28

4.2.1 传统NMS算法原理研究 28

4.2.2 Soft-NMS算法原理研究 29

4.3 抗遮挡算法的对比实验设计和分析 30

4.3.1 抗遮挡算法对比实验设计 30

4.3.2 对比实验结果和分析 30

4.4 本章小结 32

5 总结与展望 33

5.1 总结 33

5.2 展望 33

参考文献 35

致 谢 37

绪论

研究背景及意义

视觉图像是人类获取外界环境信息的重要途径。在近些年来,随着互联网技术和计算机技术的蓬勃发展,计算机视觉的研究水平也在日益提高。作为模式识别和计算机科学的交叉领域,目标检测算法的研究成为最近几年来的核心研究方向。得益于人类对图像的足够了解,目标检测可以应用于许许多多的实际场景,如:道路行人避障[1]、工业制造、医学影像[2]、生物工程、航空航天和公共场所智能监控等等。

利用模式识别技术实现的传统目标检测算法是利用图片或视频,通过图片预处理、像素特征提取、目标分类三个主要技术,来实现对图片或视频中特定目标的识别和定位[3]。传统的目标检测算法虽然也能检测出目标,但是不足以弥补算法的弊端。

传统的目标检测算法的弊端主要包含三个方面:第一,传统的目标检测算法只能适用于算法设计之初而针对的特定目标,对于不同类型的目标,需要重新设计算法进行检测,不具有普适性;第二,传统的目标检测算法对待检测图片或视频的要求很高,比如图片或视频拍摄过程中的光线是否充足,或者是拍摄过程中是否产生形变,一旦检测环境有些许干扰,将会极大地降低目标检测的精准度;第三,用代码实现的传统目标检测算法用时较长,使得对于视频的实时性目标检测成为很大的难题,也对算法移植的硬件条件提出了较高的要求。

然而,随着深度学习技术的发展,传统目标检测算法的这些难题都迎刃而解。在2006年,Hinton等人提出了深度学习技术(Reducing the dimensionality of data with neural networks),这是一种包含多隐藏层、多感知器的计算机神经网络结构[4]。伴随着GPU性能的提升,这种高维矩阵运算算法开始广泛应用于计算机视觉、自然语言处理、语音检测识别和在线内容定向投放等领域。

基于深度学习的目标检测算法主要是以卷积神经网络为基础的特征提取网络,这样可以很方便地实现端到端的运算,减少人工提取图片特征的工作量。2012年,Hinton和他的团队依靠基于卷积神经网络的AlexNet目标检测网络一举将ImageNet问题的错误率由26%降为15%[5]。从此,研究人员开始广泛得使用深度学习来设计目标检测算法,并取得显著的成绩。

但是在目标检测算法应用的场景中,经常会出现待检测目标之间相互重合或者背景遮住待检测目标的一部分的现象。使用卷积神经网络可以检测出一张图片中完整的待检测目标的位置,并实现分类识别。但是在遮挡情况下,待检测目标的目标特征不完全,这使得常用的卷积神经网络会误将待检测目标识别为背景或者识别成相邻目标的一部分,从而产生漏检现象。

产生漏检情况的话,会在实际应用中产生很大的影响。比如车辆的行人检测系统,如果出现漏检现象,将会出现威胁人身财产安全的事故。所以针对遮挡问题下的目标检测算法,将是未来一段时间内的研究重点。只有解决了遮挡问题的目标检测算法,才能在众多的应用领域减少一丝安全风险。

目标检测算法的国内外研究现状

自从AlexNet深度神经网络大幅度提升了目标检测算法的检测精度之后,国内外的研究学者对目标检测算法的主流研究方向都投向了深度神经网络之中。最初的研究阶段中,较为典型的算法便是2013年Sermanet,等人提出了结合多尺度滑动检测窗口和AlexNet网络的提取图像特征的OverFeat算法[6]。这个算法最为突出的优点就是充分利用了卷积神经网络的特征提取功能,将提取出来的特征图既应用到分类任务中,又应用到定位任务中。

2014年Girshick R沿用了OverFeat算法,提出了基于region proposal的R-CNN[7]。先利用Selective Search算法[8]获得图片上的候选区域,然后将候选区域归一化后输入到CNN网络中获取图像特征,最后利用SVM算法[9]进行分类和候选区域回归微调。从此基本上确定了使用卷积神经网络进行目标检测算法时的基本框架:先定位再分类的两步走策略。

为了解决R-CNN算法需要对所有的候选框进行特征提取的巨大运算量,SPP-Net算法[10]使用不同尺度的卷积层,一次性构建图片的特征金字塔,极大地降低了运算量。

Fast-RCNN算法使用了类似于SPP-Net算法中SPP层的设计,并简化成ROI Pooling层。并将深度神经网络末端的全连接层进行SVD分解,将softmax分类的得分情况和Bounding-box预测框回归更细致得拆分开来[11]

Faster-RCNN算法在获取候选区域的时候,舍弃了速度较慢的Selective Search算法,设计了RPN网络,真正意义上实现了端对端训练。而且Faster-RCNN算法将RPN网络和CNN网络进行权值共享,在保证模型精度的情况下,使训练速度大幅度提升[12]。但是由于Faster-RCNN算法在ROI Pooling层之后仍有很多的重复计算,使得到的特征图片上的像素点对应原始输入图片中一块较大的区域无法实现精准对应,所以Faster-RCNN算法在检测所占图片面积较小的目标时,效果不是很好。

而FCN算法则是利用全卷积的ResNet网络[13]替代Faster-RCNN常用的VGGNet[14]网络,使特征图像上的特征点能够与原始输入图片之间构成映射关系,对小目标的检测性能有所提升。并舍弃了ROI Pooling层后面的全连接层,防止过量的重复计算[15]

后来在Faster-RCNN算法上又有很多改进算法,其中Mask-RCNN算法[16]的性能较为突出。Mask-RCNN算法是增添了分割掩码分支,增加了实例分割的重要性。将预测框回归、目标类型和分割掩码三者的损失结合起来训练深度神经网络。

Two-stage型的算法更符合人类的目标检测方式,直到后来YOLO[17]的出现,才将目标检测算法的类型扩充为预测框回归的single-stage策略。YOLO按照网格的形式将一整张图片分割成各个部分,每一个网格只计算落在网格中心的检测目标。以中心网格的不同尺度区域代替提议预测框,这样使YOLO算法的速度大幅度提升,但是精准度也比Faster-RCNN算法低一些。

而后的YOLO改进算法中,YOLOv3[18]在每一层卷积层后,都添加了k-means均值聚类、多尺度训练等,提升了原始算法的精准度。而YOLO9000[19]使用wordTree层进行分类,将数据集的检测、分类同时进行,使YOLO算法的性能更加优化。

SSD算法[20]集成了Faster-RCNN算法的检测精度和YOLO算法的检测速度。将RPN网站中的锚点代替单一的网格化分割,使用多尺度特征向量对特征区域进行回归运算。

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

F:\zhuo_mian_wen_jian\fourth_year_in_WHUT\2018-2019(2)\毕业论文\[1]  参考论文\[5] 撰写时的材料\卷积神经网络结构图.jpg

F:\zhuo_mian_wen_jian\fourth_year_in_WHUT\2018-2019(2)\毕业论文\[1]  参考论文\[5] 撰写时的材料\VGGNet网络结构图.jpg

F:\zhuo_mian_wen_jian\fourth_year_in_WHUT\2018-2019(2)\毕业论文\[1]  参考论文\[5] 撰写时的材料\sigmoid.png

F:\zhuo_mian_wen_jian\fourth_year_in_WHUT\2018-2019(2)\毕业论文\[1]  参考论文\[5] 撰写时的材料\top-down路径融合方法.png

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图