基于YOLO v3的智能驾驶行人检测算法研究毕业论文

2020-02-17 21:09:52

摘要

行人检测作为一种重要的目标检测应用，在自动驾驶，视频监控，刑侦等多个领域受到广泛关注。本文研究基于YOLOv3的行人检测，将深度学习方法应用于行人检测任务中，分析存在的问题，进而改进模型，使其有更好的性能表现。

首先在理论上对YOLO三个迭代版本和一个快速版本进行详细的对比和分析，重点分析其网络结构和目标函数的发展和改进，以及使用的网络改进方法。其次根据智能驾驶的研究背景，结合两个行人数据集的特点，使用INRIA Person Dataset和Caltech Pedestrian Detection两个数据集组合成新的行人检测数据集。该数据集融合了静态行人照片的高清晰度、辨识度和运动行人的形态变化和遮挡以及远处小行人的特点。着重分析YOLOv3-tiny权重在训练集上重新训练的过程和训练得到的模型表现，使用K-means算法修改anchor box尺寸使其贴合行人特征并重新训练。在测试集上进行实验和测试，对比分析改进措施的实际效果，并对网络性能进行了解释和分析。

实验结果表明，与原始YOLOv3-tiny相比，修改后的模型在收敛速度、检测速度和检测性能均有一定的提高。

关键词：卷积神经网络；深度学习；YOLO；行人检测

Abstract

As an important object detection application, pedestrian detection has received extensive attention in many fields such as autonomous driving, video surveillance, and criminal investigation. This paper studies the pedestrian detection based on YOLOv3, applies the deep learning method to the pedestrian detection task, analyzes the existing problems, and then improves the model to make it have better performance.

Firstly, the three iterative versions and a quick version of YOLO are theoretically compared and analyzed in detail, focusing on the development and improvement of the network structure and objective function, and the network improvement method used. Secondly, according to the research background of intelligent driving, combined with the characteristics of two pedestrian data sets, two data sets of INRIA Person Dataset and Caltech Pedestrian Detection are combined into a new pedestrian detection data set. The data set combines the high-definition, recognizability, and morphological changes and occlusions of static pedestrian photos with the characteristics of distant pedestrians. Emphasis is placed on the process of retraining the YOLOv3-tiny weights on the training set and the performance of the trained model. The K-means algorithm is used to modify the anchor box size to fit the pedestrian characteristics and retrain. Experiment and test on the test set, compare and analyze the actual effect of the improvement measures, and explain and analyze the network performance.

The experimental results show that compared with the original YOLOv3-tiny, the modified model has a certain improvement in convergence speed, detection speed and detection performance.

Key Words： Convolutional neural network; Deep learning; YOLO；Pedestrian detection

第1章绪论 1

1.1 研究背景及意义 1

1.2 相关研究工作 1

1.3 研究内容 3

1.4 全文安排 4

第2章深度学习基本理论 5

2.1 神经网络基础 5

2.1.1 神经元模型 5

2.1.2 激活函数 6

2.1.3 损失函数 8

2.1.4 前向传播与反向传播 9

2.1.5 优化算法 10

2.2 卷积神经网络 12

2.2.1 卷积层 12

2.2.2 池化层 13

2.2.3 BN层 14

2.2.4 残差网络 14

2.3 目标检测 15

2.3.1 边界框和IoU 15

2.3.2 anchor box和NMS 16

2.3.3 评价标准 18

第3章 YOLO模型 19

3.1 YOLOv1 19

3.1.1 基本思想 19

3.1.2 网络结构 20

3.1.3 损失函数 21

3.2 YOLOv2 22

3.2.1 改进策略 22

3.2.2 网络结构 23

3.2.3 损失函数 24

3.3 YOLOv3 25

3.3.1 改进策略 25

3.3.2 网络结构 26

3.3.3 损失函数 27

3.4 YOLOv3-tiny 28

第4章算法实现及实验分析 30

4.1 智能驾驶数据集 30

4.2 YOLOv3的实现 31

4.2.1 微调YOLOv3 31

4.2.2 实验与分析 32

4.3 YOLOv3-tiny的改进 34

4.3.1 修改网络结构的输出 34

4.3.2 K-means计算anchor box尺寸 35

4.3.3 实验与分析 35

第5章总结与展望 39

5.1 工作总结 39

5.2 未来展望 39

参考文献 41

致谢 43

第1章绪论

研究背景及意义

据公安部统计，2018年全国新注册登记机动车3172万辆，机动车保有量已达3.27亿辆，其中汽车2.4亿辆，小型载客汽车首次突破2亿辆^[1]。随着我国汽车的使用量增加，道路交通安全事故也成为我国交通事业发展的一大隐患。

交通事故的发生是由多种因素造成的，其中人的因素中的由驾驶员引发的事故占据了绝大部分。相关调查报告表明，如果驾驶员在交通事故发生前0.5秒获得提醒，则可以避免60%的后续碰撞事故；而1.5秒的额外反应时间，则可以避免90%的交通事故。因此行人检测系统的检测速度在智能驾驶系统中尤其重要，是及时预警避免事故的关键。

具有行人检测功能的自动紧急制动系统（AEB）是现代化汽车必须具备的安全功能之一，而某品牌车企公布的一份列表以强调旗下汽车行人检测软件的缺陷。而这些局限性并不是该品牌汽车独有的，所有使用相同AEB系统的都可能面临相同的问题。这表明现有的行人检测软件或算法的精度以及实时性依然不能很好地保障行人与乘客的生命安全。

由于我国机动车保有量大，行人在道路交通事故中受到的安全威胁大，辅助驾驶提醒的收益高等原因，一个精度高，实时性高，鲁棒性强的行人检测器对降低交通事故、保障行人安全尤为重要。

研究内容

本文研究基于YOLOv3的行人检测，行人检测数据库采用了INRIA Person Dataset^[12]和Caltech Pedestrian Detection^[13]两个行人数据库。借助深度学习框架Keras搭建卷积神经网络，对现有的深度学习算法基础和卷积神经网络进行分析研究。并分析YOLO的各个版本，在YOLOv3快速版本的基础上进行改进，使其在行人检测这一任务中具有更好地精度和速度。具体研究内容如下：

对YOLO三个迭代版本和一个快速版本进行详细的对比和分析，重点分析其网络结构和目标函数的发展和改进，以及使用的网络改进技巧和手段。

结合两个行人数据集的特点，使用两个数据集组合成新的行人检测数据集。该数据集融合了INRIA Person Dataset中静态行人照片的高清晰度、辨识度和Caltech Pedestrian Detection中运动行人的形态变化和遮挡以及远处小行人的特点。

利用迁移学习，对YOLOv3进行微调，在测试集上进行实验和测试。对YOLOv3-tiny权重在训练集上重新训练，使用K-means算法修改anchor box尺寸使其贴合行人特征并重新训练。在测试集上进行实验和测试，对比分析改进措施的实际效果。

全文安排

第一章为引言，阐述了行人检测课题的背景及意义和基于深度学习的目标检测算法研究国内外现状，以及行人检测的发展情况。其中着重介绍了基于深度学习的两类目标检测算法的发展进程。

第二章对深度学习理论基础进行了综合性的介绍，重点介绍计算机视觉中常用的卷积神经网络，并介绍目标检测相关概念。

第三章对YOLO系列算法原理进行分析研究，具体介绍了算法思想及每代的网络结构。按先后顺序指出YOLO各版本新加入的细节，对比分析各版本的共同点和不同点。

第四章针对行人检测这一明确目的，在开源行人检测数据集上对网络进行训练，对结果进行分析，以证明训练集的修改是将通用检测器转化成专用检测器的一大关键。同时在YOLOv3快速版本的算法上进行优化，针对行人宽比特点利用K-Means重新聚类得到新anchor box尺寸，对于提高行人检测的准确率鲁棒性有一定的作用。

第五章对整个工作内容进行总结，同时分析本文的不足之处，并对后续的研究给出自己的想法，提出了下一阶段工作的展望。