基于YOLO v3的智能驾驶行人检测算法研究文献综述

2020-04-14 19:52:06

1．目的及意义

1.1 研究目的及意义

当今社会，汽车已经成为人们日常出行中非常普通的交通工具，城市道路上汽车数量的增加不仅导致了城市道路拥堵，而且还严重影响了道路交通安全，尤其特大城市的道路安全形势更为严峻，每年都有大量的汽车交通事故发生，行人作为道路上的弱势群体，因没有安全防护往往成为交通事故中最大的受害者，因此要保证道路上行人的安全，我们国家相关部门除了制定相关法规准则，提高行人安全防范意识还可以从技术层面去减少行人受到伤害的机率。

近几年来，随着人工智能技术获得重大进展，众多科技企业开始进军智能驾驶汽车领域，目标的检测技术已经受到越来越多的关注。在对目标检测的研究中，将行人检测技术应用到智能汽车的安全辅助驾驶系统成为相关专家和汽车制造企业研究的一个热点。行人检测技术研究的目标就是通过车载摄像头获取汽车前方的道路视频信息，对检测到的行人进行短时跟踪，做出安全预警，提醒司机注意行人。因此，行人检测技术应用到汽车安全驾驶系统能在一定程度上保障行人的安全。

目前，智能汽车要想将基于车载摄像头的行人安全监测预警应用于真实复杂的道路上，检测行人还有许多问题需要解决，城市道路比较复杂，行人之间可能存在遮挡，还有许多外形类似人的物体，这些都会影响检测准确率。在未来，无人驾驶汽车必将成为汽车技术发展的趋势，人体检测技术将会成为其中一项关键技术，因此，着眼于未来的应用，研究车载环境下的行人检测技术意义深远。

1.2 国内外研究现状

从2005年以来行人检测进入了一个快速的发展阶段，但是也存在很多问题还有待解决，主要还是在性能和速度方面还不能达到一个权衡。行人检测( PedestrianDetection)一直是计算机视觉研究中的热点和难点。行人检测要解决的问题是：找出图像或视频帧中所有的行人，包括位置和大小，一般用矩形框表示，和人脸检测类似，这也是典型的目标检测问题。行人检测技术有很强的实用价值，它可以与行人跟踪，行人重识别等技术结合，应用于汽车无人驾驶系统(ADAS)，智能机器人，智能视频监控，人体行为分析，客流统计系统，智能交通等领域。由于人体具有相当的柔性，因此会有各种姿态和形状，其外观受穿着，姿态，视角等影响非常大，另外还面临着遮挡、光照等因素的影响，这使得行人检测成为计算机视觉领域中一个极具挑战性的课题。

早期的算法使用了图像处理，模式识别中的一些简单方法，准确率低。随着训练样本规模的增大，如INRIA数据库、Caltech数据库和TUD行人数据库等的出现，出现了精度越来越高的算法，另一方面，算法的运行速度也被不断提升。按照实现原理，我们可以将这些算法可以分为基于运动检测的算法和基于机器学习的算法两大类。

基于机器学习的方法是现阶段行人检测算法的主流。传统的行人检测方法基于人工设计的特征提取器，通过提取Haar特征、方向梯度直方图(Histogram of Oriented Gradient，HOG)、局部二值模式(Local Binary Pattern，LBP)等训练分类器，以达到行人检测的目的，在行人检测任务中取得了令人瞩目成果。例如Xiaoyu Wang等人利用HOG LBP特征处理行人遮挡，提高检测准确率。Dollar P先后提出积分通道特征(Integral ChannelFeatures，ICF)和聚合通道特征(Aggregated ChannelFeatures，ACF)，融合梯度直方图、LUV色彩特征和梯度幅值特征，获得了性能更好的行人特征表达。但人工设计的行人特征很难适应行人的大幅度变化。深度网络模型可以从图像像素中学习特征，提高行人检测器性能。Sermanet等提出的卷积神经网络检测方法，运用基于卷积稀疏编码的无监督方法预训练卷积网络，用训练好的模型进行行人检测。芮挺等通过探究不同的网络深度、卷积核大小以及特征维度对行人检测结果的影响，构建了基于卷积神经网络的行人分类器，但该检测器不具备目标定位的功能。Xiaogang Wang提出运用深度模型学习不同身体部位特征来解决行人遮挡问题，并根据不同部位间的相互约束完成行人检测。深度网络模型也在行人检测领域得到了深入运用，随着大规模训练数据集的构建以及硬件计算能力的不断增强，深度网络结构在不同的视觉任务中取得了巨大的成功。目标检测方面，从RCNN、SPP-Net、Fast-RCNN、Faster-RCNN到YOLO，目标检测的准确率和速度都达到了新的高度。其中YOLO网络是目前最优秀的目标检测架构之一，在检测实时性方面表现尤为突出。{title}

2. 研究的基本内容与方案

{title}

通过阅读近年行人检测领域内的经典综述文章，进一步掌握该领域的发展动态。自从2012年深度学习技术被应用到大规模图像分类以来，研究人员发现基于深度学习学到的特征具有很强层次表达能力和很好的鲁棒性，可以更好的解决一些视觉问题。因此，深度卷积神经网络被用于行人检测问题是顺理成章的事情。

学习掌握深度学习的基本知识，了解目标检测的各类算法及其创新和技巧。仔细研读YOLO系列文章，理解YOLO算法与其他基于神经网络的目标检测算法的区别和创新。YOLO将输入图像分成SxS个格子，若某个物体 Ground truth 的中心位置的坐标落入到某个格子，那么这个格子就负责检测出这个物体。每个格子预测B个bounding box及其置信度(confidencescore)，以及C个类别概率。bbox信息(x,y,w,h)为物体的中心位置相对格子位置的偏移及宽度和高度，均被归一化。置信度反映是否包含物体以及包含物体情况下位置的准确性。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码