基于深度学习的计算机视觉应用研究——道路场景多目标检测和跟踪算法文献综述
2020-05-05 20:16:21
图像目标检测作为计算机视觉的一个长期、基本和具有挑战性的问题,已经成为几十年来研究的一个活跃领域。
目标检测的目的是确定是否有任何目标的实例从给定的类别(如人类,汽车,自行车,狗和猫)在某些给定的图像,如果存在,返回每个目标实例的空间位置和程度(例如,通过一个边界框)。
作为图像理解和计算机视觉的基础,目标检测构成了解决更复杂或更高层次的视觉任务的基础,如分割、场景理解、目标跟踪、图像定位、事件检测和活动识别。
目标检测可以分为两种类型:特定实例的检测和特定类别的检测。
第一种类型的目标是检测特定目标的实例,而第二种类型的目标是检测不同的预定义目标类别的实例(例如人类、汽车、自行车和狗)。
从历史上看,在目标检测领域的大部分努力都集中在检测单个类别(如面孔和行人)或少数特定类别。
但在过去的几年中,研究界已经开始朝着建立通用目标探测系统的挑战目标迈进,这些系统的目标探测能力的广度与人类不相上下。
在2012年,Krizhevsky等人提出了一个叫做AlexNet的深度卷积神经网络(DCNN),它在大规模的视觉识别挑战(ILSRVC)中实现了破纪录的图像分类精度。
从那时起,许多计算机视觉应用领域的研究都集中在深度学习方法上,基于深度学习的许多方法已经在通用目标检测中涌现出来。
以R-CNN为代表的基于候选区域的Fast R-CNN和Faster R-CNN框架在检测精度上一直处于领先地位,而以YOLO为代表的目标位置回归的YOLOV2、YOLO9000和SSD等方法在检测速度上表现优异。