基于深度学习的行人检测方法研究开题报告
2020-04-06 11:11:16
1. 研究目的与意义(文献综述)
近年来,随着人工智能技术的迅速发展,传统汽车行业与信息技术结合,在汽车自动驾驶技术方面的研究取得了长足进步,业内巨头在此领域投入巨资进行研发。国外的谷歌、丰田,国内的百度、比亚迪等公司都相继推出了自动驾驶汽车。可以预见,在不远的将来,随着技术不断发展完善,自动驾驶技术将进入实用阶段,普及到千家万户。在自动驾驶的技术领域中,目标检测(object detection)是核心任务之一,主要包括车道线检测、行人检测、车辆检测等。其中,以行人保护为目的的行人检测及防碰撞系统成为自动驾驶领域的研究热点。随着alex提出的alexnet[16]卷积神经网络(convolutional neural network,cnn[1])赢得2012届imagenet[17]图像识别大赛的冠军,cnn开始在目标检测、图像分类等一系列计算机视觉任务中崭露头角,并迅速成为主流。目前,利用cnn进行行人检测的方法主要分为两类:
1、采用某个通用的目标检测框架,并将该框架迁移至行人检测任务上。具体来说,某个通用的目标检测框架可以是fast r-cnn[3], faster r-cnn[4], yolo[18], ssd[15]等。龚安等人[8]中提出采用ssd检测框架,并且考虑行人检测任务的特殊性,设计多候选框行人检测模板,在候选区域推荐上做了一定改进;el-khamy m等人[9]提出fused-dnn, 在目标检测阶段同样采用ssd的检测框架,但在分类阶段将多个cnn融合并行进行判断,在小型、遮挡的行人检测上更具优势。zhu y等人[20] 提出尺度自适应的检测网络,一方面对行人区域进行回归,另一方面将后几个卷积层的特征融合进行分类,在kitti[21]数据集上取得了较为优越的效果。然而,该类框架更为偏向于在2d图像上进行,无法对驾驶视野内的行人深度信息进行估计,对自动驾驶车辆的帮助较为有限;
2、基于获取的场景立体信息(如利用双目视觉或者激光雷达),在这类数据上开展行人检测。该类方法更偏向于实际路况,而带来的挑战也更大。如金志刚等人[10]基于双目视点图像,采用聚合积分通道完成数据建模与行人检测,在实现较高检测精度的同时有效提高了检测速度;x. chen 等人[12]提出将雷达点云与单目视觉融合,以多个视角的数据来训练神经网络,进行目标的3d bounding-box提取,实现了极高的精度。xu d等人[19] 提出交叉rgb图像与深度图像(depth map)训练的深度网络,先训练基于2d平面图像重建3d场景的rrn网络,再将其迁移至2d平面的行人检测任务上,其在caltech[22]行人检测数据集上取得了较好的成绩。
2. 研究的基本内容与方案
1. 基本内容
(1) 熟悉目前行人检测的主要思想以及方法;
(2) 学习深度神经网络的主流工程框架;
3. 研究计划与安排
第1~3周 查阅文献;分析题目研究现状,学习基本理论;
第4周 阅读文献、撰写开题报告,英文文献翻译;
第5周 进行行人检测系统的总体设计;
4. 参考文献(12篇以上)
[1] lecun y, boser b,denker j s, d henderson, et al. backpropagation applied to handwritten zip coderecognition[j]. neural computation, 1989, 1(4): 541-551.
[2] girshick r, donahue j,darrell t, et al. rich feature hierarchies for accurate object detection andsemantic segmentation[j]. 2013:580-587.
[3] girshick r. fastr-cnn[c]// ieee international conference on computer vision. ieee,2015:1440-1448.