基于深度学习的行人目标检测开题报告
2021-12-18 19:38:51
全文总字数:3758字
1. 研究目的与意义(文献综述)
人工智能以及5g时代的到来,使得人们对于人机的交互需求日益紧迫。在这样的智能时代中,计算机视觉成为了科技发展的主要阵地之一,其涉及图像处理、机器学习、模式识别等多个前沿领域。无论是智能机器人,还是自动驾驶,都十分依赖于计算机视觉的技术应用。因此,计算机视觉的发展现状在一定程度上决定了人工智能的前进步伐。
近年来,作为计算机视觉基础研究课题的目标检测技术,成为人工智能领域的研究热点。目标检测主要完成在给定图像或视频中确定是否存在给定类别的目标实例,如果存在,则返回该实例的类别属性信息以及空间位置信息的任务。正因为其具备这样的特性,目标检测被广泛应用于目标跟踪、移动支付、人脸识别、辅助/自动驾驶、交通监控等实际生活中。在这些应用中,行人检测占据了研究内容的重要一环。特别是近年来,随着以卷积神经网络为代表的深度学习技术在计算机视觉上的高效应用,行人检测得以迅猛发展,在日常生活中占据的比重不断变大。
在研究初期,目标检测是基于简单构件的模型与模板匹配技术,用于检测空间布局大致刚性的物体,检测的空间十分有限。1990年后,随着研究从几何的刚性表示转向基于外观特性的统计分类器:神经网络、支持向量机和adaboost,行人检测的研究得以拓宽和发展。特别是在20世纪90年代末到21世纪初,shif的提出使外观特征从全局表示转向具有不变性的局部表示。自此,局部特征描述子获得巨大普及,被用以完成各类视觉识别任务,并占据计算机视觉领域的主导地位。
2. 研究的基本内容与方案
以Faster R-CNN目标检测模型为代表的基于候选区域的目标检测模型虽然检测准确率和定位精度更好,但是其检测速率比较慢,不能有效地完成现代生活要求的实时性任务。因此,本设计针对基于候选区域的Faster R-CNN目标检测模型在行人检测中存在检测速度慢的问题进行相关的研究工作:
Faster R-CNN行人检测模型主要由卷积层、RPN层和坐标回归层组成:卷积层通过卷积神经网络对输入图像进行多层卷积特征提取;PRN层根据提取到的卷积特征生成可能包含目标的候选区域——感兴趣区域,同时将候选区域映射到卷积特征图,然后对其进行池化,并提取长度固定的特征张量;坐标回归层根据得到的特征张量进行分类以及位置回归。
因此,提高Faster R-CNN目标检测模型在行人检测时的检测速度可以从这三个方面进行,即对卷积神经网络的选择、PRN候选区域生成算法的改进以及坐标回归层中R-CNN的回归连接层进行优化。首先,传统Faster R-CNN行人检测模型采用的VGG16卷积神经网络虽然准确度高,但是其计算量和存储空间比较大,增加了检测时间。而采用在计算量、存储空间和准确度方面更平衡的轻量级网络进行特征提取能在保持一定检测准确率的情况下,有效提高行人检测的效率。其次,PRN预设的候选框可能会产生许多重叠的候选区域,增加工作量。因此,使用非极大值抑制算法(NMS)来减少候选区域数量,再根据候选区域与真实边界框的IOU是否达到阈值来决定其是否送入ROI预测子网。最后,由于传统FasterR-CNN行人检测模型包含一个沉重的R-CNN子网,其利用两个大的全连接层作为行人检测算法的第二级分类器,并且单独处理每个ROI以及使用全局平均池化,因此减慢了行人检测的速度。为了解决这个问题,设计在R-CNN子网中只使用一个全连接层,然后使用两个子全连接层来预测ROI分类和回归。为了验证上述方案,设计拟在Win10操作系统上,通过Python3.6 语言以及深度学习框架TensorFlow,利用开放的数据集,如KITTI、COCO等进行训练。3. 研究计划与安排
第1周—第3周搜集资料,撰写开题报告;
第4周—第6周论文开题,安装并熟悉实验所需软件;
第7周—第10周进行实验并对实验数据进行分析;
4. 参考文献(12篇以上)
[1] 张子颖,王敏.基于faster r-cnn和增量学习的车辆目标检测[j].计算机系统应用,2020,29(02):181-186.
[2] 王申涛.基于深度学习的行人检测[j].电脑编程技巧与维护,2019(12):137-139.
[3] 陈泽,叶学义,钱丁炜,魏阳洋.基于改进的fasterr-cnn小尺度行人检测[j/ol].计算机工程:1-8[2020-03-13].https://doi.org/10.19678/j.issn.1000-3428.0055817.