基于深度学习的单目标识别技术研究毕业论文
2021-04-14 21:30:58
摘 要
图像识别技术是计算机视觉和深度学习等领域的一个热门研究方向,它的主要任务是从图像或者视频中识别出目标。传统的图像识别算法在相对简单的识别任务能够取得较好的成绩,但是由于其需要人工标记特征,特征提取过程具有较强的任务相关性,在面对复杂的识别任务时很难满足要求。本文的研究内容是如何构造端到端的图像识别模型、如何提高图像识别的准确率和识别速率。本文采用基于深度学习Faster R-CNN的图像识别算法搭建图象识别模型,将特征提取和分类识别两阶段整合成为一个完整网络,使得模型性能有了较大提高,在检测速度方面尤为明显,从而实现端到端的图像识别。实验结果表明该算法训练的三种网络结构模型性能指标明显优于传统的DPM算法,中小型网络的训练模型基本达到了检测实时性要求,而且训练模型能够进行图像多目标分类识别,这超出了单目标设计要求。
关键词:图像识别;深度学习;Faster R-CNN;特征提取;分类识别
Abstract
Image recognition technology is a popular research direction in the fields of computer vision and deep learning. Its main task is to identify objects from images or videos. The traditional image recognition algorithms in a relatively simple identification tasks can achieve good results, however, because of the need to manually mark features, the feature extraction process has strong task correlation, and it is difficult to meet the requirements in the face of complex identification tasks. The article studies how to construct an end-to-end image recognition model, how to improve the accuracy of image recognition and recognition rate. In this paper, based on deep learning Faster R-CNN image recognition algorithm to build the image recognition model, and the two stages of feature extraction and classification are integrated into a complete network, which greatly improves the performance of the model, especially in the detection speed, so as to realize the end-to-end image recognition. The experimental results show that the performance of the three network structure models trained by this algorithm is obviously better than the traditional DPM algorithm, the training model of small and medium-sized network basically meets the requirement of real-time detection, and the training model can be used for image multi-objective classification and identification, which beyond the single objective design requirements.
Key Words:image recognition;deep learning;Faster R-CNN;feature extraction;classification
目 录
摘 要 I
Abstract II
第1章 绪论 1
1.1 研究目的及意义 1
1.2 国内外研究现状 2
1.3 本文主要工作 2
第2章 基于Faster R-CNN图像识别算法 3
2.1 特征提取网络 4
2.1.1 卷积神经网络 4
2.1.2 网络结构 5
2.1.3 ReLU激活函数 6
2.2 候选区域生成网络 7
2.2.1 网络结构 8
2.2.2 锚点 9
2.2.3 损失函数 9
2.3 分类回归网络 10
2.3.1 网络结构 11
2.3.2 ROI池化层 11
2.3.3 Dropout防止过拟合方法 12
2.3.4 非极大值抑制 13
2.3.5 损失函数 13
2.4 训练采用的深度网络 14
2.5 模型训练 15
第3章 系统测试与结果分析 16
3.1 数据集 16
3.2 评估指标 16
3.3 实验结果及分析 17
3.3.1 运行时间与所需存储空间 17
3.3.2 训练损失 18
3.3.3 图像识别质量 19
3.4 图像识别成果展示 24
3.4.1 测试集测试结果展示 24
3.4.2 demo运行结果展示 27
第4章 总结与展望 30
4.1 工作总结 30
4.2 研究展望 30
参考文献 31
致谢 33
第1章 绪论
1.1 研究目的及意义
图像识别技术[1]是对目前输入的原始图像与存储数据进行比对,通过算法对原始图像加工处理,从而识别图像中包含的各种类别目标,并输出其在图像中相应的位置信息。虽然图像识别广泛应用于当前许多行业,但是仍需重视的问题是目前仍然没有一种有效的图像识别算法能从自然环境中很好的抽离边角、纹理和形状等图像特征,更何况由于各类因素非常容易导致原始图像出现扭曲、遮挡和尺寸变化等问题,加大了算法对于图像抽象得到高级特征的难度。
传统的机器学习[2]图像识别算法大多分为特征提取和分类识别两大步骤,特征提取过程相对于不同的图像识别任务,其图像特征的标记以及训练采用的标注数据集也不同,不同识别任务模型无法通用。不仅分类识别任务拥有极强的关联性,要人为标记特征,而且这些图像识别算法的计算量一般较大,人为设计特征也使得算法无法达到及时性检测。因此,能够自主生成特征而不必人为提前标记特征的深度学习算法[3]在图像识别当中渐渐推广开来。
基于深度学习的图像识别算法相比基于传统的图像识别算法最显著的区别在于生成特征。如图 1.1所示,传统机器学习算法需要分阶段的人为干预操作,而深度学习算法好比“黑盒”,能在算法内部自动提取出全部图像特征,并且由多个卷积层和池化层叠加而成的深度学习网络能够将输入原始图像抽象成为待测目标的高级特征;基于深度学习的图像识别所有流程都不必人为设计特征,也没有人为干预,算法将特征提取和分类识别完美的衔接为一个整体,从而实现了端到端的图像识别,极大提高了图像识别的准确率和识别速率,基本达到实时检测要求。