基于深度卷积神经网络的图像语义分割方法研究毕业论文
2021-04-05 00:32:51
摘 要
随着可以自动转移的机器人、民用无人机以及自动驾驶汽车等能自主移动的智能机器的快速发展,这类设备移动的时效性、安全性越来越受到了使用者的重视。而街道场景的图像语义分割作为引导机器自主移动的关键性技术,它的突破与发展成为了自动行驶发展的瓶颈技术,从而也导致了越来越多的研究人员进入到这类项目的研究之中。现有的图像分割算法往往只针对通用的数据集能取得良好的效果,而在其它的数据集上的表现却可能不大令人满意。本文旨在研究效果更加优良和高效的实时语义分割的这一具有挑战性的任务。它有着许多非常实际的应用,但在减少大量像素级标签推理的计算量方面存在着根本性的困难,我们旨在设计一种网络,它能运行在特定的数据库上,同时能在移动设备上快速运行。
本文主要的研究内容如下:
1.本文研究了一种图像级联网络,它在适当的标签指导下包含多分辨分支以解决实时的挑战。
2.本文对现有框架进行了分析,引入了级联特征融合单元来快速实现高质量的分割,并在cityscapes数据集上评估出了良好的效果。
实验证明本文算法通过引入了级联特征融合单元的方法有效提升了整体分割性能。从而实现了对高分辨率图像的快速与高质量的分割效果,为实际应用提供了指导意义。
关键词:语义分割;分辨率;高效;特征融合;神经网络
Abstract
With the rapid development of robots that can be automatically transferred, civil drones, autonomous vehicles and other intelligent machines that can move autonomously, the timeliness and safety of such devices are increasingly valued by users.
As a key technology to guide the autonomous movement of machines, the semantic segmentation of street scenes has broken through and developed into a bottleneck technology for the development of automatic driving. As a result, more and more researchers have been involved in the research of such projects. The existing image segmentation algorithms often only focus on general data sets and achieve good results, while the performance of other data sets may not be satisfactory. This paper aims to study the challenging task of more effective and efficient real-time semantic segmentation. It has many very practical applications, but there are fundamental difficulties in reducing the amount of computation required for a lot of pixel level tag reasoning. We aim to design a network that can run on specific databases and also run quickly on mobile devices.
The main research contents of this paper are as follows:
1. This paper studies an image cascade network, which includes multi-resolution branches under appropriate label guidance to solve the real-time challenge.
2. We have analyzed the existing framework, introduced cascade feature fusion unit to achieve high-quality segmentation rapidly, and evaluated the good effect on cityscapes data set.
Experiments show that the proposed algorithm improves the performance of the whole segmentation by introducing cascade feature fusion elements.
This method can achieve fast and high quality segmentation of high resolution image and provide guidance for practical application.
Keywords: semantic segmentation;high resolution;high efficiency;feature fusion;neural network
目录
第1章 绪论 1
1.1研究背景及意义 1
1.2图像分割方法的国内外研究现状 2
1.2.1传统的语义分割技术 2
1.2.2 基于深度学习的图像语义分割研究现状 3
1.3 本文主要内容与结构安排 4
第2章 图像语义分割概述与神经网络基础 5
2.1图像语义分割数据集 5
2.3基本的网络层级结构 7
2.4本章小结 10
第3章 基于卷积神经网络的街景图像语义分割 11
3.1模型的整体结构 11
3.2模型中的关键结构 12
3.2.1级联特征融合CFF 12
3.2.2金字塔场景解析网络 13
3.2.3 模块中的残差模块 14
3.3 本章小结 15
第4章 实验仿真及结果论证 16
4.1 实验的工具及环境的介绍 16
4.1.1实验所用的PC 配置 16
4.1.2实验用的相关程序环境 16
4.1.3 实验所用的数据库 16
4.2 基于特征融合模型的实验 17
4.2.1 实验实现细节 17
4.2.2 特征融合分割结果 18
4.2.3 实验结果分析 19
4.3其它网络模型对比实验 20
4.3.1 基于金字塔池化模型的分割网络 20
4.3.2基于全卷积模型的分割网络 21
4.4 实验综合结果分析 22
4.5 本章小结 23
第5章 总结与展望 24
5.1 本文工作总结 24
5.2 未来工作的展望 24
参考文献 26
致 谢 28
第1章 绪论
1.1研究背景及意义
图像语义分割在各类行业中都有着重要的应用,其本质就是对图像像素分类。在图像语义分割任务中,将一张图像输入然后得到一张具有颜色标注的输出,图像中的每一个类别都可以用不同颜色在图像中表示出来,如图1.1所示,其中左方为输入图像,右方为分割后的结果,图片中每种类别都用不同颜色标出了。
(a)原图 (b)标注图
图1.1语义分割任务实例
图像语义分割在场景理解、物体检测等计算机视觉任务中起着十分重大的基础作用。它通过从图像中提取语义信息,从而理解图像内容,在理解内容基础上实现识别和分类。图像语义分割不仅用于科研现在已经走向商用,比如说医疗影像处理,自动驾驶,而自动驾驶的重中之重就是街景的理解。在自动驾驶技术的组成单元中,环境信息的处理是一个关键部分,这就需要高水平的图像语义分割技术,从而为智能车辆提供重要的路况信息,让车辆能够迅速判断并作出相应的反应,保证车辆行驶的安全性。因此对语义分割任务的研究具有巨大的价值,成为现今计算机视觉领域的一个重点领域
但是同时语义分割任务也是深度学习中的难点。它的难点[1]在于,第一,从物体的角度而言,因为光照、距离等拍摄条件的不尽相同,就算是同一个的物体在图像中的呈现的形态也是各不相同,例如它们之间可能存在遮挡。因为图像是二维平面的呈现方式,而且各个物体它们在空间上不一定呈现的是一个完整的全部而是只表现局部信息这让网络很难去给出判断。第二,从类别层次这个角度看,很多相同的类别在现实中具有不同的外观,相同类别的物体在图像中仅凭外形难以辨别是不是同一类,而不同类别的物体又可能长得很像。第三,对图像背景而言,现实场景的图像往往背景不是只呈现统一单调的信息。第四,现今的网络模型倾向于加强分割精度而不去注意网络分割的耗时,所以应用到实际的生活中的价值不大。因此研究员都在尽力的解决分割时效性问题。