基于卷积神经网络的图像分割及应用毕业论文

2020-02-23 21:56:13

摘要

近些年来，深度学习技术在图像领域，自然语言处理领域表现越来越突出亮眼，深度学习技术采用的主流技术为卷积神经网络，图像分割在图像领域中起了一个承上启下的作用。因此，如何使用卷积神经网络进行图像分割成为了本文的重点。

本文在传统的图像分割方法选择灰度分割法、边缘检测法、区域生长法进行了Matlab的图像分割处理。这些方法都是基于图像本体特征的提取，在本文中充当对比参照组，效果一般且应用面较窄。

在卷积神经网络方案中，采用Tensorflow深度学习网络框架，设计并改进了一个卷积神经网络，通过训练得到相应的模型参数，并输入图片进行分割。最终将搭建好的神经网络模型用于城市街景数据集和PASCAL2012数据集上，取得了较好的视觉分割结果。

通过视觉观察及相关评价标准进行评估，将传统分割方法、全卷积神经网络分割方法，改进后的金字塔池化神经网络分割方法三者的结果进行对比，从分析结果可以看出改进后的神经网络比原始神经网络的分割效果好，单张图片与数据集的分割效果和分割指标表明了像素级别分类的可靠性，从而验证了卷积神经网络用于图像分割的优势。

关键词：卷积神经网络；图像分割；深度学习

Abstract

In recent years, deep learning technology has become increasingly prominent in the field of natural language processing and the field of imaging. The mainstream technology used in deep learning technologies is convolutional neural networks, and image segmentation has played a role in the image field. Therefore, how to use the convolutional neural network for image segmentation has become the focus of this article.
In this paper, segmentation is done by Matlab in the traditional image segmentation methods, such as gray segmentation, edge detection and region growing. These methods are based on the extraction of image ontology features, which serve as a reference group in this paper. The effect is general and the application scope is narrow.

In the convolution neural network scheme, a convolution neural network is designed and improved by using the Tensorflow depth learning network framework, and the corresponding model parameters are obtained through training and input images are segmented. Finally, a good neural network model will be applied to the urban streetscape dataset and PASCAL2012 dataset, and a better visual segmentation result is obtained.

Through the evaluation of visual observation and relevant evaluation criteria, the results of the traditional segmentation method, the full convolution neural network segmentation method and the improved Pyramid pool neural network segmentation method are compared. The results show that the improved neural network has better segmentation effect than the original neural network, and the single map is the three one. The segmentation effect and segmentation index of the film and dataset show the reliability of pixel level classification, thus verifying the advantage of convolutional neural network for image segmentation.

Key Words：Convolutional Neural Network；Image Segmentation；Deep learning

第1章绪论 1

1.1 课题的研究背景与意义 1

1.2 课题的国内外研究现状 2

1.3 论文的主要内容 3

第2章图像分割基础 4

2.1 图像分割技术 4

2.1.1概述及方法 4

2.1.2传统方法概述及方法 4

2.1.3基于卷积神经网络语义分割概述及方法 5

2.2 卷积神经网络 6

2.2.1概述及发展 6

2.2.2卷积网络结构 6

2.3 Tensorflow介绍及配置 7

2.4 编程工具介绍 7

第3章基于传统方法的图像分割 8

3.1灰度分割法 8

3.2边缘检测法 9

3.3区域生长法 11

3.4 实验结果及分析 13

第4章基于卷积神经网络的图像分割 14

4.1算法描述 14

4.2 FCN结构 14

4.3 PSPNET结构 16

4.4 PSPNET在数据集上的应用 17

第5章实验结果对比分析 20

5.1实验配置 20

5.2数据集介绍 20

5.3传统方法区域分割和卷积神经网络对比 20

5.4卷积神经网络之间的对比评价 22

第6章总结与展望 23

6.1 总结 23

6.2 展望 23

参考文献 25

附录 26

致谢 41

第1章绪论

1.1 课题的研究背景与意义

随着人工智能技术的不断发展和深入，人们越来越多的使用深度学习来帮助人们处理各种声音、文本或图像信息。视觉信息当中的图像又在很多方面占据了主导信息，图像可以对真实的世界进行清晰准确的描述。如何将图像处理与深度学习有效结合起来，并且提取其中的有效信息成为了一个研究方向。

深度学习是基于人工神经网络发展起来的一项热点技术，神经网络出现于上个世纪中期，经过长时间的发展，验证了神经网络的逻辑功能和感知功能。到近十年以来，Hinton等人提出的观点解决了深度学习网络训练难度较大的问题，大量关于深度学习的论文被发表，深度学习也出现在各个领域内，从传统的深度卷积网络（Deep Neural-Network，简称DNN）到卷积神经网络（Convolutional Neural-Network，简称CNN)，都取得了突破性的进展^[1]。

深度学习在人工智能与机器学习领域应用极广，目的是建立能够模拟人脑进行分析学习的神经网络，它模仿人脑思考学习问题的机制来说明解释信息^[2]。深度学习模型顾名思义，与浅层网络相比拥有较多的网络层数，网络层之间主要经由逐层变换和大量有效的标注数据迭代训练学习来提取抽象特征，这些特征在某种意义上是无法用数学语言来描述的。将这些特征保存下来，经由这些特征，来对测试样本或者说新样本来进行分析预测。

随着深度学习技术的不断研究与发展，相对应的深度学习框架不断出现。这些框架包括Tensorflow、Caffe、Keras等等，并且提供了各种各样的主流编程语言接口。开发人员只需要简单地修改模型网络参数，配置就可以实现训练深度模型。开发人员需要做的就是大量调参，增加学习量，相应模型优化来获取最佳的特征表达模型^[3]。

目前，深度学习都采用卷积神经网络结构，该结构模仿人脑神经元，在图像视觉领域，自然语言处理领域有广阔的应用。在图像识别领域，有一个ImageNetILSVRC比赛，微软亚洲研究院的团队已经将分类错误率降低到3.56%。在语音识别领域中，科大讯飞公司表现尤为突出，可以在嘈杂的情况下达到近乎人耳的效果，实验证明有89%的识别准确率。

图像分割作为图像处理中分析与理解的基础，一直以来广受关注。它是指把图像分成许多个连续的区域并提取出感兴趣目标的技术和过程，它是图像处理、模式识别和人工智能等多个领域中的重要课题^[4]。运用深度学习框架下的卷积网络神经模型来处理图像分割，该网络对图像特征的提取特别高效该网络会自动实现学习特征，并且精度无限制。

1.2 课题的国内外研究现状

关于图像分割的系统研究已经有上百年了，在以往的图像分割当中，国内外许多研究人员已经提出了各种算法，但就目前而言，分类标准很多。

若按照常见的算法框架特征作为分类标准，图像分割大致有两类：“数据驱动法”和“模型驱动法”。数据驱动法一般从数据本身出发，利用数据的统计学特征，通过最优化聚类的方式来得到较好的分割结果。数据驱动法缺乏语义信息，是常见的非监督图像分割，选用的函数或者理论假设很大概率会不符合图像客观的特性。这说明方法的选择很重要，因为在该方法框架下无论如何调整参数都得不到好的图像分割结果。另一类是模型驱动法，模型驱动是假定图像特征符合一个已有的模型，常见的模型有引力场、马尔科夫随机场等等，利用模型来描述图像区域间邻域间的关系，这种方法可以加入全局信息。获得更优的结果。

若把是否存在语义信息作为图像分割的划分标准，则大致可分为传统方法与语义分割方法。其中传统方法都是基于图像的特征选择与提取，这可以理解为抽取图像块区域中描述图像的一些特有物理量。常见的特征包含幅度特征、纹理特征、统计特征、边缘特征、变换系数特征、彩色边界特征、拓扑特征等等。基于这些特征，产生了很多分割方法^[5]。

(1) 基于像素点的分割方法，灰度分割法作为其中的代表方法，确定一个或多个门限是分割的关键。这种方法适用于图像目标与图像背景处于不同的灰度级，灰度级的判定可以多加尝试，用以选取合适的灰度门限，低于这个门限的像素分为一类，高于这个门限的归为一类，如此就可以构成一个新的图像。这可以看作是一个图像有效标记的任务，门限的选择特别重要，这会大大影响图片的分割质量。

(2) 边缘检测算法，该算法的实现原因在于不同区域之间的边缘像素灰度值变化较为强烈。图像的边缘类型有三类：阶跃型、屋脊型、脉冲型。通过以往的经验得知，灰度值变化不光滑的的像素点就是边缘点，其连线就组成了图像的边缘。具体操作时，可以利用含有图像的一阶或者二阶导数的算子检测出边缘，然后将类似的边缘点连成线。此过程要注意先对图片去噪，因为噪声点的突变会影响图像分割效果。

(3) 区域分割算法，该算法尝试以图像图形的空间域信息和光谱信息为突破点，将具有相似性质的像素点进行连接，从而得到分割结果。一般来说包括区域合并、生长法、分水岭算法、纹理分割算法等等，该算法近几年来发展迅猛，取得了较好的结果。

(4) 基于深度神经网络的语义分割方法，该方法是近五年来出现的新方法，基本思想是通过深层网络感知训练出大量样本图片的特征，并通过参数调整、模型优化并使用监督学习特训练模型来分割测试图片。该方法充分考虑了图像的语义信息，其本质上属于图片像素级的分类，该方法鲁棒性，抗噪性，智能性都表现较好，唯一缺点是计算量较大，极其耗费显存^[6]。CNN 是深度学习中的一种人工神经网络模型，其局部感受野、层次结构化、特征提取与分类一体化等特点使得这种模型有着无可替代的地位^[7]。

多年来，图像分割领域不断延伸拓展，研究人员继续提出了许多新的算法与见解。特别是近十年来的图像分割发展情况说明，单纯使用一种分割算法是不太容易得到想要的理想结果的，业内人士发现将原有方法结合卷积神经网络应用于图像分割有广阔的前景。

1.3 论文的主要内容

本课题主要研究不同算法处理图像分割，本文把灰度分割法、边缘检测法、区域生长法作为对比方案，对其预处理、原理等过程进行了详细说明，并与本文拟设计的基于卷积神经网络的图像分割算法做了一个分析比较。最终通过编程实现对图像的分割，并在单张图片及相关图像数据集上进行编程验证，将其进行分析比较并得出结果。

本文主要以 Matlab和Python为编程工具，来实现传统图像分类方法以及以Tensorflow为深度学习框架来实现卷积神经网络图像分割方法。全文的具体结构布置如下：

第1章绪论，讨论图像分割领域的研究背景，简单介绍图像分割领域的研究现状，阐述论文的主要工作。

第2章图像分割基础，概述图像分割技术和卷积神经网络的基础知识，包括神经网络的结构，当下常用的几种用于图像分割的传统方法和新兴的语义分割方法。

第3章基于传统方法的图像分割，主要分析各种传统分割算法的基本结构原理，并利用这些算法进行图像分割。

第4章基于卷积神经网络的图像分割，深入讨论深度学习中的卷积神经网络模型，理解其基本结构原理，通过Tensorflow深度学习框架进行实验，得到分割结果并进行讨论。

第5章实验结果对比分析，这章主要包括传统方法与FCN（Fully Convolutional Networks）方法、FCN与PSPNET结构两组对比分析，主要包含视觉效果与主流评估指标之间的图像分割评价，讨论课题使用的这些方法各自的优缺点。

第6章总结与展望，对通篇的内容进行总结，交待完成的各项任务，并基于整个设计过程中的不足之处进行改进并展开设想。

第2章图像分割基础

2.1 图像分割技术

2.1.1概述及方法

图像分割指的是根据某种理论方法图像细分为多个图像子区域并提取其中感兴趣的部分^[8]。在以往的分割方法当中（包括阈值分割，边缘检测等方式），人们通常选用非监督学习，通过提取一些图像的低级特征，分割后的图像并没有语义标注信息，通俗来说就是并不清楚分割结果是什么。随着计算显存能力的提高，基于神经网络的语义分割变得越来越流行了。2015年，Long等人将CNN改造为FCN之后，深度学习正式进入图像语义分割领域。该方法极具创造性，创造了一种点对点的完全卷积网络来进行像素点层级的预测和监督预训练。从而产生准确和详细的分割^[9]。

而图像分割需要把图像中的目标、背景等不同区域位置准确地标注出来。卷积神经网络用于图像分割问题面临的难题是经过卷积神经网络计算的输出图像近似原图像的下采样，丢失了空间位置信息，无法给出图像中每一个像素属于某一类别的概率。本文采用卷积神经网络处理图像分割问题所采用的思路为：改造已有训练好的分类网络(CNN)为全卷积网络(FCN)，再对中间层的输出结果通过反卷积层进行插值恢复得到原始图像大小，最后将模型融合后可获得分割结果。

2.1.2传统方法概述及方法

使用传统方法进行图像分割较为简单，其过程如图2.1所示

图2.1 基于传统方法进行图像分割示例图

图像预处理的首要操作包含图像去噪、增强和形态学变换等，具体包括数字化、几何变换、尺寸归一化、灰度直方图均衡化、平滑、空间变换等多种方式。课题采用了高质量的图片作为训练集和测试集，因此仅仅需要对图片进行简单去噪或者直接使用，无需进行复杂的预处理操作。然而这并不意味着图像预处理不重要，在现实世界中，我们需要处理的图像往往存在着分辨率低、关键信息被无关信息遮挡、尺寸不一致等问题，这些问题影响着后续的图像特征提取各个过程。

在本文的工作中，传统方法里面选取了灰度分割法、边缘检测法、区域生长法作为实验参照组，灰度分割法原理是将图像中所有的像素点矩阵与确定的门限进行比较，将图像分为两类或多类；边缘检测法采用的原理是检测图像局部特征的突变，由前人经验知该过程与数学中的求导极其类似；区域生长法原理是将相似性质的像素进行连接成区域，可以理解为选取图像的一小块区域（种子区域）以该规则不断加入周围相似的像素点。

2.1.3基于卷积神经网络语义分割概述及方法

基于卷积神经网络进行分割属于监督学习，其过程如图2.2所示：

图2.2 基于卷积神经网络语义分割示例图

监督学习的主要流程是：

(1) 明确训练集的样本。监督学习一般用于图像层面的识别。在此，明确了语义分割任务之后，可以选择自己手动标注数据或者网络上下载相应的合适数据集。

(2) 明确训练集图像特性。也就是特征提取的步骤，特征很多情况下都比较抽象，在此可以认为是语义标签信息，即图像像素的属性分类。

(3) 确定相应的算法。例如常见的监督分割模型有全卷积神经网络（FCN）模型等。

(4) 完成设计。在相应的算法结构上不断优化，优化的过程包括不断的调参、选择合适的学习率、加大训练量。最终通过训练能够得到相应的模型权重参数，调用模型参数可以获得较好的像素分类（图像分割）能力，最终在测试集上进行验证与评估。

2.2 卷积神经网络

2.2.1概述及发展

2012年以来，深度学习被Hinton成功运用于图像领域中的分类之后，揭示了深度学习用于图像方面的可行性。传统的神经网络如图2.3(a)所示，其网络参数过多，导致训练麻烦、过程繁琐、容易过拟合。工程实践的实现效果并不尽如人意。如图2.3(b)所示，在人的视觉感官系统中，一些皮层的神经元只响应某些特定区域的刺激，即局部接受信息^[10]。据此，设计每个神经元只与图像某一区域的像素有连接，受此启发，有人据此在传统的神经网络基础上加入了权值共享，参数池化等等工作减小了网络参数的数量，使得该方法在工程上更具有可行性。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。

注册

找回密码