登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 电子信息类 > 通信工程 > 正文

基于多尺度深度卷积神经网络的视觉显著性检测外文翻译资料

 2022-08-22 15:18:34  

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


基于多尺度深度卷积神经网络的视觉显著性检测

摘要:视觉显著性是包括计算机视觉在内的认知科学和计算科学中的一个基本问题。在本文中,我们发现利用深度卷积神经网络提取的多尺度特征可以得到高质量的视觉显著性模型,这种模型在视觉识别工作中已取得了许多成功。为了学习这种显著性模型,我们引入了一种神经网络结构,该结构在CNNs之上具有完整的连接层,负责三种不同尺度的特征提取。神经网络的倒数第二层被证实是一种用于显著性检测的可区分高阶特征向量,我们称之为深对比特征。为了生成更强大的特性,我们将手工制作的低级特征与深对比度特征集成在一起。为了促进对视觉显著性模型的进一步研究和评估,我们还构建了一个包含4447幅具有挑战性的图像及其像素显著性注释的大型数据库。实验结果表明,我们提出的方法能够在所有公共基准上实现最先进的性能,在DUT-OMRON数据集和我们的新数据集(HKU-IS)上分别将F度量提高6.12%和10%,在这两个数据集上分别将平均绝对误差降低9%和35.3%。

索引:卷积神经网络,显著性检测,深对比度特征。

Ⅰ. 简介

视觉显著性试图确定人类视觉和认知系统对一幅图像中不同区域的关注程度。因此,它是心理学、神经科学和计算机视觉的一个基本问题。计算机视觉研究人员致力于开发用于模拟人类的视觉注意过程或识别视觉上的显著区域的计算模型。它最初被定义为一项预测眼睛注视点的任务,以研究人类视觉系统的机制。最近它被扩展到定位感兴趣的区域,称为显著目标检测。由于视觉显著性结果对图像中的视觉内容有一定的重要性,因此有助于缩小视觉处理的范围和节约计算资源。因此,视觉显著性已被纳入到各种计算机视觉和图像处理任务中,以提高其性能。这些任务包括图像裁剪、重定向、图像概要和缩略图生成。近年来,视觉显著性在目标跟踪、图像分类、人员再识别等视觉识别任务中也得到了越来越多的应用。

图1 本例说明了基于手工制作的低级特性的显著性模型是脆弱的。从左上角到右下角:源图像,真实地面,我们的显著图,以及其他五种最新方法的显著图,包括SF[13]、DRFI[14]、HS[15]、RC[16]和MR[17]。

感知研究的结果表明,在人类视觉系统中,对比度是影响视觉注意的最主要因素。在各种显著性检测方法中,已成功地采用了局部和全局对比度来获取显著性示意图,其中对比度的定义是基于像素级或超像素级上各种类型的手工图像特征(如颜色、强度和直方图)。虽然这些方法在简单的基准上表现良好,但当背景变得复杂时,它们可能会失败,因为手工制作的低级特征无法有效地捕获隐藏在图像中的语义内容,而且这些低级特征之间的对比度往往不足以使突出的物体从背景中展现出来。例如,在图1中,狮子隐藏在灌木丛中,仅使用低级显著性线索无法将其检测为显著对象。然而,由于狮子在高级认知中具有语义上的显著性,因此人类可以很容易地识别出它并仔细地加以检查。正因如此,在我们的工作中,我们在推断显著性示意图时,利用了来自深度学习的高级语义有意义特征和低级特征的优势。

参与视觉注意过程的人类视觉和认知系统是由相互连接的神经元层组成的。例如,人类的视觉系统具有简单的和复杂的细胞层,它们的激活取决于进入它们的感知区的输入信号的大小。由于深度人工神经网络最初是受到生物神经网络的启发,因此利用深度人工神经网络建立视觉显著性的计算模型是很自然的选择。具体来说,最近流行的卷积神经网络(CNN)特别适合这项任务,因为CNN中的卷积层类似于人类视觉系统中的简单和复杂细胞,而CNN中的全连接层则类似于更高层次的推理和决策。

本文利用卷积神经网络计算的多尺度深度特征,建立了一种新的视觉显著性计算模型。深层神经网络,如CNNs,最近在视觉识别任务方面取得了许多成功。这种深度网络能够自动从原始像素中提取特征层次。此外,使用这种网络提取的特征具有高度的通用性,而且通常比传统的手工制作的特征更有效。受此启发,我们使用最初在ImageNet数据集上训练的CNN进行特征提取。由于ImageNet包含了大量对象类别的图像,我们的特征包含了丰富的语义信息,这对于视觉显著性很有用,因为人类对不同语义类别的对象关注程度不同。例如,与天空或草地相比,观看图像的人可能更关注汽车等物体。在本文的其余部分中,我们将这些特征称为CNN特征。

根据定义,显著性是由视觉对比度引起的,因为它直观地描述了图像的某些部分,这些部分相对于其相邻区域或图像的其余部分显得突出。因此,为了计算图像区域的显著性,我们的模型应该能够评估所考虑的区域与其周围区域以及图像的其他区域之间的对比度。因此,我们从三个嵌套且越来越大的矩形窗口中为每个图像区域提取多尺度CNN特征,这三个窗口分别包含所考虑的区域、其相邻区域和整个图像。

在多尺度CNN特征的基础上,我们的方法进一步训练了完全连通的神经网络层。串联的多尺度CNN特征被输入到这些层中,这些层使用标记过的显著性示意图的集合进行训练。因此,这些完全连接的层扮演一个回归器的角色,该回归器能够根据从围绕图像区域的嵌套窗口中提取的多尺度CNN特征推断每个图像区域的显著性评分。因此,本神经网络的倒数第二个全连接层正在成为显著性检测中的一个非常有鉴别力的高级特征向量,通过简单的逻辑回归分析,我们可以生成比现有基于低级特征的显著性模型更精确的显著性图。我们进一步发现,高阶判别特征向量是对手工构造的低阶特征的补充,并在串联的高阶和低阶特征上训练一个随机森林回归器。实验结果表明,这种混合特征可以进一步提高显著性检测的性能。

我们已经在现有数据集的基础上对基于CNN的视觉显著性模型进行了广泛的评估,同时注意到在训练和测试显著性模型时缺乏大型且具有挑战性的数据集。目前,MSRA-B是最常用的数据集。然而,这些年来,这个数据集已经变得不那么具有挑战性,因为那里的图像通常包括远离图像边界的单个突出对象。DUT-OMRON是目前最具挑战性的自然图像数据集,用于突出目标检测和眼睛注视预测的研究。为了便于研究和评估高级显著性模型,我们创建了另一个大型数据集,其中一个图像可能包含多个显著对象,这些对象在图像中具有更一般的空间分布。此外,我们的数据集只包含从多个用户那里接收一致的显著性注释的图像。我们提出的显著性模型在新数据集和所有现有数据集上显著优于所有现有的显著性模型。

综上所述,本文的贡献如下:

提出了一种新的视觉显著性模型,将从嵌套窗口提取的多尺度CNN特征与具有多个全连接层的深度神经网络相结合。利用一组标记显著性示意图的区域对深度神经网络进行显著性评估训练。该神经网络的倒数第二层可以看作是一个用于显著性检测的高阶判别特征向量,与手工构建的低阶特征相结合可以进一步提高显著性性能。

提出了一种完整的显著性框架,该框架将多层图像分割后的聚合显著性示意图与基于全连通CRF的空间相干模型进一步集成。

论文的其余部分安排如下。第二节回顾了相关工作,并将我们的方法与这些工作区分开来。第三节介绍了我们提出的多尺度深度特征。第四节给出了完整的算法,在本文的初稿中引入了一个新的数据集,为了保证本文的完整性,我们在第五节再次提出。第六节给出了大量的实验结果和比较,第七节对本文进行了总结。

Ⅱ. 相关工作

  1. 显著目标检测

视觉显著性算法可分为三大类:自底而上算法、自顶向下算法和前两种算法的混合算法。

自底而上的模型主要基于围绕中心的方案,使用低级视觉属性(如颜色、强度、纹理和方向)的线性或非线性组合计算主显著性图。根据显著性计算的空间范围,这些方法可以进一步分为局部方法和全局方法。局部方法通过考虑每个像素或图像区域与小邻域之间的对比度来度量显著性。

这一类的一个例子是Borji和Itti等人的工作,他们计算了不同尺度下的颜色和方向对比来测量局部的显著性。虽然它可以识别出显著的像素,但正如Cheng等人所指出的,结果通常是模糊的,并且包含大量的错误检测。Ma和Zhang提出了一个模糊增长过程来模拟人类感知的过程,并使用局部对比作为显著性的度量。Harel等人使用[3]中的方法创建特征图,但使用基于图的随机游走进行归一化。由于这些方法只考虑局部对比度,它们往往只检测边缘或噪声等高频特征,并抑制显著目标内部的均匀区域。

全局自底而上的方法通过考虑整个图像的对比度来估计显著性。Achanta提出了一种频率调谐方法,该方法通过计算平均图像颜色的色差来直接估计像素的显著性。Cheng等人以颜色直方图作为区域特征,根据直方图的差异性计算显著性。Yan等人在[15]中提出了一个层次结构框架来处理小规模高对比度的模式。近年来,人们在区分特征和显著性优先的设计方面做了大量的工作。大多数算法在本质上遵循区域对比度框架,旨在发现能够更好地描述图像区域相对于其周围区域的特殊性的特征。在[4]中,三个新的特征被整合到一个条件随机场中。文[29]提出了一种基于低秩矩阵恢复的低层视觉特征与高层先验信息融合的模型。Chen等人设计了一种基于内在双调和距离度量的结构感知描述符,该描述符能够同时集成局部和全局结构信息。虽然已经有了很大的改进,但是这些全局特征在捕获图像语义信息方面仍然很弱。

自顶向下的方法通常需要在计算过程中结合高级知识,例如对象性和对象检测器。在[33]中,Judd使用高级图像特征(包括基于人脸检测和人员检测结果的特征)训练了自顶向下的显著性模型。Borji在学习显著性模型时集成了自底而上和自顶向下的特征,将人和汽车检测器视为高级优先级。在[31]中,Jia等人在没有类别信息的情况下,利用对象计算高层次显著性,并应用高斯MRF来增强显著区域之间的一致性。Chang等人提出了一个框架,该框架通过一个图形模型来解释对象和显著性之间的关系,从而在概念上将它们整合在一起。我们从Krizhevsky的CNN中提取的深度特征隐式编码了120万幅图像的语义信息,与基于相对较少的对象检测器(如人脸、人、车)或近似对象的特征相比,具有更强的泛化能力。

显著性先验,如中心先验和边界先验,被广泛用于启发式地改进显著性估计。

中心先验通常表示为高斯衰减映射,赋予图像的中心区域更高的显著性,而边界先验采用互补透视,赋予图像的边界区域更低的显著性。这些显著性先验要么与其他显著性线索直接整合为权重,要么作为基于学习的算法中的特征。虽然这些经验先验可以改善许多图像的显著性结果,但当显著对象偏离中心或与图像边界明显重叠时,它们可能会失败。需要注意的是,在我们的框架中,对象定位提示和基于边界的背景建模并没有被忽略,而是通过多尺度CNN特征提取和神经网络训练隐式地结合在一起。

  1. 深度卷积神经网络

卷积神经网络近年来在图像分类、目标检测、场景解析等视觉识别任务中取得了许多成功。Donahue等人指出,从Krizhevsky的CNN中提取的特征经过ImageNet数据集的训练可以重新用于一般任务。Razavian等人扩展了他们的研究结果,并得出结论,基于CNN的深度学习可以成为任何视觉识别任务的有力候选者。然而,显著性检测通常被定义为一个低级的计算机视觉问题,其行为与传统的目标检测有很大的不同。对于显著性预测,应该学习的是与周围区域的对比度,而不是图像区域内的内容。本文提出了一种简单但十分有效的神经网络结构,用于挖掘隐藏在多尺度深度CNN特征中的对比度信息,并对每个区域进行显著性评分。注意,在[22]中训练了一个多尺度卷积网络,来提取非常适合于场景标记的层次特征向量。原始输入图像经过拉普拉斯金字塔变换成三个尺度,然后输入到三级卷积网络中,像素级特征类似于超列特征,由CNN各卷积层对应于同一像素的响应叠加形成。与我们的方法所使用的面向区域的特征不同,其面向像素的特征并没有将重点放在区域对比度上,而区域对比度是显著性检测的关键。

自我们前期工作发表以来,已有其他基于卷积神经网络的显著性检测方法。Wang等人应用深度神经网络(DNN-L)学习局部斑块特征,确定中心像素的显著性评分。由于只考虑局部区域,所生成的显著图的质量可能对高频背景噪声敏感,显著目标内部的均匀区域可能会被误分类。因此,增加了一个全局搜索阶段,以挖掘使用手工特征表示的全局显著性线索之间的复杂关系。Li和Yu[41]提出了一种端到端的深度对比网络,该网络同时考虑了像素级和分段显著性推断。在[42]中,利用了全局和局部上下文并将其集成到一个统一的深度学习框架中,用于显著性检测。他们的模型计算每一个超级像素的显著性得分。超像素的全局上下文包含整个图像,超级像素位于上下文的中心,而局部上下文的固定大小等于全局上下文的三分之一。虽然我们提出的方法也提取了基于CNN的上下文特征,但它在三个方面与[42]有所不同,并且更加健壮。首先,我们局部环境的大小在空间上是变化的,这取决于周围区域的实际大小。我们的局部环境可以更好地估计每个区域与背景之间的对比度。其次,我们提出了一种神经网络架构来挖掘隐藏在级联的多尺度深度特征中的对比度信息,而不是直接回归。第三,我们采用多级分割和基于像素级CRF的细化来补偿超像素造成的误差。实验结果表明,该方法优于现有的基于CNN的显著性模型。

本文提供了对会议版本[1]中首次提出的多尺度深度特征的更全面的理解,并提供了额外的见解、分析和评估。此外,我们从两个方面对原有的框架进行了改进。首先,我们提出了深度对比特征的概念,分析了它们的优缺点。为了补充深对比度特征,我们还提取了低层特征,这些低层特征可以有效地获取图像的片段特性以及区域与图像其余部分之间的颜色和纹理对比。将低层特征与深度对比特征连接起来,得到一个混合的深度和手工特征向量。结果表明,在该混合特征向量上训练一个随机森林回归器可以进一步提高性能。其次,为了增强空间相干性以及更好地保留显著物体的边界,我们将全连通的CRF模型集成到我们的框架中,进行像素级的显著性改进。

图2 基于深度特征的视觉显著性模型的体系结构

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239838],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图