基于深度学习的细粒度图像检索文献综述
2020-04-15 16:30:47
1.1选题目的及意义
计算机视觉是计算机学科的一个重要研究领域,是研究如何赋予计算机“看”的能力从而理解真实世界的人工智能学科分支。近些年,特别是在深度学习技术的推动下,计算机视觉领域发展迅猛。Google、百度等大型互联网公司在该领域有重要布局和谋划。计算机视觉领域内重要的研究课题如图像识别(image recognition)、图像检索(image retrieval)、图像语义分割(image semantic segmentation)、人脸识别(face recognition)、动作识别(action recognition)等等。其中,图像检索是计算机视觉中最为基础的研究课题,其在电子商务、版权保护、公共安全等领域具有十分广阔的应用前景。版权保护方面,公司可以通过图像检索,检测自然场景中是否存在不正当或未授权使用其 logo 的侵权情况;公共安全方面,司法部门可以通过在监控摄像头拍摄的画面中查找相似的车辆或行人等;电子商务领域中,比如阿里巴巴的拍立淘允许用户上传想要购买的商品照片,服务器通过图像检索为用户找到相同或相似的商品,使得购物更加便捷。
随着计算机技术以及互联网技术的快速发展,人们对信息获取的要求越来越高,希望得到具有针对性和定制化的内容服务。例如:在进行图像检索时希望能根据不同的属性进行检索、在对图像分类的时候,不仅希望知道对象所属的类别,还希望知道它的具体品种或型号。细粒度图像分析技术为这种需求提供了可能的解决方案。另外,在生物研究与生物多样性保护中,利用细粒度分析技术可以实现物种鉴别,帮助科学家节约资源和时间,同时也可以降低该领域的门槛,促进科学研究的发展。
1.2国内外的研究现状分析
在CNN[1]成功之后, 图像检索也包含了深度学习。在许多与视觉相关的任务中,包括图像检索[2],来自预先训练的深度神经网络的开箱即用的特性被证明可以实现最先进的结果。一些研究(如文献[3]、[5]、[6]、[7]、[8])研究了在图像检索中可以使用哪些深度描述符以及如何使用它们,取得了令人满意的结果。Gong等人[3]为了在不降低CNN识别能力的前提下提高卷积结果的不变性,他们提出了多尺度无序池(MOP-CNN)方法。MOP-CNN首先从多个尺度的局部通道的全连通层中提取卷积结果,并分别在每个级别上对这些特征进行无顺序的VLAD池化[4],最后将这些特征串联起来。在此之后,Babenko 等人[5]对这些特征的性能进行了广泛的评估,包括是否对相关数据集进行微调。这项工作表明,PCA压缩的深度特性可以优于在传统的类似于sift的特性上计算的紧凑描述符。后来,Babenko 等人[6]发现使用最大池化对最后一层卷积的深度特征进行聚合可以获得更好的性能,并提出了sum-pool tional features (SPoC)方法。在此基础上,Kalantidis 等人[7]在最大池化之前对空间和每个通道都应用了加权来创建最终的聚合。Tolias 等人[8]提出了一种基于卷积层激活的压缩图像表示方法,该方法对多个图像区域进行编码,而不需要向网络重新输入多个输入。
细粒度图像分析任务相对通用图像任务的区别和难点在于其图像所属类别的粒度更为精细。细粒度图像检索的难点,一是图像粒度非常细微,二是对细粒度图像而言,哪怕是属于同一子类的图像本身也具有形态、姿势、颜色、背景等巨大差异。Xie 等人[9]在2015年首次提出细粒度图像“搜索”的概念,在搜索时,首先判断其隶属的大类,然后进行细粒度的检索。一些工作在精确定位目标以及提升对目标注意力的问题上取得了长足的进步。Simon 等人[10]利用卷积网络特征本身产生一些关键点,再利用这些关键点来提取局部区域信息,通过计算梯度图对原图区域进行精确定位。Lin等人[11]设计了一种端到端的网络模型,利用两个网络分别完成了目标区域的检测与特征提取任务,并且具有十分好的泛化能力。Wei等人[12]提出了一种首先对图像中的目标进行定位,对定位部分的深度特征分别做平均池化以及最大池化操作,最后级联成最终的图像表示。Fu等人[13]提出了一种新颖的注意力卷积神经网络,以相互加强的方式递归地学习多尺度的区分性区域和基于区域的特征表示。王虹[14]提出了一种多特征融合的检索算法,能够综合地表征细粒度图像特征,达到较好的检索性能。
由于目标外观的细微差异,局部的特点是提高细粒度图像检索的关键,例如鸟背部的颜色、鸟的羽毛纹理以及鸟的腿部等。因此有一些工作着重从目标以及目标的各个具体部分提取特征,从而更精确地对图像进行表征。Zheng等人[15]建立了基于部分学习方法的多注意卷积神经网络,通过对特征回应进行聚类,加权等操作生成多个部分,再对每个单独的部分进一步进行分类,学习到更有区别力的细粒度特征。Yao等人[16]设计了 CN-Nets(Convolutional and NormalizationNetwork)网络结构,单独提取图像的前景特征以及背景特征,并为不同的类别构建专门的分类器,提升了大规模细粒度实例检索的准确率及效率。Pang等人[17]提出一种两步的检索策略和基于物种多样性的排序功能,对图像的每个部分进行二进制编码,综合每个部分的得分得出图像与待查询图像的相似性分数。Ahmad 等人[18]根据对目标的激活分析,选择用于表征目标的深层特征,有效地消除了背景的影响。之后使用局部敏感哈希方法投影到低维汉明空间,使该方法允许在大规模数据集内进行有效地检索。