目标检测数据库的建立及应用外文翻译资料
2022-12-02 19:33:08
英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
Microsoft COCO: Common Objects in Context
摘要-我们提出一个新的数据集,其目标是通过把目标检测的核心问题放在更广泛的场景理解问题的背景下来提升目标检测效果。这是通过收集复杂的日常场景图像来实现的,这些图像在其自然的环境中包含一般对象。对象使用每个实例分割进行标记以帮助实现精确的物体定位。我们的数据集包含91个目标类型的照片,这些照片4岁时就可以很容易识别。用一个在328万张图像中总共250万个标记的实例,我们的数据集雇佣广泛的群众工作者使用全新的用户界面来创建,用于类别检测,实例标注和实例分割。我们提供一个详细与PASCAL,ImageNet和SUN数据库相比的统计分析。最后,我们使用DPM为边界框和分割检测结果提供基准。
1.介绍
计算机视觉的主要目标之一是理解视觉场景。场景理解涉及许多任务,包括识别目标是否存在,在2D和3D场景中定位目标,确定目标和场景的属性,表征目标之间的关系,并提供一个场景的语义描述。目前的目标分类和检测数据集[1],[2],[3],[4]帮助我们研究与场景理解有关的第一个挑战。例如,包含了数量空前的图像的ImageNet数据集[1]最近帮助实现目标分类和检测[5],[6],[7]的重大突破。一些社区也创建包含目标属性[8],场景属性[9],关键点[10]和三维场景信息[11]的数据集。这导致我们思考一个明显问题:什么数据集能最好地帮助我们继续前进到我们的最终目标即现场理解?
(a)图像分类 (b)目标定位
(c)语义分割 (d)这份工作
图1:以前的物体识别数据集有(a)图像分类,(b)目标边定位或(c)语义分割,我们着重于(d)分割单个目标实例。我们引入一个有丰富注释的大型数据集,它是由描绘在自然环境中复杂的日常场景的图像组成。
我们引入一个新的大型数据集来研究场景理解中的三个核心问题:检测非标志性视角(或非标准视角)[12])目标,目标之间的逻辑关系和目标的精确2D定位。对于很多目标的类别,存在一个标志性的观点。例如,在基于Web的图像搜索引擎上搜索目标类别为“自行车”时,出现在搜索框的排名第一的检索例子,都在整齐组成的标准照片的中心附近。我们假设目前检测系统在标志性图像上表现相当好,但很难识别在这样的物体-它们在背景中,部分被遮挡,比较杂乱[13] -而这些都反映了实际的日常场景的组成。我们通过实验验证;当在日常场景上测试时,我们的数据训练的模型比以前数据集训练的表现更好。一个挑战是要找到包含多个目标的自然图像。由于图像中很多物体尺寸小或者外观模糊,它们的身份只能根据上下文来确定。因此推动在语境推理,图像描绘场景[3]而不是孤立目标的研究是必要的。最后,我们认为对目标布局详细的空间理解将成为场景分析的核心部分。一个目标的空间位置可以使用一个边界框[2]或一个精确的像素级别的分割[14],[15],[16]来粗略地 定位。正如我们所示,为了测试两种方法的定位性能,让数据集中每个符合目标种类的实例被标记且完全分割是有必要的。我们的数据集对分割的实例的标注中是独一无二的,图1。
为了创建完成这三个目标的大规模数据集,我们采用了新型的准则通过广泛地使用亚马逊Mechanical Turk来进行数据采集。首先也是最重要的是,我们收获了一大批包含有上下文关系和非标志性目标的图像。我们用一个很简单却很有效的技术来完成这个任务,即查询与基于场景调查检索到的图像契合的目标[17],[3]。接下来,我们使用一个分层标注的方法[18]来标记每幅图像为包含特定的目标类别。对于每个被发现的类别,每个实例都被标记,验证,并最终分割。考虑到标签内在的模糊性,每个阶段都有许多权衡方案需要我们详细探讨。
在COntext(MSCOCO)数据集中的Microsoft Common Objects包含91个常见的目标类别,其中82个具有超过5000个标记的实例,图6。数据集总计有328,000个图像,其中包含2,500,000个被标记的实例。与流行的ImageNet数据集[1]相反,COCO有较少的类别,但是每个类别更多的实例。这可以帮助提升目标检测模型更精确的2D定位能力。与PASCAL VOC [2]和SUN[3]相比,我们数据集的每个类别的实例数量也显著增加。另外,我们数据集与其他数据集的一个明显区别就是每幅图像中被标记的实例数目,而这可以帮助学习上下文信息,图5。与ImageNet(3.0)和PASCAL(2.3)相比,MS COCO中每幅图像包含更多的目标实例(7.7)。相反,包含重要的上下文信息的SUN数据集中,每幅图像有超过17个目标和“东西”,但只有很少目标实例。
这个工作的删节版本出现在[19]。
2.相关工作
纵观计算机视觉研究的历史,数据集起到了关键的作用。它们不仅提供了训练和评估算法,还推动研究朝着更新和更具挑战性的方向发展。地面立体实况和光流模型数据集的建立[20],[21]激发了人们对这些领域的极大兴趣。目标检测数据集的早期演变[22],[23],[24]直接促进了数百种图像识别算法的发明,同时将该领域推向研究更复杂问题的方向。最近,包含有数以百万计图像的ImageNet数据集[1]已经使目标分类和检测研究取得重大突破,它们都产生新的深度学习算法[5],[6],[7]。
与目标检测相关的数据集可以粗略地分为三组:目标分类,目标检测和语义场景标签。 我们依次解决每个问题。
目标分类 目标分类的任务需要使用二进制标签指示目标是否在图像中;见图1(a)。早期的数据集只有在空白背景中的单个目标,如MNIST手写数字[25]或COIL家居用品[26]。 Caltech 101[22]和Caltech 256 [23]标志着数据集转向搜集更多真实的从互联网上检索到的目标图像,同时也将也将目标类别的数量分别增加到101和256。机器学习领域中的流行数据集由于大量的训练样本,CIFAR-10和CIFAR-100 [27]提供了10和100个类别来自32times;32小图像数据集[28]。虽然这些数据集包含高达60,000图像和数百个类别,他们仍然只抓获一个我们视觉世界的小部分。
最近,ImageNet [1]数据集在数据数目方面实现了令人震惊的增长。他们提出创建包含22k个类别的数据集,每个类别包含500-1000个图像。与之前包含入门级类别[29](如“狗”或“椅子”)的数据集不同,像[28]一样,ImageNet使用了WordNet Hierarchy [30]获得入门级和细密的[31]类别。目前,ImageNet数据集包含超过1400万被标记的图像,并已促进图像分类[5],[6],[7]的重大突破。
目标检测 检测一个目标需要指出当前目标是否属于指定类,并在图像中定位。一个目标的位置通常由一个边界框来表示,图1(b)。早期的算法使用点对点的数据集来进行人脸检测[32]。后来更现实并更具有挑战性的人脸检测数据集被创建[33]。另一个流行的挑战是对行人检测[24],对此很多数据集又被创建[4]。加州理工的行人数据库[4]包含35万用边界框标记的实例。
为了检测基本的目标类别,从2005年到2012年的多年的努力都致力于创建并维护一系列能被广泛使用的基准数据集。 PASCAL VOC [2]数据集包含分布在11000个图像上的20个目标类别。超过27000个目标实例被边界框标记,其中近7,000个具有详细的分割。最近,一个检测挑战已经从200个目标类别中被创建,它们使用来自ImageNet [34]子集的400,000个图像。比较显眼的35万个物体已经使用边界框进行标记。
由于检测多个物体(例如太阳镜,手机或椅子)高度依赖上下文信息,检测数据集在它们自然环境中包含目标是非常重要的。在我们的数据集中我们努力收集富含上下文信息的图像。边界框的使用也限制了评估检测算法的准确性。我们建议使用完全分割实例来进行更精确的检测评估。
(a)标志性的目标图像 (b)标志性的场景图像 (c)非标志性图像
图2:(a)标志性的目标图像,(b)标志性的场景图像和(c)非标志性图像的示例。
场景语义标签 场景中目标语义标签的任务要求图像的每个像素都被标记为属于一个类别,如天空,椅子,地板,街道等。与检测任务相反,目标的个体实例不需要分割,图1(c)。 这使隶属于目标标签的个别实例难以被定义,如草地,街道或墙壁。数据集包含室内[11]和室外[35],[14]场景。一些数据集也包括更深层次的信息[11]。类似于场景语义标签,我们的目标是测试目标像素级别标签的准确性。不过,我们也是为了区分目标的个体实例,这需要对每个目标的内容有深刻的理解。
一个新型的数据集,结合了许多属性既有目标检测又有场景语义标注,这就是用于场景理解的SUN数据集[3]。SUN包含来908个场景类别,它们来自包含被分割目标的WorldNet词典[30]。3819个目标类别有着共同点,即都有目标检测(人,椅子,车)和场景语义标签(墙,天空,地板)。 由于数据集是搜集查找描绘各种场景类型的图像,因此每个目标类别的实例数量都有长尾现象。 也就是说,几个类别有很大的实例数(墙:20,213,窗口:16080,椅子:7,971),而大多数的数量相对较少(船:349,飞机:179,落地灯:276)。 在我们的数据集,我们确保每个目标类别都有大量的实例,图5。
其他视觉数据集 数据集激发了计算机视觉的众多领域的蓬勃发展。一些著名的数据集包括立体视觉的Middlebury[20],多视角立体[36]和光流[21]数据集。 伯克利分割数据集(BSDS500)[37]已被广泛用于评估分割和边缘检测算法。数据集也能识别场景[9]和目标属性[8],[38]。事实上,图像研究方面的众多领域已经受益于具有挑战性的数据集。
3.图像采集
接下来,我们将描述目标类别和候选图像是如何被选择的。
3.1常见的目标类别
目标类别的选择是一个很重要的流程。类别必须是这样一组类别的代表,它们具有实用性,日常发生的频率比较高,且能容易收集一大批。其他重要的决定是“事物”和“东西”类别[39]和细粒度[31],[1]及目标部件类别是否应该包括在内。“事物”类别很容易被标记的个体实例(人,椅子,汽车)“东西”类别包括没有明显界限的材料和物体(天空,街道,草地)。 由于我们主要对目标实例的精确定位感兴趣,所以我们只决定包括“事物”类别而不是“东西”。但是,因为“东西”类别可以提供重要的上下文信息,所以我们相信未来对“东西”类别的标注将是有益的。
目标类别的特殊性可能会有很大的不同。 例如,一只狗可能是“哺乳动物”,“狗”或“德国牧羊犬”类别的一个成员。为了能够实际收集大量的数据,我们选择限制我们的数据集到入门级的类别,即在描述目标时,类别标签是经常被人类使用的词语(狗,椅子,人)。一些目标类别也可能是其他目标类别的一部分。例如,一张脸可能是一个人的一部分。我们希望包含目标部分类别(面部,手部,轮子)更利于实用性。
我们使用了几个来源来收集入门级的“事物”目标类别。我们首先从PASCAL VOC [2]和1200个最常使用的单词中[40]列出一份类别标签的表格。为了进一步扩大我们的候选类别,我们让几个从4岁到8岁不等的孩子说出他们在室内和室外环境中看到的每一个物体。最终的272名候选名单可以在附录中找到。最后,我们每个人都以1到5的比例基于它们发生频次,它们的实用性用性,以及它们相对于其他类别的多样性来投票。最终根据投票来决定类别的选择,但同时也保持每个超类别(动物,车辆,家具等)的数量均衡。含有大量实例的类别(大于5000)也很难被删除。为了确保向后兼容性,PASCAL VOC [2]的所有类别也被包括在内。我们最后的包含91个议的类别名单在图5(a)。
(a)类别标注 (b)实例标记 (c)实例分割
图3:我们的注释分成三个主要任务:(a)标记图像中存在的类别(x4.1),(b)定位和标记标签类别的所有实例(x4.2),(c)分割每个目标实例(x4.3)。
3.2非标志性图像采集
鉴于目标类别的名单,我们的下一个目标是收集一组候选图像。我们可以大致分组图像分为三种类型,图2:标志性目标图像[41],标志性场景图像[3]和非标志性图像。典型的标志性目标图像在场景惯用视角中心有一个大的单独的物体,图2(a)。标志性场景图像是从规范的角度拍摄的并且普遍缺乏人的干扰,图2(b)。标志性的图像可以很容易地直接找到,只要使用Google或Bing图片搜索特定类别即可。虽然标志性的图像通常提供高质量的目标实例,但它们可能缺乏重要的上下文信息和非规范的视角。
我们的目标是收集大多图像都是非标志性的数据集,图2(c)。因为包含更多非标志性图像的数据集更有利于推广[42]。我们使用两个方法来收集非标志性图像。首先基于PASCAL VOC普及[2],我们因此从Flickr收集图像,它们往往有较少的标志性图像。Flickr包含业余摄影师上传的图片,它们与搜索源数据和关键字契
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[21727],资料为PDF文档或Word文档,PDF文档可免费转换为Word