图像检索:思想,在的影响和发展趋势新时代外文翻译资料
2022-10-16 15:58:53
英语原文共 66 页,剩余内容已隐藏,支付完成后下载完整资料
图像检索:思想,在的影响和发展趋势新时代
宾夕法尼亚州立大学
在基于内容的图像检索新兴技术中,我们已经见证了巨大的兴趣和丰富的承诺。在过去的十年中,这样的承诺奠定了基础,它也为大量的新技术和系统铺平了道路,有许多新的人参与,并在弱相关领域引发了更强联系。在本文中,我们调查了几乎300个在当前十年中的图像检索和自动相关图像标注关键理论和经验贡献,并讨论相关的子领域的发展过程中。我们还讨论了重大挑战涉及到现有的图像检索技术的适应性,来在现实世界中建立实用的系统。回顾迄今为止已经取得的成就,我们还推测未来可能进行的的图像检索研究。
分类和主题描述:h.3.1 [内容]:信息存储与检索和索引|索引方法分析;i.4.9 [图像处理和计算机视觉]:
应用
一般术语:算法,文档,性能。
附加关键词和短语:基于内容的图像检索,注释,标注,建模,学习
1、简介
亨利克-戴维-玻尔-尼尔斯在他说“从不表达自己的时候”的意思,是比你更清楚地认为“是任何人的猜测。在当前的讨论,有一种想法是,这个众所周知的报价唤起的是微妙的讽刺;
有时间和情况,当我们想象我们的愿望,但都无法表达这种欲望的精确措辞。例如,采取一种完美的欲望收藏肖像。任何试图表达什么使人像完美最终可能低估了想象的美。从某种意义上说,它可能会更容易要找到这样一幅图画,通过收集和制造无意识的与想象所吸引的人的匹配,而不是用文字说明无法捕捉到完美的本质。欣赏的重要性的一种方式图片内容的可视化解释的索引和检索就是这样。
2·达塔,D. 约什,J. 李,和J.Z王
我们组织事物的动机是内在的。在过去的许多年里,我们学到了这是一个关键的进步,而我们已经拥有的损失。几个世纪以来,在不同语言的文本已被设置为有效的检索顺序,可手动
在古代,或自动在现代数字图书馆。但当涉及到组织照片时,男人传统上跑赢了机器对于大多数任务。造成这种区别的一个原因是文本是人的创造,而典型的图像是一个纯粹的复制品的人已经看到,因为出生,具体的描述,这是比较难以捉摸的。添加到这个理论人类的视觉系统已经进化了许多个世纪。自然,我们所看到的是很难描述的特征,甚至更难教授一个机。然而,在过去的十年中,已经取得了雄心勃勃的尝试计算机学会理解,索引和注释的图片代表广泛概念的范围,有很大的进展。
基于内容的图像检索(CBIR),正如我们今天看到的,是任何技术原则上有助于组织数字图像档案的视觉内容。通过这个定义,任何从图像相似性函数的一个强大的图像标注引擎落CBIR的管辖范围。这种表征基于内容的图像检索领域的研究作为一个地方的科学独特的交界处社区。当我们目睹其在解决基本的开放继续鲁棒图像理解的问题,我们也看到来自不同领域的人,计算机视觉,机器学习,信息检索,人机交互交互,数据库系统,网络和数据挖掘,信息理论,统计,并成为CBIR社区[王部分贡献的心理学等人。2006 ]。此外,一些研究之间的差距横向桥接社区正在逐渐被带来的副产品,这样的贡献,它的影响可能超出了基于内容的图像检索。再次,我们今天看到的一些跨领域的出版物很可能在新的领域中的研究
可预见的未来。
在这样的联合领域,它是认识不足的重要基于内容的图像检索是一个现实的技术。所有当前方法的一个问题是视觉上的相似性判断语义相似性的依赖,这可能是由于语义鸿沟[ smeulders等问题。2000低水平内容和高级概念。而在解决核心的内在困难问题是不可否认的,我们相信,在基于内容的图像检索技术的现状拥有足够的承诺和成熟,是有用的现实世界的应用程序,如果积极的尝试。例如,雅虎和Google技术手册!R是家庭的名字,今天,主要是由于利益获得通过他们的使用,尽管事实上,强大的文本理解仍然是一个悬而未决的问题。在线照片共享[ 2002 ]与Flickr Flickr的主机上成为非常受欢迎的数以百万计的图片与不同的内容。视频分享与发行论坛YouTube也带来了新的革命,在多媒体的使用。晚了在基于内容的图像检索技术的潜在应用媒体的兴趣和图像分析技术[ scienticamerican 2006;发现2006;美国有线电视新闻网2005 ]。我们设想,图像检索将在未来的成功故事年。我们也感觉在新一代的基于内容的图像检索的目标模式的转变研究人员。一个小时的需要是,以确定这项技术如何能够实现共同的人的方式,文本检索技术。方法对视觉相似,甚至语义相似(如果有完善),将继续为建筑系统。平均用户可以期望得到使用这样的一个系统是一个完全不同的问题。对于某些应用程序,视觉相似性事实上,事实上比语义相似性更重要。对于其他人,视觉相似可能没有什么意义。在什么情况下一个典型的用户觉得需要一个基于内容的图像检索系统,用户所设置的系统实现,以及她如何预计在这个过程中,系统的援助,是一些需要的关键问题为了产生一个成功的系统设计。不幸的是,用户迄今为止,对这一性质的研究还很少。
基于内容的图像检索[艾建郡等人的话题存在综合调查。1996;瑞等。1999;smeulders等人。2000;梭鱼和担心2005 ],所有这些主要处理与工作前2000年。调查也存在密切相关的主题如相关反馈[周和黄2003 ],高维索引多媒体数据[伯姆等。2001 ],人脸识别。2003 ](有用的基于图像检索的脸),基于内容的图像检索医学[穆勒等人应用。2004 ],并应用到艺术和文化成像[陈等人。2005 ]。多媒体信息检索,作为一个更广泛的研究领域,包括视频,音频,图像,和文本分析已广泛调查[该等人。2003;卢等人。2006 ]。在我们目前的调查中,我们限制了对图像相关研究的讨论。
一个写这个调查的原因是,基于内容的图像检索,为高龄、有年增长了2000,在涉及的人和论文发表。横向增长也发生在相关联的研究解决的问题,涵盖各个领域。验证假设关于出版物的增长,我们进行了一个简单的练习。我们寻找包含短语图像检索的出版物“使用谷歌学者[谷歌学者2004 ]和ACM数字图书馆,IEEE,Springer,每年内从1995到2005。为了解释计算机的研究的增长科学作为一个整体和(乙)谷歌的年度变化的索引出版物,谷歌学者的研究成果进行了规范化使用的出版物计数“电脑”。剧情在另一个年轻的和快速增长的领域内模式识别,支持向量机(支持向量机),在一个类似的比较的方式。结果可以看到在图1。毫不奇怪,图显示类似的增长模式为突破,虽然SVM有更快的增长。这些趋势表明,给定的隐含假设,大致指数增长感兴趣的图像检索和密切相关的主题。我们也在过去的几年里,观察特别强劲的增长,跨越新技术,支持系统和应用程序域。
在本文中,我们全面调查,分析和量化目前的进展图像检索的未来展望。一个可能的组织的各个方面图像检索作为一场如图2所示。我们的论文遵循类似的结构。请注意,该治疗是有限的进展,主要是在目前的十年中,和只包括部分或全部的视觉分析的工作。为目的完整性和更好的可读性,对于外行人来说,我们已经介绍了关键美国证券交易委员会前几年的贡献。1.1。纯粹的图像检索的基础上文本元数据,网络链接结构,或语言标签被排除在外。图1的其余部分。在基于内容的图像检索1995年后的出版物的研究。最高:出版物的规范化趋势
包含短语图像检索的“支持向量”。底部:发行商论文中关于“文献检索”的出版物拆分。
本文的安排如下:为CBIR系统在现实世界中是有用的,一个需要照顾的问题数。因此,现实世界的图像的渴望检索系统,包括其设计的各个关键方面,在美国证券交易委员会。2。在当前的十年中,提出了一些关键的方法和技术细节,在美国证券交易委员会。3。在基于内容的图像检索的核心研究产生了新的问题,即图2。我们对图像检索的许多方面的一个研究领域。观点重新连接在本文的结构中。
1.1早年
1994-2000年可以被认为是研究的初始阶段,基于内容的图像检索技术的发展。在这一阶段取得的进展很清晰地总结了在[ smeulders等高级。2000个]一个明确的
在当前的十年取得进展的影响,无疑会继续影响未来的工作。因此,我们提供了一个简短的介绍总结的想法,在的影响,以及早期的趋势(其中很大一部分起源于调查)在描述相同的新时代。为了做所以,我们首先引用了各种差距有沙丘和激励最有关问题:|感觉差距是世界之间的对象和信息差距在(计算)来自记录该场景的描述。|语义差距是缺乏一致的信息,
可以从视觉数据中提取和解释相同的数据对于一个给定的情况下的用户。
前者使图像内容的识别具有挑战性限制在记录,后者带来的问题,用户的解释图片和它本质上是困难的视觉内容捕捉它们。我们简要总结关键继续贡献的早期处理这些差距的一个或多个。
在[ smeulders等人。2000 ],图像搜索领域均列为窄而广,到目前为止,这仍然是一个非常重要的区别为系统设计的目的。如上所述,狭窄的图像域通常有有限的变异性和更好的定义的视觉特征(例如,航空相关图片[ 2005 ] airliners.net),这使得基于内容的图像检索相比更容易制定。另一方面,广泛的领域往往有很高的变异性和不可预测性的相同的基本语义概念(例如,网络图像),这使得泛化更具挑战性。在[ 2005 ] huijsmans和讨论最近指出,狭义和广义的领域对图像搜索评价等问题,并相应的修改必须作出评估标准的一致性。调查还列出了三大分类的图像搜索,(1)搜索关联,那里没有明确的意图在一张图片,而是由迭代rened浏览搜索所得,(2)针对搜索,在一个特定的画面所追求的,和(3)类的搜索,在一个单一的一个语义类的图片代表的追捧,例如,说明一段文字,介绍[考克斯等人。2000 ]。还讨论了不同能有助于减少图像检索中感觉间隙的领域知识。其中显着的概念的句法相似性,知觉相似,和拓扑相似性。因此,总体目标仍然是桥梁的语义和感官的差距使用可用的图像视觉特征和相关领域知识,以支持不同的搜索类别,最终满足用户。
2。在现实世界中的图像检索
数码相机的发明给了一个普通人的特权来捕捉他的图片中的世界,并方便地与他人分享。一个可以在今天产生内容丰富多彩的家庭聚会和国家形象卷公园参观。低成本的存储和容易的网络主机的变态从一个普通的人,从一个被动的摄影消费者的过去,到一个活跃的制作人。今天,搜索图像数据存在着极为不同的视觉和语义内容,跨越地理位置不同的位置,并迅速
规模增长。所有这些因素创造了无数的可能性,因此对真实世界图像搜索系统设计的思考。
就技术进步而言,基于内容的图像的增长毫无疑问已经是快速检索。近几年来,一直有重大代价投入理解现实世界的影响,应用,和技术约束。然而,现实世界中的应用程序的技术
目前有限的。我们致力于这一部分来理解图像检索中的现实世界和讨论用户的期望,系统的约束和要求,和研究努力使图像检索的现实不太遥远的未来。
2.1用户意图
我们基于改进分类在[ smeulders等人提出的搜索类型。2000 ]一个基于用户意图的分类。当用户搜索图片时,他们的意图或者说清楚他们所希望的不同。我们相信,明确的意图,戏剧
从搜索系统和自然的用户的期望中的一个关键作用相互作用。它还可以作为系统设计的指南。我们大致描述一个用户的意图如下:
浏览器:用户浏览图片没有明确的目标。浏览器的会话将包括一系列无关的搜索。一个典型的浏览器会在搜索过程中跳过多个主题。她查询主题是不连贯的,多样的。
上网:用户冲浪与适度清晰的最终目标。冲浪者的行为可以用一个差分,随后开始有点探索
搜索预计将增加上网的清晰的从她想要什么系统。
搜索:用户很清楚她是在寻找系统。搜索者的会话通常会导致短相干搜索最终结果。
一个典型的浏览器值易于使用和操作。浏览器通常有充足的时间和预计的惊喜和随机搜索提示拉长她的会话(例如。的天,一周,等等)。另一方面,冲浪者值搜索环境中促进清晰的她的目标。冲浪者规划假期将值提示如”最受欢迎的旅游景点的照片。在另一个极端,搜索视图图像检索系统的核心功利主义的观点。结果的完整性和清晰的表示通常是最重要的因素。从用户实际使用情况的影响观点没有被广泛地研究过了。为数不多的研究分类用户专家和新手和研究他们的交互模式对一个视频库(Christel和Conescu 2005)。在1997年[阿米蒂奇和昂瑟),一个分析用户需求的视觉信息检索。在引用工作,提出了一种为用户查询分类模式与一个潜在的嵌入到视觉信息检索系统中。
2.2数据范围
理解图像数据的性质和范围起着关键作用的复杂性图片搜索系统的设计。等因素的多样性和铁杆预期用户trac搜索系统也很大程度上影响设计。沿着这个尺寸,我们分类搜索数据分为以下几类:
个人收藏:基本上均匀的集合通常规模较小,访问主要是它的主人,通常存储在一个本地存储媒体。
特定领域的集合:一个齐次收集提供控制用户非常特定目标。收集可能大托管在分布式存储,根据域。这样的例子一组是生物医学和卫星图像数据库。
企业收集:异构集合的访问用户的照片组织内部网。图片可以存储在许多不同的
位置。接入可以是均匀的或非均匀的,这取决于企业内部网设计。
档案:这些通常是历史的兴趣和含有大量结构化或半结构化的有关特定主题的均匀数据。
档案可以访问互联网上的大多数人,与一些控制使用。数据通常存储在多个磁盘或大磁盘阵列中。
网站:万维网的照片是几乎每个人都有一个容易的互联网连接。当前的WWW图像搜索引擎如谷歌图片和雅虎!图像有一个关键的履带组件,定期更新他们的本地数据库重新
关于网络动态性的研究。图像的采集半结构化的,非均匀的,和大量的体积,通常是存储
在大磁盘阵列。
一个旨在服务于个人收藏的图像检索系统应该集中于个性化等特点,灵活的浏览,和显示方法。例如,谷歌的Picasa系统[ 2004 ]提供了按时间顺序显示Picasa在一个旅行下来记忆里的一个用户的图像。域特定的集合可以演示的结果施加特定的标
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151184],资料为PDF文档或Word文档,PDF文档可免费转换为Word