融合多层次注意力机制的图像理解技术研究开题报告
2020-02-18 18:26:24
1. 研究目的与意义(文献综述)
1.1研究目的及意义
随着信息技术的快速发展,日常生活中图像所包含的信息也日益膨胀,因而计算机如何提取理解图像中丰富的信息就成为了计算机视觉和深度学习领域中一个重点。由于图像中所含信息量较大,且缺乏上下文的约束,因此很难筛选出所需要的信息。同一般的视觉要素所不同的是,文字所包含的信息可以使人更加快速得理解图像表达的含义,属于一种高层视觉因素。使用文字描述在计算机视觉的许多领域如手写字识别,车牌识别等都有着广泛的应用。能够利用句子快速而精准地描述一张图片是一项具有挑战性的工作,但是它会在一些领域产生较大的影响,如帮助视觉障碍的人士理解网络图像,对图像进行精准地检索等。随着深度神经网络技术的发展,图像描述也逐渐吸引了人们的兴趣。
从图像信息转变为文字信息给计算机视觉提出了一个特殊的问题,这需要将计算机视觉与自然语言处理相联系。该问题类似于语言之间的机器翻译,但是由于图像信息量与文字信息量之间悬殊巨大,研究人员必须要考虑到如何抓住图像中关键信息。因此如今一个研究的热点就是将人类视觉的注意力机制引入图像分析领域。从认知科学的角度来看,人们在看向物体时会选择性地关注有效信息,将处理信息的有限资源非给最值得注意的部分。这样可以使我们在图像低解析的背景下更加关注“焦点”内容,从而快速推断整张图片的内容。注意力机制可以决定图片中哪一部分更加值得关注,并能够从关键部分进行特征提取,获得有效信息。在计算机视觉领域中,注意力机制是一种具有选择性处理图像信息的机制,而图像理解是一门自然语言和卷积神经网络的交叉性学科,可以实现实时字幕的形成,场景理解等功能。在利用卷积神经网络对图像进行特征提取之后,在循环神经网络中生成局域描述性的语句,若将其中加入注意力机制,则可以提高模型整体的准确率。同时为了使用完整的句子表示,必须表达出图片中的对象如何相互关联,它们的属性以及涉及的活动,因此除了视觉理解之外,自然语言模型也必不可少。
2. 研究的基本内容与方案
2.1研究(设计)的基本内容、目标
本设计主要是利用多层次的注意力机制,来进行图像理解技术的研究。设计首先采用了卷积神经网络对图像进行特征提取,然后用循环神经网络生成具有描述性的语句,并在循环神经网络中加入注意力机制来提高模型整体的准确率。采用python进行模型搭建仿真,并比较加入注意力机制后在bleu以及cider等评估矩阵上的提升。最终的实现目标为:通过模型可以较为准确地描述测试的图像,不仅可以理解每个对象,还需要可以与自然短语之间相互匹配,从而实现匹配人类的描述,获取较高的准确度。
2.2拟采用的技术方案及措施
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。
第6-9周:编程实现各算法,并进行仿真调试。
4. 参考文献(12篇以上)
[1]陈兵旗. 机器视觉技术及应用实例详解[m]. 北京:清华大学出版社,2014.138-140.
[2]mnih v , heess n , graves a , et al. recurrentmodels of visual attention[j]. advances in neural information processingsystems.2014:2204-2212.
[3]xu, kelvin, et al. show, attendand tell: neural image caption generation with visual attention[j].computerscience ,2015(3):2048-2057.