基于深度学习的视觉问答系统开题报告
2020-02-18 20:05:41
1. 研究目的与意义(文献综述)
1.1课题研究的目的及意义
随着深度学习技术的进步,计算机视觉的诸多领域,例如图像分类、物体检测和活动识别等,都取得了巨大的发展。然而,这些问题的范围很窄,不需要对图像进行全面理解,开发一种能够回答关于图像的任意自然语言问题的计算机视觉系统便成为了业界广泛关注的目标,即视觉问答(vqa)。视觉问答旨在连接计算机视觉(cv)和自然语言处理(nlp)两个领域,一方面,cv用于获取、处理和理解图像,简而言之,它的目标是教机器如何看;另一方面,nlp在自然语言中实现人机之间的相互作用,即教机器如何阅读等其他任务。
在最常见的视觉问答中,计算机在收到一幅图像和关于该图像的文本问题后,必须给出正确的答案,问题形式可以是任意的,比如“图像中是否有猫”“猫的颜色是什么”“图像中有多少只猫”等。在诸如分割或对象检测等计算机视觉的传统问题中,具体的任务和使用的算法都可以提前确定,而vqa与他们的主要区别在于,待回答的问题将采用的形式直到运行时才确定,回答它所需的操作集也是如此。另外它经常需要图像中不存在的信息。从生活常识到图像中特定元素的百科知识,都有可能涉及。
2. 研究的基本内容与方案
2.1研究的基本内容、目标
深度学习作为机器学习中的一个热门的研究方向,在输入与输出之间构建复杂的网络结构,已在计算机视觉、自然语言处理等领域得到大量应用。视觉问答系统是一个新兴领域,以深度学习相关知识作为理论基础,对给定的图像和文本分别进行处理后再进行融合,最终给出答案。因此,本次研究的主要内容如下:
1. 介绍深度学习的基础知识,对神经网络、卷积神经网络、循环神经网络的原理及结构等进行阐述;
3. 研究计划与安排
1-3周:查阅文献,完成开题报告
4-6周:总体设计,完成论文综述
7-10周:设计算法,功能模块设计
4. 参考文献(12篇以上)
[1]王一蕾,卓一帆,吴英杰,陈铭钦.基于深度神经网络的图像碎片化信息问答算法[j].计算机研究与发展,2018,55(12):2600-2610.
[2]蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[j].计算机研究与发展,2016,53(01):113-122.
[3]俞俊,汪亮,余宙.视觉问答技术研究[j].计算机研究与发展,2018,55(09):1946-1958.