基于深度学习的视觉问答系统任务书
2020-02-18 17:36:05
1. 毕业设计(论文)主要内容:
视觉问答VQA是一种涉及计算机视觉和自然语言处理的学习任务,随着深度学习的在CV和NLP中的广泛应用,深度学习强大的特征学习能力极大的推动了CV和NLP领域的研究。建立以CNN为代表的深度网络,将图像和问题特征变换到同一个特征空间,同时考虑序列的历史信息和未来信息,可以更好的利用句子的语境信息,并将信息融合后的信息送入以Softmax为分类器的三层MLP中产生答案输出。
2. 毕业设计(论文)主要任务及要求
1、查阅不少于15篇的相关资料,其中英文文献不少于3篇,完成开题报告。2、完成不少于5000字的英文文献翻译工作。
3、收集相关的原始数据,并进行数据的预处理工作。
4、完成毕业设计(论文)阶段性报告,完成任务书和中期情况检查表等任务。
5、完成不少于12000字的研究论文。
3. 毕业设计(论文)完成任务的计划与安排
1-3周:查阅文献,完成开题报告
4-6周:总体设计,完成论文综述
7-10周:设计算法,功能模块设计
11-13周:编码和测试
14-15周:写论文,提交初稿,给老师检查,修改定稿,答辩。
4. 主要参考文献
1. 鲜光靖, 黄永忠. 基于神经网络的视觉问答技术研究综述[j]. 网络安全技术与应用, 2018(1).
2.agrawal a , lu j , antol s , et al. vqa: visual question answering[j]. international journal of computer vision, 2015, 123(1):4-31.
3.agrawal a , kembhavi a , batra d , et al. c-vqa: a compositional split of the visual question answering (vqa) v1.0 dataset[j]. 2017.1-10