融合多层次注意力机制的图像理解技术研究任务书
2020-02-18 15:30:27
1. 毕业设计(论文)主要内容:
注意力机制是深度学习中一种具有选择性处理图像信息的机制。而图像理解则是一门自然语言和卷积神经网络交叉学科,它将一幅图作为输入,对应输出一段具有描述性的语句。图像理解可以实现实时字幕生成,场景理解等功能。本课题拟采用卷积神经网络对图像进行特征提取,然后用循环神经网络生成具有描述性的语句。其中在循环神经网络中加入注意力机制以提升模型整体的准确率。采用Python进行模型搭建仿真,并比较加入注意力机制后在BLEU以及Cider等评估矩阵上的提升。
2. 毕业设计(论文)主要任务及要求
(1)查阅相关文献资料15篇以上(其中近5年外文文献不少于3篇)。
(2)完成开题报告及任务书。
(3)用卷积神经网络对图像进行特征提取,然后用循环神经网络生成具有描述性的语句。其中在循环神经网络中加入注意力机制以提升模型整体的准确率。采用python进行模型搭建仿真,并比较加入注意力机制后在bleu以及cider等评估矩阵上的提升。
3. 毕业设计(论文)完成任务的计划与安排
(1)第1-4周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
(2)第5-6周:熟悉掌握基本理论,完成英文资料的翻译,熟悉相关工具软件的使用。
(3)第7-9周:实现卷积神经网络的搭建。
4. 主要参考文献
-
karpathy, a, and l. feifei. "deepvisual-semantic alignments for generating image descriptions. " ieeetransactions on pattern analysis amp; machine intelligence 39.4(2016):664-676.
-
vinyals, oriol, et al. "show and tell: lessonslearned from the 2015 mscoco image captioning challenge." ieeetransactions on pattern analysis amp; machine intelligence 39.4(2017):652-663.
-
xu, kelvin, et al. "show, attend and tell:neural image caption generation with visual attention." computer science(2015):2048-2057.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付