基于深度学习的监控视频场景描述研究开题报告
2020-04-21 16:10:30
1. 研究目的与意义(文献综述)
近年来,深度学习的发展大大促进了计算机视觉、语音识别、自然语言处理等领域的研究,并产生了大量的优秀应用,将深度学习等人工智能技术运用于生产生活中的各个领域,将可以解决一些传统方法无法解决的难题,提高人们的生活质量。目前,在计算机视觉和自然语言处理任务上应用深度学习的成功激励着ai研究人员去探索新的研究机会,交叉连接这些之前互相独立的领域。场景描述模型就计算机视觉与自然语言处理技术的融合,需要我们去建立视觉图像和自然语言之间的联系。
这两个传统上无关的领域的交叉有可能在更大的范围内产生变革。而这一技术的一大应用场景就是监控视频场景描述,即为监控视频的画面场景生成相应的文字描述。在需要对视频中的某个事物或事件进行查找时,可以直接对相关的文字描述进行检索,而无需一帧帧地查看监控视频,提高了相关视频画面内容的检索效率,对于交通运输、社会治安等方面有着深远的意义。
2. 研究的基本内容与方案
一)研究的基本内容具体内容
深入学习深度学习相关技术,掌握深度学习在自然语言处理和计算机视觉领域的应用,最终实现一个可以用监控视频画面生成场景文字描述的程序。
1、深度学习相关知识的探索与研究。
3. 研究计划与安排
1-4周:
1)学习深度学习相关知识,学习深度学习在计算视觉方面、自然语言处理方面的应用研究。学习深度学习在场景描述方面的研究。
2)训练数据的收集、整理及对训练方法的研究。
4. 参考文献(12篇以上)
[1] h. aradhye, g. toderici, and j. yagnik.video2text: learning to annotate video content. in icdmw, 2009. 2
[2] j. donahue, l. a. hendricks, s. guadarrama, m.rohrbach, s. venugopalan, k. saenko, and t. darrell. long-term recurrentconvolutional networks for visual recognition and description. in cvpr, 2015.1, 2, 3, 4
[3] s. guadarrama, n. krishnamoorthy, g. malkarnenkar,s. venugopalan, r. mooney, t. darrell, and k. saenko. youtube2text: recognizingand describing arbitrary activities using semantic hierarchies and zero-shootrecognition. in iccv, 2013. 1, 2