“看图猜对联”--基于图像内容的对联检索开题报告
2020-05-01 08:47:12
1. 研究目的与意义(文献综述)
对联,中国的传统文化之一,言简意深,对仗工整,平仄协调,字数相同,结构相同,是中文语言的独特的艺术形式。随着互联网发展,网络上将会出现越来越多图像这类非文本的信息,这就需要我们用一种更为高效、可靠的方法让计算机去识别这些内容,并且得到相应的信息。虽然20世纪90年代兴起的基于内容的图像检索技术——cbir允许直接根据图像的底层视觉特征进行检索,如颜色、纹理、形状等。伴随着数据挖掘和机器学习的兴起,图片分类产生。经典的图片分类主要使用图片的颜色直方图、图片的纹理信息、图片的形状特征,结合常用的贝叶斯分类器、svm分类器、knn进行分类。但是这些方法不能很好的突破搜索引擎返回结果数量的限制。而且随着机器学习的应用,视觉领域进入一个新天地。其中卷积神经网络(cnn)是深度学习中一种高效的方法,其效率高,容错能力强,可以快速处理大规模的数据,是进行图像内容检索很好的选择。
而对于文本自动摘要生成技术,目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。抽取式顾名思义,就是按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式则是计算机通读原文后,在理解整篇文章意思的基础上,按自己的话生成流畅的翻译。抽取式的摘要目前已经比较成熟,但是抽取质量及内容流畅度均差强人意。伴随着深度学习的研究,生成式摘要的质量和流畅度都有很大的提升,但目前也受到原文本长度过长、抽取内容不佳等的限制。生成式文本摘要主要依靠深度神经网络结构实现,2014年由googlebrain团队提出的sequence-to-sequence序列,开启了nlp中端到端网络的火热研究。sequence-to-sequence又称为编、解码器(encoder、decoder)架构。其中encoder、decoder均由数层rnn/lstm构成,encoder负责把原文编码为一个向量c;decoder负责从这个向量c中提取信息,获取语义,生成文本摘要。但是由于“长距离依赖”问题的存在,rnn到最后一个时间步输入单词的时候,已经丢失了相当一部分的信息。这时候编码生成的语义向量c同样也丢失了大量信息,就导致生成的摘要不够准确。
2. 研究的基本内容与方案
本次研究根据给出的图片,通过对图像的分析后得到相应的标签,进而根据标签生成与图片内容相匹配的对联。具体内容如下:
1.利用爬虫抓取各大对联网站的对联与其对应的图片集合,并对这些数据进行处理、实现分词的效果,方便后面对联的生成;
3. 研究计划与安排
1、2018/1/14-2018/1/24:查阅参考文献,明确选题;
2、2018/1/25-2018/3/5:进一步阅读文献,并分析和总结;确定技术路线,完成并提交开题报告;
3、2018/3/6-2018/4/30:系统架构、程序设计、开发与实现,系统测试与完善;
4. 参考文献(12篇以上)
[1]. overfeat:integrated recognition, localization and detection using convolutional networks,sermanent,2013
[2]. andrewg.howard. some improvements on deep convolutional neural network based imageclassification. corr, 2013,abs/1312.5402.