基于文本描述的图像生成研究文献综述
2020-04-14 17:23:35
1.1 研究目的及意义
随着人类社会的发展,与信息网络等相关的技术和研究取得了很大的进展。在所谓的大数据时代,每个人时时刻刻都在产生信息,为了有效利用这些信息便利人们生活,所以对于信息的处理尤为重要。就拿其中某一个方面来说,摄像功能丰富了图像资源,随之也就出现了大量关于图像的处理手段,例如图像分类和图像检索等,但是只通过图像提取文字标签却满足不了现实的需要,所以反过来通过文字的描述来生成图片成为了研究重点。
在先前的认知当中,图像的隐含意义都是通过文字来表明,而文字向来是传播信息的载体,由于图像的视觉阅读逐渐在生活增加,人们所认同的文字信息逐步转向图像信息,现如今有各种各样的读图形式,图像也变成了信息传递的可靠来源。文字本身就带有图像感,因此图像本身也就可承担信息。当今时代,人们的生活节奏不断加快,阅读获取信息的方式也要依据时间来定,而通过视听来传播信息是最为便捷的方式。
基于文本描述的图像生成就是利用简短的文字描述出重点生成对应的图片,文字所具有的含义,在转换成的图片的时候并未丧失原有意义的文字认知,即是产生了文字与图像的交叉。将文字转义为图片在很多方面都有应用,在创意设计方面应用最广,如在计算广告中,将要传达的含义转换为图像来描述,在此期间就完成的广告画面和主题的构想,再或者是品牌商标的设计等。
1.2 国内外研究现状
本次基于文字描述的图像生成研究主要是依靠Generative Adversarial Network来实现。生成式对抗网络是蒙特利尔大学Goodfellow在2014年提出来的一种采用对抗的思路来生成数据的思想,受益于卷积解码器网络。尽管 GAN 从提出至今,时间并不长,但关注度和研究热度急速上升,已从学术界拓展到工业界,Google、OpenAI、Facebook和 Twitter 等知名人工智能企业也开始将精力投放到GAN相关的应用研究。目前,GAN 已成功应用于图像生成和视频生成领域以及强化学习;在计算机视觉方面的应用,有图像绘画,图像标注和语义分割等;在自然语言处理中应用 GAN 的研究也是日趋增加,例如文本建模,对话生成,问答和机器翻译。Twitter Cortex研究团队将GANs 应用于超分辨率,该团队开发出全新的损失函数,图像经过大幅采样后仍能恢复其生动纹理和小颗粒细节。
早期在图片生成方面,存在分辨率低的问题,而后就提出来‘拉普拉斯金字塔’。2015年6月 Emily Denton 等人提出模型LAPGANs,研究使用一系列卷积神经网络改善了图像的分辨率。2016年6月Alec Radford 、Luke Metz等人将对抗网络与卷积神经网络结合,在金字塔的每一层都搭配了一个生成器,以便生成较高分辨率的图片。由此为了提高训练的稳定性,Mirza M和Osinder S.提出了 ConditionalGenerative Adversarial Nets,把无监督的 GAN 变成半监督或有监督的模型,为GAN增加了训练目标,即将条件变量作为一项输入。2016年,Scott Reed等人就研究了基于文本描述的图像生成,根据特定的文本输入产生特定图像,借助text embedding网络将文字转变成向量,再利用不同的GAN模型产生不同风格的图像进行模型性能对比。除此,Mansimov等人使用变分递归自动编码器生成图像。2016年12月,Xi Chen 等人研究了通过信息最大化的生成对抗网络进行的可解释表示的学习,致力于改善GAN的训练稳定性,能够通过完全无监督的方式学习分离的表达,也可以在扩展信息的基础上最大化隐藏变量的一个小的子集和观察数据之间的互信息。
针对文字描述,在分析大量文本类数据时,最直接有效的自然就是将全部的文本映射到数值空间中。2018年4月,周顺先等人为针对词语统计特征化无法有效提取文本特征,而提出基于上下文的词语特征化,提取词义特征。Word2vec为Tomas Mikolov在2013年在Google带领的研究团队创造的,刚开始只是在词嵌入方面,随后才有其他方面的应用和延伸,如paragraph2vec或doc2vec。Word2vector有两种形式CBOW 和 Skip-gram,且形式正好相反,前者通过上下文预测中间词,后者通过输入中间词预测上下文。
{title}2. 研究的基本内容与方案
{title}为实现利用文本描述来生成对应图像,本课题致力于研究一种基于GAN网络从文本描述生成图像的方法。提取文字特征用来学习一个文本的特征表示,利用这些特征得到一个比较真实的图像。在深入研究对抗生成网络的基本原理基础上,拟实现一个基于python的仿真过程,首先提取文字描述特征,能够根据文本特征生成图片,再判断生成的图片的真假以及其是否符合描述,从而实现针对文本描述合成真假难辨的图像的目标。