基于深度学习的文本生成图像算法及实现文献综述

2020-04-14 17:28:25

1．目的及意义

1 目的及意义

利用神经网络可以从文本生成图片，即将文本的语义转化为图片; 也可以从图片生成文本，即生成的文本描述图片中的内容，例如一幅图片中有一只小鸟落在枝头，最后由图片生产的文本就是一只可爱的绿色小鸟落于枝头。在计算广告中这种文本和图片之间互相生成的过程非常有用，如果可以在工业界有所突破，他们在广告创意的制作中将会发挥巨大作用，例如选定一个创意标题，立刻得到了创意图片，当制作完成了创意图片时也立刻得到了创意标题。

本文旨在利用生成对抗网络算法语言生成图像，生成对抗网络对于生成式模型的发展具有重大的意义，作为一种生成方法,它能够有效地解决建立自然性解释数据的生成难题，特别是生成高维的数据,GAN所使用的神经网络结构对于生成的数据维度没有限制，这极大的丰富了生成样本的多样性。生成对抗网络所采用的神经网络结构能够整合各类损失函数,丰富了算法设计的自由度.GAN创新性的采用两个神经网络的对抗的方式作为训练准则,并允许使用反向传播机制来进行更新优化，训练过程中没有复杂的变分下界也不需要使用马尔科夫链方法以及做各种近似推理，有效地提高了生成结构的训练效率，降低了训练难度。GAN可以直接进行新样本的采样和推断，不需要繁琐的采样序列，提高了新样本的生成效率。对抗的训练方法摒弃了对真实数据的依赖，扩展了生成过程的自由度，增加了样本的多样性。在实践中，GAN生成的样本易于人类理解，例如，生成清晰的图像。GAN除了提供了新的生成方式以外，还对于半监督学习的研究和发展有重要影响。在GAN的训练过程是不需要制定数据标签的，虽然其的目的不是使用半监督学习，但是GAN的训练过程可以实施半监督学习中无标签数据对模型进行训练。具体来说就是先利用无标签数据训练GAN，再把少量有标签的数据传入已训练的GAN，利用GAN对数据的理解进一步训练判别器，这样可以很好的实现传统分类与回归任务。

2 国内外研究现状

2.1深度学习研究现状
近几年来，机器学习中的深度学习迅速成为了人工智能领域的焦点，无论是研究还是应用方面都得到了极大的发展，相关的理论成果和技术应用不断突破，
Neural Information Processing Systems ( NIPS)、International Conference on ComputerVision ( ICCV )、International Conference on Machine I earning ( ICML)、TheAssociation for the Advancement of Artificial IntelligenceAAAI )International Joint Conference on Artificial Intelligence (IJCAI)等机器学习领域的国际学术会议也提高了对深度学习的关注程度。于此同时，深度学习的思想在学术界和企业也得到了极大地关注。

2.1 GAN（生成对抗网络）发展研究现状

生成式对抗网络(Generative adversarial networks)是OpenAI的Goodfellow等人在2014年提出的一种生成式模型。2015年6月《 Deep Generative Image Models using I apalacian Pyramid of AdversarialNetworksgt;》( “深度图像生成模型:在对抗网络应用拉普拉斯金字塔”)进一步优化了生成对抗网络。相关的研究指出，使用卷积神经网络(CNN)不断的获取清晰度更高的图像，最终能够得到高分辨率图像，该模型被称为LAPGANs[32] 。除了OpenAI之外，其他许多公司也都参与到了生成对抗网络的研究中，包括了Facebook、谷歌、苹果等公司。其中发表文章较多的是Facebook的专家Soumith Chintala，他参与发表了DCGAN ( 深度卷积对抗网络) [331、 LPGAN、wGaN( Wasserstein GAN) [34]以及SSGAN,其中Wasserstein GAN对GAN的缺点进行了详尽的分析，提出了具有重要意义的改进方法，使其得到了大量的关注，这对GAN以后的发展起到了关键的作用。

{title}

2. 研究的基本内容与方案

{title}

3.1 基本内容

本论文主要研究任务包括：

1、Python编程；
2、基于深度学习的文本生成图像算法原理；
3、基于python实现文本生成图像。

3.2 预期目标

为实现GAN的生成的图像数据满足既定的要求,本文实验设计了一种能够根据语言文字描述输出符合描述的图像的模型。基于此通过大量阅读文献以及多次改进模型试验验证，确定了以结合长短期记忆网络(Long Short-Temm Memory,简称LSTM)和VGG-19卷积神经网络模型的GAN模型，用以实现把文字描述转化为图像信息。

3.3 拟采用的技术方案与措施

3.3.1 对抗网络(DCGAN)

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码