登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息工程 > 正文

基于深度学习的文本生成图像算法及实现毕业论文

 2021-04-05 10:38:31  

摘 要

为了真正理解视觉世界,我们的模型不仅要能够识别图像,还要能够生成图像。为此,近期在自然语言描述中生成图像方面取得了令人兴奋的进展。这些方法在有限的领域如鸟类或花朵的描述上给出了令人惊叹的结果,但却难以完全地复制具有许多对象和关系的复杂句子。然而,近年来,已经开发出通用且强大的递归神经网络架构来学习并判别文本特征。本文提出了一种从场景图生成图像的方法,能够明确地推理对象及其关系。同时,深度卷积生成对抗网络(GAN)已经具备了一种能力,即生成特定类别的图像。为了有效的建立文本和图像的模型,本文开发出一套新的深层架构,实现了视觉概念从字符到像素的转换,本文已证明了该模型可以成功从文字描述生成花鸟图像。从文本描述合成照片般逼真的图像是计算机视觉中的挑战性问题,并且具有许多实际应用。现有的文本到图像方法生成的样本可以粗略地反映给定描述的含义,但它们不能包含必要的细节和生动的对象部分。为了证明本文所提出的模型的有效性,对CUB和Oxford-102数据集进行了大量实验,这些数据集包含足够的对象外观变化并广泛用于文本到图像的生成分析。

关键词:GAN;生成器G;鉴别器D;训练

Abstract

In order to truly understand the visual world, our model must not only be able to recognize images, but also be able to generate images. To this end, exciting progress has been made in the recent generation of images in natural language descriptions. These methods give amazing results in a limited field such as the description of birds or flowers, but it is difficult to completely replicate complex sentences with many objects and relationships. However, in recent years, a versatile and powerful recursive neural network architecture has been developed to learn and discriminate text features. This paper proposes a method for generating images from scene graphs, which can explicitly infer objects and their relationships. At the same time, the Deep Convolution Generation Against Network (GAN) has begun to generate highly compelling images of specific categories, such as faces, album art and interior design. In this work, this paper develops a novel deep architecture and GAN formula to effectively bridge text and image modeling, transforming visual concepts from characters to pixels. This article demonstrates the ability of the model to generate reasonable bird and flower images from detailed textual descriptions. Combining photo-realistic images from textual descriptions is a challenging problem in computer vision and has many practical applications. Samples generated by existing text-to-image methods can roughly reflect the meaning of a given description, but they cannot contain the necessary details and vivid parts of the object. To demonstrate the validity of the proposed model, a number of experiments were performed on the CUB and Oxford-102 datasets, which contained sufficient changes in object appearance and were widely used for text-to-image generation analysis.

Keywords: GAN, generator G, discriminator D, training

目 录

第1章 绪论 1

1.1 课题背景及研究意义 1

1.1.1 课题背景 1

1.1.2 研究意义 1

1.2 国内外研究现状 2

1.2.1 深度学习发展现状 2

1.2.2 GAN(生成对抗网络)发展研究现状 3

1.3 本文主要工作 4

第2章 基于GAN的相关原理 6

2.1 生成对抗网络(Generative adversarial networks) 6

2.2 判别器 6

2.3 梯度惩罚 6

2.4 生成器 6

2.5 交替训练 7

2.6 Hinge Loss(铰链损失) 7

第3章 基于GAN的文本生成图像方法 8

3.1 网络架构 8

3.2 生成对抗网络(GAN)生成模块 9

3.2.1 匹配感知鉴别器(GAN-CLS) 9

3.2.2 使用基于流的插值法来进行学习(GAN-INT) 10

3.2.3 反转生成器来进行样式转换 10

3.3 特征提取方法:one-hot 11

3.3.1 one-hot概述 11

3.3.2 one-hot在提取特征文本上的应用 11

3.4 word2vec(用来产生词向量的相关模型) 12

第4章 基于GAN的文本生成图像实验实现 14

4.1 数据集 14

4.2 定性结果 15

4.3 解锁风格和内容 16

4.4 动作和背景样式转移 17

4.5 句子插值 18

4.6 超越鸟类和花朵 19

4.7 实验结果与分析 20

第5章 总结与展望 22

5.1 总结 22

5.2 展望 23

参考文献 24

致 谢 28

第1章 绪论

1.1 课题背景及研究意义

1.1.1 课题背景

神经网络可以实现图片与文字的转换,例如一幅图片中有一只小鸟落在枝头,最后由图片生产的文本就是一只可爱的绿色小鸟落于枝头。文本与图片的转换在广告设计中发挥着重要作用,在工业界,如果实现设定创意标题即可获得创意图片,这将对广告创意有巨大影响。当制作完成了创意图片时也立刻得到了创意标题。从文本描述生成照片般逼真的图像是一个具有挑战性的问题。当有全自动合成系统时,它具有巨大的应用价值,包括照片编辑和计算机辅助设计。然而,即使是最先进的方法也无法使用文本描述生成具有照片般逼真的细节的高分辨率图像。这个问题的主要挑战在于给出文本描述的合理图像的空间是多模式的。有大量图像正确符合本文给定的文字说明。

1.1.2 研究意义

多模态学习已经有大量研究,但目前仍存在一定挑战,其中包括跨模态共享表示及预测缺失数据。Ngiam等[1]在音频和视频信号上训练了堆叠式多模自动编码器,并且能够学习不变的共享模态表示。Srivastava和Salakhutdinov[2]开发了一种深度Boltzmann机器并且可以联合建模图像和文本标签。Sohn等[3]开发了一种多模式条件预测框架,并通过理论证据得以证明。

目前,学者利用深度卷积解码器来获得逼真图像。Dosovitskiy等[4]生成了3D椅子渲染,这些是通过训练反卷积网络来实现的,这些渲染以一组指示形状,位置和光照的图形代码为条件而生成。Yang等[5]在该方法增加了一个编码器网络。他们训练了一个循环卷积解码器,同时也训练了3D椅子模型和人脸,这些是通过旋转的动作顺序来获得旋转顺序的。Reed等[6]也实现了用卷积解码器来实现很多功能,比如预测形状等。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图