基于生成对抗网络的图像翻译算法的设计与实现毕业论文
2021-04-05 10:52:32
摘 要
在计算机视觉领域里,基于生成对抗网络的图像翻译一直是热门的研究课题。随着生成式对抗网络的出现,它为计算机视觉领域提供了新的研究方法与技术。生成对抗网络是生成式模型的一种,生成式对抗网络生成数据样本的能力受到学术人员的青睐。生成对抗网络将博弈论的二人零和博弈思想融合进模型训练过程,达到了生成更高图像的质量的目的。由于传统的生成对抗网络存在网络不收敛,模式崩溃与梯度消失问题,因此本文在阅读大量的文献之后,研究了多个模型的实验与分析,对不同模式的基本内容与算法特点以及优缺点进行认真分析,主要研究了CGAN(Conditional Generative Adversarial Nets)对GAN的生成网络和判别网络引入条件变量y,来解决训练太自由的问题。数据集采用填充轮廓的建筑图片,通过实验发现CGAN式基于有监督训练且存在标记数据获取困难,局限性较大,为了改善这些缺点,因而本文进而研究了CycleGAN,采用了斑马与马,苹果与橘子以及大理石的数据集,通过实验验证了该结构解决了非监督条件下的训练的问题,其提出的循环一致性损失,要求对抗网络可以同时学习两个域的映射G 和 F,映射 G 和 F 可分别生成目标域 Y 与目标域 X 的图片。
关键词:生成对抗网络,图像翻译,CGAN CycleGAN
Abstract
In the field of computer vision, image translation based on generating anti-network has always been a hot research topic. With the emergence of a generational confrontation network, it provides new research methods and techniques for the field of computer vision. The generation of confrontation networks as a typical generation model, its ability to generate data samples has received enthusiastic search for the vast majority of research. The training process of bringing the two-person zero-sum game theory of game theory into the network against the network is generated, which improves the quality of the generated image. Because the traditional generation confronts the network, the network does not converge, the mode collapses and the gradient disappears. Therefore, after reading a large amount of literature, this paper studies the experiment and analysis of multiple models, and discusses the basic content and algorithm characteristics, advantages and disadvantages of different modes. Careful analysis, mainly to study the CGAN (Conditional Generative Adversarial Nets) on the GAN generation network and the discriminant network to introduce the condition variable y to solve the problem of too free training. The dataset uses the image of the filled outline. It is found through experiments that the CGAN model is based on supervised training and the access to the tag data is difficult. The limitations are large. In order to improve these shortcomings, this paper further studies CycleGAN, using zebra and horse, apple and The orange and marble data sets have experimentally verified that the structure solves the problem of training under unsupervised conditions. The proposed loop consistency loss requires that the confrontation network can simultaneously learn the mappings G and F of the two domains, mapping G and F can generate the images of the target domain Y and the target domain X respectively.
Keywords: Generating confrontation network, image translation, CGAN, CycleGAN
目 录
第1章 绪论 1
1.1 研究的目的及意义 1
1.2 国内外研究现状 2
1.3 论文主要工作及结构 4
1.3.1 本文主要工作 4
1.3.2 本文安排 5
第2章 生成式对抗网络 6
2.1 GAN的基本思想 6
2.2 GAN的算法流程 6
2.3 GAN的优势与现存问题 9
2.3.1 GAN的优势 9
2.3.2 GAN的问题 9
第3章 环境搭建与网络结构设计 11
3.1 环境搭建 11
3.2 网络结构与代码 11
3.2.1 CGAN 11
3.2.1 CycleGAN的设计思想 14
第4章 实验部分 25
4.1实验设置 25
4.1.1 CGAN实验设置 25
4.1.2 CycleGAN实验设置 27
4.2 实验结果分析 28
4.2.1 CGAN实验结果 28
4.2.2 cycleGAN实验结果 30
4.3 实验总结 32
第5章 总结与展望 34
5.1 论文小结 34
5.2 未来研究展望 34
参考文献 35
致 谢 37
第1章 绪论
1.1 研究的目的及意义
数字图像包含着非常多的有价值信息,基于生成对抗网络的图像翻译的实验以及研究在各大领域都受到密切关注,科研人员对于图像所包含的信息的探索,不管是在实际生活中还是理论研究过程中,都发挥着至关重要的影响力。基于生成对抗网络的图像翻译包含范围广泛,无论是在计算机视觉与计算机图形学[19],,人工智能领域都大方异彩,在心理学和生理学方面也是有着非常重要的理论意义。在这些领域里,,很多任务都可以理解为是一个源域图像被翻译成为另一张对应的目标域的图像。与英文翻译任务类似将图像的一个表示场景转换为为另一个表示场景的自动转换任务被称为图像翻译。然而传统算法都是专门为固定的应用创景设计的,以创建适合特定匹配的场景的模型。但是近几年来,随着卷积神经网络的发展,卷积神经网络已经被用作作图像翻译的模型,但是对于特定任务的构建,损失函数的设计和优化策略是非常不同的,这极大的增加了模型设计的任务量。传统的算法基本采用手工提取特征和浅层模型互相结合的办法来实现模型设计,这种方法一般可以总结为四个步骤: