基于生成对抗网络的语意图像修复开题报告
2020-02-10 23:10:16
1. 研究目的与意义(文献综述)
图像修复是指对图像中被遮挡或需要删除的物体区域,进行自然、满足视觉一致性的图像数据填充。图像修复最初起源于古代人民对艺术品的手工修复,可以更好地保存艺术品的原貌。随着人工智能与数字图像技术的发展,人们开始使用计算机进行辅助修复破损图像。与此同时,数字图像修复技术也广泛应用到公安刑侦图像修复、图像缩放、生物医学等领域。图像语意修复是指对有大量缺失区域的图像进行修复,这要求我们的方法能理解图像的语意,而传统的图像修复方法往往效果不佳。本文通过实现一个生成式对抗网络(gan, generative adversarial networks),对图像数据进行训练,生成待修复区域的图像,并在公开数据集上进行测试效果,实现对任意指定图像区域的修复。
目前,数字图像修复算法主要包括三类:基于结构的图像修复技术,基于纹理相似度的图像修复技术,以及基于深度学习的图像修复技术。基于结构的图像修复技术主要基于高阶偏微分方程或变分的方法。基于高阶偏微分方程的方法通常计算量很大,同时也容易丢失图像边缘信息。与基于高阶偏微分方程的方法相比,基于变分的方法保留了图像边缘的信息。chan 和 shen 提出的全变分模型解决了普通变分方法的局部连通性问题。但基于结构的图像修复技术应用范围过于局部,该方法主要适用于小尺度缺失的图像修复。基于纹理相似度的图像修复技术主要分为两类:基于图像分解和基于纹理合成。基于图像分解的图像修复由 bertalmio 等人提出,该算法将图像分解成结构信息与纹理信息两个部分,依次进行图像修复。基于纹理合成的图像修复由 criminisi 等人提出,该算法对于图像缺失区域边界的每个像素点,全局搜索最优纹理,然后填充到缺失区域。该算法本质上是一个贪婪算法,这导致修复图像中往往包含完全重复的结构,修复后的图像看起来也不是很自然。近年来,深度学习在图像语意修复、情景感知等领域展现着令人振奋的前景。pathak等人提出的编码-解码器(context encoders),解决了填补图像中大量缺失区域的难题。
gan网络是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一,于 2014 年由 goodfellow 提出。gan的思想是一种二人零和博弈思想(two-player game),生成网络希望生成的数据可以骗过判别网络,判别网络通过比较生成数据与实际数据的差异来进行优化。2017 年开始生成式对抗网络发展迅速,出现了很多 gan 的改进模型,cgan在针对gan本身不可控的缺点,加入监督信息,指导gan网络进行生成;dcgan将卷积神经网络与生成式对抗网络结合起来,使得训练更加稳定;ebgan 将能量的概念和方法引入到了gan中;wgan 使用wasserstein距离代替js散度;wgan-gp是wgan的改进版,改进了连续性限制的条件;sagan将在gan中使用self-attention,大大缩小了网络的复杂度。gan理论的迅速发展也为图像修复领域带来了新的方向,raymond等人利用感知与环境信息,进行图像语意修复;yijun li等人的generative face completion以gan为基础,从随机噪声中修复人面图像面部缺失的区域;satoshi iizuka等人利用global判别器和local判别器两种判别器保证生成的图像既符合全局语意,又尽量提高局部区域的清晰度和对比度;chao yang等人利用多尺度的神经网络合成法实现了高分辨率图像修复;由kamyarnazeri等人提出的二阶段生成对抗网络edgeconnect,结合多阶段方法和边缘先验信息,实现了高还原度的图像修复。基于gan网络的图像修复,能够自动地实现图像修复任务,同时无需人为参与,具有非常重大的研究价值和应用价值。
2. 研究的基本内容与方案
2.1 研究的基本内容
传统的图像修复算法由于缺乏高层次的上下文信息,对于有大量破损的图像修复效果不佳。本课题中,我们提出了一种基于生成式对抗网络的图像语意修复算法,实现对任意指定图像区域的修复。
2.2 研究目标
实现一个生成式对抗网络对有大量破损的图像进行图像语意修复,并在公开数据集上进行测试,使用主观评价方法与客观评价方法,证明本课题修复算法的可行性与优越性。
2.3 拟采用的技术方案及措施
生成式对抗网络(gan)包含一个生成器g与判别器d。生成器g尽量去拟合真实数据分布,生成能够欺骗判别器以假乱真的图片,它的输入参数是一个随机噪声z,z采样于先验分布 ,g(z)代表其生成的一个伪图像;判别器d判断出一张图片来源于真实数据分布 还是生成器的数据分布 ,它的输入参数是x,x代表一张图片,d(x)代表x是真实图片的概率。gan的目标函数可以描述为:
gan网络的训练过程采用交替优化的方法:先固定生成器g, 优化判别器d, 使得d的判别准确率最大化; 然后固定判别器d, 优化生成器g, 使得d的判别准确率最小化.当且仅当 时达到全局最优解,此时可以结束gan网络的训练。
为了填补大范围的缺失图像 y,我们需要找到拟合受损图像的分布 ,这样我们就能使用训练好的生成器g生成缺失区域,修复后的图像可通过以下运算获得:
其中,m为二元掩码(binary mask),运算为 hadamard product 。
为了找到,定义语境损失函数(contextual loss)与感知损失函数(perceptual loss):
3. 研究计划与安排
2018年12月,参考老师意见,结合自己的兴趣,确定论文题目。
2019年1月至2月,搜集相关文献资料,记录读书笔记,为开题做准备。
2019年3月上旬,根据任务书及搜集的资料撰写开题报告,构思提纲,制定论文撰写计划。
4. 参考文献(12篇以上)
[1] denton e l, chintala s,fergus r. deep generative image models using a laplacian pyramid of adversarialnetworks[c]//advances in neural information processing systems. 2015:1486-1494.
[2] goodfellow i, pouget-abadiej, mirza m, et al. generative adversarial nets[c]//advances in neuralinformation processing systems. 2014: 2672-2680.
[3] iizuka s, simo-serra e,ishikawa h. globally and locally consistent image completion[j]. acmtransactions on graphics (tog), 2017, 36(4): 107.