登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 外文翻译 > 计算机类 > 物联网工程 > 正文

生成对抗网络与感知 视频超分辨率损耗外文翻译资料

 2022-08-12 16:10:53  

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


生成对抗网络与感知

视频超分辨率损耗

爱丽丝·卢卡斯、圣地亚哥·洛佩斯-塔皮亚、拉斐尔·莫利纳和阿格洛斯·卡察格洛斯。

摘要视频超分辨率(VSR)已成为视频处理中最关键的问题之一。在深度学习文献中,近期的作品显示出利用对抗性损失和感性损失来提高各种图像恢复任务性能的好处;然而,这些尚未应用于视频超分辨率。在这项工作中,我们提出了一个基于VSR的生成对抗网络(GAN)配方。我们引入了针对 VSR 问题优化的新发电机网络,名为 VSRResNet,以及新的鉴别器体系结构,用于在 GAN 培训期间正确指导 VSRResNet。我们进一步增强了我们的 VSR GAN 配方,使用两个正则器,即特征空间和像素空间的距离损耗,以获得最终的 VSRResFeatGAN 模型。我们表明,使用 MeanSquared-error 损耗对生成器进行预训练,在数量上仅超过当前最先进的 VSR 模型。最后,我们使用 PercepDist 指标 (*2 ) 来比较最先进的 VSR 模型。与常用的PSNR/SSIM指标相比,该指标可以更准确地评估从神经网络获得的SR解决方案的感知质量。最后,我们展示了我们提出的模型,VSRResFeatGAN模型,在数量和质量上都优于当前最先进的SR模型。

I.在 NTRODIN

与从观测到的低分辨率 (LR) 版本估计高分辨率 (HR) 帧相对应的视频超分辨率任务已成为图像和视频处理的核心问题之一。随着高清显示设备(如高清电视 (HDTV) 甚至超高清电视 (UHDTV) 在市场上的日益普及,人们热衷于将 LR 视频转换为 HR 视频,以便显示在高分辨率电视屏幕上,没有伪影和噪音。

视频超级分辨率 (VSR) 问题提出的目标是重建高分辨率序列 [x1,x2,...,xT=1,xT]给定相应的低分辨率序列 [y1,y2,..., yT=1,yT==解决 SR 问题的算法可以分为两大类:基于模型的算法和基于学习的算法。在基于模型的方法(例如,[3 , 4]、 5 、 6 ) 中,低分辨率 (LR)

这项工作的初步成果在2018年IEEE国际图像处理会议(ICIP)上公布[ 1] 。这项工作部分得到了索尼2016年研究奖项目研究项目的支持。SLT和RM的工作得到了西班牙经济和竞争力部通过DPI2016-77869C2-2-R项目和格拉纳达大学访问学者项目的支持。SLT通过西班牙FPU计划获得财政支持。A. 卢卡斯和A.K.Katsaggelos在美国伊利诺伊州埃文斯顿西北大学电气工程和计算机科学系工作。S.洛佩兹-塔皮亚和R.莫利纳在西班牙格拉纳达大学计算机科学和人工智能部工作。此作品已提交 IEEE 以进行可能出版。版权可能会转让,恕不另行通知,在此之后,此版本可能不再可访问。

帧被显式建模为相应高分辨率 (HR) 帧的模糊、子采样和噪声版本,即 yi = DHxi,其中 xi 是序列中的 i-th 高分辨率帧,H 是模糊运算符,D 是向下采样矩阵,yi 是相应的观测低分辨率帧。通过这种显式建模,可以反转 SR 模型,以获得重建的 HR 帧的估计值。由于SR 问题具有很强的不良特性,因此在解决重建帧时必须小心地进行正则化。必须使用信号先验来强制 HR 评估中包含特定于图像的特征。例如,在贝叶斯框架中,控制重建图像平滑度或总变异的先验用于使 SR 问题正规化(例如,参见 [3]、 {4}、{5})。

另一方面,传统的基于学习的算法没有明确利用分析SR模型,而是使用HR和LR视频的大型培训数据库来学习解决视频超分辨率问题。最近,深度神经网络 (DnN) 被提出作为另一种基于学习的工具,用于视频超分辨率。在使用深度神经网络进行视频 SR 的一般情况下,目标是查找一个函数 f( ),以便 xt = f(Yt)。换句话说,f( ) 从 LR 中心帧和相应的过去和

未来帧,例如,Y t = (yt=k,..., yt=1,yt, yt=1,...,yt k),k = 0,以获得重建的中心 HR 帧 xt的估计值。

训练DDN进行视频超分辨率的传统方法是首先人工合成具有相应高分辨率和低分辨率帧的数据集。在神经网络训练期间,估计的高分辨率帧 xt和地面真实帧之间的均方误差 (MSE) 成本函数用作成本函数。文献中的许多作品(例如,[7])表明,虽然基于 MSE 的方法提供了合理的 SR 解决方案,但其相当保守的特性并未充分利用深度神经网络的潜力,而是产生模糊的图像。作为 MSE 成本函数的替代方案,基于 NN 的超级分辨率文献建议使用经过预先训练的判别网络所学的特征空间,在培训期间计算估计和地面真实 HR 帧之间的 l 2 距离。除了 MSE 损耗之外,使用这种基于功能的损耗已被证明能够显著提高超解析图像的质量。

生成对抗网络 (GAN) [8] 是强大的模型,通过使用深度神经网络从这些模型中采样,已证明能够学习复杂的分布。GAN 最初在图像生成 (#8 ) 的上下文中引入,此后已用于多种生成任务,如各种图像到图像转换任务、3D 建模和音频合成。这些模型的生成能力已被利用,以产生特别高质量的图像,用于多个图像重建任务(例如, [9]、 {10}、{ 11} 。虽然 GAN 已以多种方式应用于图像超分辨率(例如 , [10]),但它们尚未应用于视频超分辨率问题。同样,在当今的文献中,基于功能的损失对于视频超分辨率的使用仍然缺乏。因此,本文将DN和基于功能的损耗函数的使用扩展到了深度神经网络的视频超分辨率这一复杂问题。

论文的其余部分按如下方式组织。在第二节中,我们简要回顾了基于学习的VSR的现行文献。在第三-A节中,我们引入了视频超分辨率的残余架构,它表示VSRResNet,它超越了当前的最先进的算法,消除了对输入视频序列应用运动补偿的需要。接下来,在第三-B节中,我们将在对抗性环境中重新构建 VSRResNet 体系结构。除了使用对抗性损失外,我们还在总成本函数中添加基于功能的损失。第四节更详细地解释了提供结果的VSRResFeatGAN的训练过程和实验。在最后一节第五节中,我们将VSRResFeatGAN的性能与目前基于学习的基于学习的方法进行比较,用于视频超分辨率,其比例因子为2、3和4。利用定量和定性结果,我们表明,我们提出的VSRResFeatGAN模型成功地锐化帧的程度比目前最先进的深度神经网络的视频超分辨率。

  1. RELATED WORK

在过去的几年中,文献中提出了多种基于DNN的视频SR模型。Liao等人 [12] 的方法遵循一个两步过程,其中 SR 解决方案的一组首先通过使用分析方法获得,然后用作对卷积神经网络 (CNN) 的输入。Kappeler等人 [13] 设计了端到端方法,而是学习双立方插值低分辨率帧、Yt 和相应的中央高分辨率帧 xt之间的直接映射。其他作品已经尝试过使用循环神经网络 (RNN) 进行视频超分辨率,例如在[14]中,作者使用双向 RNN 从输入低分辨率序列中的过去和未来帧中学习。虽然RNN具有明确学习输入帧序列中的时间依赖性的优点,但与其训练相关的挑战和困难导致CNN成为视频超分辨率的受青睐神经网络。在这个方向上,Li和Wang [15] 通过仅预测高频帧和低频帧之间的残差,显示了视频超分辨率中CNN的残余学习的好处。Caballero等人[16]联合训练一个空间变压器网络和一个CNN,将视频帧相互扭曲,并从子像素信息中获益。同样,Makansi等人[17]和Tao等人[18]发现,执行联合上升采样和运动补偿(MC)操作可提高模型的SR性能。每个模型都使用 MSE 损耗作为训练其神经网络的指导成本函数,因此导致估计的 HR 帧仍然相当模糊。在图像超分辨率领域,使用基于功能的损失作为额外的成本函数,以及使用基于 GAN 的培训框架,已证明与采用传统基于 NN 的框架(如上述框架)相比,人力资源估算值明显优于人力资源估算值。例如,Johnson 等人 [7] 发现,使用基于特征的损耗作为损失函数来学习超分辨率任务会显著增加估计 HR 图像的锐度。Ledig 等人 [10] 是首次使用 GAN 网络和功能损失来学习超解析图像,这产生了以前看不见的真实感图像。

  1. DVERSARIR D EEP RESIDUAL

VIDEO SR 的参数: VSRRESFEATGAN

在本节中,我们首先描述了一种新的神经网络架构VSRResNet,以解决视频超分辨率的任务。接下来,我们将在基于 GAN 的设置中重新构建 VSRResNet 体系结构,以进一步提高超级解析帧的感知质量。最后,我们描述了使用特征空间和像素空间损失函数来进一步提高VSR模型的性能。

A. VSRResNet 架构

虽然单图像超分辨率算法已经使用非常深的神经网络来改进其模型,但这种方法尚未应用于VSR。我们认为,向模型添加深度会增加模型的容量,从而为 VSR 问题提供了更学问的解决方案。为了增加模型的深度并避免渐变问题消失,我们选择基于残块链设计体系结构,从而形成一个由总共 34 个卷积操作组成的神经网络。体系结构的详细信息如图1所示。我们建议的体系结构 VSRResNet 基于一系列残块,每个块由两个卷积层组成,可学习的内核大小为 3 times; 3。每个卷积步骤后都有一个整流线性单元 (ReLU) 激活函数。如图1所示,VSRResNet架构被显式设计,以便从每个输入帧中提取空间信息,然后将信息融合在一起。更具体地说,第一卷积层对输入序列中的五个帧中的每一帧分别应用卷积操作。我们进行了一个实验,在实验中,我们改为将输入帧堆叠在一起(早期融合),然后将卷积操作应用于这些串联帧。在本例中,我们观察到我们网络的PSNR性能略有下降,因此我们没有采用这种早期融合方法(对于VSR的年代早期和晚期架构融合的更多实验,请参阅[13])。第二个卷积操作采用跨不同时间步骤的提取要素串联,以融合上一步中的信息。然后,以下 15 个剩余块了解提供最终 HR 解决方案的转换。我们在这里注意到,我们还试验了更小和更大的剩余块,以确定我们的最终 VSRResNet 体系结构。更具体地说,我们发现,通过使用 5、10 或 20 个残块而不是建议的 15 个残块,我们的测试数据集上的 PNSR 分别减少了 0.90 dB、0.20 dB 和 0.36 dB。同样,为了确定 VSRResNet 的最佳输入帧数,我们将其体系结构修改为 3 帧或 7 帧的输入,而不是建议的 5 个输入帧。我们发现,这些体系结构更改导致 PSNR 分别减少 0.19 dB 和 0.72 dB,这表明使用 5 个输入帧为我们的任务提供了最佳性能。正如我们后来在第五节中展示的那样,VSRResNet 中深度的增加为网络提供了从输入帧中的运动中学习并生成更高质量的帧的更多容量。因此,与大多数在输入视频上执行运动补偿的最先进的视频超分辨率系统不同,我们选择在非运动补偿数据集上训练 VSRResNet 架构,让网络从运动中提取有用的信息。除了从运动中学习外,不使用运动补偿还可显著缩短所建议方法的计算时间。

在下一节中,我们将 VSRResNet 体系结构作为具有感知损失的对抗框架的一部分。我们将生成的模型称为 VSRResFeatGAN 模型。

B. 拟议的对抗制度

生成对抗网络 (AN) =8= 通过对抗训练过程从特定数据分布中生成样本。在传统的生成图像的GAN方法中,生成器网络学习生成图像,在输入时给定一个潜在的随机向量z。发电机的学习由辅助网络(一个鉴别器)指导,该网络同时经过训练,以区分生成器生成的图像与训练数据集中的图像。给定一个生成器 G(z),在要稍后定义的潜在变量 z 上,对鉴别器进行训练,以区分真实和假图像,即输出D(x) = 1,当 x 从自然图像的训练集中采样时,当生成器生成图像时D(G(z)= 0。另一方面,生成器经过训练,使鉴别者相信其生成的图像 G(z) 是真实的,即经过训练,将鉴别器输出分配为概率 D(G(z)= 1。由于这种对抗性训练,生成器最终收敛到一个解,歧视者未能识别为'假',这通常意味着成功学习由生成器组成的图像歧管。

根据视频超分辨率问题,我们建议利用原始 GAN 框架,通过训练 GAN 从给定的低分辨率帧输入序列中解决高分辨率中心修补程序,来利用 GAN 的强大生成特性。使用基于 GAN 的训练而不是基于 MSE 的训练,使模型能够获得更高的感知质量帧。我们将修改原始 GAN 设置,将输入低分辨率帧 Y 的顺序输入到生成器,而不是随机矢量 z。这与在静止图像超分辨率(=10 )中使用 GAN 类似,在这种情况下,在生成器的输入处提供单个低分辨率图像。生成器经过对抗训练,可以超解析输入 LR 帧,以便鉴别器无法区分重建的 HR 帧、x G(Y) 和从训练数据集获取的帧。为此,我们使用在 [ 8 ] 中首次引入的 GAN 公式,并通过求解将其调整到视频超分辨率: minmaxLGAN =

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236701],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图