基于亚像素卷积网络的单幅图像和视频实时超分辨率重建外文翻译资料
2022-11-10 14:45:46
Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network
Wenzhe Shi1, Jose Caballero1, Ferenc Huszaacute;r1, Johannes Totz1, Andrew P. Aitken1, Rob Bishop1, Daniel Rueckert2, Zehan Wang1
1Magic Pony Technology 2Imperial College London
1{wenzhe,jose,ferenc,johannes,andy,rob,zehan}@magicpony.technology 2D.Rueckert@imperial.ac.uk
Abstract
Recently, several models based on deep neural networks have achieved great success in terms of both reconstruction accuracy and computational performance for single image super-resolution. In these methods, the low resolution (LR) input image is upscaled to the high resolution (HR) space using a single filter, commonly bicubic interpolation, before reconstruction. This means that the super-resolution (SR) operation is performed in HR space. We demonstrate that this is sub-optimal and adds computational complexity. In this paper, we present the first convolutional neural network (CNN) capable of real-time SR of 1080p videos on a single K2 GPU. To achieve this, we propose a novel CNN architec- ture where the feature maps are extracted in the LR space. In addition, w e introduce an efficient sub-pixel convolution
layer which learns an array of upscaling filters to upscale
the final LR feature maps into the HR output. By doing so, we effectively replace the handcrafted bicubic filter in the SR pipeline with more complex upscaling filters specifically
trained for each feature map, whilst also reducing the
computational complexity of the overall SR operation. We evaluate the proposed approach using images and videos from publicly available datasets and show that it performs significantly better ( 0.15dB on Images and 0.39dB on Videos) and is an order of magnitude faster than previous CNN-based methods.
Introduction
The recovery of a high resolution (HR) image or video from its low resolution (LR) counter part is topic of great interest in digital image processing. This task, referred to as super-resolution (SR), finds direct applications in many areas such as HDTV [15], medical imaging [28, 33],
satellite imaging [38], face recognition [17] and surveil- lance [53]. The global SR problem assumes LR data to be a low-pass filtered (blurred), downsampled and noisy version of HR data. It is a highly ill-posed problem, due to the loss of high-frequency information that occurs dur- ing the non-invertible low-pass filtering and subsampling operations. Furthermore, the SR operation is effectively a one-to-many mapping from LR to HR space which can have multiple solutions, of which determining the correct solution is non-trivial. A key assumption that underlies many SR techniques is that much of the high-frequency data is redundant and thus can be accurately reconstructed from low frequency components. SR is therefore an inference problem, and thus relies on our model of the statistics of images in question.
Many methods assume multiple images are available as LR instances of the same scene with different perspectives,
i.e. with unique prior affine transformations. These can be categorised as multi-image SR methods [1, 11] and exploit explicit redundancy by constraining the ill-posed problem with additional information and attempting to invert the downsampling process. However, these methods usually require computationally complex image registration and fusion stages, the accuracy of which directly impacts the quality of the result. An alternative family of methods are single image super-resolution (SISR) techniques [45]. These techniques seek to learn implicit redundancy that is present in natural data to recover missing HR information from a single LR instance. This usually arises in the form of local spatial correlations for images and additional temporal correlations in videos. In this case, prior information in the form of reconstruction constraints is needed to restrict the solution space of the reconstruction.
1
1874
Figure 1. The proposed efficient sub-pixel convolutional neural network (ESPCN), with two convolution layers for feature maps extraction, and a sub-pixel convolution layer that aggregates the feature maps from LR space and builds the SR image in a single step.
Related Work
The goal of SISR methods is to recover a HR image from a single LR input image [14]. Recent popular SISR methods can be classified into edge-based [35], image statistics- b ased [9, 18, 46, 12] and patch-based [2, 43, 52, 13, 54,
40, 5] methods. A detailed review of more generic SISR methods can be found in [45]. One family of approaches that has recently thrived in tackling the SISR problem is sparsity-based techniques. Sparse coding is an effective mechanism that assumes any natural image can be sparsely represented in a transform domain. This transform domain is usually a dictionary of image atoms [25, 10], which can be learnt through a training process that tries to discover the correspondence between LR and HR patches. This dictionary is able to embed the prior knowledge necessary to constrain the ill-posed problem of super-resolving unseen data. This approach is proposed in the methods of [47, 8]. A drawback of sparsity-based techniques is that introducing the sparsity constraint through a nonlinear reconstruction is generally computationally expensive.
Image representations derived via neural networks [21, 49, 34] have recently also shown promise for SISR. These methods, employ the back-propagation algorithm [22] to train on large image databases such as ImageNet [30] in or- de
剩余内容已隐藏,支付完成后下载完整资料
基于亚像素卷积网络的单幅图像和视频实时超分辨率重建
Wenzhe Shi1, Jose Caballero1, Ferenc Huszaacute;r1, Johannes Totz1, Andrew P. Aitken1, Rob Bishop1, Daniel Rueckert2, Zehan Wang1
1Magic Pony Technology 2Imperial College London
1{wenzhe,jose,ferenc,johannes,andy,rob,zehan}@magicpony.technology 2D.Rueckert@imperial.ac.uk
摘要
近来,许多基于深度神经网络的模型在对于单个图像超分辨率的精度重建和计算方面取得了巨大的成功。在这些方法里,低分辨率在图像中向上扩展到高分辨率空间,在重建之前使用一个过滤器,通常是双三次插值,这就意味着超分辨率操作在HR空间中执行。我们证明这是最优的并且增加了计算复杂性。在本文中,我们提出了第一个卷积神经网络(CNN),它能够在单个视频上实时播放1080P视频。为了实现这一点,我们提出了一种新的CNN架构,其中特征图是在LR空间中提取的。此外,我们还引入了一个有效的子—pixel卷积层。该卷积层学习利用一系列向上扩展的过滤器以便将最终的LR特征值映射到HR输出中。通过这样做,我们可以有效的将SR管道中手工制作的双三次过滤器替换为针对每个特征图专门培训的更复杂的上标过滤器,同时也降低了整个SR操作的计算复杂性。我们使用来自公开数据集的图像和视频评估了所提议的方法,并表明它的性能显著更好。
1.引言
高分辨率(HR)图像或视频从其低分辨率(LR)计数器部分的恢复是数字图像处理的一个重要课题。这项被称为超分辨率(SR)的任务在许多领域都有着直接的应用如HDTV,医学影像,卫星成像,面部识别,全局SR问题。假设LR数据是HR数据的低通滤波(模糊),低采样和噪声版本,由于非可逆低通滤波和次采样过程中高频信息的丢失,这是一个非常不适定的问题。此外,SR操作是一个有效的从LR到HR空间的一对多映射,可以有多个解,确定正确的解是非常重要的。许多SR技术的关键假设是,许多高频数据是冗余的,因此可以从低频分量中准确的重建。因此SR是一个推理问题,依赖于我们的统计模型。
许多方法假设多个图像可用作同一场景的不同视角的LR实例,即具有唯一的先验仿射变换。这些方法可以被归类为多图像SR方法,并通过用附加信息约束不适定问题试图反转降采样过程来利用显式冗余。然而,这些方法通常需要计算复杂的图像配准和融合阶段。其精度直接影响结果的质量。另一种方法是单图像超分辨率(SISR)技术,这些技术可以学习自然数据中存在的隐式冗余,以从单个LR实例恢复丢失的HR 信息。这通常以图像的局部空间相关性和视频中的附加时间相关性的形式出现。在这种情况下,需要以重建约束形式的先验信息来限制重构的解空间。
1.1.相关工作
SISR方法的主要目的是从单个低分辨率的图像中恢复高分辨率的图像。最近流行的SISR方法可分为基于边缘的,基于图像统计的和基于补丁的方法。对更通用的SISR方法的详细回顾中可在[45]中找到。最近在解决SISR问题方面取得成功的一系列方法是基于稀疏性的技术。稀疏编码是假设任何自然图像都能在变换域中稀疏表示的一种有效机制。这个变换域通常是一个图像的原子的字典,它可以通过一个训练过程来学习。这个训练过程试图发现LR和HR补丁之间的对应关系的培训过程来学习。该字典能够嵌入必要的先验知识,以约束超解未知数据的不适定问题。基于稀疏性的技术的一个缺点是,通过非线性重构引入稀疏性约束通常计算代价很高。
通过神经网络得到的图像最近也显示出了SISR的前景。这些方法利用反向传播算法在大型图像数据库上进行训练,以学习LR和HR图像补丁的非线性映射。在[4]中使用了堆叠的协同式局部自动编码器,对LR图像进行逐层超分辨。Osendorfer等人提出了一种基于预测卷积稀疏编码框架扩展的SISR方法。基于稀疏编码的方法,提出了一种多层卷积神经网络(CNN)。陈et建议使用多级可训练非线性反应扩散(TNRD)作为CNN的替代方案,其中权重和非线性可训练。王等人在lista(学习迭代收缩和阈值保持算法)的启发下,训练了一个端到端的级联稀疏编码网络,以充分利用图像的自然稀疏性。网络结构不限于神经网络。例如,一个随机森林也被成功地用于SISR.
1.2.目的和成果
图2 在进行比例因子为3的SR向上缩放时,不同方法的精度和速度之间的权衡图。结果显示了在但CPU内核上运行setl4的平均psnr和运行时间
随着CNN的发展,al-gorithms的效率,特别是它们的计算和记忆成本,变得越来越重要。深度网络模型学习非线性关系的灵活性已经证明,与以前的手工制作模型相比,具有更高的重建精度。为了将LR图像超分辨率到HR空间,需要提高LR图像的分辨率,使其在某一时刻与HR图像的分辨率相匹配。
在Osendorfer等人研究下,图像超分辨率在网络中间逐渐增加。另一种流行的方法是在网络的第一层之前或在第一层提高分辨率。然而这种方法有许多缺点。首先,在图像之前增加LR图像的分辨率增强步骤增加了计算复杂性,这对卷积网络尤其有问题。处理速度直接取决于输入分辨率。其次,通常用于完成任务的插值方法,例如双三次插值,不会带来额外的信息来解决不适定重建问题。
Dong等人在脚注中简要的提出学习上尺度滤波器的建议。然而,将其作为SR操作的一部分纳入CNN的重要性没有得到充分承认,也没有探索这一选择。此外,如Dong等人所述。没有有效的卷积层实现,卷积层的输出大小大于出入大小,而诸如convnet等经过良好优化的实现通常不允许这种行为。
在本文中,与以往的作品相反。我们建议仅在网络的最末端增加LR到HR的分辨率,并从LR特性图超级解析HR数据。这样就不需要在更大的人力资源解决方案中执行大多数SROA操作。为此,我们提出了一个更有效的亚像素卷积层来学习图像和视频超尺度上的尺度运算。
这些贡献的好处是双重的
●在我们的网络中,上规模是由网络的最后一层处理的。这意味着每一幅红外图像都被直接送入网络,并通过LR空间的非线性卷积进行特征提取。由于输入分辨率降低,我们可以有效的使用较小的过滤器大小来集成相同的信息,同时保持给定的上下文区域。分辨率和滤波器尺寸的减少大大降低了计算和内存的复杂性,从而使高清晰度(HD)视频的超分辨率成为现实。
●对于具有L层的网络,我们学习nr-1特征映射的ni-1向上缩放过滤器,而不是输入图像的一个向上缩放过滤器。此外,不使用显式插值过滤器意味着网络工作隐式地学习SR所需的处理。因此,与第一层的单个固定滤波器升迁相比,网络能够学习更好更复杂的LR-HR映射。这使得模型重建精度得到了额外的提高。如第3.3.2和3.4所展示的。
我们使用来自公共可用基准数据集的图像和视频验证了所提议的方法,并将我们的绩效与之前的工作进行了比较,包括[7,3,31].结果表明,所提出的模型达到了最先进的性能,并且与以前发布的图像和视频相比更接近一个数量级。
2.方法
SISR的任务是估计一个HR图像,从对应的原始HR图像i中缩小一个LR图像i.降采样操作是确定和已知的:为了从IHR中产生ILR,我们首先使用高斯滤波器对ILR进行卷积,从而模拟摄像机的点扩散函数,然后将图像降采样一个系数r,我们将r成为升比例。一般来说,ILR和IHR都可以有c色通道,因此它们分别表示为Htimes;Wtimes;C和rHtimes;rWtimes;C大小的实值张量。
为了解决SISR问题,SRCNN提出了一种从ILR的增量式和内插式版本中恢复IHR的方法。为了恢复ISR,使用3层卷积网络。在本节中,我们提出了一种新的网络体系结构,如图1所示,在将ILR送入网络体系结构之前,避免其升序。在我们的体系结构中,我们首先将一个l层卷积神经网络直接应用于LR特征映射,然后将一个亚像素卷积层应用于将LR特征映射进行上标以生成。
对于由L层组成的网络,第一个L-1层可以描述如下。
其中Wl, bl, l isin; ( 1, L- 1)是可学习网络的权重和偏倚。Wl是大小为nll 1 times;nl times;kl times;kl的二维卷积张量,其中nl是l层的特征数,, n0 = C,kl是l层的滤波器大小。偏差bl是长度nl的向量。非线性函数(或激活函数)phi; 是以元素为导向的,并且是固定的。最后一层fL必须将LR功能图转换为HR图像ISR.
2.1.反褶积层
增加反褶积层是从最大池和其他图像下采样层回复分辨率的常用选择。该方法已成功地用于可视化激活和使用网络的高级功能生成语义分段。正如在[24,7]中已经提到的,SRCNN中使用的双三次插值是反褶积层的一种特殊情况,这一点很简单。在[50]中提出的反褶积层可以被视为每个输入像素被一个具有步长r的滤波元件放大的倍数,并在生成的输出窗口上求和,也可被称为向后卷积,然而,卷积后的任何还原(求和)都是昂贵的。
2.2.高效亚像素卷积层
图三 第一层滤波器在图像网络上训练,其放大系数为3.过滤器根据其差异进行排序。
另一种提高LR图像比例的方法是卷积在LR空间中的分步数,如B[24]所述,可以通过执行插值或取消从LR空间合并到HR空间,然后在HR空间中进行步幅为i的卷积来实现。由于卷积发生在HR中,因此这些实现将计算成本增加r的一个因数。
或者,在LR中步幅为i的卷积1/r与具有权重间距的Ks大小的过滤器Ws的步幅1/r将激活Ws的不同部分进行卷积。位于像素之间的权重不会被激活,也不需要计算。激活模式的数量正好是r2.根据其位置,每个激活模式最多激活个权重。根据不同的亚像素位置,在对图像进行滤波卷积时,这些图案会周期性地被激活。坐标(x,r),坐标(y,r),其中x,y是在HR空间中输出的像素坐标。在本文中,我们提出了一种有效的方法来实现上述操作时,坐标(Ks,r)=0:
其中ps是后面的一个周期性洗牌操作员,它对Htimes;Wtimes;C的元素进行后置。rh张量得到形状rhtimes;rwtimes;c的量。在数学上,这个操作可以用以下方式描述:
卷积算子wl因此具有ni-1r2ck的形状。注意,我们不将非线性应用于最后一层卷积的输出很容易看出,当kl=z且mod(k,7)=0时,相当于用filte在lr空间中进行的次dixel卷积。我们将新的层称为亚像素卷积层,我们的网络称为高效亚像素卷积神经网络。最后一层通过一个向上缩放直接从LR要素图生成HR图像。过滤每个特征图,如图4所示。
给出了一个由HR图像示例组成的训练集IHR, n = 1 . . . N,我们生成相应的LR图像集 ILR, n = 1 . . . N ,并计算像素平均值,作为训练网络的目标函数重建的平方误差,
值得注意的事,与HR空间中的约简或卷积相比,Abeove周期性洗牌的实现速度非常快,因此每个操作都是独立的,在一个循环中是微不足道的可并行。因此与前通反卷积层相比,我们提出的层要快 log2r2对数倍,而与卷积前使用各种形式上尺度的实现相比,我们提出的层要快r2倍。
- 实验
补充材料中提供了定量评估的详细报告,包括原始数据(包括图像和视频)、低采样数据、超分辨率数据、总体和个别分数以及K2 GPU的运行时间。
-
- 数据集集合
图4 最后一层过滤器在ImageNet上训练,上定因子为3:(a)显示SRCNN 9-5-5模型7的权重。(b)显示ESPCN(magenet relu)模型中的重量和(c)应用于Rrsquo;rsquo;通道的P操作后的重量。
图5 ETL14中来自狒狒,漫画,斑蝶的超分辨率示例,上标系数为3p。PSNR值显示在每个子图下面。
在评估过程中,我们使用了包括timofte的数据集在内的公开的基准数据集,这些数据集被sisr论文[7,44,3]广泛使用,为多种方法提供了源代码。训练图像和两个测试数据集set5和set14提供5和14个图像:伯克利分割数据集bsd300和bsd500,提供100和200个测试图像,以及每个纹理数据集提供136个纹理图像。对于我们的最终模型,我们使用来自ImageNet[30]的50000个随机选择的图像进行培训。在前面的工
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19120],资料为PDF文档或Word文档,PDF文档可免费转换为Word