基于对抗神经网络的图片压缩系统外文翻译资料
2022-12-28 16:54:50
本科生毕业设计(论文)外文资料译文
( 2021届)
论文题目 |
基于对抗神经网络的图片压缩系统 |
外文资料译文规范说明
一、译文文本要求 1.外文译文不少于3000汉字; 2.外文译文本文格式参照论文正文规范(标题、字体、字号、图表、原文信息等); 3.外文原文资料信息列文末,对应于论文正文的参考文献部分,标题用“外文原文资料信息”,内容包括: 1)外文原文作者; 2)书名或论文题目; 3)外文原文来源: □出版社或刊物名称、出版时间或刊号、译文部分所在页码 □网页地址 二、外文原文资料(电子文本或数字化后的图片): 1.外文原文不少于10000印刷字符(图表等除外); 2.外文原文若是纸质的请数字化(图片)后粘贴于译文后的原文资料处,但装订时请用纸质原文复印件附于译文后。 |
指导教师意见: 指导教师签名: 年 月 日 |
一、外文资料译文:
对抗神经网络
关键词:深度学习,对抗神经网络,损失函数
1.摘要
我们提出了一个通过对抗过程来生成模型的新框架,其中我们同时训练两个模型:捕获数据分布的生成模型G和估计样本来自训练数据的概率的判别模型D。G的训练程序是最大化D犯错误的概率。在任意函数G和D的空间中,存在唯一的解决方案,其中G恢复训练数据分布并且D等于 1。在G和D由多层感知器定义的情况下,整个系统可以用反向传播进行训练。在训练或生成样本期间不需要任何马尔可夫链或展开的近似推断网络。实验通过对生成的样品进行定性和定量评估来证明该框架的潜力。
- 介绍
深度学习的未来是发现更加丰富的层次模型,它们表示人工智能应用中遇到的各种数据的概率分布,如自然图像,包含语音的音频波形和自然语言语料库中的符号。到目前为止,深度学习中最引人注目的辨别模型,通常是那些将高维度,丰富的感官输入映射到类标签的模型。这些惊人的成功主要基于反向传播和丢失算法,使用分段线性单元,它们具有特别良好的梯度。深度生成模型的影响较小,是因为在最大似然估计和相关策略中会出现的许多难以处理的概率计算,并且由于难以在生成环境中利用分段线性单元的好处。
我们提出了一种新的生成模型估计程序,可以避免这些困难。在提出的对抗性网络框架中,生成模型与对手进行对比:一种判别模型,用于确定样本是来自模型分布还是数据分布。生成模型可以被认为类似于造假者团队,试图生产虚假货币并在没有检测的情况下使用它,而歧视模型类似于警察,试图检测伪造货币。在这个游戏中的竞争促使两个团队改进他们的方法,直到假冒伪劣品与真品无法区分。该框架可以为多种模型和优化算法提供特定的训练算法。在本文中,我们探讨了生成模型通过多层感知器传递随机噪声生成样本的特殊情况,并且判别模型也是多层感知器。我们将这种特殊情况称为对抗性网络。在这种情况下,我们可以仅使用非常成功的反向传播和丢失算法来训练两个模型,并且仅使用前向传播来生成来自生成模型的样本。不需要近似推理或马尔可夫链。
3.相关工作
具有潜在变量的定向图形模型的替代方案是具有潜在变量的无向图形模型,例如受限制的玻尔兹曼机器(RBM),深玻尔兹曼机器及其众多变体。这些模型中的相互作用表示为非标准化势函数的乘积,通过随机变量的所有状态的全局求和/积分来归一化。这个数量(分区函数)及其梯度对于除了最平凡的实例之外的所有实例都是难以处理的,尽管它们可以通过马尔可夫链蒙特卡罗(MCMC)方法来估计。混合对于依赖MCMC的学习算法提出了一个重要问题。深度置信网络(DBN)是包含单个无向层和若干有向层的混合模型。虽然存在快速近似分层训练标准,但DBN会引起与无向和定向模型相关的计算困难。还提出了不接近或约束对数似然的替代标准,例如得分匹配和噪声对比估计(NCE)。这两者都要求将学习的概率密度分析地指定为归一化常数。请注意,在许多具有多层潜在变量(例如DBN和DBM)的有趣生成模型中,甚至不可能得出易处理的非标准化概率密度。某些模型(如去噪自动编码器和收缩自动编码器)的学习规则与应用于RBM的分数匹配非常相似。在NCE中,与本研究一样,采用判别训练标准来拟合生成模型。然而,生成模型本身不是用于拟合单独的判别模型,而是用于将生成的数据与样本区分为固定的噪声分布。因为NCE使用固定的噪声分布,所以在模型在一小部分观察变量上学习了大致正确的分布后,学习速度显着减慢。最后,一些技术不涉及明确定义概率分布,而是训练生成机器从所需分布中抽取样本。这种方法的优点是可以将这种机器设计成通过反向传播进行训练。最近在该领域的突出工作包括生成随机网络(GSN)框架,它扩展了广义去噪自动编码器:两者都可以看作是定义参数化马尔可夫链,即学习机器的参数执行生成马尔可夫链的一步。与GSN相比,对抗性网络框架不需要马尔可夫链进行采样。因为对抗网在生成期间不需要反馈回路,所以它们能够更好地利用分段线性单元,这提高了反向传播的性能,但当在反馈回路中使用时会存在无界激活的问题。最近通过反向传播训练生成机器的例子包括最近关于变分贝叶斯和随机反向传播的自动编码工作。
4.对抗网络
当模型是多层感知器时,对抗建模框架最直接应用。为了在数据x上学习生成器的分布pg , 我们定义了先验输入噪声变量pz(z),然后表示到数据空间的映射为G(z;theta;g),其中G是 由具有参数theta;g的多层感知器表示的可微函数。我们还定义了第二个多层感知器D(x;theta;d), 它输出单个标量。D(x)表示x来自数据而不是pg的概率。我们训练D以最大化为训练样本 和来自G的样本分配正确标签的概率。我们同时训练G以最小化log(1 - D(G(z))):换句话说,D和G使用值函数V(G,D)进行以下双人迷你极小游戏:
在下一节中,我们提出了对抗网络的理论分析,基本上表明训练标准允许人们恢复数据生 成分布,因为G和D被赋予足够的容量,即在非参数限制中。有关该方法的不太正式,更具教学意义的解释,请参见图1。在实践中,我们必须使用迭代的数值方法来实现游戏。在训练的内循环中优化D到完成在计算上是禁止的,并且在有限数据集上将导致过度拟合。相反,我们在优化D的k个步骤和优化G的一个步骤之间交替。这导致D保持接近其最优解,只要G变化足够慢。这种策略类似于SML / PCD 训练将马尔可夫链中的样本从一个学习步骤维持到下一个学习步骤的方式,以避免作为学习内循环的一部分在马尔可夫链中燃烧。该过程在算法1中正式呈现。
在实验中,等式1可能无法为G学习提供足够的梯度。在学习初期,当G很差时,D可以高度自信地拒绝样本,因为它们与训练数据明显不同。在这种情况下,log(1 D(G
(z)))饱和。我们可以训练G以minus;最大化log D(G(z)),而不是训练G以最小化log
(1 Dminus;(G(z)))。该目标函数导致G和D动力学的相同固定点,但在学习早期提供更强的梯度。
图1:生成对抗网络通过同时更新判别分布(D,蓝色,虚线)进行训练,以便区分来自数据生成分 布(黑色,虚线)px的样本与生成分布pg(G)的样本(绿色,实线)。下面的水平线是从中采样z域,在这种情况下是均匀的。上面的水平线是x域的一部分。向上箭头表示映射x = G(z)如何在变 换样本上施加非均匀分布pg。G在高密度区域收缩,在低密度区域扩展。
(a)考虑靠近收敛的对抗对: pg类似于pdata,D是部分精确的分类器。
(b)在算法的内环中训练D以区分样本和数据,收敛到Dlowast;(x)=pdata(x)。
(c)在更新G之后,D的梯度引导G(z)流向更可能的区域p数(据x) p (xg)被归类为数据。
(d)经过几个步骤的训练后,如果G和D有足够的容量,它们将达到两个都无法改善的点,因为pg = pdata。鉴别器无法区分两个分布,即D(x)= 0.5。
5.理论结果
生成器G隐含地将概率分布pg 定义为当zpz时获得的样本G(z)的分布。因此,如果给定足够的容量和训练时间,我们希望算法1收敛到p数据的良好估计。本节的结果是在非参数设置中完成的,例如,我们通过研究概率密度函数空间中的收敛来表示具有无限容量的模型。我们将在5.1节中说明这个minimax游戏具有pg = p数据的全局最优。然后我们将在5.2节中展示算法1优化等式1,从而获得所需的结果。
4.1pg = p数据的全局最优性
我们首先考虑任何给定生成器G的最佳鉴别器D. 命题1.对于G固定,最优鉴别器D是
证明。鉴于任何生成器G,鉴别器D的训练标准是最大化量V(G,D)
对于任何(a,b)isin;R2 {0,0},函数y→a log(y) b log(1-y)达到其最大值[0,1] ata a 。鉴别符不需要在Supp(p数据)cup;Supp(pg)之外定义。
注意,D的训练目标可以被解释为最大化用于估计条件概率P(Y = yx)的对数似然,其中Y指示x是来自p数据 (具有y = 1)还是来自p|g )(y = 0)。方程式中的极小极大游戏1现在可以重新表述为:
其中KL是Kullback-Leibler分歧。我们在前面的表达式中认识到模型分布和数据生成过程之间的Jensen-Shannon差异:
由于两个分布之间的Jensen-Shannon分歧总是非负的,只有当它们相等时才为零,我们已经证明Clowast; = log(4)是C(G)的全局最小值,唯一的解决方案是pg = p数据,即完全复制数据生成的生成模型
处理。
5.2算法1的收敛性
命题2.如果G和D具有足够的容量,并且在算法1的每一步,允许鉴别器达到其最佳给定G并且更新pg 以便改进标准
然后pg 收敛到p数据证明。考虑V(G,D)= U(pg,D)作为pg 的函数,如在上述标准中所做的那样。注意, U(pg,D)在pg中是凸的。凸函数的上界的子衍生物包括在达到最大值的点处函数的导 数。换句话说,如果对于每个alpha;,f(x)= supalpha; falpha;(x)和falpha;(x)在x中是凸的,那么如isin;果A beta;则为part;fbeta; (x)part;f = arg supalpha; falpha;(x)。这相当isin;于在最佳D处计算pisin;g A的梯度 下降更新,给定相应的G. supD U(pg,D)在pg 中是凸的,具有唯一的全局最优值因 此,在Thm 1中,pg的更新足够小,pg 收敛于px,结论证明:在实践中,对抗网络通过函数G(z;theta;g)表示pg 分布的有限族,并且我们优化theta;g 而不是pg 本身。使用多层感知器定义G在参数空间中引入了多个关键点。然而,多层感知器在实践中的优异性能表明它们是一种合理的模型,尽管它们缺乏理论上的保证。
- 实验
我们训练了对抗网络的一系列数据集,包括MNIST ,多伦多人脸数据库和CIFAR-10 [21]。生成器网络使用整流器线性激活和S形激活的混合,而鉴别网使用maxout 激活。辍学用于训练鉴别网。虽然我们的理论框架允许在生成器的中间层使用压差和其他噪声,但我们使用噪声作为生成器网络最底层的输入。
我们通过将高斯Parzen窗口拟合到用G生成的样本并在该分布下报告对数似然来估计测试集数据在pg 下的概率。sigma;参数
表1:Parzen基于窗口的对数似然估计。在MNIST是测试集上样本的平均对数似然,并且在示例中计算平均值的标准误差。在TFD上,我们计算了数据集折叠的标准误差,使用每个折叠的验证集选择不同的sigma;。在TFD上,sigma;在每个折叠上交叉验证,并计算每个折叠的平均对数似然。对于MNIST,我们将与其他数据集的实值(而不是二进制)版本进行比较。
通过验证集上的交叉验证获得高斯算子。该程序在Breuleux等人的文章中介绍。[8]并用于 各种生成模型,其确切的可能性是不易处理。结果报告在表1中。这种估计可能 性的方法具有稍高的方差,并且在高维空间中表现不佳,但它是我们所知的最佳方法。可 以采样但不能估计可能性的生成模型的进步直接激发了对如何评估此类模型的进一步研究。
在图2和图3中,我们显示了训练后从生成器网中抽取的样本。虽然我们没有声称这些样本比现有方法生成的样本更好,但我们认为这些样本至少与文献中更好的生成模型竞争,并突出了对抗框架的潜力。
- (b)
-
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[269865],资料为PDF文档或Word文档,PDF文档可免费转换为Word