深度学习外文翻译资料

2022-09-11 22:20:04

英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

深度学习

深度学习使得由多个处理层学习交涉组成的计算模型去学习有多个抽象级别的数据。这些方法大大促进了国家的最先进的语音识别，视觉物体识别，目标检测如药物发现和基因组学等诸多领域的发展。深学习发现了使用BP算法的大型数据集的复杂的结构，并通过它来说明如何机器应该如何将每层中的表示从表示在其内部参数上一层的改变用于计算。虽然深卷积网已在处理图像，视频，语音等方面带来的突破和音频，但是复发网络对如文本和语音的连续数据表现出了兴趣。

机器学习技术在现代社会的许多方面都表现出了它极强的能力：从网络搜索到社交网络内容过滤再到对电子商务网站提出改建议，并且在如照相机和日益本智能手机消费产品中，它变得越来越重要。机器学习系统可用于识别图像中的物体、录音转成文字，匹配新闻，筛选与用户的利益有关的文章或产品，并选择搜索的相关结果。这些技术的发展势头越来越显著，这项被相关应用程序使用技术被称为深度学习。

常规机器学习技术在被限制了它们在原始形态来处理自然数据的能力。几十年来，构建模式识别和机器学习系统需要精心设计和相当的专业领域知识来设计一个可以转换的原始数据（如像素值图像）到合适的内部表示或特征向量的功能提取器。这个功能提取器通常是一个分类器，可以在输入时进行探测或分类。

表示学习是一套方法，这套方法可以使一台机器用原始数据自动发现需要检测或分类的交涉。深学习方法是具有代表性的多层次学习方法，通过组合简单非线性模块，每个获得在一个级别上变换的表示（与原始输入开始）为在更高的，稍微更抽象的层次的表示。随着足够的这种转变，很复杂的功能组成可以学会的。对于分类任务，表示高层扩增是重要的判别输入的各方面和抑制不相关的变化。的图像，例如，来自中的像素值的阵列的形式，并且在第一学到特征代表性的层通常表示存在或不存在边缘在特定方位和在图像中的位置。第二层通常通过发现的特别安排检测图案边缘不论在边缘位置的小变化。第三层可组装成图案对应大组合熟悉对象的部分，后续层将检测对象作为这些部件的组合。深度学习的主要方面是，功能这些层并不受人为工程师设计：他们使用通用的学习过程从数据得知。深度学习中解决问题作出重大进展的抵制人工智能界的最好的尝试很多年了。它已被证明是在高维数据discoveringintricate结构非常好，因此适用以科学，商业和政府的诸多领域。此外在图像和语音跳动的记录，已经在预测活动殴打其他机器学习技术潜在的药物的，分析的粒子加速器，重构脑，和预测的突变的影响在非编码基因表达和的DNA。也许更奇怪的是，深度学习产生了非常可喜的成果在自然语言各种任务，特别是话题分类，情感分析，问题和语言。

我们认为深度学习将在更多的成功不久的将来，因为它需要用手工很少工程，所以它可以很容易地利用增加可用的计算量和数据。新的学习算法和架构是目前正在为深神经网络只会加速发展这一进展。

监督学习

机器学习，深与否的最常见的形式，被监测学习。试想一下，我们要建立一个可以分类系统图像作为包含，比如说，房子，一辆汽车，一个人或宠物。我们先收集大量数据集的房子，汽车，人与宠物，每个图像标有其类别。在训练期间，在机器中示出一个图像，并产生一个输出中的分数的向量的形式一为每个类别。我们希望所需的类别有最高的得分所有类别，但这是不可能的训练前发生。我们计算，其测量误差（或距离）的目标函数输出的分数和分数的期望的图案之间。该然后修改机器内部参数可调，以减少这个错误。这些参数可调，通常被称为权重，是真实的这可以被看作是定义输入 - 输出功能“旋钮”号码的机器。

图1 多层神经网络图

图2 神经网络节点图

要正确调整权重向量，学习算法计算一个梯度矢量，对于每个权重，由什么量指示错误会增加或减少，如果重量分别增加了一个少量。权重向量，然后在相反的方向调整到梯度向量。

目标函数，平均所有训练的例子，可以被看作是一种在高维空间丘陵景观权重值。负梯度向量指示的方向在这一横向最速下降，同时它更接近最低，在输出误差不足平均水平。在实践中，大多数从业者使用一种叫做随机程序梯度下降（SGD）。这包括示出输入矢量的

对于一些例子，计算输出和误差，计算平均坡度为这些实施例，以及调整权重因此。该过程被重复许多小集的例子从训练集合直到目标函数的平均停下降。这就是所谓的随机，因为每个小套的例子给出的平均梯度所有实施例的有噪声估计。这个简单的程序通常认为一套好的权重出奇时迅速远远更详细的优化techniques18比较。训练后，该系统的性能被测量上一组不同的实施例称为测试集。这用于测试其产生有意义的能力 - 机器的推广能力对，它从未在训练中看到新的输入答案。

许多机器学习利用当前实际应用在手工设计的特征顶线性分类。两舱线分类器计算的特征向量分量的加权和。如果加权和高于阈值时，输入被分类为属于特定的类别。

自1960年以来，我们已经知道，线性分类只能刻其输入空间到非常简单的区域，即半空格分隔由hyperplane19。但问题诸如图像和语音识别所需要的输入 - 输出功能，以不敏感不相干输入的变化，例如在位置，定向或变化对象的照明，或者在语音的音调或重音的变化，而被特定的微小变化非常敏感（例如，一个白色的狼和狼一样的白色的品种之间的差异狗被称为萨摩耶）。在像素级，二萨莫耶德的图像不同的姿势，并在不同的环境中可以是非常不同的彼此，而萨摩耶的两个图像和狼的上相似的背景相同的位置，可能是非常相似的每一其他线性分类器，或任何其他浅分类的原始像素的操作不可能区分后两者，而把前两者在同一类别。这就是为什么浅分类需要解决的选择性不变性一个很好的特征提取困境 - 一个产生一个有选择性的申述这对于鉴别重要的图像的各个方面，但是不变的不相干的方面，如动物的姿势。使分类器更强大的，可以使用通用的非线性功能，内核methods20，但通用的功能，如与高斯核所产生不允许学习者一概而论还有远从训练examples21。常规选项手设计好的特征提取，这需要相当工程技术和专业领域知识量。但是，这可能一切是可以避免的，如果好的功能可以自动用学到通用学习过程。这其中的关键优势深度学习。

深学习架构比较简单，模块的多层堆叠，全部（或大部分），其中受学习，其中许多计算非线性输入输出映射。在每个模块堆将其输入到同时增加的选择性和代表性的不变性。对于多个非线性层，说的5〜20的深度，一个系统可以实现非常复杂的功能它的输入，对微小的细节同时敏感- 从白色狼区分萨莫耶德 - 和不敏感大量不相关变体为背景，姿势，照明和周围的物体。

图3 卷积网络比较图

反向传播训练的多层架构

从模式，研究人员的目标的初期一直以取代可训练手设计的特征多层的网络，但尽管它的简单，将溶液不广泛理解，直到80年代中期。事实证明，多层架构可以通过简单的随机梯度下降的培训。只要模块的其输入端比较平滑函数和他们的内部权重，我们可以计算使用梯度反向传播的过程。的想法，可以这样做，并它的工作，是由几个不同的独立发现20世纪70年代和1980s24-27期间组。

反向传播的过程来计算的梯度相对于多层叠层的权重目标函数模块的无非是衍生品的链式法则的实际应用了。关键见解是，所述衍生物（或梯度）相对于一组件的输入端的目标可以是从梯度相对于向后计算工作该模块的输出（或随后的模块的输入）（图。1）。向传播方程可反复施加到所有模块中传播的梯度，从输出开始在顶部（其中网络产生其预测）一路的底部（在外部输入被供给）。一旦这些梯度已经计算功能，可以直接计算梯度相对于每个模块的重量。

深度学习使用的许多应用程序前馈神经网络结构（图1），该学习映射固定大小的输入（例如，图像），以固定大小的输出（例如，概率每个几类）。从一层到去下，一组为单位计算从它们的输入的加权和先前层，并且通过非线性函数传递的结果。在目前，最流行的非线性函数是整流线性单元（ReLU），这仅仅是半波整流器F（z）的=最大值（Z，0）。在过去的几十年中，神经网络使用平滑的非线性，如的tanh（z）或1 /（1 EXP（-z）），但ReLU通常获悉快得多在多层次的网络，允许深的培训监督网络无监督无预training28。单元不在输入或输出层通常被称为隐单元。该隐藏层可以被看作是在一个非线性的方式扭曲输入使类别成为由最后层（图1）线性可分。

在90年代后期，神经网络和反向传播在很大程度上通过机器学习社会抛弃和被忽略计算机视觉和语音识别的社区。这是广认为学习很少有用的，多阶段，特征提取先验知识是不可行的。尤其是，它是通常以为简单的梯度下降会得到被困在当地的差极小 - 重配置，对于没有小的变化会降低平均误差。

在实践中，可怜的局部极小很少有大型网络的一个问题。不管初始条件，系统几乎总是达非常相似品质的解决方案。最近的理论和经验结果有力地表明，局部最小值是不是一个严重的问题一般。相反，景观是挤满了一个组合方法大量鞍点，其中梯度为0，并表面曲线向上大多数尺寸和曲线在下来。分析似乎表明，鞍点，只有少数向下弯曲的方向都存在非常大的数字，但几乎个个都目标非常相似值功能。因此，它并不重要这些鞍指出该算法被卡住的。

深前馈网络的兴趣是在2006年左右恢复由一组研究人员由加拿大汇集高级研究所（CIFAR）。研究人员介绍能够创造的层次无监督学习过程特征检测，无需标记的数据。在客观学习特征检测器的每一层是能够重建或在层特征检测器（或原始输入）的活动模型下面。通过“岗前培训”越来越复杂的几层使用此重建目标特征检测器，一个权重深网络可以被初始化为合理值。最后一层然后输出单元可以被添加到网络中的顶部和整个深系统可使用标准.本非常行之有效识别手写数字或用于检测行人，的量特别是当标签的数据是非常。

这种训练前方法的第一大应用是语音识别，并且它是由快的出现成为可能这是方便图形处理单元（GPU）并允许研究人员训练网络快10倍或20倍。在2009年，被使用的方法来映射系数的短时间窗从声波中提取的一组概率为的语音的各种片段可能由帧来表示在该窗口的中心。它实现了一个破纪录的结果所用的小vocabulary38标准语音识别基准并很快发展到上给破纪录的结果大量的词汇task39。到2012年，从2009年版本的深网正由许多重要讲话groups6的开发，分别为已经被部署在Android手机。对于较小的数据集，无监督前培训有助于防止，导致显著更好的泛化时的标识样本数是小的，或在一个传输设定，我们有许多实例对于一些“源”任务，但对于一些“目标”任务的寥寥无几。一旦深学习已经平反，原来的前培训只需要较小的数据集的阶段。

有，但是深前馈网络的一个特定类型的这是更容易培养和广义不过如此网络与相邻层之间完全连接。这是卷积神经网络。它取得了许多在此期间的实际成就的时候神经网络出炉的青睐和它最近的computervision广泛采用社区。

卷积神经网络

ConvNets被设计以处理进来的形式的数据多个阵列，例如彩色图象由三个二维包含在三个颜色通道的像素强度阵列。许多数据的方式有多种阵列形式：一维的信号，序列，包括语言; 2D图像为或音频谱图;和3D视频或体积图像。有四个关键概念背后采取的自然属性优势ConvNets信号：本地连接，共享权数，池和使用多种层次。

一个典型ConvNet的体系结构（图2）被构造为一系列阶段。前几个阶段由两个类型中的层：卷积层和汇聚层。在卷积单位层在特征图组织，在其内的每个单元被连接到本地补丁在先前的特征图通过一组权重的层称为滤波器组。这样做的结果本地加权和，然后通过一个非线性传递诸如ReLU。在特征图各单位共享相同的滤波器组。不同在层特征映射使用不同的滤波器组。这样做的原因架构是双重的。首先，在阵列数据，如图像，本地值的群体往往是高度相关的，形成了鲜明的地方被容易地检测的图案。第二，图像的局部统计和其他信号是不变的位置。换句话说，如果一个序可以出现在图像中的一个组成部分，它可以在任何地方出现，因此在不同地点的单位共享相同的权重的理念，检测所述阵列的不同部分相同的模式。在数学上，由一个特征图所执行的滤波操作是离散卷积，因此而得名。

虽然卷积层的作用是检测本地连词从以前的层的功能，该池的作用层是语义相似的功能合并成一个。由于的形成图案的特征的相对位置可以有所不同，可靠地检测图案可以这样做粗木纹的位置每个功能。一个典型的池单元计算最大单元在一个特征图一个局部斑块的（或在少数特征地图）。邻国统筹单位采取从被转移输入补丁由一个以上的行或列，从而减少的维代表性和创建不变性小的变化和扭曲。卷积，非线性和池的两个或三个阶段被堆叠，随后更卷积和完全连接层。通过ConvNet Backpropagating梯度就是这么简单通过定期做深层网络，让所有的所有的权重滤波器组进行培训。

图4 图片转文本图

深层神经网络利用的财产，许多自然信号是组成层次结构，其中的高级特性通过组合低级别的人获得。在图像，本地组合边形图案，图案组合成部件和零件表单对象。类似的层次结构，从声音语音和文本存在电话外，音素，音节，单词和句子。汇集允许表示在以前很少发生变化时，元素层在位置和外观变化。

在ConvNets卷积和池层直接通过简单细胞和复杂细胞的经典概念的启发视觉，整体建筑让人想起所述LGN-V1-V2-V4-IT层级在视觉皮层腹侧。当ConvNet模型和猴中所示的相同的图像，高层单位在ConvNet的激活说明一半随机套160元的猴的颞下方差。 ConvNets有他们的根在，其结构是有些相似，但没有一个端至端监督学习算法，如反向传播。一种原始1D ConvNet称为延时用于神经网络识别音素和简单的的。

已经有卷积网络的多种应用追溯到90年代初，开始与时间延迟神经网络语音和文件。该文档阅读系统中使用了共同培养了ConvNet该实施语言的约束概率模型。由20世纪90年代末该系统在读的所有检查的10％以上美国。许多基于ConvNet光学字符识别和手写识别系统后来被部署Microsoft49。 ConvNets用在90年代初还尝试和人脸。

深卷积网络的图像理解

自

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[146021]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码