约束深度度量学习的行人重识别外文翻译资料

2021-12-19 21:59:22

英语原文共 10 页

约束深度度量学习的行人重识别

摘要

行人重识别旨在从不同摄像机视图下的给定图像集中重新识别目标图像。由于姿势，照明，遮挡和相机视图的较大变化，想实现这个目标是很具有挑战性的。由于卷积神经网络（CNN）具有出色的特征提取能力，因此最近在行人重识别中应用了某些深度学习方法。然而，在行人重识别中，深层网络经常遭受过度拟合的问题。在本文中，我们提出了一种新的基于CNN的方法来学习一种判别性度量，对行人重识别中的过度拟合问题具有良好的鲁棒性。首先，建立一种新的深度架构，其中马哈拉诺比斯度量以权重约束来学习。该权重约束用于规范学习，使得学习的度量具有更好的泛化能力。其次，我们发现类内样本选择是否正确对学习至关重要，但很少受到关注。为了应对行人图像中的大型类内变化，我们提出了一种新的训练策略，称为中度正向挖掘，以防止训练过程过度拟合到类内对中的极端样本。实验表明，我们的方法在行人重识别的几个基准上显著优于最进的方法。

简介

给定一组行人图像，行人重识别旨在识别通常由不同相机捕获的探测图像。如今，行人重识别对于监视和安全系统变得越来越重要，例如：取代手动视频放映和其他重担。由于身体姿势，照明，视角，跨时间场景和摄像机的较大变化，行人重识别是一项具有挑战性的任务。

现有方法的框架通常由两部分组成：（1）从行人图像中提取判别特征; （2）通过特征比较计算图像对的距离。这两个方面有很多工作重点。传统方法致力于改进合适的手工制作功能[30,33,36]；比较[12,14,17,22,34]或两者的良好度量[11,18,29]。第一方面考虑在保留身份信息的同时找到对挑战因素（照明，姿势等）稳健的特征。第二个方面涉及度量学习问题，它通常最小化类内距离，同时最大化类间距离。

最近，深度学习方法逐渐在行人重识别范围流行起来。通过深度学习[1,5,16,31]的重新识别方法将行人重识别的上述两个方面（特征提取和元学习）纳入一个集成框架。特征提取和度量学习分别由深度神经网络中的两个组件来实现：（1）从行人图像中提取特征的CNN部分，以及（2）将特征向量与特征向量进行比较的以下度量成本部分。选择的度量，计算损失函数，并反向传播梯度（图1）。 FPNN [16]算法首次为CNN部分引入了补丁匹配层。艾哈迈德等人 [1]提出了一种改进的深度学习架构（IDLA），它具有交叉输入的邻域差异和补丁汇总功能。这两种方法都致力于改进CNN架构。它们的目的是在CNN阶段早期评估对相似性，以便它可以利用特征图的空间对应。对于度量成本部分，DML [31]采用了余弦相似度和二项式偏差。 DeepFeature [5]采用欧几里德距离和三重态损失。其他一些[1,16]使用逻辑损失直接形成了一个输入图像对是否具有相同身份的二元分类问题。

图1

然而，在人员重新识别时，可用的训练数据通常是不充分的，这导致现有深度学习方法对测试数据的较弱的一般化能力。为了解决这个问题，在本文中，我们提出了一种新的深度量学习方法，并尝试两种有用的约束来防止训练过度拟合。具体来说：

·所提出的网络从具有卷积中性网络的一对图像中提取特征，并将这两个特征向量与马哈拉诺比斯度量层进行比较。马哈拉诺比斯度量层由权重约束规则化，因此学习的度量具有更好的泛化能力。特征提取器和度量层是联合学习的。在测试期间，网络读取一对图像并直接输出距离。

·为了训练深度神经网络，通常使用硬负面挖掘策略[1,25,27]。考虑到行人数据的大量内部变化，我们认为，在亲自重新识别时，也应该仔细地对正对进行采样，因为迫使模型处理极其严格的正像可能导致过度拟合。这是一个重要的问题，但很少被人注意到。在本文中，我们提出了一种新的培训策略，称为中度正向挖掘，以自适应地搜索适度积极的训练并避免异常值。这种新颖的策略减轻了过度拟合问题并显着提高了识别准确性。

二、相关工作

约束度量学习。据我们所知，人员重识别很少应用马哈拉诺比斯度量标准深度学习方法。深度学习方法的常用度量是欧几里德距离。然而，欧几里德距离对尺度敏感，并且对尺寸的相关性视而不见。在实践中，我们不能保证CNN学习的特征具有相似的尺度和跨尺寸。因此，我们的方法采用马哈拉诺比斯距离，这是多变量度量的更好选择[21]。在人脸识别领域，DDML [10]在网络中实现了马哈拉诺比斯距离，但作为输入的是手工制作的功能。这与我们的有很大不同。我们将特征提取和马哈拉诺比斯度量学习集成在统一网络中，其中两个组件是联合学习的。此外，我们的马哈拉诺比斯度量是在权重约束条件下学习的（参见第3.2节），这有助于获得更好的泛化能力。FaceNet [27]和DeepFace [25]在他们的网络中实现了类似的度量，但没有像我们这样的权重约束。

样本挖掘。硬负面挖掘策略[27]越来越常用于训练深层网络。IDLA [1]在重新识别时，在其培训过程中采用了硬性负面挖掘。通过强制模型关注决策边界附近的硬阴性，硬负挖掘提高了训练效率和模型性能。在本文中，我们发现如何选择中度阳性样本也是培养人员重识别网络的一个基本问题。适度的积极因素对培训网络的负面影响至关重要。但是，在这方面几乎没有任何先前的尝试。在我们的方法中，我们提出了适度积极挖掘的新策略。我们对训练的适度积极进行抽样，并避免使用行人数据的极端类内变异的异常值。我们凭经验发现，该策略有效地缓解了过度拟合问题并提高了识别精度（参见第5.4节）。

CNN的分支方案。我们以3“分支”的形式构建CNN，每个分支负责输入图像的固定部分（详见3.3节）。与我们的相比，DML [31]具有类似的架构。然而，DML在分支之间采用了权重共享（即绑定权重），而我们没有。在5.3节中，我们将展示解开的分支，它们从每个部分学习更多特定的特征，能够实现更好的性能。

3.约束深度量学习

目标是从两个行人图像中提取特征，并使用判别度量来计算它们的相似性。为了获得良好的性能，相同标识的图像对应具有较小的距离，而来自不同标识的图像对应具有较大的距离。在这项工作中，我们采用卷积中性网络，该网络已被证明具有从大变异图像中提取有用信息的出色能力[32]。图2是约束深度量学习（CDML）网络的概述。网络可以分为两部分，即图2中从左到右的CNN部分和马哈拉诺比斯度量层。

图二

第一部分从两个具有共享权重的连体CNN的行人图像中提取特征（参见第3.3节）建筑细节）。第二部分是马哈拉诺比斯度量层，旨在最小化类内距离并最大化类间距离。通过将度量学习结合到CNN框架中，可以通过梯度下降法联合训练特征提取部分和度量学习部分，其中可以提高两个任务的可辨性。此外，利用重量约束和采用适度积极的挖掘策略来处理过度拟合的问题。

3.1 马哈拉诺比斯度量层

给定来自两个不相交相机的两组行人图像和，和是由CNN部分提取的相应特征集。将isin;和isin;表示为正对（来自相同的身份），和isin;和作为负对（来自不同的身份）。目标是学习马哈拉诺比斯度量，最小化类内距离，同时最大化类间距离。马哈拉诺比斯距离为

, = , （1）

当 isin;{,}时，M是对称正半定矩阵。在已知特征的传统判别分析问题中，矩阵M可以在某些数据分布假设（例如正态分布）下求解。然而，在深度学习的框架中，在学习CNN之前，特征和是未知的。因此，矩阵 M和CNN很自然的通过反向传播联系起来。

将psi;（·）表示为前端CNN，将和表示为和的对应图像。由于矩阵M是对称且正半定，我们利用其分解M =W。这是因为直接在半正定的约束下学习M是很困难的，而学习W更容易，而总是正半正定。我们计算的距离如下

= (2)

内积可由线性全连接（fc）层实现，其中重量矩阵由定义。fc层的输出由以下公式计算：

y= (3)

其中b是偏倚项。标识函数用作线性fc层的激活函数f（·）。

因此，我们在CNN之后以神经网络形式（图2中的右部分）实现马哈拉诺比度量。首先，将CNN提取的特征向量和（即x1和x2）送入减法单元。然后，利用加权矩阵，通过线性FC层变换差分。对于距离的对称性，我们在整个训练和测试过程中将fc层的偏差项b固定为零。最后，将l2范数计算为输出距离d（，）。当切换减法单元和fc层的位置时，此结构保持等效。训练损失定义为：

L = d-d， (4)

其中，和是对应于和功能的输入图像。在正向传播的每一次中，都计算公式4的第二个术语。然后将这两种方法结合起来，得到训练损失，并计算其增量和反向传播。与文献损失[27]相似，本次培训的目的是尽量减少选址的距离，并最大限度地增加负距离。

3.2 权重约束

如上所述，马哈拉诺比斯度量层旨在学习一个区分性度量矩阵M，用于最小化类内距离和最大化类间距离。与马哈拉诺比距离相比，欧几里得距离具有较少的判别能力，但具有较好的泛化能力，因为欧几里得距离不考虑尺度和跨维度的相关关系[21]。在这里，我们实施了一种训练，使矩阵在对角线处具有较大的值，在其他地方具有较小的项，这样我们就可以在无约束的马哈拉诺比距离和欧几里得距离之间实现平衡。该约束被表述为WWT与单位矩阵之差的弗罗贝尼乌斯范数I,

L = d-d

s.t. le;C, (5)

其中c是常数。我们进一步将约束作为一个正则化项结合到损失函数中:

(6)

其中，lambda;是正则化的相对权重，_l是新的损失函数。为了更新权重矩阵w，梯度w.r.t W是由

(7)

当lambda;较大时，矩阵m接近于单位矩阵。在极端情况下，M等于身份矩阵，并且距离退化到欧几里得距离。在这种情况下，度量的方差较低，但偏差较大，因为它与销售额和维度之间的相关性无关。在另一种情况下，当lambda;太小时，指标很好地确定了培训数据，但会受到过度设定的威胁。因此，在训练中，我们利用权重约束，通过平衡方差和偏差来缓解过度调整。

3.3 CNN与解开的分支机构

在本节的开头，图2粗略地展示了系紧重物的暹罗CNN。由图3所示的细节看，事实上，每一个美国有线电视新闻网都是由3个分支组成的。输入图像最终合成为128times;64 rgb图像。然后，将其分为64times;64个重叠色斑，每个色斑由一个分支充电。每个分支由3个卷积层和2个池层组成。CNN内的分支之间不执行参数共享。然后，通过一个带有relu激活的fc层来结束这3个分支。最后，利用线性激活的另一个FC层计算输出特征向量。这个CNN的复制从其他输入图像中提取特征向量。为了计算的稳定性，这些特征在发送到度量层之前被规范化。所提出的度量层随后被执行以计算成本和梯度。

我们在分支中构建美国有线电视新闻网架构的原因是从各个部分学习规范特征。DML[31]采用了类似的体系结构，但分支之间的权重是相等的。

图三

我们用于特征提取的CNN架构。这3个分支不互相分享重量。顶部：图层类型和输出大小。底部：“f”和“s”分别表示滤波器大小和跨距的卷积参数。

4、适度积极挖掘

有许多因素导致行人数据的大类内变化，如照明、背景、错位、遮挡、人的共存、外观变化等。其中许多因素与行人数据是特定的。图4显示了CUHK03[16]数据集中的一些硬阳性病例。其中一些甚至很难被人类识别。我们认为，使用这些极端积极的对训练网络工作可能会损害实际性能，因为如果网络被迫处理这些积极的硬，它有很大的可能性过度配置。

图四：CUHK03中的一些硬阳性病例贴上标签。

如第3.2节所述，我们提出了重量限制，以缓解过盈问题。然而，要处理对正样本中坏样本的过度拟合，只有规范化度量层权重是不够的。我们需要一个更好的策略来选择正对。因此，我们引入了中正挖掘方法：我们一次在同一主题的范围内选择中正对。例如，假设一个主题有6个图像，其中3个来自相机，3个来自另一个。我们完全可以匹配9对来自这个主题的正对。如果我们使用最容易或最难的九对积极的，培训将非常缓慢，网络将有偏见。因此，我们选择两个极端情况之间的中等正值对。训练标准如下：（8）

其中alpha;和beta;为非负，为满足挖掘标准的选定图像。差异水平随着alpha;和beta;的增加而增加，反之则降低。

5、实验

我们的网络是使用CUDAConvnet [13]框架实现的。我们报告了三个常见的人身识别基准的标准评估，即CUHK03[16]、CUHK01[15]和VIPER[8]。将该方法与各数据集的最新技术进行了比较。在单次设置中报告所有评估。我们从标记和检测版本的CUHK03实验开始。CUHK03是一个大数据集，适合进行深度学习。然后分析了解开分支、适度正采策略和权重约束的影响。最后，我们对小数据集CUHK01和VIPER的方法进行了评估。

资料编号：[4374]

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码