对冲深度跟踪外文翻译资料

2022-07-26 20:46:00

英语原文共 9 页，剩余内容已隐藏，支付完成后下载完整资料

对冲深度跟踪

1 引言

由于其在众多应用中的重要性，在过去几十年视觉跟踪已经成为越来越受关注的话题，如智能视频监控，车辆导航和人机交互。尽管对于视觉跟踪在开发算法方面做了大量的努力和基准评价，由于复杂的干扰因素，仅举几个例子，如重照明变化，形变，部分和全部遮挡，大规模变化，面内和面外旋转和快速运动，它仍然是一个具有挑战性任务。

大多数现有的跟踪方法专注于设计有效决策模型或提取鲁棒特征。最近，来自深度卷积神经网络（CNN）的成功的灵感，在物体识别和检测，几个已经开发了基于CNN的跟踪器。使用大对象跟踪基准的实证研究表明基于CNN的跟踪器的性能超过手工制作的功能，如HOG，SIFT 和颜色直方图。

标定好的真实数据（b）VGG 10层（c）VGG 12层（b）VGG 16层

图1.使用来自不同CNN层的特征表示的跟踪结果，其中在四个序列的代表帧上的卷积层面临的各种挑战。获得最佳的跟踪结果分别在四个层12,16,10和10层上的四个序列。

尽管实现了最先进的性能，现有的基于CNN的跟踪器仍然有一些限制。大多数这些方法代表仅使用从CNN的最后层（例如，完全连接的层）其捕获丰富的类别级语义信息的特征的目标对象，因此对于对象分类是有用的。然而，最后层的特征对于视觉不是最佳的跟踪，因为他们不捕获被跟踪的空间细节目标。对于目标跟踪来说，这些细节，由第一层捕获是至关重要的，因为它们允许精确定位目标，如图1的最后两行所示。另一方面，由于来自第一层的特征更通用比最后层的判断力更强，来自第一层的特征方法可能不具有挑战性场景，如图1的前两行所示。为了实现更好的跟踪性能，组合来自不同层的特征以最佳地表示和从背景杂波分离前景对象是必要的。

在本文中，我们提出一种新的基于CNN的跟踪算法，这种方法首先构建从卷积层在层的输出应用相关滤波器的弱跟踪器，然后将所有弱跟踪器对冲到一个单一的更强的一个使用在线决策理论Hedge算法。具体来说，我们将每个弱跟踪器视为专家并计算所有专家的权重作为他们的决定的信心。结合了所有被考虑的CNN层，当前帧中的跟踪结果为所有专家的加权决定。因为跟踪目标在连续帧之间移动一个小偏移并逐渐出现外观差异，专家认为在先前帧中表现良好具有较高的概率在当前帧中表现也良好。专家通过将历史性能考虑进来来做出决定，我们提出一个改进Hedge算法来更新所有专家的权重，这更适合于真实世界的跟踪任务。

本文的贡献总结如下：

bull;我们提出一种新的跟踪算法，将从各种卷积层的弱CNN基础跟踪器联合成一个更强的跟踪。

bull;通过考虑弱跟踪器的历史性能，我们开发了一种改进的视觉Hedge算法。

bull;我们通过基准数据集与100挑战序列进行大规模的广泛实验，从而证明与现有技术的比较跟踪器相比，我们所提出的算法是有效的。

2 相关工作

我们简要回顾对这项工作密切相关的跟踪算法。对视觉跟踪的全面审查方法可以在中找到。

基础的相关滤波器，因为其计算效率，相关滤波器被引入视觉跟踪。这些方法通过生成循环矩阵生成近似密集采样方案，其中每行表示矢量化样本。因此，它的回归模型可以在傅里叶域中计算，这样在培训和测试阶段会带来了很大的速度提高。 Bolme et al 制定最小输出平方误差总和（MOSSE）方法来学习过滤器，并使用强度特征对象表示。在中，Henriques et al通过引入内核方法和应用脊回归提出一种基于相关性的跟踪方法过滤器。随后一个扩展的输入特性从单通道到多通道（例如，HOG）的方法被提出。Danelljan et al 提出了一个搜索尺度空间进行相关的算法过滤器来处理对象大小的较大变化的算法。然而，所有上述工作仅使用一个相关滤波器，这限制了基于相关滤波器的跟踪器的力量。在这项工作中，我利用计算效率的相关滤波器来构造一个整体跟踪器，其中每个组件跟踪器们基于从中提取的特征CNN的一个卷积层。

CNN的基础滤波器。从中学习的分层特征CNN已经被证明对许多视觉任务有效，例如在最近几年的分类和识别。因此已经提出了许多利用CNN特征进行视觉跟踪的方法。Fan et al利用预训练的深层网络为人类跟踪。Wang 和yeung设计一个自动编码器网络来学习通用对象的代表性特征。Hong et al 利用从R-CNN的第一个完全连接层得到的特征构造一个判别模型和用于视觉跟踪的显著图的生成模型。虽然这种方法对视觉跟踪有效，但它计算复杂度高。我们注意到上述方法不利用来自不同层的特征。如图1所示，来自不同层的功能在不同的场景中有效。基于这些观察，我们同时使用多个CNN的基础跟踪器，每个基础跟踪器都是利用从一个卷积层提取的特征来训练的。我们认为每个人都是一个弱的专家并适应性地对其进行视觉跟踪。

整体的跟踪器。整体的方法是组合多个组件跟踪器进行可视化跟踪。几种集合跟踪方法已经提出使用手工制作的功能。例如，在局部框架下逐步训练每个组件弱跟踪器以对先前跟踪器错误分类的训练样本进行分类的整体的方法。在，wang和yeung使用有条件的粒子过滤器推断目标位置和每个组件跟踪器的可靠性。与这些工作不同，我们将视觉跟踪视为决策理论在线学习任务，使用决策推断被跟踪的目标从多个专家跟踪器。也就是说，在每一轮专家做出决定并且确定最终决定都是通过所有专家的加权决定。

3 算法综述

如图2所示，提出的方法包括的三个步骤：提取CNN特征，构建弱跟踪器，和对冲弱跟踪器。预训练的VGGNet用于提取来自图像区域层的卷积特征映射，其代表所跟踪的目标在不同的分辨率和语义层面。每个特征图通过相关滤波器进行卷积以生成响应图，从中构建弱性能跟踪器。所有弱跟踪器最终被对冲转换成更强的跟踪器，这是一个使用提出的自适应Hedge算法用于视觉跟踪，它是利用其强度所有CNN层。

图2.提出的算法的主要步骤。提出的算法由三个组成部分组成：1）使用预训练的VGG-Net提取不同卷积层的CNN特征（第4.1节）; 2）使用相关滤波器构建弱跟踪器，相关滤波器是用从一层提取的CNN特征来训练的（4.2节）; 3）使用改进的对冲算法将弱跟踪器变成强的跟踪器（第4.3节）。

4 所提出的算法

在本节中，我们首先介绍所提出的算法的技术细节，然后描述在线更新方案。

4.1深层CNN特征

CNN模型，如AlexNet ，R-CNN ，CaffeNet 和VGG-Net 用于大规模图像分类和对象识别任务。所提出的方法是基于VGG-Net，因为它有一个更深的架构（高达19权重层），因此它比大多数具有5或7层的CNN可以提供更丰富的特征。VGG网络根据130万ImageNet数据集的图像来训练的。实现了关于分类挑战的最先进的结果。

不同于只需要提取特征就可以捕获更多的类别级语义信息的分类任务，视觉跟踪也需要提取的特征来获得精确的定位能力，这是由于从被跟踪的目标到其周围的背景的小的漂移会逐渐降低跟踪性能以导致最终失败。深层的VGG-Net促进从不同层提取的特征以更大的描述目标对象细节。然而，使用CNN特征的跟踪方法单独的任何层都不太有效（例如参见图1的跟踪失败）。

4.2弱的CNN基础跟踪器

在这项工作中，使用相关滤波器的模块对从一层提取的CNN特征使用构建弱跟踪器。基于相关滤波器的跟踪器利用训练的循环结构并测试样品大大加速了培训和具有可忽略的精度损失的测试过程。让表示从中提取的特征图第k卷积层和是高斯函数形状标记矩阵，其经受2D高斯分布平均值和标准差成正比到目标大小。令，，其中表示离散傅立叶变换（DFT）。第k个滤波器可以在傅里叶域中通过

（1）

其中

（2）

符号表示对应元素之间的相乘。

中的优化问题具有简单的闭合形式的解决方案，其可以在傅里叶域中有效地计算

（3）

给定第k层输出的测试数据，我们首先将其转换为傅立叶域，然后可以通过计算响应

（4）

这里，表示的是DFT的逆变换。

第k个弱跟踪器输出最大响应的目标位置是

（5）

4.3对冲的CNN基础跟踪器

在多专家多轮设置中，提出了标准的无参数Hedge算法[5]以解决决策理论在线学习问题。所有专家都给定初始信心权重，在本轮，最后根据所有专家的加权决定做出决定。所有专家的权重随后更新为反映每个专家的决策损失。在视觉跟踪场景中，将每个基于CNN的跟踪器看作是一个专家，然后预测第t帧中的目标位置通过

（6）

其中是专家k的权重，并且 = 1。一旦预测到最终目标的位置，每个专家将遭受损失。

在帧t处的专家k的损失被计算为

（7）

其中对矩阵进行操作并返回最大值元素，S（x，y）表示元素在位置（x，y）的矩阵S。对所有专家来说，标准无参数Hedge算法生成一个新的权重分布，通过引入一个遗憾措施定义

（8）

其中计算所有专家中的加权平均损失为

通过最小化累积遗憾

（9）

对任何专家k，对于任何一轮t，生成新的权重，...，

虽然标准的无参数Hedge算法在模拟一维跟踪实验中表现良好，其中目标保持静止或以恒定速度移动，对于真实世界跟踪任务来说效率较低，因为它不考虑两个关键因素：（i）目标外观通常以不规则的速度变化（有时缓慢，有时快速）。这也意味着历史遗憾Rk的比例t.1应随着时间t而变化，目的是为了更好地反映当前状态的视觉跟踪。（ii）由于每个专家都捕获来自不同层的目标，则不能有效地确定所有的专家累积遗憾的比率。为了解决这些问题，我们提出了一种自适应Hedge算法，其中考虑了历史遗憾与时间t和专家k同时的差异。

由于物体外观通常至少在短时间内不会显着变化，在时间周期Delta;t期间通过高斯分布分布与平均mu;kt和标准方差sigma;k我们模拟每一个专家的损失

（10）

（11）

然后我们测量在时间t使用的专家k的稳定性

（12）

一个更小的skt标志着这个专家与具有较大的专家往往更加趋于稳定。因此，对其目前的遗憾我们更喜欢较大比例。相比之下，一个更大意味着这个专家变化很大，因此我们计算其累积遗憾主要取决于其历史信息。基于这个原理，我们得到以下自适应累积遗憾

（13）

（14）

其中gamma;是比例因子，g是对对目前的遗憾限定的最大比率，避免没有考虑历史信息。相比原来的在5.4节提到的算法，我们验证了所提出的自适应Hedge算法的有效性。

由于我们的自适应Hedge算法坚持框架的标准，解决方案最小化与累积遗憾（13）具有相同的形式，

（15）

其中表示和服务器作为标度参数如[5]，这是由求解决定的。

算法1.对冲深度跟踪

1 输入：初始化权重，...，；在第一帧中目标位置；

VGG-Net 19；，；

2 裁剪感兴趣的图像区域;

3 使用公式（3）初始化K个弱的专家;

4 for t=2,3,...do;

5 利用VGG-Net 19来获得K个模型;

6 使用公式（4）计算相关滤波器的响应;

7 使用公式（5），通过每个专家来预测目标的位置;

8 如果 tne;2 然后

9 使用公式（6）计算最终的目标的位置;

10 否则

11 使用标记好的样本数据来设置最终的目标的位置;

12 结束

13使用公式（7）计算专家的损失;

14 使用公式（10）和（11）更新稳定的模型;

15 使用公式（12）计算每个专家的稳定性;

16 使用公式（14）计算每个专家的历史遗憾的自适应比例;

17 使用公式（13）更新每个专业积累的遗憾;

15 使用公式（15）跟新每个专家的权重，并且归一化使他们的和为1；

4.4 模型更新

由于VGG-Net的功能图具有512个通道，用新的收集到的再重新培训脊回归模型是不切实际的，特别是当训练数据的数量变得非常大时。在实践中，就类似于在中我们采用的增量更新方式，在当前帧中仅使用新的样本部分更新以前的模型

全文共7707字，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[144531]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码