基于孪生网络的目标跟踪算法研究开题报告

2020-02-10 22:42:08

1. 研究目的与意义（文献综述）

1.1 研究目的及意义

目标跟踪是计算机视觉领域的重要研究方向之一，也是该领域的一个研究热点。它的基本问题形式是在一个图像序列或视频流中选择一个感兴趣的区域或物体作为目标，在接下来的连续若干帧中自动找到该目标的位置，得到目标的运动轨迹、具体形态和位置。目标跟踪在军事侦察、精确制导、智能视频监控、人机交互、机器人导航等领域具有广泛的应用，有着重要的实用价值。^[1]在这些不同的应用中，人们往往需要通过对图像序列或视频流中感兴趣的区域或物体进行分析，得到目标的位置、运动轨迹和表观变化，以达到对其进行跟踪、机器人导航避障、进一步进行行为分析和视频高层语意解析等目的。然而，在实际应用中，目标跟踪面临着诸多挑战。比如，对目标先验知识的不足、复杂场景变化、摄像机和目标之间的相对不规则运动等，使得设计能适用于所有场景的目标跟踪算法变得非常困难^[2-3]。

近年来，深度学习技术在目标跟踪领域得到了逐步的应用。面对复杂的跟踪场景，手工设计的浅层特征难以描述目标的变化，通过深层网络提取到的特征具有更加稳定的表征能力。但是目标的运动过程中的外观变化需要不断调整参数，这个在线学习的过程会给算法的时效性带来很大的挑战。通过离线训练一个相似性学习的全卷积孪生网络^[4]，可以避免了在线学习问题，通过比较目标模板与搜索区域的特征相似度，来拟合整个图像的相似图，从而完成模型的学习和跟踪。孪生网络是一类由两个或多个具有相同参数和权重的子网络组成的神经网络架构。孪生网络在涉及个例之间的相似性度量或两个可比较的事物之间的关系的任务中流行。全卷积孪生网络利用alexnet作为孪生网络每支的结构，将目标跟踪作是匹配任务，利用第一帧目标得到的模型去匹配后续帧中的样本，进而得到目标在后续祯中的位置^[5-6]。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

2、研究（设计）的基本内容、目标、拟采用的技术方案及措施

2.1设计的基本内容

本次研究是基于孪生网络的目标跟踪算法研究，具体内容如下：

1）全卷积孪生网络的相似性学习

孪生结构利用相似性学习的方法解决学习跟踪任意物体的问题，提出学习一个函数f（z，x）^[13]，比较模板图像z和同样大小的候选图像x，如果这两个图像是相同物体，返回高分，否则返回低分。引入全卷积网络可以将较大的搜索图像输入网络，代替和模板图像大小相同的候选图像。全卷积孪生网络框架会在所有搜索图像全卷积后的子窗密集网格上做一次评估，计算相似度。为了得到相似度，用卷积内嵌函数ψ，结合卷积后的特征图用互相关层计算f（z，x）：

f（z，x）=ψ（x）*ψ（x） b （式1）

该孪生框架的输出不是一个单个的相似得分值，而是一张得分图，b表示在每个位置上的不同偏置值。

2）孪生网络结构的训损失函数

在带有正、负标签的候选图像上，训练全卷积网络时采用逻辑损失函数^[14]：

l(y,v)=log(1 exp(#8722;yv)) （式2）

其中 v 是一对模板、候选图像的相似得分值，y∈{ 1,#8722;1} 是其候选图像对应的标签值，分别表示正、负样本。我们采用一个样本图像和一个较大的搜索图像来训练我们的全卷积网络。这将会产生一个得分响应，可以有效的产生许多例子。取所有得分值对应损失函数的平均值为每张得分图的损失函数：

当每张得分图的得分元素位置u于得分图中心位置c的k倍欧式距离小于R时，将其定义为负样本，其中k为全卷积网络的总步长：

（式4）

3）孪生网络的训练

本文网络采用ALOV300 数据集（去除与VOT中重复的视频序列）对网络模型进行训练。首先利用ALOV300 数据库中相邻的两帧图像作为训练数据，让网络学习到该情况下目标的外观变化及运动情况。为了增加训练样本，同时对训练序列中的样本采用dataaugmentation的方式进行处理。最后为了验证本文算法的性能，使用VOT2015数据集作为验证数据对本文算法进行测试验证。VOT2015主要采用平均中心位置误差ACE、算法的准确率、召回率和综合评价指标F来衡量跟踪算法的性能。参加VOT2015挑战赛的算法高达60多种，本实验选择了在VOT2015中排名前三的MDNet算法、用于长时间跟踪的TLD算法、基于核相关滤波的高速跟踪算法KCF与本文算法进行了对比。

本文选取的测试视频序列中包含了多种在跟踪过程中会遇到的难度属性。如：光照变化IV（Illuminationvariation）、尺度变化SV（ScaleVariation）、局部遮挡OCC（Occlusion）目标形变DEF（Deformation）、运动模糊MB（Motion Blur）、复杂背景下的视频目标跟踪算法快速运动FM（Fast Motion）、背景干扰BC（BackgroundClutters）、二维旋转IPR（in-Plane Rotation）、三维旋转OPR（Out Plane Rotation）等^[15]。

4）孪生网络的跟踪过程

当完成模型的训练后，每次的跟踪任务都是以训练好的模型参数为起始。输入网络模型后对模型参数进行微调，并得到每个滑窗所对应的特征向量，选择与目标物体真实位置覆盖率最大的滑窗所对应的特征向量作为目标物体的初始特征向量。后续的每一张图像输入网络模型后，也会得到每个滑窗所对应的特征向量和预测位置偏差值，选择与初始特征向量最为相似的特征向量所对应的滑窗作为目标物体在该图像帧中预测的位置。

5）实验结果分析

本文采用平均目标重叠率AOR、平均中心误差ACE、综合评价指标F衡量算法的跟踪精度。采用视频序列的总帧数与跟踪所用时间的比值即算法每秒处理的帧数（fps）来衡量算法的运算速度。

2.2设计的主要目标

本课题利用全卷积孪生网络来对目标物体进行跟踪，主要目的为：

1）了解卷积神经网络、孪生网络的基本原理；

2）了解目标跟踪相关算法；

3）用Matlab或PyTorch等工具实现跟踪算法；

4）对跟踪算法进行评测分析；

2.3拟采用的技术方案及措施

本课题采用的孪生网络的目标跟踪算法总体框架如图1所示：

图1 算法总体框架

图中z代表的是模板图像，算法中使用的是第一帧的groundtruth；x代表的是search region，代表在后面的待跟踪帧中的候选框搜索区域；#981;代表的是一种特征映射操作，将原始图像映射到特定的特征空间，文中采用的是CNN中的卷积层和pooling层；6*6*128代表z经过#981;后得到的特征，是一个128通道6*6大小feature，同理，22*22*128是x经过#981;后的特征；后面的*代表卷积操作，让22*22*128的feature被6*6*128的卷积核卷积，得到一个17*17的score map，代表着search region中各个位置与模板相似度值。从图一我们可以很容易理解算法的框架，算法本身是比较搜索区域与目标模板的相似度，最后得到搜索去区域的score map。其实从原理上来说，这种方法和相关性滤波的方法很相似。其在搜索区域中逐点的目标模板进行匹配，将这种逐点平移匹配计算相似度的方法看成是一种卷积，然后在卷积结果中找到相似度值最大的点，作为新的目标的中心。

上图1所画的#981;其实是CNN中的一部分，并且两个#981;的网络结构是一样的，这是一种典型的孪生神经网络，并且在整个模型中只有conv层和pooling层，因此这也是一种典型的全卷积神经网络。

具体实现如图2所示，整个网络结构类似与AlexNet，但是没有最后的全连接层，只有前面的卷积层和pooling层。

图2 实现具体结构

整个网络结构入上表，其中pooling层采用的是max-pooling，每个卷积层后面都有一个ReLU非线性激活层，但是第五层没有。另外，在训练的时候，每个ReLU层前都使用了batch normalization，用于降低过拟合的风险。

3. 研究计划与安排

3、进度安排

第1—2周：查阅相关的文献资料，对研究内容进行整体了解；

第3—4周：了解整体实现方案，完成开题报告；

第5—12周：根据方案进行设计和实现；

第13—14周：撰写毕业论文，完成相关外文参考文献的翻译；

第15周：论文修改、定稿、申请毕业论文答辩、准备答辩相关资料；

第16周：答辩；

4. 参考文献（12篇以上）

4、参考文献

[1]罗海波，许凌云，惠斌，常铮. 基于深度学习的目标跟踪方法研究现状与展望[J]. 计算机系统应用，2017,46(5).

[2]孟琭，杨旭.目标跟踪算法综述[J].自动化学报，2019

[3] 陈旭，孟朝晖.基于深度学习的目标视频跟踪算法综述[J].计算机系统应用，2019，28（1）：1-9.

[4]Bertinetto L , Valmadre J, Henriques, Jo#227;o F, et al. Fully-ConvolutionalSiamese Networks for Object Tracking[J]. 2016.

[5]Guo Q , Feng W , Zhou C , et al. Learning Dynamic Siamese Network for VisualObject Tracking[C]// International Conference on Computer Vision (ICCV 2017).IEEE Computer Society, 2017.

[6]Wu Y , Lim J , Yang M H. Online Object Tracking: A Benchmark[C]// 2013 IEEEConference on Computer Vision and Pattern Recognition. IEEE Computer Society,2013.

[7]Valmadre J , Bertinetto L , Henriques, Jo#227;o F, et al. End-to-endrepresentation learning for Correlation Filter based tracking[J]. 2017.

[8]李蓝星.基于深度学习的目标跟踪算法研究[D].哈尔滨工业大学,2018.

[9]姚英杰.基于单次深度学习的目标跟踪方法研究[D].哈尔滨工业大学,2018.

[10]欧阳谷.基于递归和孪生神经网络调制的目标跟踪算法研究[D].华侨大学，2018

[11] He A , Luo C , Tian X , et al. A Twofold Siamese Network forReal-Time Object Tracking[J]. 2018.

[12]郑晓萌.复杂背景下的视频运动目标跟踪算法[D].中国科学院大学(中国科学院国家空间科学中心),2018.

[13]史璐璐,张索非,吴晓富.基于TinyDarknet全卷积孪生网络的目标跟踪[J].南京邮电大学学报(自然科学版),2018,38(04):89-95.

[14]吴汉钊.基于孪生卷积神经网络的人脸追踪[J].计算机工程与应用，2018,54(14):175-179.

[15]张鹏.基于深度检测框架的视觉跟踪[D].中国科学技术大学,2018.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码