面向视频动作分类的目标关系网络研究文献综述

2020-04-14 19:58:37

1．目的及意义

1、目的及意义

1.1 研究目的及意义

近年来，对日常生活和工作中动作和行为的理解正成为热点。这是所谓的“日常活动”(ADL)的分析和理解。自然连续动作和行为的分割及多层次模型。人类的日常活动和行为是人体自然和连续的动作，其中包含了多种类型的运动和动作:无意识的人体移动，为了操作物体的动作，以及人与人进行相互交流。此外复杂的人类活动和行为是由一系列动作或操作组成的，并且其中重要的就是人-物交互，考虑一个简单的操作- “打开一本书”。当我们人类看到包含打开书这个动作的视频时，我们可以很容易地识别出动作类别；然而，我们目前的视觉系统（有数百层的三维卷积）在这个简单的任务上就比较困难。以此为例，仔细分析打开书本的顺序。人类如何识别视频中的动作与“开书”相对应？人解决这个问题有两个关键要素：第一，书的形状以及它如何随时间变化（即，对象状态从关闭变为打开）是一个关键信息。利用这一线索需要临时联想到不同时间的图书区域，并将动作建模为转换。但是仅仅对物体的时间动态进行建模是不够的。物体的状态在与人或其他物体相互作用后发生变化。因此，我们还需要为人和物体之间的交互建模，以及为动作识别建模。1.2 国内外研究现状

查阅国内外研究资料，我们从三个方面来了解这一任务目前的研究现状。

视频理解模型。时空推理是视频理解和动作识别领域的核心研究领域之一。然而，大多数早期工作都集中在使用时空外观特征。例如，在手动设计视频功能方面花费了大量资金。一些手工设计的功能，如改进的密集轨迹（IDT）仍然被广泛应用，并在不同的视频相关任务中显示非常有竞争力的结果。然而，最近的研究不是设计手工制作的特征，而是专注于从视频数据中学习深度表征。最流行的模型之一是双流ConvNets，其中时间信息是由具有10个光流帧作为输入（lt;1秒）的网络建模的。为了更好地模拟长期信息，许多工作都集中在使用递归神经网络（RNN）和3D ConvNets。然而，这些框架专注于从整个场景中提取特征，并且很难在空间和时间上模拟不同对象实例之间的关系。

视觉关系。关于成对关系的推理已被证明在各种计算机视觉任务中非常有用。例如，通过对人-物体交互关系进行建模，可以显着改善杂乱场景中的物体检测。最近，视觉关系已被广泛应用于视觉，物体识别和直观物理领域的深层网络。在动作识别的情况下，已经对成对的人-对象和对象-对象关系进行了大量的设计。然而，这些工作中的交互推理框架关注于静态图像，并且时间信息通常由RNN在图像级特征上建模。因此，这些方法仍然无法捕捉某个对象状态如何随时间变化或变化。

图模型。图像和视频中的长距离关系通常由图形模型捕获。一个流行的方向是使用条件随机场（CRF）。在深度学习的背景下，特别是对于语义分割，CRF模型通常通过执行平均场推断来应用于ConvNets的输出。最近提出了变量更简单的基于前馈图的神经网络，而不是使用平均场推断。我们同时关注到了图形卷积网络（GCN），它最初被提出用于自然语言处理。 GCN是通过堆叠具有相似性关系和时空关系的多层图形卷积而构建的。 GCN的输出是每个对象节点的更新功能，可用于执行分类。

综上所述，本文想利用图卷积网络（GCN）来捕捉这些相互作用的时序动态变化以及自身间的相互关系，并将其用于视频分类来进行一些研究。

{title}

2. 研究的基本内容与方案

{title}

2、研究（设计）的基本内容、目标、拟采用的技术方案及措施

本设计的基本内容，了解与学习视频事件识别分类的基本原理和方法，设计应用程序的功能和框架，实现简单的人物交互的动作识别。动作识别的主要目标是判断一段视频中人的行为的类别，人与物体之间的交互动作则是更复杂具体的动作类别。在本课题中，核心思想是人或物体实例的外观包含指示线索，利用这些信息可以注意到图像中可以促进交互预测的部分。我们是对人物交互的场景中的交互对象进行建模，捕捉其交互关系，以达到提高动作识别准确率的最终目标。

拟采取的技术方案。我们的模型将长剪辑（超过5秒）的视频帧作为输入并将它们传递到卷积神经网络。该ConvNet的输出是尺寸为T×H×W×d的特征图，其中T表示时间维度，H×W表示空间维度，d表示通道编号。除了提取视频特征外，还用到了目标检测的技术，我们应用区域提议网络（RPN）来提取对象边界框。给定每个T特征帧的边界框，我们利用RPN提取出的各个object边界框和卷积神经网络输出的视频特征将视频特征细化到目标对象上，对所提取的obejct对象们构建一个或多个用来描述时域或空间关系的图网络，并利用GCN来对每个对象节点的特征进行更新，最后与之前的卷积网络所提取出的全局特征相连接，向后输出到softmax层进行动作分类。整体结构如图1所示。

具体措施：

1、学习Pytorch例程和参考手册来了解该深度学习平台，和掌握该平台的使用方法。

2、温习并巩固Python语言的编程知识，以达到编程实现整体的设计的能力，同时避免在完成代码过程中出错以拖慢毕业设计的进度。

3、认真理解相关的参考文献，确保实现设计之前对整个框架结构有完全的掌握和理论知识的支持。

4、设计过程中遇到理论或者实现部分的问题时，积极主动的向指导老师、学长学姐请教并交流，同时充分利用网络资源，借鉴或查阅相关解决方案。

具体措施：

1、学习Pytorch例程和参考手册来了解该深度学习平台，和掌握该平台的使用方法。

2、温习并巩固Python语言的编程知识，以达到编程实现整体的设计的能力，同时避免在完成代码过程中出错以拖慢毕业设计的进度。

3、认真理解相关的参考文献，确保实现设计之前对整个框架结构有完全的掌握和理论知识的支持。

4、设计过程中遇到理论或者实现部分的问题时，积极主动的向指导老师、学长学姐请教并交流，同时充分利用网络资源，借鉴或查阅相关解决方案。

图1 技术方案整体结构框图

3. 参考文献

4、参考文献

[1] Hu H , Gu J , ZhangZ , et al. Relation Networks for Object Detection[J]. 2017.

[2] Ma C Y , Kadav A ,Melvin I , et al. Attend and Interact: Higher-Order Object Interactions forVideo Understanding[J]. 2017.

[3] Wang X , Gupta A .Videos as Space-Time Region Graphs[J]. 2018.

[4] Ren S , He K ,Girshick R , et al. Faster R-CNN: Towards Real-Time Object Detection withRegion Proposal Networks[J]. 2017.

[5] Simonyan K ,Zisserman A . Two-Stream Convolutional Networks for Action Recognition inVideos[J]. 2014.

[6] Wang L , Xiong Y ,Wang Z , et al. Temporal Segment Networks: Towards Good Practices for DeepAction Recognition[J]. 2016.

[7] Ng Y H , HausknechtM , Vijayanarasimhan S , et al. Beyond Short Snippets: Deep Networks forVideo Classification[J]. 2015.

[8] Donahue J ,Hendricks L A , Guadarrama S , et al. Long-term Recurrent ConvolutionalNetworks for Visual Recognition and Description[M]// AB initto calculation ofthe structures and properties of molecules /. Elsevier, 2015.

[9] Miech A , Laptev I, Sivic J . Learnable pooling with Context Gating for videoclassification[J]. 2017.

[10] Tran D , Bourdev L, Fergus R , et al. Learning Spatiotemporal Features with 3D ConvolutionalNetworks[C]// 2015 IEEE International Conference on Computer Vision (ICCV).IEEE Computer Society, 2015.

[11] Carreira J ,Zisserman A . Quo Vadis, Action Recognition? A New Model and the KineticsDataset[J]. 2017.

[12] Tran D , Wang H ,Torresani L , et al. A Closer Look at Spatiotemporal Convolutions for ActionRecognition[J]. 2017.

[13] Xie S , Sun C ,Huang J , et al. Rethinking Spatiotemporal Feature Learning For VideoUnderstanding[J]. 2017.

[14] Sigurdsson G A ,Russakovsky O , Gupta A . What Actions are Needed for Understanding HumanActions in Videos?[J]. 2017.

[15] Gupta A , KembhaviA , Davis L S . Observing Human-Object Interactions: Using Spatial andFunctional Compatibility for Recognition[J]. IEEE Transactions on PatternAnalysis amp; Machine Intelligence, 2009, 31(10):1775.

[16] Yao B , Li F F .Modeling Mutual Context of Object and Human Pose in Human-Object InteractionActivities[C]// The Twenty-Third IEEE Conference on Computer Vision andPattern Recognition, CVPR 2010, San Francisco, CA, USA, 13-18 June 2010.IEEE, 2010.

[17] Yatskar M ,Zettlemoyer L , Farhadi A . Situation recognition: Visual semantic rolelabeling for image understanding [J]. 2016:5534-5542.

[18] Gkioxari G ,Girshick R , Dollár, Piotr, et al. Detecting and Recognizing Human-ObjectInteractions[J]. 2017.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码