基于深度学习的人类行为识别:一项调查外文翻译资料
2021-12-19 22:05:03
Deep Learning Based Human Action Recognition:A Survey
Zhimeng Zhang, Xin Ma*, Rui Song, Xuewen Rong, Xincheng Tian, Guohui Tian, Yibin Li
School of Control Science and Engineering, Shandong University Jinan, China
*e-mail: maxin@sdu.edu.cn
Abstract—Human action recognition has attracted much at- tentions because of its great potential applications. With the rapid development of computer performance and Internet, the methods of human action recognition based on deep learning become mainstream and develop at a breathless pace. This pa- per will give a novel reasonable taxonomy and a review of deep learning human action recognition methods based on color vid- eos, skeleton sequences and depth maps. In addition, some da- tasets and effective tricks in action recognition deep learning methods will be introduced, and also the development trend is discussed.
Keywords—human action recognition;deep learning;color videos;skeleton sequences;depth maps
- INTRODUCTION
Human action recognition has been an active research field in computer vision, which has great application prospects in intelligent video surveillance, human-computer interaction and so on. In recent years, data-driven deep learning has ben- efited from the upgrading of computer performance and ex- plosion of video data on the internet, as a result, deep learning human action recognition methods have outperformed tradi- tional hand-crafted features baseline and have become the mainstream research direction. Some literatures [1][2][3][4] also survey the human action recognition research with deep learning, but all of them donrsquo;t refer to the detail approaches on skeleton sequences and depth maps. In fact, capturing hu- man actions in the full 3D space can provide more compre- hensive information and the research of action recognition based on RGB-D data has attracted the interest of many schol- ars.
Figure 1: taxonomy of action recognition deep learning methods
- BASED ON SKELETON SEQUENCES AND DEPTH MAPS
Human bodies can be thought as an articulated system with four limbs and a trunk which are composed of bones and joints [5], furthermore, the combined motion of five parts can represent human actions. Compared with traditional color im- ages, depth maps have many advantages in action recognition such as insensitivity of illumination change and so on [6]. Hu- man skeleton and depth map samples are depicted in Fig. 2. From the spatial-temporal viewpoint we can conclude two cat- egories of methods applied on action recognition, namely,
- Encoded spatial-temporal images.
- Capture temporal evolution with RNN.
The fundament of human action recognition is capturing the spatial body features and its temporal evolution of a video. Fig. 1 give a taxonomy from spatial-temporal viewpoint on color videos, skeletal sequences and depth maps respectively. Considering that spatial information is same relatively simple in skeleton sequences and depth maps and the methods on them are similarly, so we introduce them together. The rest of the survey is organized as follows. Section II introduces the methods on skeleton sequences and depth maps. Section III reviews the methods on color videos. Section IV will present some tricks of action recognition deep learning methods. In section V we discuss some questions and development trends.
Figure 2: Human skeleton sample and depth map sample
This work is supported by the National High-tech Research and Devel- opment Program 863, CHINA (2015AA042307), Shandong Provincial Sci- entific and Technological Development Foundation, CHINA (2014GGX10 3038), Shandong Provincial Independent Innovation amp; Achievement Trans- formation Special Foundation, CHINA (2015ZDXX0101E01), the Funda- mental Research Funds of Shandong University, CHINA (2015JC027), and Mount Tai Scholarship of Shandong Province.
- Encoded spatial-temporal images
To capture the spatial-temporal information from skeleton sequences, it is reasonable to transform the temporal infor- mation of sequences into the spatial structure information in images which named spatial-temporal images. The main idea of this method is extracting spatial-temporal features from constructed spatial-temporal images with Convolutional Neu- ral Network(CNN) [7][8].
One kind of spatial-temporal images is called chronologi- cal spatial-temporal image which can be constructed as fol- lows: We obtain joints vector or calculated skeleton spatial feature vector in a frame, then arrange all the frame-level vec- tors in chronological order as a chronological spatial-temporal image (see Fig. 3) that the columns represent spatial infor- mation and the rows represent temporal order. Du Y et al. [9] concatenate joints in four limbs and one trunk as part-vectors and then five part-vectors are concatenated as a frame-vector
of each frame. They treat three coordinates (x, y, z) of each joint as three channel (R, G, B) in spatial-temporal images. On
this basis, [10] further propose a transformed method to over-
come the drawbacks of translation and scale variant. Consid- ering that breaking the pixel position of an image may cause the bad recognition result, [11] design a module which can learn the best joints ordering automatically from raw spatial- temporal image. Instead of joints based vectors, [12] calculate geometric vectors from selected pairs of joints in five body parts and further calculate angle and normalized feature vec- tors as frame-level vectors. To overcome the drawback of view dependent, Li C et al. [13] calculate distances between
pair-wise joints in three orthogonal planes (xy, yz, xz) and 3D
space as frame-level vectors. [14] first select four key joints,
then, the relat
基于深度学习的人类行为识别:一项调查
张志孟,马新*,宋睿,薛学文,田新成,田国辉,李益斌山东大学控制科学与工程学院
济南,中国*
电子邮件:maxin@sdu.edu.cn
摘要
由于其巨大的潜在应用,人类行为识别已经吸引了很多人的注意。 随着计算机性能和互联网的快速发展,基于深度学习的人类行为识别方法成为主流并以惊人的速度发展。本文将给出一种新颖的合理分类法和基于颜色视觉效果,骨架序列和深度图的深度学习人类动作识别方法的回顾。 此外,一些数据集和行为识别的深度学习方法中的一些技巧将会被介绍,这些也是之后讨论的发展趋势。
关键词 人体动作识别;深度学习;色彩视频;骨架序列;深度图
目录
1、引言 1
2、基于骨架序列和深度图 2
2.1 编码的时空图像 2
2.2 用RNN捕获时间卷积 4
3、基于彩色视频 6
3.1 3DCNN网络 7
3.2 双流网络 7
3.3 具有时间汇集的时间动态建模 8
3.4 使用RNN捕获时间进化 8
4、基于数据集和技巧的深度学习 8
5、讨论与结论 10
参考文献 10
1、引言
人体动作识别一直是计算机视觉领域的一个活跃的研究领域,在智能视频监控,人机交互等方面具有很大的应用前景。近年来,数据驱动的深度学习受益于计算机性能的提升和互联网上视频数据的爆发,因此,深度学习人类行为识别方法的表现优于传统的手工制作功能基线并已成为主流研究方向。一些文献[1] [2] [3] [4]也用深度学习来研究人类行为识别研究,但他们都没有参考骨架序列和深度图的详细方法。实际上,在完整的3D空间中捕获人类行为可以提供更全面的信息,基于RGB-D数据的动作识别研究引起了许多学者的兴趣。
人类行为识别的基础是捕捉视频的空间身体特征及其时间演变。 图1分别从彩色视频,骨架序列和深度图的时空观点给出了分类。 考虑到骨架序列和深度图中的空间信息相同简单,并且它们的方法类似,因此我们将它们一起引入。 调查的其余部分安排如下。 第二节介绍了骨架序列和深度图的方法。 第三节回顾了彩色视频的方法。 第四节将介绍一些行动识别深度学习方法的技巧。 在第五节中,我们将讨论一些问题和发展趋势。
图1:行动识别分类学深度学习方法
2、基于骨架序列和深度图
人体可以被认为是具有四肢和躯干的关节系统,由骨骼和关节组成[5],此外,五个部分的组合运动可以代表人类的行为。与传统的彩色图像相比,深度图在动作识别中具有许多优点,如光照变化不敏感等[6]。人体骨架和深度图样本如图2所示。从时空的角度来看,我们可以得出两个应用于动作识别的方法,即:
● 编码的时空图像。
● 使用RNN捕获时间演变。
(国家高技术研究发展计划863,中国(2015AA042307),山东省科学技术发展基金会,中国(2014GGX10 3038),山东省自主创新成果转化专项基金资助项目 ,中国(2015ZDXX0101E01),山东大学基础研究基金(2015JC027),山东泰山奖学金。)
图2:人体骨骼样本和深度图样本
2.1 编码的时空图像
为了从骨架序列中捕获空间 - 时间信息,将序列的时间信息转换为称为时空图像的图像中的空间结构信息是合理的。该方法的主要思想是利用卷积神经网络(CNN)从构造的时空图像中提取时空特征[7] [8]。
一种时空图像称为时间空间 - 时间图像,可以构造如下:我们在一个帧中获得关节矢量或计算骨架空间特征向量,然后排列所有帧级矢量图。时间顺序作为按时间顺序排列的时空图像(见图3),列表示空间信息,行表示时间顺序。杜伊等人[9]将四肢和一个躯干中的关节连接成部分向量,然后将五个部分向量连接成每个帧的帧向量。它们将每个关节的三个坐标(x,y,z)视为空间 - 时间图像中的三个通道(R,G,B)。在此基础上,[10]进一步提出了一种改进的方法来克服翻译和规模变体的缺点。考虑到破坏图像的像素位置可能会导致错误的识别结果,[11]设计一个模块,可以从原始的时空图像中自动学习最佳关节排序。而不是基于关节的矢量,[12]计算五个身体部位中选定的关节对的几何矢量,并进一步计算角度和标准化特征矢量作为帧级矢量。为了克服视图依赖的缺点,Li C等人[13]计算三个正交平面(xy,yz,xz)和3D中成对关节之间的距离空间作为帧级向量。 [14]首先选择四个关键关节,然后,将圆柱坐标上的关节和关键关节之间的相对位置计算为帧级向量。丁Z等人[15]不仅计算关节和关节之间的几何矢量,而且还将关节和关节线之间的更丰富的距离和定向特征作为帧级矢量。
图3:按时间顺序排列的时空图像
蓝色表示基于关节的时空图像,红色表示基于空间 - 时间图像的几何特征
另一种称为正交时空图像的时空图像(见图4)可以构造如下:在三维空间中累积帧,将时间或时空信息编码为颜色然后将其投影到三个正交平面可以得到三个时空图像,并且三个时空图像彼此互补。 [16]直接在3D空间中累积原始骨架关节,并根据时间信息对颜色进行编码。 [17]累积三维空间中的关节轨迹,可以捕获更多的骨架时间运动信息。考虑到深度图难以在3D空间中累积,[18]直接在三个正交平面上计算深度运动图(DMM)[19]。在此基础上,[20]从RGB视频计算运动历史图像(MHI)[21]作为可以补充时间信息的额外输入通道。将三维空间中累积的骨架序列投影到三个正交平面可能会丢失一些有用的信息,Liu H等[22]使用3DCNN在3D空间中同时提取空间和时间特征。
图4:正交时空图像
2.2 用RNN捕获时间卷积
递归神经网络(RNN)[23]可以存储先前的输入和状态,这些输入和状态将应用于当前输出的计算,因此它在捕获时间动态方面具有很大的优势。 RNN的开发网络称为长短期记忆(LSTM)网络[24],可以解决梯度消失和爆炸问题[25]的缺点,这些方法比RNN更加常用。考虑到骨架序列中的关节相对简单,一种方法是将不同的身体部位或关节运动信息与设计的LSTM相结合。组合身体部位或关节方法的比较如图5所示.Du Y et等人[26]首先将两个臂,两个腿和一个躯干视为五个身体部位,然后他们提出一个特定的LSTN框架,它可以将具有五个设计子网的相邻身体部分分层融合。为了将所有五个身体部位之间的时间动态结合起来,[27]设计了一种具有部分感知LSTM记忆单元的P-LSTM网络,它可以组合比[26]更丰富的运动信息。 [28]提出了一种双流RNN,它将时间流中的身体部分组合在一起,并在空间流中输入穿越骨架序列。刘杰等人[29]提出了一个时空LSTM网络,它可以捕获相邻关节的时空信息,并将关节转换为树状结构作为框架的输入。朱伟等人[30]应用完全连接的层作为前馈融合层,它可以自动组合所有关节之间的运动信息。
而不是设计上述复杂的网络,张S等人[31]首先计算八个几何特征,例如骨架体中的关节,线和平面之间的距离,方向和角度:然后,将各种特征输入到传统的多层LSTM网络中,实验结果表明,选择的联合线距离是最佳的几何特征。
图5:比较身体部位或关节
( 邻近的身体部位(红色)[26] 和 关节(绿色)[29] 全身部位(橙色)[27] [28]和关节(蓝色)[30])
3、基于彩色视频
随着互联网的发展,可以方便地从在线视频网站下载彩色视频。因此,彩色人体动作数据集变得越来越大并且适合于数据驱动的深度学习方法。此外,彩色视频比骨架序列和深度图具有更复杂的信息,因此基于深度学习的彩色视频动作识别方法更加复杂和具有挑战性。
从时空角度来看,CNN广泛应用于彩色视频中,以捕捉帧中复杂的空间信息,因为它在图像分类任务中具有出色的性能[32] [33]。因此,如何对视频时间动态进行建模是主要问题,在此基础上,我们根据时间建模方式将人类行为识别方法分为四类,即:
● 3DCNN网络。
● 两个流网络。
● 具有时间池的时态动态建模。
● 使用RNN捕获时间进化。
四种方法如图6所示:
图6:(a)3DCNN的架构 (b)双流网络基线。
(c)时间汇集 (d)基于RNN或LSTM的方法
3.1 3DCNN网络
3DCNN是CNN在时域中的扩展,其不仅可以捕获帧中的空间特征,还可以捕获一些相邻帧之间的时间演变。 [34]首先设计一种具有3D卷积核的3DCNN网络,然而,所提出的3DCNN框架需要在卷积之前预处理帧。 [35]设计了一种名为Slow Fusion模型的3DCNN,它可以直接输入原始帧,该框架可以输入十个相邻帧。 Tran D等人[36]通过实验证明3✕3✕3是3DCNN核的最大尺寸。他们建议一个这个3D卷积核的框架可以从16个相邻帧中学习有效的时空特征,并将这些特征称为C3D。为了模拟长期行动,一方面[37]认为复杂的活动可以与一些子行动相结合,因此他们将视频分为三个等级:在低层次结构中,使用C3D网络捕获本地动作特征,并且随着层次的增加,本地信息被递归地组合,整个框架看起来像金字塔;另一方面,[38]将C3D框架中输入帧的数量增加到60和100。[39]将3DCNN应用于原始彩色视频和光学流图,并将它们融合到最后得分中,从而实现了很好的实验结果。