基于深度学习的人体姿态估计文献综述
2020-04-28 20:16:27
目前,姿态识别作为人体行为识别的重要组成部分,近年来逐渐成为计算机视觉领域的一个重要的研究热点。研究的主要方法是通过对输入的人的整体或部分肢体的参数进行分析,例如人体轮廓、关节点位置、手势肢体等。人体姿态识别同时具备着广泛的应用前景,目前,主要应用在以下方面:
(1)智能人机交互。通过对人的表情、姿态或者手势等的识别来理解人的意图,从而让机器能够识别出人的意图并作出应对来实现交互的目的。
(2)生物特征识别。通过对人的行为、姿态、步态等信息的分析识别,能够判断出人的特定属性,由此可以应用于身份鉴别等。
(3)游戏娱乐。用户可以通过自身的动作来进行游戏互动,通过这种方式能够给用户带来全新的游戏体验,让用户在游戏的同时可以运动锻炼,有利于人的身体健康。
(4)辅助教学。通过对特定用户的姿态识别可以辅助用户学习特定的动作,例如通过对运动员姿态识别来判断特定姿势是否符合标准。
现有的姿态识别方法主要包括两种,其一是基于图像分析的人体姿态识别,其二是基于运动传感器的人体姿态识别。基于传感器的识别技术主要通过让研究人员携带传感器来进行采集相关运动数据;基于图像的分析方法是通过提取研究人员的图像来作为研究分析的特征。传统的机器学习方法主要是通过采用线性判别函数,对数据进行分析分类,往往难以在大量复杂相似的样本上取得好的分类效果。随着计算机的快速发展以及计算能力的极大提高,深度学习逐步进入我们的视野,其凭借其强大的自主学习能力和高度的非线性映射,在一些复杂的高精度分类问题上依然能够取得非常好的分类识别效果,目前已经被广泛应用于语音识别、人脸识别、图像目标分类与检测等领域。在图像分类的领域,深度学习中的卷积神经网络可谓是大有用武之地。相较于传统的图像分类方法,其不再需要人工对目标图像进行特征描述和提取,而是通过神经网络自主地从训练样本中学习特征,并且这些特征与分类器关系紧密,这很好地解决了人工提取特征和分类器选择的难题。
然而,基于传统卷积神经网络的图像分类技术在有大量标注样本可训练的情况下已达到不错的性能,但却无法用来在没有大量标注样本的情况下训练,即无法完成半监督学习,甚至无监督学习。并且,寻找大量标注的数据样本是一件十分困难的事情;此外传统卷积神经网络由于结构的局限性,对重叠图像分类任务性能不佳。近几年,随着生成式对抗网络(generative adversarial network,GAN)模型的兴起,在人体姿态估计领域有了一定的突破,具有很大的发展潜力。
生成式对抗网络GAN(Generative Adversarial Network)是Goodfellow等在2014年提出的一种生成式模型。GAN的核心思想来源于博弈论的纳什均衡,在结构上受博弈论中的二人零和博弈(即两人的利益之和为零,一方的所得正是另一方的所失)的启发。整个网络主要是由一个生成器和一个判别器组成。我们训练生成器来获取真实数据下隐藏的潜在分布规律,然后生成与之分布相类似的人造样本数据;判别器也就是一个二分类的分类器,可以判别输入的样本是真实的数据还是生成的假的人造样本。通过网络训练不断迭代参数去提高各自生成器的生成能力以及判别器的判别能力,最终获取生成器与判别器这二者之间的一个平衡。
如图1所示,生成器通过一个随机噪声的输入去生成一个尽量服从真实数据分布的样本,然后将生成器生成的样本与真实的样本混合后输入判别器判断。如果判别器判断该数据的输入来自真实数据,则标注为1.如果来自于生成器则标注为0.这里判别器的目标就是能够实现对数据来源的二分类判别:即该数据是真实数据还是由生成器生成的人造假数据。而生成器的目标则是尽可能的使自己生成的假数据在判别器上的表现和真实数据在判别器上的表现一致,整个网络的训练也就是生成器与判别器相互对抗然后迭代优化的过程。随着生成器与判别器的性能的不断的提升,当判别器的判别能力已经提升到了一个很高的程度还是无法正确判别数据的来源时,就可以认为这样的生成器已经学到了真实数据的分布情况,并且能够很好的生成新的数据样本了。
图1:深度卷积生成式对抗网络的基本结构