基于深度学习的人体姿态估计开题报告
2020-04-28 20:16:39
1. 研究目的与意义(文献综述包含参考文献)
目前,姿态识别作为人体行为识别的重要组成部分,近年来逐渐成为计算机视觉领域的一个重要的研究热点。研究的主要方法是通过对输入的人的整体或部分肢体的参数进行分析,例如人体轮廓、关节点位置、手势肢体等。人体姿态识别同时具备着广泛的应用前景,目前,主要应用在以下方面:
(1)智能人机交互。通过对人的表情、姿态或者手势等的识别来理解人的意图,从而让机器能够识别出人的意图并作出应对来实现交互的目的。
(2)生物特征识别。通过对人的行为、姿态、步态等信息的分析识别,能够判断出人的特定属性,由此可以应用于身份鉴别等。
2. 研究的基本内容、问题解决措施及方案
人体姿态估计采用的对抗思想和原始对抗网络均会存在两个问题。第一,生成器可能会产生震荡或者生成数据的复杂度不足,导致生成数据在各种样本之间徘徊无法和判别器达到平衡;第二,生成器会将不同的输入映射到相同的输出点,出现多个相同图片,最终导致模式崩溃和算法不收敛。
为了有效解决以上存在的问题,本设计将会把生成式对抗网络结构应用到人体姿态估计hourglass模型中。本设计中的基于深度学习的人体姿态估计在生成式对抗网络的思想和方法下利用卷积网络、最大池化、残差网络和上采样层组合构成的hourglass网络结构对输入的人体图像进行关键点检测最终输出完整的人体姿态估计。本网络结构使用全卷积神经网络,对给定的单张rgb图像,输出人体关键点的精确像素位置,使用多尺度特征,捕捉人体各关节点的空间位置信息。网络结构形似沙漏状,重复使用top-down到bottom-up来推断人体的关节点位置。每一个top-down到bottom-up的结构都是一个stacked hourglass模块。
在本设计中,残差块作为基本的网络单元,从而达到大大降低参数量和计算量的目的;在该人体姿态估计模型中将会使用4 个沙漏网络,每个沙漏网络的输入经过卷积层、 residual module和最大池化层将像素值降低,从而使模型内部计算量较少;其次,最大池化层都会通过跳跃连接将特征图输入到相同大小的上采样层中,通过处理得到高分辨率和具有准确分割定位的特征图。