基于混合深度学习模型的时空动态手势识别外文翻译资料
2022-08-09 20:03:21
英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于混合深度学习模型的时空动态手势识别
摘要:
手势识别是一种自然的交互方式,近年来在人机交互领域中得到了越来越广泛的应用。然而,由于手势的复杂性和多样性,如不用的光照、视图、自身结构特征等,使得手势识别仍然具有挑战性。如何设计合适的特征表示和分类器是核心问题。为此,本文提出了一种表达深度混合的手部识别系统—CNN-MVRBM-NN。该框架由三个子模型组成。CNN(卷起神经网络)子模型自动提取帧空间特性,MVRBM(矩阵受限玻尔兹曼机)子模型随着时间的推移融合手势中的空间信息,而NN(神经网络)子模型对手势进行分类,由MVRBM初始化二阶数据表示, 然后利用MVRBM对神经网络进行预训练,再通过微调增加辨别率。在剑桥手势数据集上的实验结果表明,该混合神经网络具有最优的识别性能。
关键词:手势识别、卷积神经网络(CNN)、矩阵变量限制玻尔兹曼机(MVRBM)、神经网络 (NN)。
第一章 背景介绍
手势在自然交流中起着重要的作用,也是听力障碍人群主要的交流方式。近年来,随着自然人机交互技术和虚拟现实技术的发展,手势识别的研究得到了飞速的发展。然而,由于手势的复杂性和多样性,手势识别仍然面临着巨大的挑战。
首先,手势特征表示是困难的。一般来说,手势是通过连续的三维动作来表达的,有效地表现这种时空动作是至关重要的。所期望的时空手势特征不仅要捕捉视频中静态的空间信息,而且要包含非常重要的动作线索,并且对变化具有很强的鲁棒性。然而,由于手势的复杂性和多样性,使得时空动作表征难以有效和鲁棒。例如,不同的手势有着不同的外观和动作,不同的个体对同一个动作有着不同的手势,甚至同一个体对同一动作的手势也会不同。此外,基于视觉的手势识别容易受到图像、视图等的影响。
传统的手势表示通常基于预定义的复杂特征。Chen[1]利用傅里叶描述来提取输入图像序列中每一帧的空间形状变化,并用光流来表征时间运动信息。为了用傅里叶描述符手势需求,需要对手势描述的区域进行正确分割。Auephanwiriyakul和Phitak winai[2]利用尺度不变特征变换(SIFT)对每个测试帧进行描述,并提前构建信号库,使测试帧与信号库中采集到的观测符号相匹配,实现更准确的表达。Lukas等人[3]提出了一种基于hogbased (Histogram of Gradient)的手势识别方法,通过在生成的手部图像数据库中加入外观变化来弥补对物体旋转敏感的缺点。上述方法通常是有限的,要求用户有一些先验知识和一些预处理,如图像分割,跟踪等[4]。此外,特征可能无法捕捉动态手势的整体属性,难以适应手势的大变化。
与传统的手工设计特征相比,基于深度学习方法从原始数据中学习鲁棒特征表示的趋势越来越明显。其中,CNN在图像分类[5-8]、目标定位[9]等多项任务上取得了巨大的成功。Ji[10]和Karpathy[11]将CNN扩展到视频分类,这是一项复杂而困难的任务,因为模型参数非常大,很难训练,可能需要更多的训练数据。另一个流行的模型是RBM。RBM可以看作是一种无向概率图形模型,它可以有效地对训练样本的概率分布进行建模,从而为输入数据提供有效的表示。RBM在神经网络的预训练中也有很好的表现[12]。然而,经典的RBM模型主要是针对向量输入数据或变量设计的。对于类似图像数据这样的二维输入信号,有必要对二维数据进行矢量化。显然,矢量化过程不可避免地会破坏二维信号固有的高阶结构,导致信息的丢失。Qi[13]等人将经典的向量-变量模型扩展到矩阵-变量模型,使二维信号的二维结构得到更好的表达。
其次,良好的分类器是动态手势识别的必要条件。常用的动态手势分类器有隐马尔可夫模型(HMM)和神经网络(NN)[4]。据我所知yamato等人[14]首次将HMM应用于手势识别。首先将时间序列图像转化为图像特征向量序列,然后通过向量量化将序列按顺序转化为符号,最后利用HMM对人体动作序列进行建模按类别划分。Ramamoorthy等人通过判别分析对手的静态形状进行分类,然后将手的形状识别结果与基于卡尔曼滤波的手的跟踪结果结合到HMM中,对节拍特征进行建模。Liang等[16]提出了一种多模态手势识别方法,分别使用三种不同的通道对手势进行分类,其中HMM用于对骨骼关节进行分类。王等[17]提出了一种基于模糊神经网络(HMM-FNN)的手势识别模型。这些HMM模型预先定义了三个手势属性,包括姿势、二维平面移动和z轴方向移动。最后,利用模糊神经网络对HMM的输出进行融合。神经网络是一种模拟人脑神经系统的网络模型,越来越多的研究者对此进行了研究。针对手势识别问题,Singha等人定义了一组新的特征,然后将神经网络和支持向量机等融合在一起进行分类。神经网络是一种常用的分类器工具,但是神经网络的性能很大程度上依赖于初始值的赋值,初始化权值不适当的神经网络容易陷入局部最优解。为了解决这一问题,传统的初始化神经网络权值的方法是利用训练好的RBM[12]的权值。对于高阶数据,MVRBM具有更好的表示能力。因此,MVRBM预处理的神经网络在理论上优于RBM。
综上所述,本文提出了一种基于CNN-MVRBM神经网络的深度混合模型,该模型将手势的空间表现和时间运动结合起来,用于动态手势动作的理解。其中,利用CNN和MVRBM联合学习动态手势的时空特征,利用MVRBM预处理的神经网络可以较好地对手势进行分类。本论文的主要贡献有三方面:
(1)我们开发了一种表达性强的深层混合架构,将手势的空间表现与时间运动结合起来,以动态地理解手势的动作;
(2)我们提出将经典的CNN与MVRBM相结合,形成一种有效时空表征的混合模型;
(3)证明了MVRBM预训练神经网络对提高动态手势分类性能的鲁棒性和有效性;
本文的其余部分组织如下:第2节介绍了动态手势识别的混合学习结构。第3节提出了一种基于CNN-MVRBM的动态手势时空特征表示方法。第四部分给出了基于MVRBM的神经网络预训练的动态手势识别方法。实验结果和基于该方法的分析结果如第5节所示。最后一部分是对全文的总结和展望。
第二章 动态手势识别的混合学习结构
在本节中,我们提出了一种基于学习的动态手势识别体系。该体系结构包含两个模块:特征提取模块和分类器训练模块。在特征提取方面,将动态手势的时空表示分为两个关键步骤。第一步是提取视频中每一帧的空间特征,第二步是根据前面的空间特征进一步提取视频中所有帧的时间序列特征。提出的动态手势的混合学习结构如图1所示。图I左侧为CNN-MVRBM子模型的手势表示,右侧为MVRBM预训练的NN子模型。根据图1,预处理手势视频是CNN的输入,和每一帧视频序列输入到一个CNN,以产生一个特征向量,特征向量中所有帧,然后一个视频逐行排列形成动态手势。最后,将矩阵信号输入到MVRBM中,得到手势的鲁棒时空表现。
图1 动态手势的混合学习结构
良好的特征意味着良好的MVRBM网络权值;因此,采用训练有素的MVRBM对神经网络进行初始化,以保证神经网络具有良好的辨识性能。如图1所示,神经网络的初值基于MVRBM的数据和权值,即神经网络的输入是MVRBM的视觉层向量化数据:权值由MVRBM训练的权值参数实现;隐含层节点数设为MVRBM的向量化隐含层矩阵维数,NN标签数等于输出层节点数。在后面的小节中,我们将详细介绍每个部分。
第三章 基于CNN-MVRBM的动态手势时空特征表示
手势是一种三维空间动作,基于视频的手势是通过图像序列来表达的。如何表示这样的三维信号是本文的核心问题。为了探索多模数据,其中每个数据点都是一个矩阵或一个张量,Nguyen等人提出了张量变量限制玻尔兹曼机,并在三个实际应用中展示了令人信服的性能。在这里,为了区别于我们的模型,我们添加了一个前缀“N-”,并表示它为N-TvRBM。在N-TvRBM模型中,输入是一个高阶张量,输出是一个特征向量。因此,一种自然的方法是将一个手势视频表示为一个三阶张量,从而生成一个基于N-TVRBM的相应特征向量。然而,在N-TVRBM中,从视觉单元到隐含层的映射是一个超过10个权值的线性组合,张量权值的假设限制了它的能力。特别是N-TvRBM更适合低维数据,当它应用于高分辨率手势视频数据时,模型会变得非常复杂。Qi等人提出MVRBM用于矩阵数据。在MVRBM中,其输入和隐藏变量都在矩阵中,较好地保留了二维信号的空间结构信息。实验结果表明,MVRBM是一种有效的二维坐标表示方法。因此,本文引入MVRBM来表示和识别三维手势信号。下面的问题是如何用矩阵形式表示三维数据。一种可能的方法是用一个特征向量来表示视频序列中的每一帧,然后逐行叠加这些向量得到一个矩阵。在得到的矩阵中,行数表示时间维数,列数表示每一帧的特征维数。为了提取视频序列中的每一帧特征,我们借助CNN优秀的图像再现能力,用CNN代替手工特征来表示每一帧。在下面的小节中。我们将具体介绍将CNN与MVRBM相结合的手势时空表征新方法。
3.1基于CNN的单帧手势空间特征提取
为了更好地表示单帧空间特征,引入了CNN模型。CNN是一个有监督深度的模型,因此在使用CNN提取每一帧手势特征之前,所有构建动态手势视频的图像帧都必须事先进行聚类。所以每一帧都有一个标签,然后标签的图像被用来训练CNN。这也是该方法在典型CNN架构中的局限性,低层可通过卷积和池化来提取局部特征,顶层完全连接到一个向量层,该向量层代表全局和高级语义特征。本文使用的CNN架构包括5个卷积层、3个池化层、2个全连接层和1个分类器。全连通层的参数和节点数。第一个卷积层(C1)的卷积核大小设置为15而不是11,阶跃参数是2。全连接层的节点数为64个,而不是原来的2048个。我们主张使用更少的节点是基于几个事实的。首先,Sun等人的研究表明,深度学习的人脸表征是稀疏的。其次,数据包含1500万张图像和2.2万个类,而手势数据的数量和类别有限。因此,全连接层中的2048个节点可能是不必要的冗余。该实验确实验证了深度学习手势表达的全连接层的稀疏属性。因此,我们认为64个节点就足够了。整个架构如图2所示我们用C1(96, 15.2)-C2表示体系结构(256.5. 1)-C3(384.3. 1)-C4(384.3. 1)-C5(256)-Fc6(64)-Fc7(64)。在每个卷积层之后,总会有一个经过整流的线性单元激活函数。该架构中的池是基于最大池在3x3区域。我们表示为一个有n个节点的全连通层,如图2所示,j = 6或7. 最后,基于前面的CNN,在手势视频序列中逐帧提取特征。每个手势选择20帧来表示一个动作,因此每个手势动作提取20个特征向量。
图2 基于CNN的单帧手势特征提取
3.2基于CNN-MVRBM的手势时空特征表示
对于前面的手势帧序列特征提取,CNN是最直接的方法,动态手势表示是将所有的帧特征串联起来,然后通过一些分类器对其进行进一步的分类。然而,这样的过程可能会导致维数弥散,并不可避免地使其固有的时序结构退化。我们提出将序列空间特征逐行组织成一个矩阵,表示一个手势动作。本文中,每一帧的空间尺寸为64。因此,一个视频的关键帧数为20,而矩阵式动态手势表示的大小为20 x 64,而当前的矩阵表示不能细化时间相关性,更不能提取潜在的时空特征。因此,本文利用MVRBM进一步提取20times;64矩阵表示中所固有的高层次时空语义特征。MVRBM是一般RBM的扩展,它直接处理矩阵变量,用于描述二维数据集之间的依赖关系20 x 64 矩阵输入。由 Y 表示 [YKL] 二进制文件隐藏的矩阵变量,对应于动态手势的潜在时空语义特征,在本文中,合适的大小为4times;4。矩阵形状的视觉层和隐藏层可以由一个四模张量完全连接,权值为W。因此,定义全连通体系结构上关节构型(X, Y)的相关能量函数为:
其中B = [bi]和C= [ckl]分别是视觉和隐藏层面上的偏差,对应于二维矩阵。所有模型参数均以 (W、 B、 C} 中收集的模型参数,即使是1、J、K、L的数值比较小,这个数值也会比较大,所以我们可能需要大量的训练样本和时间来学习模型。为了显著减少模型参数的数量,我们对权重矩阵进行因式分解。也就是说,这样的4维相互作用权张量W是由两个较小的二维权之间的乘法相互作用给出的矩阵函数可以重写如下。
对于给定的模型参数,X和Y的联合密度函数为:
归一化常数,即式(3)中所有可能的X和y的数字之和,则X的概率为:
给定训练集 D = (X1, X2...., XN], MVRBM模型参数可由最大似然函数估计,如式(5)所示:
综上所述,我们得到了训练有素的MVRBM模型参数计,良好的权值保证了良好的表示能力。
第四章 基于MVRBM-NN的动态手势识别
基于神经网络的动态手势识别包括训练和测试两个阶段。在训练步骤中,为了提高神经网络的辨识能力,必须有良好的模型结构和初始化权值。理想的神经网络结构和权值应该能够适当地反映从手势特征表示到类别标签的非线性映射关系。因此,引入预处理来初始化神经网络。本文在前面的MVRBM的基础上对神经网络进行预训练。具体来说,如图1所示,构造了一个具有单隐层的神经网络。神经网络的输入是MVRBM的矢量化输入;神经网络的权值Wl由MVRBM训练的权值参数U和V实现;在神经网络的隐层节点的数目设置MVRBM的矢量化输出矩阵维度,和神经网络
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238723],资料为PDF文档或Word文档,PDF文档可免费转换为Word