基于深度学习的手势识别方法研究文献综述
2020-04-14 16:16:40
1.1 研究目的及意义
自2012年以后,由于数据量的上涨、运算能力的提升和机器学习新算法(深度学习)的出现,人工智能开始出现了大爆发。传统的机器学习算法在指纹识别、基于HoG的物体检测、基于Haar的人脸检测等方面的应用达到了比较高的水平,但是举步维艰,直至机器学习新算法——深度学习算法的出现。深度学习是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术。深度学习是一个多层次的学习,用较少的隐含层是不可能达到与人脑相类似的效果的,就需要逐层学习并把学习到的知识传递给下一层,通过这种传递,就能够实现对输入信息的分级表达。它的实质就是通过建立、模拟人脑的分层结构,对外部的输入信息(图像、视频、声音等)进行从低级到高级的特征提取,最终这些特征表达将比较复杂抽象的特征转化为比较简单的易于计算机表达的特征。
在深度学习中,大多数的研究都是集中在分析来自于视觉系统图像的能力上,这些技术包括脸部识别、手势识别以及行为识别等。而手势在日常生活中,往往能够直观的表达出一个人的想法和意图。在人机交互的过程中,如果计算机能够存储特定的手势特征,当我们做出一个手势时,计算机能够在短时间内快速识别出来并作出相应的反应,这样就能够大大提高人机交互的效率。
1.2 国内外研究现状
早期的手势识别主要是通过外部设备获取手势信息,典型的代表为数据手套。Takahashi等人采用数据手套实现了46类特定手势的识别。该方法利用传感器来测量手指的弯曲程度及关节角度,结合位置跟踪器,绘制手的运动轨迹,数据手套具有识别率高、反应速度快、较精准获得三维运动信息等优点。但是,借助外设的方式在很大程度上限制了人机交互的灵活性,给操作者带来了很大的不便。近些年来,越来越多的研究倾向于通过计算机视觉来进行手势识别的研究。该方法的原理是利用摄像头采集有关手势的视频,将视频分为一帧一帧的图像,并对这些图像进行相应算法的分析和处理,从而进一步获得手势的含义。清华大学祝远新等人提出了一种基于表观的新的手势识别技术。该课题组通过结合手势的运动表观、形状表观和时序信息建立了动态手势的时空表观模型,识别率超过90%;上海交通大学的刘江华等人通过跟踪双手的运动识别的动态手势,采用光流法和耦合隐马尔科夫模型,所能达到的识别率为96.7%。