基于深度学习的手势识别系统的设计文献综述
2020-06-03 22:05:25
一、选题背景
手势是一种自然、直观、易于学习的人机交互手段。手势识别按输入设备不同,可以分为基于数据手套的手势识别和基于计算机视觉的手势识别。其中基于计算机视觉的手势识别以人手直接作为计算机的输入设备,人机之间的通讯将不再需要中间媒体,用户可以简单地定义一种适当的手势来对周围的机器进行控制。但是由于手势本身具有多样性、多义性以及时间和空间上的差异性等特点,加之人手是复杂变形体以及视觉本身的不适定性,基于视觉的手势识别是一个富有挑战性的、多学科交叉的研究课题。
例如在手语识别上,正常人凭借手势识别技术,能快速理解手语,从而打破哑巴与正常人的交流障碍,还他们一个正常的生活。
而在交互控制领域,人们只要手一挥,就能快速切换电视频道,就能命令无人机自拍,就能让机器运转起来,大大增强了人机交互的体验感。
至于在虚拟现实/增强现实中,手势识别更可以说是不可或缺的,因为其他的人机交互手段都可谓繁琐复杂,成本高昂,又不亲民。
基于视觉的手势识别系统主要采用基于人工神经网络(ANN)、基于隐Markov模型(HMM)和基于几何边缘特征等方法。近年来,采用基于深度学习的人工神经网络识别算法蓬勃发展,大大提高了手势识别的识别率。因此研究基于深度学习的手势识别系统是十分有必要且有价值的。
二、研究现状
目前国际上研究手势识别的大学和机构有美国的卡内基#8226;梅隆大学(CMU)、加州大学圣巴巴分校(UCSB)、MIT、佐治亚理工学院、伊利诺伊斯大学(UIUC)以及英国的剑桥大学东芝实验室等,谷歌、微软、IBM、东芝、日立等公司也在手势识别研究中做了很多努力。在商业化方面,美国的GestureTek、LeapMotion、Kinnect,以色列的PointGrab,以及中国的uSens凌感科技,都提供了不错的手势识别解决方案。
国内对该领域进行研究的高校和研究所中有中科院软件研究所和自动化研究所、北京交通大学信息科学研究所、上海交通大学、浙江大学等。现在对手势别的研究还都处于算法研究方面,文献查阅的情况表明绝大部分的实现都是基于PC机平台的,只有少数研究为提高速度而采用了硬件加速的方法。
深度学习(Deep Learning,DL)的概念Geoffrey Hinton等人提出来的,主要通过多层(通常有 6-9 层)网络来模拟人的大脑的学习过程,期望借助模仿人类大脑对数据的深层抽象机制来实现机器对数据(文本、语音及画像等)的抽象表达。深度学习是将特征提取和分类合并到一个学习模型中,减少了人工/人为在设计特征中的工作,即可自动提取特征、如”自动编码”。深度学习能够较好地训练深层网络,避免了用传统反向传播(BackPropagation)训练深层网络的缺陷,所以大多情况下只需要把原始二维图像直接输入深度学习网络就能得到一个不错的效果。