基于RGB-D深度图像的的手势识别研究与人机交互实现文献综述
2020-04-14 19:48:49
1.1 研究目的及意义
随着计算机应用技术的不断发展,人与计算机的交互活动越来越成为人们日常生活 的一个重要组成部分。这种活动极大地丰富了人们的生活,它甚至给我们带来了一个新的名词,即人机交互(Human-computerInteraction)。人机交互使得人类与计算机的距离更近了一步,由于有了人的较为全面的参与,人机交互更加贴近现实也更加丰富,例如人的头部追踪、面部表情识别、眼动检测、手势识别、骨骼识别以及人体各类姿势的识别与互动等等。而作为人类与计算机进行交互中非常自由、自然的交互方式,手势识别一直以来都是计算机视觉以及人机交互研究中的热点问题。手势识别就是通过人体佩戴设备捕捉手部
数据或者利用机器视觉捕获人的手部图像,从而对特定静态或动态手势进行分类识别的过程。
由于手势识别过程需要面对并处理复杂的场景,同时因为不同的人的手势之间会出现差异,不同人对于手势也有着不同的定义而导致手势的多样化、复杂化,手势识别在现阶段的研究还面临着诸多挑战。而利用 RGBD 深度图像可以通过传统的色彩信息结合深度信息来进行手势识别,增强了准确度与效率,使得手势识别变得更加精确与高效。该图像较以往的 RGB彩色图像而言具有更加复杂的数据结构,使得图像从传统二维的 RGB 图像变为三维的具有深度信息的 RGBD 图像,提供了更加丰富的数据信息。利用深度信息可以非常有效地处理在手势识别中的关键问题——手势分割问题。深度图像可以使得手的捕捉干扰减小,通过合理的算法设计可以使得手部提取更加精确,这为进一步的手势识别奠定了良好的基础。同时,深度信息也为手势识别提供了第三维度的特征,可以为手势分类过程提供新的研究方向。由此看来,在复杂的背景下,尽量增加用户使用的便捷性,通过对深度图像进行深入分析,从而对人的手势进行准确分割、实时识别,这是人机交互中亟需不断研究和改善的问题,因此,基于 RGBD 深度图像的手势识别研究具有非常重要的意义。
1.2 国内外研究现状
手势识别最初是利用机器设备,直接检测手、胳膊各关节的角度和空间位置。这些设备多是通过有线技术将计算机系统与用户相互连接,使用户的手势信息完整无误地传送至识别系统中,其典型设备如数据手套等。数据手套是由多个传感器件组成,通过这些传感器可将用户手的位置手指的方向等信息传送到计算机系统中。数据手套虽可提供良好的检测效果,但将其应用在常用领域则价格昂贵。因此,基于视觉的手势识别方式应运而生。近年来,利用深度信息的手势识别发展迅速,由于加入了深度信息,手部的提取更加的精确。相较于传统的手势识别方法(包括可穿戴设备的方法与基于 RGB 摄像头的方法),基于 RGBD 深度图像的手势识别研究具备着多方面的优点。它并不需要用户穿戴任何设备,给予用户更大的操作方便性,也使得用户具有较广的手部移动范围。最重要的,在深度图像中,由于结合了深度数据,手部更易被分割出来,这比起在传统 RGB 图像中分割出手部具有更强的鲁棒性。
在 2010 年 6 月 14 日微软发布了 Kinect 设备之后,基于深度图像的研究便进入
了一个新的阶段。Kinect 摄像头具备三维信息捕获功能。不久后,微软发布了 Kinect开发工具 SDK(Kinect Software Development Kit),可以使研发人员获取由 Kinect 捕获到的深度数据(DepthData)和彩色数据(Color Data)。并且,该设备提供了人体的全身骨骼提取功能,对于人体骨骼可以进行初步追踪。
2011 年,Minnen 和 Zafrulla 通过利用 Kinect 的深度信息对手部深度峰值进行聚 类,获取手的位置,并对 8 种手型进行识别;2012年,Wang Y 等人利用 Kinect下的 OpenNI 接口,利用隐马尔科夫模型(HMM)来进行手部模型的训练,对特定的S、O、E 等特定手势识别率达到 88.89%以上;同年,Wen Y 等人在深度图像中利用 K-means 算法进行手部聚类,从而进行手部分割,然后提取出手指位置(Fingertip Position),通过位置信息进行手势分类,对于部分手势的准确率可达 95%;2013 年,Chi Xu 等人利用 Kinect,在单一深度图中进行手势建模;2014 年初,北京交通大学的王松林等人利用动态时间规整(DTW)算法进行动态手势识别,总识别率达到85%;2014年,微软的 Chen Qian 等人结合传统的 DOF 人手模型进行有效的手势建模;2015年,中国科技大学的 Ao Tang 和中科院的 Ke Lu 等人联合开发了一套利用深度神经网络的实时手势识别系统,对于特定的手语手势利用 DBN 进行识别,对于部分手势可以达到 98.12%的准确率。{title}
2. 研究的基本内容与方案
{title}本次设计主要是研究基于RGBD深度图像的手势识别,并将手势识别算法应用到UR双臂机器人,实现人机交互。
手势识别主要有静态手势识别和动态手势识别两种方式。静态手势识别是通过图像分割的方式识别图像中手的姿势和形状等特征,常用算法有模板匹配算法、神经网络算法和支持向量机算法等。动态手势识别比较复杂,是通过对特定时间内静态图像序列中手的运动轨迹变化来实现对不同手势的识别,动态手势识别中较为成熟的算法有基于语法、基于模板和基于统计的方法。本次设计采用了由微软公司推出的Kinect深度摄像头,用于捕获视野范围内的深度数据,形成RGBD深度图像,并利用了卷积神经网络,设计了一个基于深度信息的静态手势识别系统,该系统能够实时地对从Kinect摄像头输入的几组常用的静态手势进行识别,并把识别结果反馈到UR双臂机器人。具体的内容包括:手势图像的获取、手势图像的分割、手势图像的特征提取、手势图像的分类识别。系统设计的结构框图如图1所示: