登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子科学与技术 > 正文

基于RGB图像的人体姿态识别研究毕业论文

 2020-04-12 14:14:16  

摘 要

人体姿态识别是计算机视觉的一个重要研究方向。它在智能监控、虚拟现实、高级人机交互、人体运动分析、行为分析、特效制作等多个领域有着广阔的应用前景。基于RGB图像的人体姿态识别不需要高端设备,易于投入使用。这是计算机视觉领域的一个热点,具有研究价值和挑战性。本文将介绍人体姿态识别并通过深度学习来实现其功能。

关键词:姿态识别,深度学习,神经网络。

Abstract

Human posture recognition is an important research direction of computer vision. It has broad application prospects in many areas such as intelligent monitoring, virtual reality, advanced human-computer interaction, human motion analysis, behavior analysis, and special effects production. Human pose recognition based on RGB images does not require high-end equipment and is easy to use. This is a hot spot in the field of computer vision, with research value and challenges. This article will introduce human posture recognition and achieve its function through deep learning.

Keywords: pose estimation, deep learning, neural network

目录

摘要 I

Abstract II

第1章 绪论 1

1.1研究的背景及意义 1

1.2国内外研究现状 2

1.3姿态识别的难点 2

1.4论文组织结构 3

第2章 人体姿态识别 4

2.1人体姿态识别的分类 4

2.2对象检测系统 5

2.2.2 实现过程 10

第3章 神经网络 12

3.1神经网络简介 12

3.1.1神经元 12

3.1.2神经元模型 12

3.1.3神经网络模型 14

3.2神经网络分类 17

3.3卷积神经网络 17

第4章 人体姿态识别实现方案 23

4.1 方案简介 23

4.2 数据集介绍 26

第5章 实验与分析 28

5.1准备 28

5.2实验设备准备 28

5.3 caffe深度学习框架 28

5.4 模型训练 29

5.5实验结果 29

结论 30

参考文献 31

致谢 32

第1章 绪论

1.1研究的背景及意义

人体姿态识别是计算机视觉领域重要研究方向之一。它在智能监控,虚拟现实,先进的人机交互,人体运动分析,人体行为分析等领域具有广阔的应用前景。 基于RGB图像的人体手势识别在行为识别,人机交互,游戏和动画等领域具有广泛的应用前景。 人类姿态的识别也可以扩展到人类运动行为的判断。 计算机视觉。这不仅是一个具有研究价值的研究课题,也是一个具有挑战性的课题。

给定图像或视频,恢复关节在人体中的位置的过程就叫人体姿态识别。根据输入图像的类型,人体姿势识别算法可以分为两类:基于深度图的算法和基于RGB图像的算法。随着微软Kinect深度感应装置的出现,基于深度图像的手势识别受到越来越多的关注和研究。然而,由于受光照的影响、阴影的外部变化、人体姿态的限制、特征选择的困难、机器学习的局限性、识别算法的性能等因素,研究进展速度较慢。与深度图像在图像采集设备中的应用相比,应用范围有限,基于RGB图像的人体姿态估计算法具有广阔的应用前景。也在学术上取得了良好的效果。目前,基于RGB图像的人体姿态估计算法即使对于比较复杂的场景也可以获得良好的识别效果。下面将简要介绍一些重要的应用领域和它们的研究和发展方向。

(1)人机交互。人体姿态识别在人机交互中的应用潜力巨大。在未来,人类和电脑可能不需要键鼠等设备来输入信息。这就要求在这一过程中,人体的姿势可以得到实时识别,各种姿态都可以被理解,各种信息可以被判断,完成信息交互。

人类交际的语言工具分为自然语言和肢体语言。自然语言是最常用的语言,即文字、对话等,身体语言包括姿态、面部表情、头部运动等等,信息通过身体动作、身体姿势等传递。要做到人机交互的实现,识别身体语言并理解是关键部分。目前,使用最广泛的人机交互方式是语音识别,但这很容易受到环境噪声和距离的影响。人体运动识别并不局限于此,理解更多的细节可以帮助人与机器之间更智能的完成信息交互。

(2)智能监控。智能监控目前正在逐渐普及,智能监控可以完成很多过去依赖人工才能办到的任务,比如车辆识别,不仅限于车牌号码,车的型号、外观、驾驶人等数据一样可以识别出,还有武汉东湖架设的智能监控,一般的犯罪分子可以由公安机关识别和协助,成功抓获多名逃犯。在安全性需求高的领域,如银行、机场、酒店等一样有广泛应用。在目前的应用中,监控系统通常只能被动地监控。当意外发生时,无法做出相应判断并实施,有了智能监控,就可以化被动为主动,完成识别到实施的自动化实现。

(3)VR类。虚拟现实、增强现实等技术的应用可以实现在计算机虚拟世界中体验真实生活场景,或在现实中,增加虚拟部分。目前在游戏中得到了广泛应用。要做到这一点,首先,基于对现实生活的观察和分析,最重要的是对人类运动的认识。在计算机游戏中,对人体运动的识别可以使人体在游戏中表现得更加逼真,动作更加自然流畅。此外,通过对人体运动的识别,有可能了解实际的人体运动数据,这些数据是游戏开发和设计的重要参数。

(4)运动检测。通过研究人体运动,追踪和分析关节活动,可建立人体数学模型,以了解人体运动机理,从而有效改善人体功能。此方面显著的应用是在体育中,在当前的竞技体育中,如跑步、跳高、体操等,通过捕捉并分析运动员的肢体动作,来进行改进或作为评分依据以提高全面性和公平性。在医学健身等领域中,可以通过捕捉人的姿态动作从而作为发现症状和找到缺点的依据,亦可作为治疗效果的评判依据。在电影和游戏中也同样有广泛的应用,比如好莱坞的科幻影视作品,几乎所有的人物视觉特效都要依靠对演员的动作捕捉来建立3 D模型再进行特效制作。而大型3 D游戏中的应用更是普遍,一个角色的动作通常都要靠姿态追踪来实现,只不过目前普遍采用的是在工作人员身上放置传感器来实现,相信将来可以被实时姿态识别取代。

1.2国内外研究现状

目前,国内外对人体姿态识别的研究大多使用深度学习来处理相关问题。目前在MPII数据集综合识别率排行榜上单人识别榜首是Lipeng Ke, Ming-Ching Chang, Honggang Qi, Siwei Lyu等人的 Multi-Scale Structure-Aware Network for Human Pose Estimation[1],Pckh评分为92.1,他们开发了一个稳健的多尺度结构感知神经网络。该方法改进了最近的深度卷积 - 沙漏模型。多人mAP评估测量排行榜上Alejandro Newell, Zhiao Huang, Jia Deng的Associative Embedding: End-to-End Learning for Joint Detection and Grouping[2]占据榜首,达到77.5mAP,引入了联想嵌入,这是一种用于检测和分组任务的监督卷积神经网络的新方法。

1.3姿态识别的难点

目前多人的姿态估计方法一般可分为两大类,即自上而下(top-down)和自下而上(bottom-up),自上而下是指先检测出多个人,再对每一个人进行姿态估计,而自下而上是指先检测所有人的关节点,然后再判断关节点属于谁。

这两种方法都存在问题,对于自上而下方法检测存在误差,当人靠的很近就很难检测边缘框,即使检测正确,提取的特征也可能不适用于单人的姿态估计。同时,冗余检测框也会导致重复估计;自下而上的方法中,当两人紧密的靠在一起,人体的关节点可能会错误地分配给对应人。

虽然近几年人体姿态识别领域的研究取得了很多进展,但由于人体行为的多变性和环境的复杂,导致人体姿态识别还不足够完美满足实用要求。难点在于遮挡、复杂的空间变化、接触和人数较多等,例如人物重叠时,特殊视角等等。

1.4论文组织结构

基于RGB图像的人体姿态识别是本文的主要内容。

第一章简要介绍了人体姿态识别的研究背景和意义以及国内外研究现状,最后介绍了本文的研究内容。

第二章简要介绍了人体姿势识别和人体姿态识别的过程。

第三章介绍了神经网络和神经网络模型以及分别介绍的卷积神经网络。

第4章着重介绍人类手势识别的实现。

第五章介绍了实验过程和结果分析。

第2章 人体姿态识别

2.1人体姿态识别的分类

人体姿态识别根据不同标准可以分为很多种,从维度来看可以分为2维和3维的图像识别,即2D和3D的姿态识别。从输入图像类型上可以分为 RGB图像和深度图像,深度图像通常需要专门的图像采集设备如微软的 kinect, kinect2、 intel的 RealSense、 Google Project Tango采用的 PMD Tech的相机等,价格一般比较昂贵所以导致应用受限。深度图像是在 RGB图像基础上再加上 Depth Map即深度图,深度图所记载的是视点与被拍摄对象表面的距离信息,类似于灰度图像,但其像素值是从物体到传感器的实际距离。像素点之间具有一对一的对应关系,需要注意的是不要把图像深度和深度图弄混,图像深度指的是对像素存储时所使用的位数,如一个像素的颜色有10位,那么此颜色被分为2的10次方即1024级。

按照人数来分可以分为单人姿态识别( Single Person Pose Estimation, SPPE)和多人姿态识别( Multi- Person Pose Estimation, MPPE),即被识别的对象中包含单人或多人。分为单人和多人是因为识别时检测的方法不同,如果同一方法则可能会出现识别错误的问题,而且效率和精度也会受到影响。

按照人数来分可以分为单人姿态识别(Single Person Pose Estimation,SPPE)和多人姿态识别(Multi-Person Pose Estimation,MPPE),即被识别的对象中包含单人或多人。分为单人和多人是因为识别时检测的方法不同,如果同一方法则可能会出现识别错误的问题,而且效率和精度也会受到影响。

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图