人机交互环境中基于深度学习的人体动作识别方法研究毕业论文
2021-10-27 22:24:31
摘 要
随着时代的发展,计算机视觉和深度学习有了极大的发展,开始广泛的应用在监控、医疗、人机交互等领域。作为其中的一个交叉学科,人体动作识别也受到了大量研究人员的关注和研究,并获得了一定的成果。但由于环境变化的多样性和动作的复杂性,提高人体动作识别的效果和实用性依旧是一个极具挑战性的课题。
人体动作识别的流程是预处理、特征提取和特征分析。传统方法一般采用人为设计的特征进行提取,设计繁琐,识别的准确性很大程度依赖于特征的设计。而采用深度学习的方法进行特征提取较为简单,简化了流程,有着很不错的效果。
本文主要研究了基于深度学习的人体动作识别算法。采用双流网络完成动作识别任务,两支路均采用Resnet50网络。时间流网络采用堆叠的光流图,空间流网络采用RGB图像,对UCF101数据集进行了测试,最终识别率可达82.4%。
关键词:动作识别;深度学习;双流网络;Resnet
Abstract
With the development of the times, computer vision and in-depth learning have developed greatly, and began to be widely used in monitoring, medical treatment, human-computer interaction and other fields. As one of the interdisciplinary subjects, human motion recognition has also received a lot of researchers' attention and research, and achieved some results. However, due to the diversity of environmental changes and the complexity of motion, it is still a challenging task to improve the effectiveness and practicability of human motion recognition.
The process of human motion recognition is preprocessing, feature extraction and feature analysis. The traditional methods usually use the features designed by human to extract, the design is tedious, and the accuracy of recognition depends on the design of features to a great extent. The feature extraction method of deep learning is simple, simplifies the process, and has a very good effect.
The thesis mainly studies the human motion recognition algorithm based on deep learning. The dual flow network is used to complete the task of action recognition, and the resnet50 network is used for both branches. The time flow network uses stacked optical flow graph, and the space flow network uses RGB image. The ucf101 data set is tested. The final recognition rate can reach 82.4%.
Key words: action recognition;deep learning;dual flow network;Resnet
目 录
第1章 绪论 1
1.1 研究目的及意义 1
1.2 国内外研究现状 1
1.3 论文研究内容 3
1.4 论文组织结构 3
第2章 动作识别方法综述 4
2.1 传统方法 4
2.2 深度学习 5
2.3 数据库 6
2.4 本章小结 6
第3章 卷积神经网络 7
3.1 CNN结构 7
3.1.1 卷积层 7
3.1.2 池化层 8
3.1.3 全连接层 9
3.2 激活函数 9
3.3 BP算法 10
3.4 典型网络 12
3.5 分类器 14
3.6 本章小结 15
第4章 整体方案及实验结果 16
4.1 整体方案 16
4.2 开发平台 16
4.3 数据预处理 16
4.4 网络训练 18
4.4.1 网络模型 18
4.4.2 网络参数 19
4.5 实验结果分析 20
4.6 本章小结 20
第5章 总结与展望 22
参考文献 23
致谢 25
第1章 绪论
1.1 研究目的及意义
近年来,人工智能、模式识别和计算机视觉等技术得到了快速发展,人体动作识别作为其中的重要部分,引起了国内外研究人员的广泛关注和探索,并逐渐在视频监控与安全、医疗健康、人机交互等多个领域发挥光芒。
监控设备广泛应用于停车场、商场、学校等公共场所以及军事基地等机密场所,主要目的是进行异常行为的检测。单纯采用人工监控分析视频中的异常行为任务量大、成本高,由于身体疲劳等方面的影响极易发生漏检情况且很难做到实时的检测。通过采用人体动作识别技术,自动对视频内容学习,进行异常行为检测,可以有效降低人工成本的同时极大的提高系统的安全性和监控的准确性。行为识别在医疗健康上的作用也是巨大的,例如对病房中的病人进行监控,在病人发生异常时,可以自动报警并通知医生及时采取措施对病人尽早救治。在运动方面,通过人体动作识别技术,可自动建立人体模型并对人体动作进行分析,帮助进行运动姿态的修复,以提高人体运动性能。
在人机交互领域,过去以鼠标、键盘等硬件为载体进行交互,一些情况下这会极为繁琐。计算机可以利用人体动作识别直接识别人体动作或者手势,从而实现人体对机器的直接控制,大大化简人机交互的过程。当前这方面的问题主要是信息提取困难,很多人机交互技术在稳定性上有待提高,还无法完成大规模普及。除此之外,虽然计算机的计算能力远胜以往,但仍无法准确获取人类视听觉信息,在推理与联想方面的能力还不够。在许多制造场合,机器人无法完全代替人完成所有的制造任务,人机协作不可避免。
综上所述,人体动作识别在各个领域都存在着巨大的价值和需求。本课题旨在使用基于深度学习的方法通过视觉传感器对人机交互环境中的人体动作识别这一项任务进行研究,来解决传统机器人无法获取人体动作的问题,实现通过人的动作或手势对工业机器人进行控制,并达到基本的自然人机交互效果。
1.2 国内外研究现状
上世纪七十年代,Marr最早提出计算机视觉理论[1],之后Johansson提出了12点人体模型[2],自此人们开始了对人体动作识别的研究。根据行为的复杂程度,Aggarwal将行为识别分为:姿势,单体动作,交互动作以及团体活动[3]。Hassner对2013前行为识别数据集进行了详细介绍,并总结了当时人体识别算法的不足以及所面临的挑战[4];Huang等对智能视频监控技术的发展和现状以及典型算法给出了较为全面的综述,以底层、中层、高层的方式对智能视频监控技术流程进行划分,并对目标检测、跟踪、行为分类识别以及行为分析算法进行了总结[5];Zhu对基于手工特征的动作识别和基于深度学习的动作识别做出了详细对比,分析了各自的优缺点[6]。