人机交互环境中基于深度学习的人体动作识别方法研究开题报告
2021-11-26 23:04:15
1. 研究目的与意义(文献综述)
1.1 研究目的及意义随着人工智能、计算机视觉、图像处理和模式识别等技术的快速发展,人体动作识别作为其中一个交叉学科,引起了国内外研究人员的广泛关注和探索,并开始应用于多个领域:人机交互、视频监控与安全、运动分析、医疗健康等领域[1]。
在视频监控方面,随着监控设备在银行、商场停车场等公共场所以及军事基地等机密场所的广泛使用,单纯采用人工监控分析视频中的异常行为任务量大、成本高而且极易发生漏检行为。通过采用人体行为识别技术,自动对视频内容进行分析学习、识别异常行为,可以有效降低低成本并提高系统的安全性和监控的准确性。在人机交互方面,三维体感游戏的核心功能就是动作识别。体感游戏不用键盘、鼠标等外部设备进行操作,而利用人体动作进行操控,即通过摄像头等传感器获取人体动作行为,并作出相应反馈。在运动分析方面,通过人体动作识别技术,对人体运动进行分析,建立人体模型,修正运动姿态,提高人体的运动性能;在竞赛中捕获运动员的运动信息,提供更加准确的数据信息给评委从而提高比赛的公平性和准确性。
目前人机交互环境下的人体动作识别的主要不足是信息识别困难,大多数的人工交互技术仍在稳定性上存在不足,无法被大规模普及。另外,计算机虽然计算能力越来越强,但在获取人类视听觉信息时仍存在一定误差,计算机也很难理解对人而言很简单的推理、联想和夸张,还不够“智能”。因此,人机交互技术的发展也离不开人工智能,需要实现二者的相互融合,提升设备的机器智能,真正让设备具备与人“沟通”的能力。
2. 研究的基本内容与方案
图1系统流程图 基本内容: 1. 从基于手工特征的动作识别和基于深度学习的动作识别两方面介绍动作识别任务的发展现状及方法。 2. 介绍深度学习的基本原理、当代流行的深度学习框架以及人体动作识别的基本流程。 3. 在双流网络的基础上完成人体动作的识别。 预期目标: 1. 掌握深度网络的搭建方法、以及用于动作识别任务的模型的基本原理。 2. 基于深度学习的方法搭建人机协作环境中人体动作识别的网络模型来识别不同人体的姿态动作。 3. 基于当代流行的深度学习框架(TensorFlow或Pytorch等)使用Python脚本语言完成动作识别模型的搭建、训练、保存以及测试。 技术方案及措施: 1. 对基于深度学习的人体识别算法进行调研,调研当前经典算法、常用工具以及公共的动作数据库。 2. 基于双流网络完成动作识别模型的搭建、训练、保存以及测试 3. 最后,整理各阶段所搜集的资料、设计记录文档以及实验数据,完成毕业论文的撰写。
|
3. 研究计划与安排
(1) 第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。
(2) 第4-5周:熟悉掌握基本理论,完成英文文献的翻译。
4. 参考文献(12篇以上)
[1] 徐勤军, 吴镇扬. 视频序列中的行为识别研究进展[J]. 电子测量与仪器学报,2014,28(4):343-351. [2] Marr D. Vision: A Computational Investigationinto the Human Representation and Processing of Visual Information[J].Quarterly Review of Biology, 2010, 8 [3] Johansson G. Visual perception of biologicalmotion and a model for its analysis[J]. Perception Psychophysics, 1973,14 (2): 201-211 [4] AGGARWAL J K, RYOO M S. Human Activity Analysis: A Review[J]. ACM Computing Survey, 2011, 43(3): 1-43. [5] HASSNER T. A Critical Review of Action Recognition Benchmarks[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. IEEE,2013:245-250. [6] 蔡强,邓毅彪,李海生,余乐,明少锋. 基于深度学习的人体行为识别方法综述[J]. 计算机科学,2019,16(12):1-14. [7] ZHU F,SHAO L,JIN X,et al. From Handcraftedto Learned Representations For Human ActionRecognitions:A Survey[J]. Image and Vision Computing, 2016,55(2): 42-52. [8] Bobick A F, Davis J W. The recognition of human movement using temporal templates[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(3): 257-267 [9] LAPTEV I. On Space-Time Interest Points[J].International Journal of Computer Vision, 2005, 64(2/3):107-123. [10] WANG H, KLASER A, SCHMID C, et al. Action Recognition by Dense Trajectories[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. 2011:3169-3176. [11] WANG H, SCHMID C. Action Recognition with Improved Trajectories[C]// Proceedings of IEEE International Conference on Computer Vision.2013:3551-3558. [12] SIMONYAN K, ZISSERMAN A. Two-Stream Convolutional Networks for Action Recognition inVideos[M]// Advances in Neural Information Processing Systems.Berlin:Springer,2014:568-576. [13] JI S W, XU W, YANG M, et al. 3D Convolutional Neural Networks for Human Action Recognition[C]// Proceedings of the International Conference on Machine Learning. 2010:495-502. [14] TRAN D, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3D Convolutional Networks[C]// Proceedings of IEEE International Conference on Computer Vision. 2015: 4489-4497. [15] DONAHUE J, HENDRICKS L A,GUADARRAMA S, et al. Long-Term Recurrent Convolutional Networks for Visual Recognition and Description [C]// The IEEE Conference on Computer Vision and Pattern Recognition. 2015 :2625-2634. [16] LI Z Y, GAVRILYUK K, GAVVES E, et al. VideoLSTM Convolves, Attends and Flows for Action Recognition[J]. Computer Vision and Image Understanding,2018,166:41-50. |