基于深度学习的行为识别毕业论文

2021-11-20 22:37:00

论文总字数：21071字

摘要

行为识别在人们的日常生活中有着非常广泛的应用，例如可以应用在视频监控领域、无人驾驶领域与体感游戏等，因此进行行为识别的研究具有一定的意义。

本文提出了一种基于3D卷积神经网络对人体行为进行识别的方法，解决了2D神经网络只关注空间维度而不关注时间维度的问题。并且在进行视频数据的预处理时采用了两种方式，一种方式采用背景消减，另一种方式不使用背景消减，都分别将每段原始视频处理成35帧、20*20大小的灰度图像，并分别使用这两种方式处理后的数据集去训练、验证、测试神经网络，以比较这两种数据预处理的方式对准确率的影响。

研究结果表明：3D卷积神经网络对视频数据的行为识别可以达到较好的识别率，并且在数据预处理时使用背景消减可以大大提高识别率，达到了设计的目的和效果。

关键词：行为识别；3D卷积神经网络；背景消减

Abstract

Behavior recognition has a very wide range of applications in people's daily lives. For example, it can be applied in the field of video surveillance, unmanned driving, and somatosensory games. Therefore, research on behavior recognition has certain significance.

This paper proposes a method for human behavior recognition based on 3D convolutional neural network, which solves the problem that 2D neural network only pays attention to the spatial dimension but not to the time dimension. In video data preprocessing and adopted two ways, one way to use the background, another way to cut, do not use the background respectively each section of the original video processing into 35 frame, 20 * 20 size of gray image, and use this two ways to deal with the data set to training, validation, test, neural network, to compare these two kinds of impact on the accuracy of the data preprocessing.

The research results show that: 3D convolutional neural network can achieve a better recognition rate for the behavior recognition of video data, and the use of background subtraction during data preprocessing can greatly improve the recognition rate and achieve the design goals and effects.

Key Words：behavior recognition; 3D convolutional neural network; Background to reduce

第1章绪论 1

1.1研究目的及意义 1

1.2国内外研究现状 2

1.3论文的研究内容及结构安排 3

1.3.1研究内容 3

1.3.2结构安排 4

第2章 3D卷积神经网络 5

2.1 介绍 5

2.2 使用的3D卷积模型结构 6

2.3 人体行为数据集及其预处理 8

2.4 网络模型的训练及其结果 9

2.5 本章小结 10

第3章将背景消减方法应用在数据的预处理 11

3.1背景消减 11

3.1.1背景消减介绍 11

3.1.2背景消减发展 12

3.2数据预处理 13

3.3最终网络模型结构及其训练结果 14

3.4本章小结 17

第4章结果对比与测试 18

4.1使用与不使用背景消减结果对比 18

4.2使用背景消减结果测试 19

第5章总结与展望 22

5.1论文总结 22

5.2展望 22

致谢 23

参考文献 24

第1章绪论

1.1研究目的及意义

行为识别是计算机视觉领域中的一个重要的研究分支，近些年来，随着众多研究者和工程师的不懈努力和计算机技术的发展,行为识别技术得到了快速的发展，人体行为识别技术的应用范围也越来越广泛，比如在智能安防系统、无人驾驶、人机交互和体育训练中都有着重要的应用。

视频监控设备可以提升公共环境的安全性，在超市、街道、小区和学校中都有着大范围的安装部署。然而现有的大部分视频监控系统的功能都有着很大的局限性，比如其主要的功能只是视频监控、视频保存、视频查阅。这样一来就会带来一些问题，比如当视频监控的范围内发生了案件、事故或一些需要取证的其他事件时，相关的工作人员就需要对海量的视频数据进行查看、筛选，为事故提供视频证据，这种情况会消耗大量的人力，并且效率极其低下，而且在处理视频数据时，由于人为因素难免会发生误判、漏判的情况。如果将人体行为识别技术应用在视频监控系统中，实现视频监控系统的智能化，使得视频监控系统在实现普通监控系统监控功能的同时，对当前监控系统所捕捉到的内容进行实时的、动态的分析，进而对监控区域下的个体异常行为或异常事件做出及时的反映，比如触发警报、联网报警等。在处理案件、事故或一些需要取证的其他事件时，不再需要在海量的视频数据中进行查看、筛选，能够进行智能定位，解放了人力也提升了查找的准确性和效率。应用人体行为识别技术的智能监控系统拥有普通监控设备所不具有的实时性和可靠性，可以进一步提升公共环境的安全性。

人体行为识别技术在无人驾驶^[1]中也有着重要的应用。具有无人驾驶功能的汽车在道路行驶时，通过传感器或摄像头设备采集当前道路的环境，无人驾驶系统需要能够对采集来的道路环境信息进行实时分析，比如对在当前道路中的行人的动作行为进行分析，做出相应的预判，能大大提高无人驾驶系统的安全性。

现在常用的人机交互方式大多是通过键盘、鼠标等人体直接接触的设备来实现，近些年来随着计算机技术的飞速发展，通过键盘、鼠标等的人机交互方式已不能跟上时代的潮流，人们需要更智能、更方便的人机交互方式。人体行为识别技术的应用可以完美地解决这一问题，通过摄像头或者传感器获取人体的姿态变化，使用人体行为识别技术实现人机交互。比如在体感游戏、虚拟现实、虚拟在线试衣中人体行为识别技术都可以得到广泛的应用。在体感游戏中，通过人体行为识别技术玩家可以不用穿戴任何设备就可以实现游戏人物与玩家的动作实时同步，极大的提升了游戏的可玩性与操作性。将人体行为识别技术应用于虚拟试衣中，可以避免试衣过程中频繁换衣的繁琐过程。除了以上几方面的具体应用以外，人体行为识别技术也可以应用在体育课或者运动员的日常训练中。比如基于人体行为识别技术的运动分析可以为运动员提供正确的姿态训练^[2]，捕捉到不标准的姿态从而提高运动员的训练效率和质量。

传统算法和深度学习算法都可以用于人体行为识别的研究，但它们在性能和原理上有着很大的区别。传统算法十分依赖人工提取的特征，不仅复杂耗时，而且泛化性很差。深度学习算法^[3]不需要人工设计特征，对于计算机视觉任务中所需要提取的特征，可直接由网络参数计算得到。这样一来深度学习算法获取的特征不受算法设计人员的主观影响，能直接获得最能表征视觉任务特点的特征，因此更加准确和高效。

1.2国内外研究现状

人体行为识别技术的具体应用可以包括视频监视，人机交互和智能驾驶等领域。由于其广泛的应用，所以吸引了国内外大量学者和工程师的深入研究，在过去的很长时间里，人体行为识别一直是计算机视觉中的一项艰巨任务。随着计算机技术的不断发展和捕捉视频所用设备的发展，不断有用于人体行为识别的新颖方法涌现。早期的研究试图对整个图像或轮廓建模，并以全局方式代表人体活动。随着相机设备的升级和图像处理与深度学习技术的发展，人体行为识别领域涌现除了越来越多的技术与方法。具体如下所示。

在利用深度学习技术进行人体行为识别研究之前，iDT(改进的密集轨迹算法)^[4]是进行人体行为识别的最经典的一种算法。虽然深度学习算法应用到行为识别之后，得到了更好的效果，但是iDT的思想和方法仍然值得该领域的研究者和工程师去了解和使用，因为将iDT算法与深度学习算法相结合，经常可以取得更好的识别效果。下面介绍一下常用的深度学习算法。

Two-Stream方法^[5]是深度学习在人体行为识别研究的其中一个主要方法。该方法也经过了一定的发展，最早是NIPS上VGG团队提出来的。在该方法出现之前，已经有一些学者尝试着将深度学习算法应用到人体行为识别的研究上，例如李飞飞^[6]团队就曾在Two-Stream方法出现之前尝试着使用深度学习算法去进行人体行为研究，但是并未取得理想的结果，甚至得到了比以往算法更差的效果。Two-Stream方法在人体行为识别研究中取得了很好的效果，该算法的出现促进了人体行为识别研究的发展，标志着深度学习开始正式在行为识别领域得到广泛应用。在Two-Stream方法出现之后，又有一些基于深度学习的行为识别算法相继出现，如C3D(3-Dimensional Convolution)^[7]方法，它是除了Two-Stream方法后的深度学习在人体行为识别研究的另外一个主要方法。相对来说，C3D方法的识别性能并不如Two-Stream方法，在识别的效果上比着Two-Stream方法要普遍低几个百分点。但是其核心思想较为简单。所以该方法仍然得到了广泛的应用。在处理视频时，视频除了空间维度以外，还有时间维度，为了更好的处理时间维度，有一大批的研究者和相关工程师选择了使用RNN网络来解决这个问题，并且识别效果得到了一定的提升，目前最新的进展是中科院深圳研究所乔宇教授所发表的ICCV2017年的oral文章^[8]。

请支付后下载全文，论文总字数：21071字

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码