视频图像中的人体识别技术研究与开发开题报告
2022-05-10 20:12:52
1. 研究目的与意义
人体检测与识别一直是计算机视觉领域研究热点之一,在视频安防、机器人开发、安全驾驶以及智能交通等领域都有着良好的应用前景。视觉是人类从大自然获取信息的最主要的手段。相关研究表明,人类在获取的信息中,视觉信息大约占60%,听觉信息大约占20%,其它的味觉、触觉等信息约占20%,由此可见视觉信息对人的重要性,而图像正是人类获取视觉信息的主要途径。人体检测与识别的核心思路,就是利用计算机视觉技术对行人进行检测、跟踪等工作,在此基础上完成识别行人的身份或行为。
深度学习(deep learning,简称dl)是近来年机器学习(machine learning,简称ml)领域的一个热门研究方向。在训练学习过程中,深度学习学习的是样本数据库内在的规律和特征,这些获得的规律和特征有助于对文字、声音以及图像等数据的解释。“图”指的是物体透射或者反射光的分布。“像”是人的视觉系统接收图的信息而在大脑中形成的印象或认识。前者是客观存在的,而后者是人的感觉,图像就是两者的结合。由于行人目标的特殊性、人体目标所处背景的复杂性以及摄像机拍摄位置和角度的不可预知性,给人体检测的造成了很大的困难,传统的检测算法用于人体检测都已十分困难,更不适合用于人体的识别。
2. 研究内容和预期目标
本毕业设计使用目前比较成熟的深度学习框架进行视频流中的人体检测,利用自己标注好的人体数据集进行训练,每个边界框都会使用多标记分类来预测框中可能包含的类,在训练过程中,用二元交叉熵损失来预测类别。最终实现一个包含卷积层、池化层、全连接层的神经网络。
系统读取本地存储的视频文件和摄像头捕捉的实时画面 ,识别出视频流里面形态不同的人,并且在人体上绘制出框子显示类别信息。
本系统的难点在于如何在各种噪声环境下进行多目标识别与跟踪,例如下雨天光线较暗,大晴天光线太强还有当目标特征较少或者被遮挡的时候如何能准确识别出来。同时电脑的硬件配置也会影响识别和运行的速度。
3. 研究的方法与步骤
系统基于darknet进行深度学习研究,网络模型是yolo。
1.视频图像读写
学习掌握文件i/o原理,基本视频、图像帧格式,能够读取和存储视频图像数据。
4. 参考文献
[1]童基均, 常晓龙, 赵英杰, 等. 基于深度学习的运动目标实时识别与定位[j]. 计算机系统应用, 2018, 27(8): 28-34.
[2]李红波, 丁林建, 冉光勇. 基于 kinect 深度图像的人体识别分析[j]. 数字通信, 2012 (4): 21-26.
[3]田国会, 吉艳青, 黄彬. 基于多特征融合的人体动作识别[j]. 山东大学学报: 工学版, 2009, 39(5): 43-47.
5. 计划与进度安排
序号 起止日期 任务 工作内容
1、 2022-01-01~ 2022-01-31调研 调研,撰写开题报告
2、 2022-02-01~ 2022-02-13查阅文献 论文综述、论文目录和学习现有算法