基于深度学习的人群计数模型的设计与实现文献综述
2020-04-15 15:32:11
1.1、选题的目的与意义
人群和人数计算旨在估计来自监控摄像机的拥挤图像或视频中的人数。准确地估计人群的数量或密度对于人群控制和公共安全的目的而言是越来越重要的应用。在过度拥挤的情况下,人数统计提供了一条必不可少的信息,可用作事故避免和拥堵控制机制。此外,为人群计数开发的技术可以应用于其他研究领域的相关任务,例如细胞显微镜,对计数细胞或来自显微图像的细菌,在野生动物保护区进行动物人群估计,或在交通枢纽或交通拥堵时估计车辆数量。
1.2、选题所面临的挑战
人群计数和密度图估计的任务充满了许多挑战,例如遮挡,来自不同时间、不同活动模式(静态和移动的人群)的不同人群密度,监视场景中的透视变化使得从靠近摄像机的对象中提取的特征将占据图片的较大面积,远处的对象提取的部分将显得微不足道。
1.3、国内外的研究现状分析
传统的人群计数算法主要分类两大类:1)基于检测的方法。早期的人群研究主要聚焦于基于检测的方法。[1] 使用一个滑动窗口检测器来检测场景中人群,并统计相应的人数。基于检测的方法主要分为两大类,一种是基于整体的检测,主要训练一个分类器,利用从行人全身提取的小波,HOG,边缘等特征去检测行人。学习算法主要有SVM, boosting 和随机森林等方法。但只限于稀疏的人群计数,随着人群密度的提升,人与人之间的遮挡变得越来越严重。所以用到了基于部分身体检测的方法,主要通过检测身体的部分结构,例如头,肩膀等去统计人群的数量。这种方法比之基于整体的检测,在效果上有略微的提升。2)基于回归的方法。主要思想是通过学习一种特征到人群数量的映射,这类方法步骤主要分为两步,第一步提取低级的特征,例如前景特征,边缘特征,纹理和梯度特征;第二步是学习一个回归模型,例如线性回归,分段线性回归,岭回归和高斯过程回归等方法学习一个低级特征到人群数的映射关系。3基于轨迹聚类:对于视频监控,一般用KLT跟踪器和聚类的方法,通过轨迹聚类得到的数目来估计人数。
深度学习驱动的技术时代,深度学习凭借其出色的特征学习能力,同样被研究人员用于人群计数的研究中,其中最被大家广泛接受和使用的是卷积神经网络——CNN,它实现了端对端训练,无需进行前景分割以及人工设计和提取特征,经过多层卷积之后得到高层的语义特征。比较经典的是MCNN,CP-CNN,ic-CNN,SANet,基于深度学习的人群计数方法还有研究者加入了景深信息、人体结构信息等等。
1.4、目前研究所遇到的瓶颈
无论是提取多尺度特征还是逐步细化密度图,目前最困难的问题仍然是1)在人群密集的区域,如何让模型更精细的区分出人的特征,如人头重叠;2)如何教会模型“聚焦”,即在一幅人群密度分布广泛的图像中对较小尺度的局部特征能“看”得更清晰。
{title}2. 研究的基本内容与方案
{title}2.1、研究(设计)的基本内容