基于CNN的单图像人群计数和密度估计的最新进展调查外文翻译资料

2022-08-11 14:33:52

英语原文共 16 页，剩余内容已隐藏，支付完成后下载完整资料

基于CNN的单图像人群计数和密度估计的最新进展调查

摘要

根据人群图像估计计数和密度图具有广泛的应用，例如视频监视，交通监控，公共安全和城市规划。此外，人群计数技术的发展可以应用于其他研究领域的相关任务，例如细胞显微镜，车辆计数和环境调查。人群计数和密度图估计的任务充满挑战，例如遮挡，密度不均匀，场景内和场景间的比例和视角变化。然而，在过去几年中，人群计数分析已从早期的方法（通常仅限于人群密度和规模的微小变化）发展到目前的最新方法，这些方法已开发出能够在广泛范围内成功执行的功能场景范围。近年来，人群计数方法的成功可以归因于深度学习和具有挑战性的数据集的公开。在本文中，我们对最近基于卷积神经网络（CNN）的方法进行了全面的调查，这些方法已证明相对于主要依赖手工表示的早期方法有重大改进。首先，我们简要回顾使用手工表示形式的开拓性方法，然后详细研究基于深度学习的方法和最近发布的数据集。此外，我们讨论了基于CNN的现有方法的优缺点，并确定了在发展迅猛的背景下有前途的研究途径

1.介绍

人群计数旨在对拥挤场景中的人数进行计数，密度估计旨在将输入的人群图像映射到其对应的密度图，该密度图指示图像中每个像素存在的人数（如图1所示），研究人员共同解决了这两个问题。人群计数和密度估计问题至关重要，对于在人群监视[15]和场景理解[87，115]等拥挤场景中建立更高水平的认知能力至关重要。由于种种原因，人群分析最近引起了研究人员的极大关注。世界人口的指数增长和随之而来的城市化导致体育赛事，政治集会，公众示威等活动的增加（如图2所示），从而导致近年来人群聚会更加频繁。在这种情况下，必须分析人群行为以实现更好的管理，安全和安全性。

与其他任何计算机视觉问题一样，人群分析也面临许多挑战，例如遮挡，高度混乱，人员分布不均，照明不均匀，在外观，比例和角度方面，场景内部和场景间的多样化，使问题变得极为困难。图2说明了其中的一些挑战。问题的复杂性以及人群分析的广泛应用导致研究人员在最近的发展中更加关注。

人群分析是来自不同社区的研究人员固有的跨学科研究主题（例如社会学[68，10]，心理学[5]，物理学[13，38]，生物学[72，110]，计算机视觉和公共安全）已经从不同角度解决了这个问题。人群分析具有跨学科性质的多种关键应用：

1.安全监控：在体育馆，旅游胜地，购物中心和机场等场所，出于安全性目的而广泛使用视频监控摄像机使这种情况下的人群监控更加容易。但是，由于设计限制，传统的监视算法可能无法处理高密度人群，因此可能会崩溃。在这种情况下，我们可以利用专门为人群分析相关任务而设计的算法结果，例如行为分析[83，48]，拥塞分析[114，40]，异常检测[56，14]和事件检测[8]。

2.灾难管理：许多涉及人群聚会的场景，例如体育赛事，音乐音乐会，公共示威游行和政治集会，都面临着与人群有关的灾难的风险，例如踩踏可能会危及生命。在这种情况下，人群分析可以用作早期拥挤检测和适当管理人群的有效工具，从而最终避免任何灾难[1、3]。

3.公共空间设计：对现有公共场所（例如机场航站楼，火车站，购物中心和其他公共建筑）的人群分析可以从人群安全和便利的角度揭示重要的设计缺陷。这些研究可用于公共场所的为提高安全性和人群流动而优化的公共空间设计[62，2]。

4.情报收集和分析：可以使用人群计数技术收集情报，以进行进一步的分析和推断。例如，在零售部门，人群计数可用于评估人们对商店中产品的兴趣，并且此信息可用于适当的产品放置[58，67]。同样，人群计数可用于测量队列长度，以优化一天中不同时间的员工人数。此外，人群计数可用于分析一天中不同时间的信号行人流量，并且该信息可用于优化信号等待时间[9]。

5.虚拟环境：人群分析方法可用于了解潜在现象，从而使我们能够建立可以提供准确模拟的数学模型。这些数学模型可以进一步用于模拟各种应用中的人群现象，例如计算机游戏，在电影场景中插入视觉效果并设计疏散计划[36，74]。

6.法医搜索：可以使用人群分析来搜索爆炸，射击或大型聚会中的事故等事件中的嫌疑犯和受害者。传统的面部检测和识别算法可以使用人群分析技术来加快速度，这种技术更善于处理此类情况[47，7]。

各种各样的应用激发了各个领域的研究人员开发复杂的方法进行人群分析和相关任务，例如计数[15，16，20，41，17，85，35，41]，密度估算[52，19，111， 107、75、99、11]，分段[46、27]，行为分析[6、86、22、115、114、103]，跟踪[77、116]，场景理解[87、115]和异常检测[ 63，56]。其中，人群计数和密度估计是一组基本任务，它们构成了前面讨论的各种其他应用程序的基本构件。此外，为人群计数而开发的方法可以轻松扩展到其他领域的计数任务，例如细胞显微镜[99、97、52、20]，车辆计数[70]，环境调查[31，105]，等等。

在过去的几年中，研究人员尝试使用多种方法来解决人群计数和密度估计的问题，例如基于检测的计数，基于聚类的计数和基于回归的计数[61]。基于回归的方法的最初工作主要使用人工特征方法，最近的工作使用基于卷积神经网络（CNN）的方法。基于CNN的方法已证明比以前的基于人工特征的方法有了显着改进，因此，促使更多的研究人员进一步探索基于CNN的方法来解决相关人群分析问题。在本文中，我们回顾了各种单图像人群计数和密度估计方法，特别着重于基于CNN的最新方法。

研究人员已尝试对人群分析的各个方面的现有技术进行全面的调查和评估[105，30，44，55，117]。詹等。 [105]和Junior等。 [44]是最早研究和审查现有人群分析方法的人之一。 Li等 [55]调查了人群场景分析任务的不同方法，例如人群运动模式学习，人群行为，活动分析和人群异常检测。最近，Zitouni等。 [117]通过从现有文献中推断出关键的统计证据，评估了跨不同研究学科的现有方法，并针对技术的一般方面而不是任何特定算法提供了建议。尽管这些工作集中在人群分析的一般方面，但是研究人员已经专门研究了人群计数和密度估计方法[61，81，79]。 Loy等。 [61]提供了基于视频图像的人群计数的详细描述和比较，以及使用相同协议的不同方法的评估。他们还分析了每个处理模块，以确定潜在的瓶颈，为进一步研究提供了新的方向。在另一部著作中，Ryan等人。 [79]提出了一种在多个数据集上进行基于回归的人数统计方法的评估，并提供了各种人工特征性能的详细分析。最近，Saleh等人。 [81]研究了两种主要方法，分别是直接方法（即基于对象的目标检测）和间接方法（例如基于像素，基于纹理和基于角点的分析）。

尽管现有的调查分析了用于人群分析和计数的各种方法，但是它们仅涵盖使用人工特征功能的传统方法，并且没有考虑到主要由基于CNN的方法驱动的最新进展[87，39，113，11 ，85、97、4、98、111、107、70、88]和新的具有挑战性的人群数据集的创建[106、107、111]。尽管基于CNN的方法已大大降低了错误率，但新数据集的创建使人们能够学习更通用的模型。为了跟上人群计数方面迅速发展的研究步伐，我们认为有必要详细分析这些方法以了解趋势。因此，在本文中，我们提供了对基于CNN的最新技术的概述，该方法用于对单个图像进行人群计数和密度估计。

本文的其余部分安排如下：第2节简要回顾了传统的人群计数和密度估计方法，重点介绍了最新方法。接下来是对基于CNN的方法的详细调查，并在第3节中讨论了它们的优缺点。在第5节中，通过技术方法概述，对最近发布的具有挑战性的人群计数数据集进行详细讨论。。我们在第6节中讨论了实现进一步进展的几种有希望的途径。最后，在第7节中作了总结。

传统方法评述

已经提出了各种方法来解决图像[41、19、52、107、111]和视频[12、35、77、21]中的人群计数问题。 Loy等[61]基于该方法将传统人群计数方法大致分为以下几类：（1）基于检测的方法，（2）基于回归的方法，以及（3）基于密度估计的方法。

由于这项工作的重点是基于CNN的方法，因此在本节中，为了完整起见，我们简要回顾了使用手工制作的功能基于检测和回归的方法。此外，我们介绍了最近的传统方法[41，52，75，99，102]的综述，这些传统方法在早期调查中尚未进行分析。

2.1基于检测的方法

最初的研究大多集中在检测样式框架上，其中滑动窗口检测器用于检测场景中的人物[26]，并且该信息用于计数人数[54]。检测通常以整体式或基于零件的检测方式进行。整体式检测方法[25、51、94、28]通常是传统的行人检测方法，该方法使用从全身提取的特征（例如Haar小波[95]，面向直方图的梯度[25]，边缘[100]和小波[80]）训练分类器。已经使用了各种学习方法，例如支持向量机，boosting [96]和随机森林[34]，并取得了不同程度的成功。尽管在低密度人群场景中很成功，但是这些方法受到高密度人群的不利影响。研究人员已尝试通过采用基于部位的检测方法来解决此问题[29、57、101]，其中一种构造针对特定身体部位（例如头和肩膀）的增强分类器，以估计指定区域中的人数[54]。在使用形状学习的另一种方法中，Zhao等人[112]使用由椭球组成的3D形状对人类进行建模，并采用随机过程来估计能够最好地解释场景中给定前景蒙版的数量和形状配置。 Ge和Collins [35]通过使用灵活实用的形状模型进一步扩展了这一思想。

2.2 基于回归的方法

尽管使用基于零件的检测器和基于形状的检测器来缓解遮挡问题，但是在人群非常密集且背景杂乱程度很高的情况下，这些方法并不成功。为了克服这些问题，研究人员试图通过回归计数来学习从局部图像斑块提取的特征与其计数之间的映射[16，78，20]。通过使用回归进行计数，这些方法避免了对学习检测器的依赖，这是一个相对复杂的任务。这些方法有两个主要组成部分：低级特征提取和回归建模。各种功能（例如前景特征，边缘特征，纹理和渐变特征）已用于编码低级信息。使用标准背景减法技术从视频的前景片段中提取前景特征。基于斑点的整体特征，例如面积，周长，周长面积比等，已显示出令人鼓舞的结果[15、20、78]。虽然这些方法捕获了场景的全局属性，但局部特征（例如边缘）和纹理/渐变特征（例如局部二进制模式（LBP），直方图定向的梯度（HOG），灰度共生矩阵（GLCM））已被用于进一步改善结果。一旦提取了这些全局和局部特征，就可以使用不同的回归技术，例如线性回归[71]，分段线性回归[15]，岭回归[20]，高斯过程回归和神经网络[64]来学习映射从低级功能到人群计数的映射。

在最近的方法中，Idrees等人[41]指出，由于诸如低分辨率，严重遮挡，缩短和透视等各种原因，在高密度人群的存在下，没有任何单一特征或检测方法足以提供足够的信息来进行准确计数。此外，他们观察到存在一种空间关系，该空间关系可用于约束相邻局部区域中的计数估计。考虑到这些观察结果，他们建议使用捕获不同信息的不同方法来提取特征。通过将人群密集的人群视为不规则且不均匀的纹理，他们在局部邻域中使用了傅里叶分析以及头部检测和基于SIFT兴趣点的计数。然后，根据全局一致性约束，对来自此局部多尺度分析的计数估计值进行汇总。然后将三个源，即傅立叶，兴趣点和头部检测与它们各自的置信度相结合，并且独立地计算局部斑块处的计数。然后，将这些局部计数在多尺度马尔可夫随机场（MRF）框架中全局约束，以获取整个图像的计数估计。作者还介绍了一个包含50个图像的注释数据集（UCF CC 50），其中包含64000人。

Chen等[19]介绍了一种新颖的累积属性概念，用于在只有稀疏和不平衡数据可用时学习回归模型。考虑到特征不一致，稀疏和不平衡（在学习回归函数时会克服）的挑战是相关的，提出了基于累积属性的表示形式来学习回归模型。具体来说，将从稀疏和不平衡图像样本中提取的特征映射到累积属性空间。该方法基于用于处理稀疏训练数据的区分性属性的概念。该方法固有地能够处理不平衡的数据。

2.3.基于密度估计的方法

尽管较早的方法成功地解决了遮挡和混乱的问题，但随着它们在全球范围内逐步发展，大多数方法都忽略了重要的空间信息。相反，Lempitsky等人[52]提出学习局部补丁特征和对应的对象密度图之间的线性映射，从而在学习过程中纳入空间信息。通过这样做，他们通过引入一种估计图像密度的新方法，避免了学习检测和定位单个对象实例的艰巨任务，该密度在密度图中任何区域的积分给出该区域内对象的计数。学习密度图的问题被公式化为正则化风险二次成本函数的最小化。引入了适合于学习密度图的新损失函数。整个问题作为凸优化任务提出，他们使用切面优化解决了这一问题。

观察到学习线性映射是困难的，Pham等[75]提出学习局部补丁特征和密度图之间的非线性映射。他们使用了来自多个图像斑块的随机森林回归来对多个目标对象的密度进行投票，以学习非线性映射。另外，他们通过提出拥挤先验来解决拥挤的图像斑块和非拥挤的图像斑块在外观和形状上的巨大差异的问题，并训练了与之对应的两个不同的森林。此外，他们能够通过提议使用决策树排列的有效森林缩减来成功地加快实时性能的估计过程。除了获得实时性能外，他们的方法的另一个优点是，构建和存储森林所需的内存相对较少。

与上述方法类似，Wang和Zou [99]指出，尽管现有方法有效，但从计算复杂度的角度来看它们是无效的。为此，他们提出了一种基于子空间学习的密度估计的快速方法。他们不是学习密集特征及其对应的密度图之间的映射，而是学习计算由图像补丁形成的每个子空间的嵌入。本质上，他们利用了图像及其各自特征空间中相应的密度图之间的关系。图像补丁的特征空间被聚类，并且每个子空间的示例被收集以学习其嵌入。他们关于局部图像斑块及其

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[237176]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码