带有遮挡处理的行人检测的差分深度模型外文翻译资料
2022-11-08 20:48:57
英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
带有遮挡处理的行人检测的差分深度模型
摘要:基于部分的模型已经证明了它们在对象检测中的优点。然而,当存在遮挡或大变形时,存在关于如何整合部分检测器的不准确分数的关键问题。为了处理部分检测器的不完善性,本文提出了一种概率性行人检测框架。在这个框架中,使用变形的基于部分的模型来获得部分检测器的分数,并且部分的可见性被建模为隐藏变量。不同于以前的遮挡处理方法,其假设部分的可见性概率之间的独立性或手动地定义可见性关系的规则,在本文中使用差分深度模型来学习多层的重叠部分之间的可见性关系。三个公共数据集(Caltech,ETH和Daimler)的实验结果和一个新的CUHK遮挡数据集专门设计用于遮挡处理方法的评估,显示所提出的方法的有效性。
1.绪论
对象检测是具有广泛应用的计算机视觉的基本问题,例如监视、图像检索、机器人和智能车辆。由于行人检测是对象检测中最重要的主题之一,因此近年来已经引起了很多关注。
许多分类方法,特征和变形模型已经用于实现对象检测的改进。广泛使用的分类方法包括各种增强分类器,线性SVM,直方图相交核SVM,潜在SVM,多核SVM和结构SVM。特征的研究包括类Haar特征,梯度直方图(HOG),积分直方图,颜色直方图,梯度直方图,协方差描述符,局部二元模式,从深度模型、深度、分割和运动学习的特征。近来用于对象检测的可变形模型主要对部件的平移变形建模。
图1 从其检测分数或从其相关部分估计零件的可见性。具有虚线的矩形表示错误的估计,具有实线的矩形表示正确的估计。估计为不可见的部分由黑色矩形表示。单一部分检测得分给出错误的可见性估计。在部件之间的可见性相关性的帮助下,我们的方法可以成功地找到正确的估计。
通用检测器假定行人完全可见,并且当行人部分遮挡时其性能降级。例如,许多基于部分的可变形模型将部分检测器的分数相加。行人存在的输入窗口被认为具有高的总分。如果一个部分被遮挡,则其部分检测器的得分可能非常低,因此总和得分也将是低的。然而,遮挡经常发生,特别是在拥挤的场景中。如[10]中所指出的,成功检测部分被遮挡的行人的关键是利用关于哪些身体部位被遮挡的附加信息。例如,在[10]中使用的附加信息来自运动,深度和分割结果。在本文中,仅通过探索多个尺寸的不同部分的可见性之间的强相关性,从单个图像的外观推断。一旦识别出封闭部分,它们的效果应当从最终组合得分中适当地去除。
大多数以前的方法[4,10,29,32]依赖于部件的检测得分来估计其可见性。然而,部件检测器是不完美的,并且这种估计是不准确的。以图1中的行人为例。虽然左肩部的部分是可见的,但其部分检测得分相对较低,因为其在图像中的视觉提示不适合部件检测器。如果部件的检测分数直接用于估计可见度,则行人将被错误地估计为具有左肩部不可见和左腿部可见。
本文的动机是这样的事实,即在多个层处设计重叠部分并且在不同层验证部分的可见性多次是更可靠的。一个部分的检测得分为其重叠部分上的估计提供了有价值的上下文信息。以图1中的行人为例。左头肩和头肩是不同层的重叠部分。类似地对于左腿和双腿。头肩的部分具有高检测分数,因为其在图像中的视觉线索适合相应的部分检测器。并且双腿的部分具有低检测分数,因为它没有找到适合检测器的任何视觉提示。如果部分之间的相关性以正确的方式建模,则头肩的检测得分可用于推荐左头肩作为可见的,而两腿的检测得分可用于推荐左腿作为不可见的。因此,主要的挑战是如何建模不同部件的可见性的关系,以及如何根据部件可见度的估计正确地组合部件检测器的结果。
本文有两个贡献。
1、行人检测的概率框架将部件的可见性建模为隐藏变量。它表明,各种启发式遮挡处理方法(如线性组合和硬阈值)被认为是其特殊情况,但没有充分探索其在建模不同部分的相关性的能力。
2、学习不同部分的相关性的辨别深层模型,这是受深度模型[2,15,18]在尺寸缩减[16]和识别[15,17,18,24]的各种应用中的巨大成功的启发。新模型有一些有吸引力的特点。首先,我们的深层模型的层次结构与部件模型的多层匹配。不同于[15,16]中的深度信任网络(DBN),其隐藏变量没有语义意义,我们的模型将每个隐藏变量视为表示部件的可见性。通过包括多个层,我们的深层模型在训练数据上实现更好的变化下界,并且同时实现更可靠的可见性估计。第二,它很好地模拟了跨层的复杂概率连接,在学习和推理上都具有良好的效率。第三,我们的辨别深层模型只使用部分检测器的分数作为输入,而不需要在训练阶段监督的任何遮挡信息。
最后,尽管上面的讨论集中于遮挡,但是所提出的框架也在一定程度上有效地处理异常变形。如果一些部件异常变形,并且不能被部件检测器检测到,则它们可以被视为遮挡并且从部件的集成中去除。
2、相关工作
变形和遮挡是物体检测中要解决的两个主要问题。为了处理变形问题,基于变形部分的模型已被广泛使用[12,21,34]。在这些模型中,考虑每个部分的外观和部分之间的变形用于检测。例如,[12]中的最先进的方法结合了外观得分和平移变形得分。为了对变形进行建模,在[12]中使用了星模型,在[21,34]中使用了树模型,在[30]中使用了环形图模型。使用boosting方法从大量局部候选特征中选择特征的检测器也将对象视为由部分组成[6,7,25]。
由于可见性估计在检测器处理遮挡中起到关键作用,因此提出了各种方法[4,9,10,19,29,32,33]来估计部分的可见性。大多数现有方法[4,10,19,29,32,33]假定部分的可见性独立于其他部分,并通过对部分的检测分数进行硬阈值来估计可见性。最近,Duan et al [9]使用手动定义的规则来描述部分的可见性及其重叠的较大部件和较小部分之间的关系。如果头部或躯干不可见,其上身的较大部分也应该是不可见的。在他们的方法中,通过硬阈值其检测分数获得零件的二元可见性状态。然后使用规则来确定不同部分的二进制可见性状态的组合是否正确。如果是,则检测当前窗口为正;否则为负。这种方法具有某些缺点。首先,硬阈值并不区分部分遮挡和完全遮挡。概率模型将是描述遮挡的更合理的方法。第二,通过硬阈值化其检测分数而被错误分类为遮蔽的较大部分不能由规则校正。第三,规则是手动定义的,但没有从训练数据中学习。从训练数据系统学习的部分的可见性之间的关系可能为更广泛的应用打开更加稳健的方法的大门。考虑到上述方法面临的问题,我们建议使用一个差分深度模型来自动学习不同部分的可见性的概率依赖性。
图2、框架概述
3、隐藏遮挡变量的行人检测框架
用y表示当前检测窗口的标签。用表示P部分的检测分数。在本文中,假设基于零件的模型将外观评分和变形分数都整合到了s中。通过来表示P部分的可视性。hi = 1表示可见,hi = 0表示不可见。框架的概述如图2所示。
由于培训或测试阶段没有提供h,它是一个隐藏的随机向量。p(y | s)可以通过边缘化隐藏变量h:
(1)
可以通过设置来实现:
(2)
(2)的计算复杂度是h的维数指数。 以上更快捷的解决方案如下:
(3)
是具有的分区函数。从取样,或者通过平均场来近似计算,其中代替(2)中根据的所有个配置的平均值,其中代替其平均配置。平均场近似也用于计算RBM和DBN后验的[14,15,16]。更多细节在[2]中提供。(3)中的不同方法具有不同的实现。称为可见性项。许多基于变形部分的模型[12,23,34]直接总结了基于部分的检测分数。它们可以被认为是在(3)中设置并具有:
(4)
在从基于部分的模型获得s之后,许多遮挡处理方法通过检测得分的加权和来计算。这些方法从阈值检测分数中[29,33]获得(3)中的,或当只有强度信息可用时,从[10]中的线性SVM获得,再或者从其他提示如深度和运动[10] 获得。随着部件之间的变形和已经集成到中的多个线索,这些方法假设(3)中的依赖于,即,其中是到的映射。
总之,许多方法是(3)中的框架的特殊情况,通过设置或者通过考虑依赖于的可见性项。这个框架在考虑部件之间的可视性关系的能力并没有被探索。在本文中,我们探索这种能力,并构建一个深度模型,了解部分之间的可见性关系。在我们的模型中,从将在下一节中介绍的深层模型中学习和 [15]。
4、可见度估计的辨别深度模型
4.1、 限制玻尔兹曼机器(RBM)
由于RBM是我们在下一节介绍深层模型的构建模块,以下提供了对RBM一个简单的介绍。用向量表示二进制可见变量。用h表示二进制隐藏变量。RBM将h和x的概率分布定义为:
(5)
x形成可见层,h形成隐藏层。可见层和隐层之间有对称连接W,但在同一层内没有变量的连接。RBM的图形模型如图3(a)所示。这种特殊的配置使得计算条件概率分布变得容易:
(6)
其中是第n行,是第i列并且是Logistic函数。[14]中的对比分歧用于学习(5)中的参数W,c和b。
图3.(a)RBM,(b)我们的深层模型和(c)DBN。
4.2、 深度可见度估计模型
部分模型:我们的部分模型由3层组成,具有不同尺寸的零件,如图4所示。底层部分尺寸最小,顶层部分最大。上层的一部分由下层的子类组成。顶层是可能的遮挡状态。灰色表示遮挡。另外两层是身体部位。通过组合中间层中的一个或多个部分获得遮挡状态。在该图中,最左部分,即头肩,出现两次(分别表示顶层的遮挡状态和中间层中的部分),因为该部件本身可以产生遮挡状态。
深度模型:所提出的深度模型的图形模型如图3(b)所示。详细信息如图4所示。用表示层中的部分的可视性。在相邻层之间有变量的连接,而在同一层内没有变量的连接。一部分可以有多个父层和多个子层。 以这种方式,一个部分的可视性与通过共享的父层在同一层的其他部分的可视性相关。给定s,的概率分布如下:
(7)
对于图4中的模型。我们有L = 3。,和是要学习的参数。建模和之间的相关性,是第i行,平衡检测分数与其他部分的相关性之间的权重,是偏差项。由于在训练阶段和测试阶段都从基于部分的模型中获得检测分数,所以我们将它们视为观察到的输入变量,而不需要建模。并且该模型可以被认为是条件随机场(CRF)。注意,给定s,和不是独立的,即,尽管它们是独立的,给定和s,即。
图4.使用的部分模型。是每个部分的检测分数,是第i个部分在第l层的可见性。 例如,表示左头肩部分的可视性。
这样,同一层的部分之间的相关性也被建模。
由于提出的模型是一个循环的图形模型,通常是耗时且难以训练的。Hin-ton等人 [15,16]提出了一种深度信念网(DBN)的快速学习算法,已经在许多应用中取得了成功。在这项工作中,我们采用类似的学习算法来训练我们的模型。DBN是一个生成模型,对隐藏变量没有语义含义。我们的模型是一个条件模型,对每个隐藏变量都有语义含义。 由于这些差异,DBN算法不能直接用于我们的模型。 当我们将它们应用于我们的模型时,我们修改了[15]中的训练和推理算法。
训练算法是在(7)中了解可见度相关性,检测分数权重和偏差,有两个阶段。
1、阶段1:对于l = 1到2 {使用RBM的层l和l 1的训练参数}。
2、阶段2:通过反向传播误差导数来微调所有参数。
在阶段1,参数被逐层训练,两个相邻层被认为是具有以下分布的RBM:
(8)
[14]中的对比分歧用于快速学习(8)中的参数。在附录中,我们证明这种层次训练算法正在优化似然函数的下限。在阶段2,变量被排列为反向传播(BP)网络,如图5所示,调整所有参数。推理阶段是从检测分数s推断标签y。在推理阶段,我们使用(3)中的框架来获得p(y | s)。(3)中的部分可见度概率通过图5中的BP网络获得。即:
(9)
图5.用于微调和估计可见性的BP网络
为了减少训练数据的偏差和正规化训练过程,我们强制可见度相关参数W为非负数。因此,我们的培训过程使用了以前的知识,即部分可视性之间的负相关性是不合理的。此外,如果图4中的单元和之间没有连接,则(7)中的的元素被设置为零。以这种方式,我们会根据我们的知识保持最重要的边缘。还有其他方法来建模部分之间的连接,例如,全连接部分模型[3]。他们可能会寻找更多的连接有帮助,但会增加模型的复杂性,降低效率,需要更多的训练样本。他们不是DBN,需要更复杂的推理/学习算法,并且可能需要在训练中修剪边缘。
5、实验结果
提出的框架在四个数据集上进行评估:Caltech [8],ETHZ [11]和Daimler [10]数据集是公开的; CUHK闭塞数据集由我们构建。[5]中的INRIA训练数据集用于训练我们的方法。训练不需要遮挡信息。一旦从这个训练集中学到了模型,就在上面提到的四个数据集上进行了改进和测试。
在实验中,我们使用[12]中的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[138645],资料为PDF文档或Word文档,PDF文档可免费转换为Word