自动实时视频监控框架外文翻译资料
2022-10-25 12:00:18
英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料
自动实时视频监控框架
摘要
视频监控在安防监控方面的不仅是一项需要花费大量的时间去完成而且是受时间参数限制的工作。本文提出了一种实时的视频监控摘要框架旨在最大限度地减少时间。如何减少时间对视频监控的限制?最为关键的任务是在尽可能短的时间里,在时间和空间上面快速的移动物体,一个隧道作为一个独立的时间维度的对象。为了在一个较短的持续时间内形成视频,而且对选定目标的基本信息不造成损失,便于扩展我们对任何给定对象的理解,本研究将利用三个实时算法。直接位移碰撞检测(DSCD)是让研究对象同时在时间与空间中发生快速的移动,这种算法说明了视频可以通过技术从许多不同的方法中提取出来。早期的轨迹搜索其实和DSCD具有相同的技术,通过直接距离变换然后立即被用来查询给隧道和用户的轨迹之间的相似之处。用于识别每个单独的对象最重要的一步是给背景做减法,到目前为止,动态区域自适应(DRA)就是用作背景做减除法,主要的目的就是为了在创造隧道之前为每一个对象选择一个最好的前景。DRA同时也协助DSCD更准确的概括了视频。该框架能够在不丢失原始视频流的重要的事件之下提供具有实时性的视频信号。
关键字:视频摘要、对象跟踪、隧道处理、HOG(方向梯度直方图)、直接位移碰撞检测、距离变换、准时生产制编译器、动态区域自适应、背景减法、前景提取
1引言
视频监控系统被广泛和普遍使用的世界各地的安全监控系统当中。然而,这当中包含几乎是无限的水平的信息以及大量素材,要从中去翻阅或者分析任何子模块是一个非常耗时的工程。通常情况下,回顾漫长的视频监控过程涉及到所记录的原始视频的手动搜索。例如:对一个监控器所拍摄的录像文件进行对目标的预览、拨号、快进、快退等操作需要与之具有相对应的功能的播放设备。然而这些常见的控件是需要对每个对象的活动时间以及大量的经验积累,同时需要耗费大量的时间来确定。与此之外,例如人的能力趋向和时间等因素,在给定的分析周期之内,大大降低了对监控视频进行浏览和分析的整体精确程度。
为了减少很多不相关的信息,我们提出了监控视频整合信息的各种方法,例如在时间和空间上将监控视频的信息进行整合等。最简单的将时间进行压缩的技术就是跳帧或者视频剪辑,其中有很多类型的帧比如对象、颜色、物体的运动等可以根据用户的意愿选择忽略不计,选择他们认为重要的视频文件。这样就能有效的压缩时间参数对于监控视频的影响。自适应的视频快进的发展是受限于如何调整视频的回放速度的,然而即便是增加了视频的回放速度,同时也减少了视频分析的时间周期,但是这也导致视频信息和视频的质量损失严重。
在上述两种方法中,都是讲整个帧整合起来作为字符信息。还有另外一种方法,这种方法考虑到时间和空间这两方面,而且还将空间作为叠加字符作为视频信息,这种方法称为蒙太奇视频。然而,在不同的对象之间变换空间维度上的图像所带来的影响是不可避免的。后来的方法主要是通过在时间维度上转移对象,这样做最大的优点就是保持了对象在空间位置的稳定。通过带状切割所得到的压缩的视频的方法是从切割缝合上得到的启发。(在时空维度上的波纹帧)但是这种方法也有一定的局限性,只有当运动的物体在速度和运动方向有变化的时候进行带状切割才能有很好的效果,这是因为去除了多余的信息然后再进行缝合图像并且对图像的光滑度做了限制的控制色带的灵活性的参数的存在。虽然在时间和空间上对减少了色带的无关信息,但还是需要相当长的时间来计算移动目标的其余部分的能量。
虽然提供了很多视频处理的方法,但是它有许多复杂的计算步骤,主要是对成本和能量两部分进行计算,而这些计算主要分为联机阶段和响应阶段两部分。在这里对作为提取对象在时空中的在这两个阶段计算的简要说明。在联机阶段,物体检测用于在时间、空间中产生一个隧道,然后从对象队列中插入或取出一个待检测的隧道;在响应阶段,视频基本内容主要是由构造时间推移背景和计算在视频隧道中反应所需要的时间组成。最后,将隧道信息与背景结合以生成基本的视频,这不仅需要结合目标移动的时间和背景时间,也取决于在感兴趣的时间周期内的活动量。
随着目标距离基于地图碰撞检测中的应用被第一次使用,近来已经提出了用于对象在时间和空间中快速移动的有效的方法。直接位移碰撞检测(DSCD)是一个对目标进行碰撞检测的技术,它可以计算出时间复杂度为O(n)的对象之间的最短距离。准时生产制编译器(JIT renderer)现在已经被科技人员开发出来了,JIT是英文Just In Time的简写,又称作无库存生产方式。这可以帮助我们只加工我们所需要的视频帧,这样做最大的好处就是大大降低了CPU的占有率,这样系统不仅可以给我们提供每个特定对象在时间和空间中的整体信息,还能够给我们提供其他我们需要的信息,例如运动对象在时空中的轨迹等等。
对于我们而言,比考虑对象的移动方式更为重要的是给我们提供运动物体在时空中基于位置的运动轨迹。我们可以利用各种特征信息来描述单个对象的轨迹,就目前而言我们已经利用了个体形状、开始时间和结束时间、位置、速度、移动物体的加速度等特征信息。动态时间规整算法(DTW)是一种让移动对象在进行时间的伸缩上时的轨迹之间得到更好的匹配,而且这是一种已经被使用的方法,而一些其他的方法是使用最长公共子序列(LCS)来作为一种相似度测量来描述运动物体的轨迹,LCS最大的优点就是可以去匹配移动物体之间的子序列。虽然动态时间归整算法(DTW)和最长公共子序列(LCS)的距离匹配算法得到了广泛的使用,但是他们在计算时间复杂度为O(n2)的对象是具有很大的难度。通过使用时间和子序列的定义来计算轨迹的相似度的方法已经被使用了,其中是因为一个物体的速度导致的在极点上面的时间偏移可以认为是不一样的,根据标准的时间是否固定和是否是子轨道的开始时间来归纳问题其实是等同的,这两者之间没有什么本质的区别。然而,这样的距离函数主要测量和在不同时间内最确切的相似度匹配是时间复杂度为O(n2)的对象。
这里还有另外一种方法,这种方法是为了克服以前的方法在处理轨道的噪声以及障碍物上效率很低的局限性,我们称之为字符串编辑距离算法(ED),CHEN以及其他人在这基础上开发出了一种新的算法,就是在真实的序列上进行字符串编辑距离算法(EDR),这种算法不仅可以去除噪声的干扰,还可以在测试之前改变所测的轨迹对象,因此,EDR提高了测试的精度,尤其是对那些具有高斯噪声的轨道而言,这种算法十分有效。现在已经提出了在两者轨迹之间的区域进行相似性的搜索的方法,GenLIP算法也已经被应用于在空间中对轨迹之间做相似性的搜索,值得注意的是使用空间相似度计算的只需要一个复杂度为O(Nlogn)的对象。
用于视频监控的集群大纲已经被提出来了,由于这种大纲的核心思想是使用轨迹去分析,减少了需要被分析的对象所包含的信息量。两个活动之间的相似性测量定义为运动距离,这种方法不仅需要从尺度不变距离变换(SIFT)的特点,还需要创建无监督聚类的训练集,但是这样做又会导致我们在监控录像中寻找移动物体的轨迹花费很长的时间。
现在已经对利用直接距离变换(DDT)得到的实时轨迹检测进行了评估,其中距离图为轨迹之间的相似性测量为基础的方法是第一次被应用在这上面,通过产生该移动物体的轨迹信息的距离图,这么做的目的是为了提供相似度的值能都快速、直接访问,并且还实时性的通过特定轨迹在距离图上的累加值获得轨迹的相似性,而且系统还能将所有相关对象有序的做一个最高排名,这有助于提高我们对所分析的活动的人的效率。
在本文当中,我们基于以往的工作,提出了一种实时视频监控摘要框架,并且为了减少我们分析所消耗的时间,我们将其作为一种还原工具(图1)。为此,一种被用来尽量减少安防监控浏览和分析目标活动时间和减少以时间为关键的相关任务的实时的方法,我们运用两个从以往的工作经验中所总结出来的实时的、基于地图的距离算法,主要目的是为了提高视频监控的整体性能。第一种是将在时间和空间当中移动的对象嵌入到整体框架当中,这可以帮助我们减少监控视频待分析的数据量,从而减少耗时;第二种是利用轨迹搜索来给每个所选的移动物体匹配最佳的轨迹;此外,动态区域匹配(DRA)包括在时间维度上面对轮廓的背景做减除算法。
本文章节安排如下:在第二章中描述包括组成整个视频监控框架结构设计的各个功能模块;第三章和第四章中将分别介绍DRA、DSCD、电子地图生成、JIT和DDT等简便、快捷、高效的算法在工作记录模块和播放器模块中的应用;第五章将展示从标准的监控视频抓拍的图像和时间性能上分析出来的结果;最后第六章将对我们得出的结论进行讨论。
图1 拟议框架图
2.自动实时监控系统框架
由于这项工作的目标是建立一个实时视频监控整体框架,所以我们将整个过程组织成两个核心模块来是工作流程达到负载均衡,因此,这两个模块可以独立执行或者并行完成工作任务(图1)。第一个模块是记录模块,主要的工作是捕获视频并检测在每个视频帧中所选择的对象的感兴趣的区域(s)。通过分析和处理生产所有对象在时间维度上的物体移动,我们称之为隧道,然后用DRA算法将每个对应一个单独的隧道的移动物体做背景减除形成移动轮廓得到隧道矩阵,接着用DSCD算法计算碰撞距离(3.3)并将每一个单独隧道的数据单独记录下来;第二个模块是用于播放监控录像的播放器模块,这个模块首先获取用户输入的播放长短,例如一个时间段,然后系统收集对应于指定范围内的隧道信息并对隧道的背景源文件进行初始化的操作。然后利用电影地图生成技术生成一个大概的监控视频,再利用JIT翻译器对我们感兴趣的区域进行编译得到我们想要的视频,最后缓冲器再根据用户所查询的位置读取出实时的数据。
在第一个模块当中,所有用来描述隧道的必要信息,如时间、移动速度、方向和移动轨迹等都是嵌入式的。为了快速的搜索移动轨迹,我们还应该用该记录器模块内的距离变化来产生每个对象可用于再生距离变换的轨道信息。播放器模块允许用户在屏幕上画一个移动的路径来搜索对象的移动轨迹,然后在播放器模块中运用DDT算法直接访问所有的隧道信息来搜索出一条最为接近的移动轨迹,这些相似的轨迹还可以作为整体视频信息的隧道滤波器。
3.工作记录模块
记录每个隧道的信息并且预先实时地计算必要的参数是集成在一起的,这么做是为了给播放器模块提供有用的信息资料。本节主要描述使用记录模块的工作步骤,主要包含为原始隧道提供必要信息、提取移动轮廓和利用简单、快速和可靠的算法在规定的时间范围内归纳隧道信息。
3.1 隧道计算
为了创建一个基于活动的隧道的概要性的视频,每一个合适的隧道都需要使用一个适当的目标检测算法对其进行计算。在这项工作当中,我们使用了HOG(方向梯度直方图)算法对人类检测,主要是通过使用一个默认的人类描述符作为我们的主要检测目标的方式。
3.1.1 帧图像分片跟踪
我们这样定义一个隧道,I(t)是在时间空间中的一个图像或一个帧,t是一个帧的编号,N是帧的总数,其中1le;tle;N;检测对象为如图二中的Oj(t)对应着每个这样的对象在帧t当中的区域,其中j是这个对象在I(t)中的索引。如图三所示,一个隧道是由多个片帧S(i)组成的,i是一个片帧的编号,M是所有片帧数量的总和,其中0le;ile;M;如图4中T(n)是一个隧道,n是隧道的编号,K是所有隧道的总和,其中0le;nle;K;为了能够追踪任何给定的隧道,最接近检测对象的的隧道信息可以通过欧式距离算法得到。通过使用多属性效应理论(MAUT)来估算给定隧道的下一片帧图像每个部分的可能性我们称之为置信区间C(m,o)。我们将置信方程用Eq.1表示,其中m是隧道的最后一片丢失帧,o是所有检测对象在隧道最后最接近的片帧的重叠区域,再根据参数m和o的价值按比例进行计算,我们表示为||m||和||o||,每个参数我们取有效值,Wo和Wm是每个参数在公式2中所占的比重:
C(m,o)=Wm||m|| Wo||o|| (1)
Wtotal=Wm Wo=1 (2)
在这项工作当中,由于我们主要跟踪的是重叠区域而不是丢失帧,所以我们令Wm=0.3和Wo=0.7,m和o的值在归一化到(0,1)区间,因此,C(m,o)的最高值和最低值分别为1和0.
用置信值来表示一个新检测的对象在最接近的隧道中存在新的片帧图片的可能性。因此,在该研究中使用0.8的阀值来哪一个片帧超过或者低于该阀值来判断它是否将被我们认定为一个新的片帧信号,如图5中的结果展示。
图2 单帧中检测多个对象
图3(a)在三维时空中两个不同隧道示意图 (b)时空中隧道转移示意图 (c)整体视频帧的幻灯片
图4 隧道检测:(a)两个不同隧道的对象 (b)时空顶视图 (c)空间位置不变,隧道时间移动后的时空图
3.1.2 隧道处理
如图6(左)中所示为多个切片经过分析之后的未经处理的原始隧道,在这里我们可以看到很多的丢失片帧和嘈杂片帧(从宽度和高度的角度观察),这种现象主要是由对象阻塞、色素合并、相机噪声等原因造成的,最终也会影响到我们对于目标对象的分析结果。在整体的计算步骤中,由于碰撞不能发生在嘈杂的片帧中,所以计算碰撞距离的过程受嘈杂片帧的影响是很大的。
为了能够解决以上的问题,我们应该在视频捕获阶段进行隧道处理的操作,因为在这个阶段我们可以捕获到低噪声、完整帧和具有清晰的视野,所以我们可以在良好的条件下去进行隧道检测。但是,在这种情况之下,由于伴随在这种条件之下我们需要花更多的CPU时间,所以我们的整体性能也会随之减低。相比之下,这里采取具有实时性和处理原始隧道的方法就可以分析和处理更少的数据而不是处理整个时间空间上的所有帧,原因是一个隧道T(n)是由片帧S(i)的集成的,而其中每个片帧又是由一个矩形的4个点组成的。
举个例子:如果一个隧道包含2
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151901],资料为PDF文档或Word文档,PDF文档可免费转换为Word