双目显微视觉系统的精密三维运动跟踪外文翻译资料
2023-08-07 11:09:35
附录B 外文原文
Precision 3-D Motion Tracking for Binocular Microscopic Vision System
Song Liu and You-Fu Li , Senior Member, IEEE
ABSTRACT
In this paper, a three-dimensional (3-D) motion tracking method is proposed for binocular microscopic vision system to precisely record the motion trajectories of millimeter size objects in the Cartesian space. Primarily two fundamental problems are solved. The first problem arises from the limited depth of field (DOF) of microscope. Considering the motion of the objects, the existing autofocusing methods requiring sequential images either in focus or defocus are not workable. Therefore, a one-shot prior autofocusing approach is desired, which needs to take the motion tendency of objects into account. Besides, the autofocusing process always lags behind the motion of objects, and there inevitably will be prediction deviation on the motion tendency of objects. This leads to the second problem to estimate the 3-D motion states from defocused images. In this paper, we first explain the defocusing process from the perspective of S-Transform, based on which the Bayesian inference inspired method to estimate the depth from defocus from one single image is derived thereafter. Afterwards, a motion states, including both the position and velocity, estimation approach is developed within the Kalman filter framework. The above two aspects mutually supply the necessary information for each other to be functional to accurately realize the DOF tracking and motion tracking of movingobjects.Experimentswerewell-designedtovalidate the effectiveness of the proposed method, and experiments result showed a tracking precision of 3 micro;m was achieved.
Keywords:Three-dimensional (3-D) motion tracking, Bayesian inference, binocular microscopic vision, depth of field (DOF) tracking, Kalman filtering.
Ⅰ. INTRODUCTION
Learning from demonstration (LfD) has demonstrated its powerful advantages to endow robots with the ability to capture complex mankind skills without manual programming [1]–[3]. One core problem in LfD is to enable the robot to capture the demonstrated behaviors in order to understand thetasks thereafter [4]. For macrooperations, the tasks can either be taught in joint space or in task space [5]. However, for precision manipulation tasks, taking the assembly of stem-winder as an example, visual demonstration in task space seems to be the most suitable approach due to the cost-effectiveness, easydeployment, and noncontact [6]. Considering the limited depth of field (DOF) of microscope, two microscopes are necessary to precisely perceive the motion trajectories of the demonstrated behavior [7]. This gives rise to the scientific problem of precision three-dimensional (3-D) motion tracking for millimeter size object under binocular microscopic vision system, which is rarely reported in the literature and highlights the significance of this paper.
We first conceptually differentiate the 3-D motion tracking problem dedicated in this paper from the traditional visual tracking problem. The traditional visual tracker estimates the stateofobjectincurrentframewithasingletrainingexampleprovided in the first frame, which does not perform re-detection or use any future frames for pose estimation [8], [9]. The object state is defined as a rotated bounding box. The Bounding box drifting off the object is considered as a failure. The traditional visual tracking rarely tackles the camera directly, but instead focuses more on the video stream. It is always supposed that clear images are captured. Besides, the traditional tracking emphasizes on determining the bounding box on the two-dimensional (2-D) image plane without re-detection rather than tracking precision. Most importantly, the tracking can either be implemented online or offline. As for the 3-D motion tracking under microscope in this paper, we need to precisely extract the motion trajectories of objects rather than determining a bounding box.
Methods for 3-D motion tracking has been widely reported in literature recently, which can be categorized into three classes, such as the depth camera-based approaches, the motion sensor-based approaches, and the binocular vision-based approaches. For example, a human hands motion tracking method by using an RGB-D camera and inertial measurement unit (IMU) is proposed in [10]. A human upper limb motion tracking approach based on the Kinect sensor is presented for interactive humanoid robot arm imitation system [11]. An indoor motion tracking system for elderly assisted living home based on wearable device MPU6050 motion sensor is reported in [12]. These depth-camera based and motion sensor-based approaches cannot handle the tracking problem of millimeter size objects, because the depth camera and motion sensor are based on structured light or other energy emission. Therefore, these approaches have requirement on the size of object in order to gather enough reflected energy for analysis. Binocular vision system is another approach for 3-D motion tracking [13]. However, macrobinocular vision system can hardly possess the capacity of micron level precision object localization. Besides, the macrobinocular vision system measures depth information based on projective geometry, and requires the two cameras having large common field of view (FOV) in order to capture common feature points. Both conditions can hardly be met for small objects tracking.
The motivation of this paper is to develop the 3-D motion tracking algorithm for binocular microscopic vision system for millimeter size object tracking. Due to the characteristics of a microscope, two fundamental problems need to be solved. The first is one-shot depth from defocus estimation. Most of the reported autofocusing approaches req
剩余内容已隐藏,支付完成后下载完整资料
附录A 外文译文
双目显微视觉系统的精密三维运动跟踪
摘要
提出了一种用于双目显微视觉系统的三维运动跟踪方法,用于精确记录毫米级物体在笛卡尔空间中的运动轨迹。主要解决了两个基本问题。第一个问题来自于显微镜有限的景深(DOF)。考虑到物体的运动,现有的自动对焦方法需要连续的聚焦或去聚焦图像是不可行的。因此,需要一种考虑物体运动趋势的单镜头先验自聚焦方法。此外,自聚焦过程总是滞后于物体的运动,对物体运动趋势的预测必然存在偏差。这就引出了第二个问题,即从散焦图像中估计三维运动状态。在本文中,我们首先从s变换的角度来解释散焦过程,然后在此基础上推导出贝叶斯推理方法来估计单幅图像的散焦深度。在此基础上,提出了一种基于卡尔曼滤波的运动状态估计方法。上述两个方面相互提供了必要的信息,为准确实现运动目标的自由度跟踪和运动跟踪提供了必要的信息。通过设计实验验证了该方法的有效性,实验结果表明该方法的跟踪精度达到了3um。
关键词:三维(3-D)运动跟踪、贝叶斯推理、双目显微视觉、景深(DOF)跟踪、卡尔曼滤波。
Ⅰ.介绍
从演示学习(LfD)已经证明了它的强大优势,赋予机器人捕获复杂人类技能的能力,而不需要手动编程[1][3]。LfD的一个核心问题是使机器人能够捕获演示的行为为了理解以后的任务。对于宏操作,可以在联合空间中进行,也可以在任务空间[5]中进行。然而,对于精确操作任务,以卷杆机的装配为例,在任务空间中进行可视化演示似乎是最合适的方法,因为它具有成本效率高、易于部署和非接触式的[6]特性。考虑到显微镜的有限景深(DOF),需要两台显微镜才能精确地感知所演示行为的运动轨迹。这就产生了双目显微视觉系统下毫米级目标精确三维(3-D)运动跟踪的科学问题,这在文献中鲜有报道,也凸显了本文的研究意义。
首先从概念上将本文研究的三维运动跟踪问题与传统的视觉跟踪问题区分开来。传统的视觉跟踪器是利用第一帧提供的单一训练样本来估计当前帧中目标的状态,不进行重复检测,也不使用任何未来帧来估计姿态[8]、[9]。对象状态被定义为一个旋转的包围框。从物体上漂移的边界框被认为是失败的。传统的视觉跟踪很少直接针对摄像机,而是更多地关注视频流。通常认为清晰的图像是被捕获的。此外,传统的跟踪方法侧重于确定二维(2-D)图像平面上的边界框,而不是跟踪精度。最重要的是,跟踪可以在线实现,也可以离线实现。对于本文中显微镜下的三维运动跟踪,我们需要精确的提取物体的运动轨迹,而不是确定一个边界盒。
三维运动跟踪方法近年来在文献中得到了广泛的报道,主要分为基于深度相机的方法、基于运动传感器的方法和基于双目视觉的方法三大类。以[10]为例,提出了一种基于RGB-D摄像机和惯性测量单元(IMU)的人手运动跟踪方法。针对交互式仿人手臂仿真系统[11],提出了一种基于Kinect传感器的人体上肢运动跟踪方法。摘要介绍了一种基于可穿戴设备MPU6050运动传感器的老年人居家运动跟踪系统。这些基于深度相机和运动传感器的方法不能解决毫米级目标的跟踪问题,因为深度相机和运动传感器是基于结构光或其他能量发射的。因此,这些方法对对象的大小都有要求为了获取足够的反射能量来分析。双目视觉系统是实现三维运动跟踪的另一种方法。然而,宏目视觉系统很难具备微米级目标精确定位的能力。另外,宏目视觉系统基于射影几何测量深度信息,要求两个摄像机具有较大的共视场(FOV)来捕获共特征点。对于小目标跟踪来说,这两个条件都很难满足。
本文的研究目的是开发用于毫米波目标跟踪的双目显微视觉系统的三维运动跟
踪算法。由于显微镜的特性,需要解决两个基本问题。第一个是离焦估计的单镜头深度。
大多数报道的自动对焦方法需要连续的聚焦或离焦图像来确定离焦[14][16]的深度。
例如,在[17]中提出了一种称为爬山的自动聚焦方法,该方法采用了一种相当复杂的策略来分析不同位置的图像,以找到最佳的相机位置。这些方法可用于视图中的静态对象,但不能用于运动对象。二是从散焦图像中估计物体的三维运动状态,因为自聚焦过程总是滞后于物体的运动。这实际上是一个来自不准确和有噪声的观测[18]的估计问题。
本文的其余部分组织如下。第二部分提供了主要的系统配置和所提出方法的概述。第三部分讨论了基于贝叶斯推理的单镜头自动聚焦方法在双目显微视觉系统中的应用。第四部分提出了基于卡尔曼滤波的运动状态估计方法。第五部分给出了该方法的实验结果。最后,第五部分对本文进行了总结。
Ⅱ.前言
在本节中,我们首先阐明了双目显微镜三维运动跟踪系统的基本系统结构,以便于之后系统地展开所提出的方法。还包括了显微镜的光轴标定、物体在笛卡尔空间中的三维坐标计算等前期工作。最后,对所提出的三维运动跟踪方法进行了概述,以概括本文的总体思路。
- 基于双目显微镜的三维运动跟踪
如图1所示,双目显微视觉系统从两个正交的方向观察运动物体,包括侧视图显微镜和前视图显微镜。两个显微镜安装在相应的运动机构上,运动机构可以将显微镜沿其光轴进行相应的平移,从而调整透镜到物体的距离。由三个平移自由度组成的非本质操作臂也参与了视觉系统的标定、行为演示和所教行为的再现。在机械手上建立世界坐标{W}和坐标{P}。坐标{Cf}和{Cs}分别建立在前视显微镜和侧视显微镜上。
图一 基于双目显微镜的三维运动跟踪系统
视觉系统的标定主要涉及到图像的雅可比矩阵,其定义和标定在我们之前的工作中比较繁琐。为保证本文的完整性,本文的解析公式如下
其中Jf和Js分别是前视镜和侧视镜的图像雅可比矩阵。
假设对象的起始位置在前视图和侧视图Pf 1和Ps1,和前视图对象的当前位置和侧视图Pfn和Psn的三维位移位置Pn对位置P1可以直接与合资伪逆的计算。通过对目标运动的所有采样位置,可以捕获目标的运动轨迹。注意,运动轨迹用坐标{P}表示。实际上,借助于图像的雅可比矩阵,可以很容易地将运动轨迹转换成{Cf}、{Cs}或其他类似平移机构的坐标。此外,我们先前的研究工作证明更高的精度优于显微照相机年代像素当量(通常3 5mu;m)可以实现。
该方法中,显微镜的光轴是计算显微镜支撑机构运动增量以获取清晰图像的重要因素。在[19]中给出了基于图像雅可比矩阵的显微镜光轴方向矢量的详细推导。在此,我们将显微镜光轴的归一化方向向量分别表示为前视和侧视的V f和V s。注意,它们也在{P}中表示。
- 三维运动跟踪方法综述
图2所示为用于双目显微视觉的三维运动跟踪方法框架系统。程序上,首先从侧
图二 三维运动跟踪方法综述
视图和前视图捕获If (u, v)和Is (u, v)图像,提取特征点Pfn和Psn。然后,利用特征点和图像来估计基于贝叶斯推理的udf d。利用图像雅可比矩阵Jv和特征点Pfn、Psn计算出目标位置Pn的观测值Pn。最后根据估计的udf d和基于卡尔曼滤波的Pn确定Pn,生成目标的三维运动轨迹。
注意卡尔曼滤波还可以预测下一个采样循环的目标位置,即, P n 1,它与估计的udf d一起用于转换显微镜,以捕获尽可能清晰的图像,以便下一次跟踪位置。对于显微镜来说,首先通过几个迭代控制循环来提取考虑到物体运动的特征点是不现实的,否则会失去运动轨迹上的采样率。因此,我们需要在一个采样周期内估计离焦深度,并在最坏情况下根据不清晰的图像确定目标位置。这一点突出了本文所面临的困难和本文的主要贡献。将现有的自聚焦方法视为后向自聚焦,我们将本文提出的方法称为单镜头先验自聚焦。
在图2的框架中,离焦深度的贝叶斯推理和基于卡尔曼滤波的运动状态估计是提出的三维运动跟踪方法的关键技术。因此,第三节和第四节将着重于这两个方面。表中列出了图2和第三、四部分中使用的部分变量。
Ⅲ. 基于贝叶斯推理的深度离焦估计在单样本周期
显微镜的特点是与传统的宏观视觉相比,它的自由度有限。基本上有两个方法将物体置
表一 变量列表
于显微镜的观察范围内。,通过主动改变透镜的焦距或主动改变物体的距离。由于改变透镜的焦距会改变显微镜的FOV,所以在大多数应用中主动改变物体距离更为可取[17]。
当物体脱离DOF后,特征点将被模糊,如图1所示,这可以解释为散焦平面上特征点周围的能量扩散。传播的能量可以被描述为一个点扩散函数与参数delta;[16]。根据几何光学,我们有
其中f和R为光学透镜的焦距和半径,p和u为清晰图像捕获的图像距离和目标距离,p为目标距离u udf d形成清晰图像的理想图像距离。(2)产量深加工
在大多数实际应用中,显微镜的物距u约为几厘米。考虑到物体在精密尺度下的运动速度通常小于10mm /s,一个采样周期内物体运动引起的udf d将在1毫米范围内。式(3)可近似简化为线性关系。自udf d可以是负和delta;应该是积极的,我们有
因为它不是一个udf d和delta;一对一的关系,是不可能估计udf d从一个单一的形象与一个单一的显微镜。与此同时,这也是一个挑战估计扩散参数delta;从一个单一的形象。在接下里的部分,我们首先提出的方法估算delta;S-Transform和统计的基础上,和第二获得udf d的方法充分利用提供的信息两个显微镜。下面,我们表示k = u2/2pR。
- 单步扩展参数估计
将模糊图像看作点扩展能量的叠加,可以将散焦图像g(x, y)描述为聚焦图像f(x, y)与点扩展函数h(x, y)卷积的结果。
为了便于分析,我们用连续变量x和y代替离散变量u和v。本文将图像f(x, y)近似为一个三阶多项式函数,在大小约为99个像素的小区域内近似为[16]。
然后,基于s变换,得到模糊图像
在
考虑点扩散函数的几何对称性,得到h0,0 = 1, h0,1 = h1,0 = h1,1 = 0。因此
点扩散函数的参数delta;满足传播
结合(9)和(10)的产量
- 是拉普拉斯算子,(11)式子俩边都满足。
由于f(x, y)被假定为一个三阶多项式,所以(12)式最终变成
这还导致了
注意,在数学上,有两种方法来计算传播参数delta;(14)。第一种是基于一个聚焦图像和一个去聚焦图像,然而第二种是基于两个散焦图像具有两个不同的扩展参数。这两种方法都需要从相同的静态场景中捕获图像,考虑到对象的运动很难满足这一要求。本文提出了一种基于统计的方法来解决这一问题。受到(13)的启发,散焦过
程不会改变图像的二阶导数。因此,从理论上讲,如果我们试图基于拉普拉斯算子定位边缘点,而忽略了透视效应,则离焦过程不会改变边缘点的位置。自的对象主要是集中反映的对象边缘图像,我们可以统计估计扩散参数delta;从边缘点周围的临近
图三 边计划估计扩散参数delta;
像素。
我们可以合理地假设,对边缘点作拉普拉斯变换会得到零。因此,不能通过边缘点直接估计传播参数。边缘点的相邻像素提供了另一种方法。如图3所示,内边缘和外边缘分别与延伸到物体区域和背景区域的物体边缘恰好相邻。内缘和外缘应该是连续的轮廓。
假设内边缘点和外边缘点的强度服从高斯分布。利用图像像素点可以对期望、标准差等分布参数进行统计估计。程序上,我们需要首先定位物体的质心。然后,通过相对于形心扫描图像来捕获边缘像素。由于这是一份琐碎的文件,这里省略了计算过程的细节。
对于特定的运动跟踪任务,首先从初始聚焦图像f(x, y)中估计foe (x, y)和fie (x, y),然后在物体运动的某一时刻,从离焦图像g(x, y)中估计goe (x, y)和gie (x, y)。随后,和是通过计算从g(x,y)到来评估的。注意前面提到的所有foe (x, y),fie (x, y),goe (x, y),gie (x, y),和服从高斯分布,当f(x, y), g(x, y)和是2D图像。最后,参数delta;估计为传播
理论上,delta;2遵循柯西分布来源于(15),没有期望价值。不需要此属性,既不是从直觉上也不是从角度上计算这个过程。为了解决这个问题,我们假设和是连续的,这里是它们的期望值。这个假设有两个方面是合理的。首先,作为一个物理变量,测量delta;2应该受到高斯噪声。第二,由(13)得,和应该和与对等。我们提出的方法来获得和与目标在成像平面上的位置无关。在这种假设下,delta;2遵循的高斯分布
mu;和标准差sigma;值相应的高斯分布。对于符号方便,传播参数delta;如下:
需要指出的是,在显微镜看来,除了与图像平面上物体的位置无关外,分布的统计计算过程也与物体的姿态无关。这可以解释为,这些统计分布以全局方式反映离焦水平,而不是以局部或像素尺度。这些特性赋予了该方法对运动跟踪任务和目标细节的通用性。另外,虽然在(15)中
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[607092],资料为PDF文档或Word文档,PDF文档可免费转换为Word