SURF算法在全景图像拼接中的应用外文翻译资料
2022-09-06 11:18:42
英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
SURF算法在全景图像拼接中的应用
Luo Juan ,Oubong Gwun
计算机图形实验室,计算机科学与工程系
全北大学,全州 561-756,韩国
电子邮件:qiuhehappy@hotmail.com, obgwun@chonbuk.ac.kr
摘要——SURF(快速稳定性特征) 算法是最著名的特征检测算法。本文提出了结合了一种图像配准算法、改进的算SURF法和一种图像融合算法及多波段融合的一种全景图像拼接系统。处理过程分为以下几个步骤:首先,用改进的算法得到图像的特征描述;然后,找到匹配的图像,用K-NN(最邻近)分类算法,并且通过RANSAC(随机抽样一致)算法删除不匹配的图像;再然后,通过光束平差法调整图像并且估计准确的单应矩阵;最后,通过多波段融合融合图像。另外,作为图像匹配算法的一个基本算法,本文也将SIFT(尺度不变特征变换)算法和改进的SURF算法做了比较。根据实验,现在的系统可以进行无缝拼接并且得到一个完美的大图像数据全景图,而且它比先前的方法更快。
关键词——全景图,SURF,拼接,多波段融合,LM,光束平差法
一、介绍
把多幅图片拼接在一起可以生成漂亮的高分辨率的全景图。现在流行的方法是通过允许各个视角的场景被连接成一个视角来有效地扩展摄像机的视野,这是在图像标记和融合上最流行的应用之一。图像拼接算法已经被用于产生数字地图和卫星图片,并且在现在的数码相机上也有应用,还有更多的应用,比如视频拼接、3D图像拼接等等。
通常来说,拼接包括两个部分:图像配准和图像融合。图像匹配通常用于找到两幅或多幅图像之间的变换关系,它还影响到图像拼接过程的成功率和速度。因此如果有一种既快速又高质量图像算法,选择快速的图像处理算法会更好,就像本文选用的SURF算法一样。对于图像配准和图像融合有很多算法。对于图像配准,有两种:直接法和特征检测法。直接法总是需要一幅高质量的图像,因而有时不太方便。SURF和SIFT算法因为其稳定性,成为最著名的两种特征检测方法。SIFT是Lowe在2004年提出的[1],这种方法尺度变换和旋转都是不变量,因此这种方法被广泛用于物体识别、图像标记、图像拼接等等。有很多研究学者在SIFT基础上做了改进后提出了一些新的方法。Ke和Sukthankar[2],用PCA(主成分分析原则)标准化了梯度补偿代替了直方图。他们表明基于PCA的局部描述子在图像变换上也很有特色并且稳定。在2006年Bay和Tuytelaars[3]加速了稳定特征算法并且对图形卷积和快速Hessian矩阵检测子使用了图像积分技术,这开辟了一个稳定特征检测方法的新趋势。这里也有关于比较一些常用的特征检测方法的研究[7][8]。
图像拼接的另一部分是融合。但是在融合之前,我们需要将图像调整到通一个坐标系中,使得可以应用由先前得到的匹配的图像计算出的单应矩阵。光束平差法是调整图像的常用方式。在Brown和Lowe的全景识别论文中[9],他们统一不同照度的相邻图像并且消除由几何校正或者动态场景引起的颜色的不连续的情况。
融合算法有:加权平均线性融合法、多波段融合、梯度域融合等。本文选择多波段融合方法,尽管它是考虑到结果质量和时间成本的一种折衷,但是它具有良好的性能,这使得很容易通过实验得到结果[10]。
简而言之,我们提出了一种全景图像拼接的处理方法,其中结合了图像匹配系统、改进的SURF算法和一种图像融合算法,多波段融合算法。我们处理方法的过程是:第一步,从图像中找到SURF特征,用KNN(K最邻近)和RANSAC(随机抽样一致)算法找到正确的匹配图像;再根据LM(Levenberg-Marquardt)方法估计单应矩阵;第二步,根据单应矩阵调整图像坐标。最后,通过多波段融合算法融合图像消除拼接缝隙和照度差异。本文的结构如下:第二部分重述SURF匹配算法的基础知识,给出SIFT和改进的SURF算法的比较结果。第三部分将描述变换和融合的方法。第四部分将给出本文的实验结果。第五部分我们给出结论和未来的工作。本文所使用的所有图像将在附录中给出。
二、稳定性特征检测
这部分我们探索全景图像拼接的准备阶段:特征检测。首先,这部分给出了一个有关于SIFT算法和SURF算法的简短的评论,然后展示出改进的算法在我们基于实验的图像拼接过程中比SIFT算法更加合适。
A.改进的SURF算法
与SIFT算法相比较,SURF算法在检测特征时采用了略微不同的方法。SIFT建立了一个图像金字塔,在增加sigma的值时对每一层进行高斯滤波并求取图像差来进行特征提取。另一方面,SURF算法以低于2:1的速率从金字塔的上层向下采样获得了一个图像堆,从而获得相同分辨率的图像。由于积分图像的使用,SURF使用了近似高斯二阶偏导数的滤波器对图像堆进行滤波。
在常数时间下,积分图像允许使用方波滤波器计算[3]。本文使用KNN算法并将设置为2找到最邻近点。在另一篇文章中,RANSAC被用来评估一个用于找到最小错误率匹配集的模型,通过比较最近距离和次近距离发现里面可能包含正确的匹配[1]。如果低于这个距离比例本文将保留,否则将其移除。根据Lowe的SIFT实验,本文决定选择0.5作为距离比例。这使得重复率变大,这将改善匹配结果。有关于这个算法的详细信息,可以从文章[1][14]中看到。
B.SIFT和改进的SURF算法的比较
对于全景图像拼接过程,我们将SIFT算法和采用了RANSAC原则的SURF算法进行评估[6]。他们在给定的匹配集中减少错误匹配数量和保留正确匹配的能力方面被评估,这在下一步的特征检测中会被用到。在提取了尺度不变特征之后,我们用K最邻近原则得到了潜在的特征匹配,然后使用RANSAC算法删除错误匹配。我们称之为改进的SURF算法。它使得图像匹配更简洁。为保证论文的完整性,这部分将展示一些比较结果。它展示了在亮度和尺度变换上性能(一致的数量,重复率)的比较。比较的详细结果可以在文章[6]中可以看到。实验结果和对象数据集在附录A中展示出来了,所有的图像大小都是300*240像素。尽管SIFT比改进的SURF算法得到了更多的匹配,但是改进的SURF算法比SIFT算法快很多[6]。
图1和图2分别给出了改进的SURF和SIFT在尺度和亮度改变上的匹配结果。更多的结果可以在表1和表2中可以看到。在表1和表2中,对象数据集图像数量表示图像数据集对象的数量。在表1中,匹配数量表示在尺度变换上的匹配点数量。在表2中,可能建立的点到点的匹配数量的重复率比例被计算出来了并且在两幅图像中平均检测点的数量用方程(1)计算:
上式和表示匹配图像的数量、被独立检测点的数量。
图1改进SURF算法(右图)和SIFT(左图)在尺度变换上的匹配点
图2改进SURF算法(左图)和SIFT(右图)在亮度变换上的匹配点
表1 改进SURF算法和SIFT在尺度变换上的匹配点数量
表改进算法和在亮度度变换上的重复率
表1显示出改进的SURF和SIFT在尺度变换上一样稳定,表2中显示在亮度变换上改进的SURF跟稳定。论文[6]显示,尽管改进的SURF在旋转上不如SIFT,但是在其他方面的性能和SIFT一样稳定。
在全景图像拼接中,通常没有非常大、快速的旋转,因而本文考虑到时间成本和在尺度和亮度上的良好性能选择改进的SURF算法作为特征检测的方法。
三、变换与融合
这部分探索后期的步骤:全景图像拼接前的图像变换和融合。它描述了图像变换和融合选择的算法以及为什么选择。
A.图像变换算法
图像调整的目的是把图像转化到统一坐标系或者计算平面。在这篇文章中,我们选择光束平差法作为图像调整算法,因为它在计算机视觉方面很流行并且在显示软件:SIFT关键点检测软件中表现除了很好的性能[16]。光束平差法的过程如下:首先,选择图像之一作为参考平面:然后,把其余的每个图像都转化到这个平面上,最后所有的图像都在这同一平面上。但是有一点,为了得到更大的视野,我们需要从图像的像素边界极大地拓展得到的展示平面。通常组成更大的全景图的选择是用圆柱形或者球形投射。
转化需要在调整中计算单应矩阵并且优化矩阵的参数。过程如下:首先找出每幅图像的最邻近图像,然后直接计算两幅图像间的距离,最后,最小化两幅图像间距离的值去调整矩阵。LM是使用非线性最小方差值的最小化方法之一,也是光束平差法中用于最小化的最流行的算法之一。一句话,我们需要做的是减少转化误差,用方程(2)计算:
其中是欧氏距离,和是对应的点,估计单应矩阵用于方程(2)最小化,是矩阵的逆矩阵。成为非线性最小二乘问题的标准方法,并且可以被认为是最速下降和高斯——牛顿方法的结合[11]。有一个自由的实现方法,可以在文章[17]见到。
B.图像融合算法
从数学上说,图像融合无非是一种插值类型。混合的目标是产生一个看不到原始图像信息的新图像。平均加权融合是一种常见的线性方法,在重叠区域中使用简单的图像均值。这导致有重影,模糊,和降低马赛克的可见的接缝,双线性混合也一样。但线性混合方法是快速的并且如果你不太要求质量它是质量和速度平衡的最好结果。Burt和Adelson[12]多波段融合或被称为金字塔融合的工作已经证明是不带模糊和重影效果的、特别有效的图像拼接。它会产生比“线性”模式更好的结果。图像之间的过渡区将很难看到。比较结果可以直接在文章[10]中看到。当保留了高频率的细节时,尽管光照有差异,多波段融合方案仍然确保了图像之间的平滑过渡。所以本文我们选择多波段融合法(2段的)。
多波段融合的思想是在一个大的空间范围内融合低以及在小范围内混合高频。拉普拉斯金字塔将图像分解成一个N波段图像的集合。拉普拉斯金字塔处理后的最终图像是由方程(3)得到:
其中、为是经过坐标变换的两图像拉普拉斯金字塔第K层的分解,是最终组合结果的拉普拉斯金字塔分解后的第K层。同样,是图像模板经高斯金字塔分解的第K层。当保留了高频部分的清晰的过渡的同时,金字塔融合也渐渐融合了低频部分。实验结果将在后续部分显示出来。
四、实验及结果
实验在Visual Studio 2008 C 和OpenCV环境中已经完成。在这一节中,我们将给出关于本系统的一个详细描述,并显示以时间成本与全景图质量为重点的实验结果。
A.当前系统的流程图
在给出实验结果之前,我们在图3中展示了我们拼接过程的流程图。主要部件有:匹配和融合。这两部分的连接是已经匹配成功的图像。在匹配部分,首先,我们修改后的SURF算法用来检测特征点。在试验中修改的SURF算法特征描述子是64维向量。其次,在该描述子中,计算了邻近图像间的欧氏距离平方比,具体使用是最邻近距离比上次邻近距离。如果它存在并且它的值是低于阈值(设置为0.5),我们仍把它作为最邻近图像。所有这些都可以用K最邻近算法(2)描述。最后,RANSAC用于估计模型一致性,减少匹配误差。这是一个迭代的过程,其中的目标就是要找出最大最好的特征点用于转化。匹配如果符合匹配的最小化错误模型被称为正确匹配或对应的匹配。
图3.全景拼接系统流程图
在混合部分,第一单应矩阵H可以基于这些一致匹配的基础被估计,H被用于最小化方程(2),可用LM计算得到。然后图像间的调整就完成了,换句话说,用H矩阵将图像转化到了相应的图像的同一坐标系下。现在的全景图已经得到了,但有一些颜色与照明拼接误差。最后,利用多频混合,根据方程(3)[15]重置重叠区域的值,使转换误差或焊缝不可见。
B.实验
实验主要包括:全景图质量(拼接)测试和时间成本测试。一个很好的拼接程序应该使得全景图的无缝、清晰,并能在各种应用中快速地使用,例如实时处理。在这个实验中,我们使用的是在附录B中所示的Camp数据集。其他数据集,可以在文章[18]中找到。
1)拼接测试:图5和图4显示了多波段融合前和多波段融合后的结果。这些图像,我们使用4个图像;来自Camp数据集的img3,img9,img10,img11。图4中的三个接缝处很容易找到,这是由亮度和颜色引起的。图5看起来非常清晰和完美。
图4.混合处理前有明显的接缝的全景图
图5.图4经混合处理后无缝的全景图
接下来,我们做了一个大数据集的实验。在这个实验中,我们使用了16张来自Camp数据集的图像。图是目前的程序的结果,图6是SIFT演示的结果[17]。
图6.基于SIFT
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[146926],资料为PDF文档或Word文档,PDF文档可免费转换为Word