密集描述子和Zernike矩作为特征实现了基于形状的图像检索外文翻译资料
2023-01-19 10:28:13
密集描述子和Zernike矩作为特征实现了基于形状的图像检索
1.绪论
数据时代给信息检索带来了一个新的维度。现如今,用户们想在很短的时间内获取图像或者录像中的相关信息。这个研究会与放射学科领域相关,以此最好找到类似的诊断图像,或者可能与其他领域相关,如股票、商标及广告领域使用的标志等等。编目使用在地质学、艺术和时尚领域。传统基于文本的图像检索主要作用于标注有一些文本或者关键字的图像。但是这个系统的主要缺点是它没有存储关于图像的足够的细节。 为了克服这个局限性,基于内容的图像检索的概念出现在图片中。在CBIR系统中,图像的检索借助于图像的视觉内容,而不是用图像注释的关键词。
CBIR基于底层特征如形状、纹理、颜色和空间位置。为了完善它的工作,底层特征常常与高级语义结合。一般来说,人工手动标注图像的关键字容易出现错误。因此,自动标注可以借助特定的特征去描述图像。这些特征可以是局部的、全局的或者两种特征结合。某些方法如基于图表的学习框架也能增强一张图片的呈现。CBIR系统的成功率依赖于特征提取的方法、特征匹配处理和特征存储程序。为了获得更高的准确度,CBIR 系统面临着许多挑战。形状特征的相关性可以很好地理解,因为人类的感知是基于对象的形状。因此,对物体的分类更好地基于形状而不是外形,颜色等。从商业开发的系统中,如 QBIC, PicToSeek,可以理解形状特征的重要性。
大体上讲,形状定义着图像的轮廓和整个区域。 形状描述方法分为两组,即基于轮廓和基于区域的。 基于轮廓的描述只注重边界线,因此不适用于自然场景中由多个不相交的区域组成的复杂形状,如悬崖、徽章、商标或各种形状。基于区域的方法考虑对象的整个区域所以最适合于复杂形状。通常来说,基于区域的方法用矩描述来描述一个形状,规则矩存储多余信息。低阶矩不能准确地描述形状,因此,高阶矩是可取的,但更容易受到噪声的影响。有不同的基于区域的描述符,如常用的傅里叶描述符(GFD) ,勒让德矩(LMs) ,泽尼克矩(ZMs)等。 ZMs 具有旋转不变性、对噪声的鲁棒性、每阶矩的快速计算等优点。
一般来说,局部特征以这些方式提取: 一种是使用稀疏描述符,另一种是使用稠密描述符。使用第一种方法,即稀疏描述符,特征提取周围的兴趣点,而不是提取每个像素周围的特征是在密集的情况下。例如,Harris检测器、 Harris仿射区检测器、最大稳定极值区(MSER)检测器都是区域检测器。中心对称局部二进制模式(CS-LBP)、尺度不变特征变换(SIFT)、梯度定位和定位直方图(GLOH)、主成分分析和过滤(PCA-SIFT)是众所周知的稀疏描述子。
第二种方法利用密集描述符,其中局部细节在整个图像上逐个像素捕获。 Gabor小波和局部二进制模式(LBP)是两种广为人知的密度描述子。还有很多其他的方法可以用来捕捉图像的局部细节。Ojala 等人提出的局部二进制模式(LBP)主要是为纹理分类和面部图像分析。许多LBP 的变体在扩展LBP方面或者将LBP特征与其他描述符结合起来的方面已经被试验了。Jabid 等人提出的局部方向模式(LDP)是另一个密集描述符,它及其变体已经在SBIR领域中使用。这些描述符在以前的研究工作中没有使用过。为了得到更好和有意义的检索结果,我们结合ZMs和LBP/LDP 的变体,提取图像的局部和全局特征。同数据库的特征集也采用了不同的相似性度量,如欧几里得度量、曼哈顿距离、改变的曼哈顿距离、卡方距离,以检查这些度量的适用性。
本文分析了ZMs 作为全局特征在SBIR系统中的效用。在SBIR 系统中,进一步分析了全局特征和局部特征相结合的有效性。利用局部和全局描述子提取最佳检索精度。全局特征提取方法,针对局部特征提取问题第二节描述了如ZMs。在第三章中讨论了基于密集描述子的各种特征提取技术。第四章解释了所提出的算法。第五章展示了使用局部特征和全局特征(即密集描述符和ZMs)进行的实验结果。第六章提出了基于实验得出的建议。结论是在第七章。
2.基于全局特征的SBIR
全局特征是那些从图像的所有重要像素中获取信息的特征。基于矩的方法解决了提取图像全局细节的问题。ZMs、GFDs、LMs 是正交的矩,每个矩获取独特的信息时没有任何冗余。ZMs在这里用作描述符,用于获取图像的全局细节。
2.1 Zernike矩(ZMs)
ZMs在模式识别、字符识别、图像检索、图像重建、车辆识别等领域被发现具有良好的描述性。ZMs也被选为MPEG-7数据库最好的基于区域的描述符。每个ZMs矩有两个分量,即幅值分量和相位分量。 Zms 的幅值分量是旋转不变的。本文只用到ZMs的幅值分量。
传统在笛卡尔坐标系中用动量阶n和重复m计算连续像函数f(x,y)的ZMs 的方法,通过(1)方程给出了n-| m|为偶数和|m|le; n的约束条件。
(1)
其中 是在单位圆上定义的 zernike 基函数 (x,y)的共轭复数,如下:
(2)
其中
() (3)
是方程(4)中定义的直径 zernike 多项式
(4)
如果 和 分别是旋转图像和原始图像的 泽尼克矩,那么
且 (5)
在笛卡尔坐标系下,传统的ZMs计算方法的缺点是由于边界点的存在,使得圆盘边界附近的信息丢失,从而导致几何误差。为了克服这个问题,将整个图像映射到单元磁盘内,使所有图像像素都成为ZMs计算的一部分。 用这种方法,精确的ZMs计算和数值误差被消除。
3基于局部特征描述符的 SBIR
在本文中,我们对稠密描述符进行了实验,LBP 是最常用的描述符之一,它主要用于纹理分类,然而,它已经应用于面部图像分析、签名验证、唐氏综合征识别、目标检测和识别等。另一种稠密描述符是LDP。
3.1 局部二值模式(LBP)
LBP 是一种基于像素的灰度纹理度量方法,它返回一个稠密的特征集。 原始 LBP 使用每个像素的「3.3」邻域标记图像像素,并用 中心像素值标记阈值,从而得到一个称为 LBP码的二值模式。 「3.3」个领域生成256个像素,每个像素储存的像素频率都与像素对应。 在将 LBP 应用于灰度图像之前,最好将图像分割为不同的窗口或者区域。 然后对每个区域绘制直方图。基于区域的直方图可能在连接成一个柱状图之前被规范化。可以通过 Eq 获得 LBP 代码,其中 表示中心像素的强度, 表示邻域像素的强度。 对于 n 个邻域,可以为任意(,)像素生成二进制或 LBP 代码。
,
(6)
邻域可能是不同的,如图1所示,例如,相邻1个像素相当于8个邻域值rsquo;1rsquo;相邻2个像素相当于16个邻域值rsquo;2rsquo;,相邻3个像素相当于24个邻域值rsquo;1rsquo;。LBP 在每种情况下(即,相邻1,2或3)分别表示为 ,,。相邻为单一像素时,像素之间的相关性仍然很高。因此,领域值一般保维持很小。
LBP 还有很多变体,它们强调增强其判别能力和鲁棒性。 此外,为了提高其性能,LBP与其他方法相结合,如 CS-LBP、Haar 小波和LBP(HLBP)、统一LBP、LBP直方图 傅里叶描述符(LBP-HF)等。本文所采用的变量有助于突出边缘以提取局部细节或优化特征集。
表1 不同邻域中的LBP
1 |
1 |
1 |
||||
1 |
. |
1 |
||||
1 |
1 |
1 |
||||
(a)
2 |
2 |
2 |
2 |
||
2 |
2 |
||||
2 |
. |
2 |
|||
2 |
2 |
||||
2 |
2 |
2 |
2 |
||
(b)
3 |
3 |
3 |
3 |
3 |
3 |
3 |
3 |
3 |
|||||
3 |
3 |
|||||
3 |
. |
3 |
||||
3 |
3 |
|||||
3 |
3 |
|||||
3 |
33 |
3 |
3 |
3 |
3 |
3 |
(c)
3.1.1一致局部二值模式(ULBP)
原来的LBP算子被扩展到到统一模式。如果二进制模式由最多两个从0到1的位转换组成,或者反过来由0到1的位转换组成,并假设位模式为顺时针或逆时针,则 lbp 码被描述为统一模式。例如,10100001和11100101是不统一的模式,而1000001和000000000是统一的模式。这把256像素的需求降到了59像素。 在256个像素中,58个符合上述条件的模式被称为统一模式,其余198个不统一模式被放入第59个坐标值。
3.1.2局部二元模式直方图傅里叶 (LBP-HF)描述符
原始 LBP 代码不是旋转不变量。这意味着如果图像被旋转,那么LBP模式将被改变。在这个描述符中,直方图是用58个统一的 LBP(ULBP)像素生成的,其中2个像素代表0000000和11111111,剩下的56个像素代表78个方向。8位模式中单个1的均匀二进制模式有8个方向,简单地说,两个连续1的模式也有8个方向,以此类推,最多可以有7个连续1的模式。分别对ULBP模式的7行(即一个连续的1,两个连续的1hellip;hellip;hellip;7个连续的1)的8个方向应用快速傅里叶变换(FFT)。基于快速傅里叶变换(FFT)技术,采用7排5像素的方法,将56个均匀图案分解为35个均匀图案。本图的特征设置包括两个均变模式(00000000和11111111)和一个单变模式(对不均匀模式)。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238043],资料为PDF文档或Word文档,PDF文档可免费转换为Word