信号相似性比对及其在不规则形状识别中的应用文献综述
2020-04-15 18:03:55
1.论文选题的目的和意义
信号的相似性在海量数据挖掘、信号处理和图像处理等诸多领域有着极为广泛的应用,相似性度量通常用于比较一些数据集、图像、形状、一维信号以及多维信号等方面相似性的一个函数。在图像配准、特征匹配、信息检索、数据挖掘、计算机视觉、卫星遥感以及天气预报等领域,相似性度量有着基本但却不可忽视的作用。
近年来,随着数据不断丰富,各行各业都产生了大量的数据,人们对功能强大的分析工具的需求逐步上升,数据挖掘开始得到广泛应用。在数据挖掘中,如果想要对数据进行聚类,邻域搜索这样的算法,必不可少的一步就是进行相似度分析。同样,在模式识别领域中,为了判断待分类样品与哪个模式的模版匹配程度更好,首先应该做的工作就是计算样品与样品之间或者模式类与模式类之间的相似程度;在医学方面,各种生物信号如心电信号、脉搏信号、呼吸信号等机体生命活动的基本信号的处理上,关键问题也是描述和分析信号间的相似程度。由此可见相似性的度量问题的比较研究可以为很多实际应用中的相似性度量方法的选择提供重要的依据。
2.信号相似性比对的发展以及研究现状
相似性度量函数的研究可谓已经非常成熟,现有的相似性度量方法就有六十多种。由于基于距离的相似度比较简单直观易操作,所以很多研究者在选择度量函数时,会优先考虑基于距离的度量方案。选择的基于距离的相似性度量函数一般可分为以下两种情况:其一是选择使用已有的距离函数,如欧氏距离、曼哈顿距离、相关系数、夹角余弦距离、动态时问弯曲(DTW)距离等,这些方法的研究已经很深入了,有很多案例可以借鉴,也能够满足一般的简单需求,对一些复杂的数据可能不太使用。这时候就需要自定义一种距离度量公式。前者的理论比较成熟,应用范围较广,简单有效;后者是研究者针对某一特殊领域,例如我们知道的论文查重系统,针对此领域数据或信息独有的特点,现有的算法不能得到很好的效果,所以只能优化已有的度量方法使结果拥有更高的可信度,再推广到此领域广泛使用通过优化已有的度量方法来提高相似性分析的准确性,具有较强的专业性。
为了解决序列的时间轴伸缩和弯曲问题,Bemdt和Clifford首先在时间序列的分类中引入了动态时间弯曲(DTW)的概念。这项成果对于研究者是一个重大的启发,此后,研究者做了大量的分类研究实验,研究结果表明,DTW在很多数据集上表现出了优越的性能。与简单距离算法相比,DTW的显著优点是:不要求序列等长且一一对应。在处理位于时间轴弯曲部分的序列点时,可以先对这部分点进行自我复制,再进行对齐匹配。由此很好地解决了时间轴伸缩和弯曲序列的相似性度量问题。但DTW距离算法的缺点也是显而易见的:算法较复杂,不满足空间距离三角不等式,很容易受噪音、孤立点的干扰,这些缺点都限制了动态时间弯曲方法还没有在现实中得到大量广泛的应用。
近年来,生物信息学和计算机理论研究的飞快进展,研究人员试图生物信息学和计算机理论中的压缩理论应用到时间序列相似性的研究中,提出了一个新的相似性度量思想,即基于压缩理论的相似性度量。基本思想是,如果想要对数据进行连接和压缩,那么在较相似的数据集上进行应该相对来说比较容易,在相差较大的数据集上进行应该容易的多就会困难很多,而且前者可以获得比后者更大的压缩比。在这个过程中,将压缩所得数据的程序的最短长度定义为Kolmogorov复杂度,研究者对其进行了深入的研究,在此基础上,Keogh等人定义了Compression-BasedDissimilarity Measure(CMD),并证明了CMD在聚类分析、异常检测等应用上的可行性与优越性。 2.2.
{title}2. 研究的基本内容与方案
{title}1、现有信号相似性度量算法的回顾,以及各自的优缺点;
2、针对现有方法提出改进思路,使其应用于形状的投影信号;
3、实测真实场景下获取的不规则形状,检验形状相似性衡量的准确度