信号相似性的评判算法研究毕业论文
2021-04-26 22:32:51
摘 要
相似性度量在图像配准、信息检索、数据挖掘、计算机视觉以及卫星遥感等领域有着广泛的应用。随着信息科技迅猛发展,数据规模越来越大,维度越来越高,如何使相似性度量方法适用待测样本并提高度量结果的准确性是一项很重要的任务。现有的相似性度量方法种类繁多,这些方法有各自的适用范围,也有其局限性。欧式距离,马氏距离等算法简单、不能解决时间轴弯曲问题,对于不等长的序列准确性不高;DTW虽然能解决时间轴弯曲问题,但是比较容易受到孤立点影响。
本文介绍了几种经典的基于距离的相似性度量函数算法,讨论了这些算法的优劣。借鉴了加权欧氏距离的加权思想,设计了一种使用夹角和权值计算相似度的算法。文中使用的序列是通过不同数字的图像通过在水平方向投影得到的。借助matlab软件对本文提出的度量方法和欧式距离性能进行对比,结果显示,本文提出的权值角度距离度量方法具有更大的优越性,能够满足需求。
关键词:相似性度量;距离;时间序列;MATLAB
Abstract
Similarity measures have been widely used in image registration, information retrieval, data mining, computer vision and satellite remote sensing. With the rapid development of information technology, the scale of data is growing, the dimension is getting higher and higher, how to make the similarity measure method apply the sample to be tested and improve the accuracy of the measurement result is a very important task. There are a wide variety of existing similarity measures, which have their own scope and limitations. European distance, Mahalanobis distance algorithm is simple, can not solve the problem of time axis bending, for the unequal length of the sequence accuracy is not high; DTW although to solve the problem of time axis bending, but more easily affected by isolated points.
This paper introduces several classical algorithms based on distance similarity measure function, and discusses the advantages and disadvantages of these algorithms. Based on the weighted idea of weighted Euclidean distance, an algorithm for calculating the similarity between angle and weight is designed. The sequences used in this paper are obtained by projecting images in different directions through different numbers of images. The results show that the weight angle distance measurement method proposed in this paper has more advantages and can meet the demand.
Key words: similarity measure; distant; time series; MATLAB
目 录
第1章 绪论 1
1.1 研究背景及意义 1
1.1.1 研究背景 1
1.1.2 国内外研究现状 2
1.2研究内容及目标 3
1.2.1本文主要工作 3
1.2.2 论文组织结构 4
第2章 信号相似性度量的关键问题 5
2.1信号的分类与描述方法 5
2.1.1信号的时域和频域描述 6
2.1.2时间序列信号 6
2.1.3实验信号来源 7
2.2特征的提取与选择 11
2.3信号相似性分析要解决的问题 11
第3章 相似性度量 13
3.1基于距离的相似性度量 13
3.2基于特征的相似性度量 19
3.3基于模型的相似性度量 20
第4章 基于夹角余弦距离的加权算法研究 21
4.1相关定义 21
4.1.1 时间序列的分段线性表示 21
4.1.2 时间序列权值角度距离 25
4.2基于夹角余弦距离的加权算法研究 26
4.2.1算法描述 26
4.2.2加权角度相似性度量 27
4.3实验结果与分析 27
4.4本章小结 28
4.4.1 加权夹角余弦距离的优势 28
4.4.2 存在的问题 28
第5章 总结 29
参考文献 30
致谢 32
第1章 绪论
1.1 研究背景及意义
1.1.1 研究背景
在雷达声纳,通信,遥感,人工智能和医学应用中需要广泛的相似性的测量。相似性度量所要完成的工作就是,使用算法计算两个物体(这里的物体可以指图像、信号、文本、数据等等)相似程度的大小。将一个物体与另一个物体进行比较,也可以计算一个样本与模板的相似程度,随后可以根据结果判断此样本与哪个模板最相似,从而对样本进行分类。所以相似性度量是诸如聚类分析,模式识别等算法的基础,是必不可少的步骤。除此之外,许多基本的处理操作,例如匹配滤波,互相关和波束形成,也都可以被解释为基于相似性的度量。这些相关操作通常被看作半自动传感器系统中采用的检测,分类,定位,关联和配准算法的基础[1]。可见,相似性度量的应用十分广泛,具有较高的研究价值。
在图像配准、特征匹配、信息检索、数据挖掘、计算机视觉、卫星遥感以及天气预报等领域,相似性度量有着基本但却不可忽视的作用[2]。例如,近年来,随着数据不断丰富,各行各业都产生了大量的数据,人们对功能强大的分析工具的需求逐步上升,数据挖掘开始得到广泛应用。在数据挖掘中,如果想要对数据进行聚类,邻域搜索这样的算法,必不可少的一步就是进行相似度分析。同样,在模式识别领域中,为了判断待分类样品与哪个模式的模版匹配程度更好,首先应该做的工作就是计算样品与样品之间或者模式类与模式类之间的相似程度;在医学方面,各种生物信号如心电信号、脉搏信号、呼吸信号等机体生命活动的基本信号的处理上,关键问题也是描述和分析信号间的相似程度。论文检测系统、音乐软件中的个性化推送等类似功能的实现都离不开相似性分析计算。由此可见,相似性的度量算法性能的比较研究可以为很多实际应用中的相似性度量方法的选择提供重要的参考依据。
相似性度量的定义是用于比较一些数据集、图像、形状、一维信号以及多维信号等方面相似性的一个函数。使用较多的度量方法是基于距离的相似性度量方法。顾名思义,就是通过计算两个样本之间的距离来衡量他们之间的相似程度。通常的结论是,距离越小说明两样品相似性越大,反之则相似性越小。对于经典的相似性度量方法的研究比较成熟。有很多成果值得借鉴。距离度量方法中应用最广的是欧氏距离、明氏距离、相关系数、动态时间弯曲(DTW)距离等。除了基于距离的度量算法,还有基于特征、基于模型、基于趋势等度量方法。本文重点对距离度量进行研究。
1.1.2 国内外研究现状
相似性度量函数的研究可谓已经非常成熟,现有的相似性度量方法就有六十多种。由于基于距离的相似度比较简单直观易操作,所以很多研究者在选择度量函数时,会优先考虑基于距离的度量方案。选择的基于距离的相似性度量函数一般可分为以下两种情况:其一是选择使用已有的距离函数,如欧氏距离、曼哈顿距离、相关系数、cosine距离,这些方法的研究已经很深入了,有很多案例可以借鉴,也能够满足一般的简单需求,对一些复杂的数据可能不太使用。这时候就需要自定义一种距离度量公式。前者的理论比较成熟,应用范围较广,简单有效;后者是研究者针对某一特殊领域,例如我们知道的论文查重系统,针对此领域数据或信息独有的特点,现有的算法不能得到很好的效果,所以只能优化已有的度量方法使结果拥有更高的可信度,再推广到此领域广泛使用通过优化已有的度量方法来提高相似性分析的准确性,具有较强的专业性。除此之外,还有很多因素会对度量结果产生影响。例如时间序列特别容易受到噪声影响而发生波动,由此会造成振幅的平移和伸缩、时间轴的伸缩和弯曲、线性漂移、不连续性等等,会使得原本相似的时间序列呈现出多种变形[3]。选择相似性度量函数或自定义的度量函数应该尽量使结果具有较强的可靠性,尽量降低序列变形的影响,保证度量结果的准确性。