多维数据中的异常点识别方法研究毕业论文
2022-04-17 22:15:42
论文总字数:20765字
摘 要
在大数据时代,海量数据随处可见,如何在海量数据中快速识别出异常数据点在金融、工业生产、社会安全等领域意义重大,也是当前的一项技术挑战。本课题对当前具备较强可靠性和准确性的异常数据识别方法进行了调研。同时本文依据文献资料法、比较分析法等,在对常用异常数据分析的基础上,进行多维数据异常值识别方法的分析。
在对异常数据模型进行建立的时候,首先是寻求点与点之间的关系以及简单易懂的指标。而距离就是其中的一种比较能够满足要求的指标之一,距离即可表示点与点之间的关系。若某点是异常数据,那么这个点离平均值的距离就会远一点。相反的,如果是正常数据的话,则离样本较近,其平均距离也不大。基于这种思想,本文采用欧氏距离、马氏距离以及斜交空间距离对距离进行了尝试以寻求出异常数据。
关键词:异常数据;多维指标;检验方法;距离
Abstract
In the era of big data, massive data can be seen everywhere our life. Consequently, how to quickly identify abnormal data points in the massive data becomes crucial in filed like financial, industrial production, social security and other areas of significance, but also becomes a big technical challenge. This thesis has carried on the investigation to the abnormal data recognition method with strong reliability and accuracy at present. Meanwhile, on the basis of the analysis of the common abnormal data, the analysis of multidimensional data outlier identification method is carried out with the literature data, comparative analysis and so on.
In the establishment of the abnormal data model, a simple and easy-understanding index which seeks the relationships between different points is the basis. And distance is one of the indicators to meet the requirements, which can illustrate the relationships between points. If a point is abnormal data, then this point from the average distance is farther. On the contrary, if it is normal data, the closer from the sample, its average distance also is not big. Based on this idea, this paper employed the Euclidean distance, markov distance and angular space distance distance for the attempt to find out the abnormal data.
Key words: Abnormal data; Multi-dimension index signs; Examine method; Distance
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1研究背景 1
1.1.1课题的意义 1
1.1.2 异常点识别技术 1
1.2 国内外研究现状 1
1.3 研究的技术路线 2
1.4 文章内容与结构 3
第二章 数据异常值的理论 4
2.1 常见的异常点识别方法 4
2.1.1 基于统计的模型 4
2.1.2 基于距离的模型 5
2.1.3 基于密度的模型 5
2.1.4 基于偏差的模型 6
2.2 基于正态分布的检验方法 6
2.3 基于指数分布的检验方法 9
2.4 基于威布尔分布的异常值检验方法 9
2.5 基于均匀分布的异常值检验方法 10
2.6 处于多指标情形下异常值的识别方法 12
第三章 常用异常数据检验方法分析 15
3.1 多维数据的模型 15
3.2 基于多维数据对数正态分布的异常值检验方法 15
3.3 多维数据异常值检测过程中存在的问题研究 16
3.4 多维数据异常值实例 16
第四章 多指标情形下异常点识别方法比较 18
4.1 处于多指标情形下异常值的识别的思路 18
4.1.1 马氏距离 18
4.1.2 斜交空间距离 19
4.2 多指标情况下异常数据识别方法的尝试 20
4.2.1 欧氏距离 20
4.2.2 马氏距离 21
4.2.3 斜交空间距离 22
4.3 小结 23
第五章 总结与展望 24
参考文献 25
第一章 绪论
1.1研究背景
1.1.1课题的意义
自第三次工业革命之后,全球就处于信息爆炸的时代,“大数据”[1]这个名词也应运而生。生活中大数据随处可见,然而由于收集大数据过程中的种种随机的影响因素与误差,数据中总会出现部分不合逻辑,缺乏正确性、可靠性的数据,这种结果的出现很可能是由所处理的数据中包含异常数据造成的。为了提高数据的质量,有必要进行异常数据剔除。对于异常数据的挖掘在现实生活中有着非常广泛的应用,例如对欺诈信息的检测,用异常点来检测信用卡使用者和电信信息;市场动向的预测可以分析客户过高或者过低的消费行为;还可以在治疗信息中检测某种药物的反映信息等等。在目前所提供的异常数据识别方法,只针对单一测量指标进行数据检查。因此本课题拓展为多维数据的异常数据处理,并对其分析验证[2]。
1.1.2 异常点识别技术
异常数据通常是由于两个原因:一个是做抽样调查时,技术问题,如错误数据、虚假数据,等。这些原因可能会导致数据的偏差,从而影响数据统计的质量;另一个是一些样品的突出表现一些变量超过这个产品的平均水平,它可能使错误统计信息。如果这些数据制作样品的过程中,应合理选择数据,分析后的数据不能随意丢弃。
1.2 国内外研究现状
知识发现是指从所收集的数据中分辨出新颖的、有效的以及潜在的有用的最终可理解的模式一个非平凡过程,知识发现的过程就是将信息转变为知识的过程。知识发现的术语是美国1989年底召开的第一届KDD学术会议上出现的。随后第一届知识发现与数据挖掘国际会议于1995年在加拿大召开。在第四届的知识发现与数据挖掘国际会议上,有超过30家的国际公司展出了他们所研究的产品,这其中的一部分产品在发达国家已经得到了广泛的应用。至此数据挖掘和知识发现已经成为当前数学界与计算机界研究的一大热点[3]。
①国外研究现状
请支付后下载全文,论文总字数:20765字