多维数据中的异常点识别方法研究文献综述
2020-05-26 20:39:53
文 献 综 述
1.本课题研究背景、目的及意义
现代社会高速发展,科学技术蓬勃发展。自第三次工业革命不久之后,全球就处于信息爆炸的时代。”大数据”这个名词也应运而生。生活中大数据随处可见,然而由于收集大数据过程中的种种随机的影响因素与误差,数据中总会出现部分不合逻辑,缺乏正确性,可靠性的数据。我们为了提高数据的质量,进行异常数据剔除。由于目前大多是一维数据的异常数据处理,但由于大数据日益多元化,包含的信息很可能不止一种,且一个信息中的几个数据彼此之间都存在联系。因此我们本课题拓展为多维数据的异常数据的处理,从而为大数据处理提出高效,比较准确的多维异常数据的方法。
在数据处理的过程中偶尔会出现一些异常的,不合逻辑的统计结果,这种结果的出现很可能是由于所处理的数据中包含异常数据造成的.但目前测量学中所提供的异常数据识别方法,即只针对单一测量指标进行数据检查.然而,在统计实践中我们经常会感到仅仅使用单指标进行数据检查不能有效发现测量数据包含的全部异常.解决此类问题的方法,提高统计数据的准确性和可靠性.
收集异常检测是收集治理中的异常主要的课题,是以已在最近几年来获得普遍研讨,人们在该范畴提出了很多先辈的收集流量异常检测办法,然则主动精确的对收集流量停止分类辨认从而发明收集中的异常流量依然是一个异常具有挑衅性的成绩。基于监视进修的异常检测办法固然可以或许经由过程树立正常模子来停止异常检测,然则须要对数据停止手工标志来获得足够的练习样本,会形成年夜量人力资本的糟蹋,开支太年夜。是以人们提出了基于无监视的异常检测办法。
社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。[8] 阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。而本文所做的就是为数据科技中的大数据服务。旨在提高数据的准确性和可信度。我们首先研究一维数据异常数据识别的方法,从而总结出某些规律。并在后文中得到多维数据异常据识别的方法。我们总结了三种算法:1.循环嵌套算法。2.基于索引的算法3.基于划分的算法。并了解到这三种算法适应不同的领域类型,以及他们各自的优缺点。并在第部分的应用matlab印证了我们的结论
2 .本课题国内外研究现状和发展趋势
统计大数据研究问题变成现在时代最时髦也最实用的方法之一。而大数据也有真实性,可变性,复杂性等多种特征。正是这些特征,造成了我们最后结论的正确与否。而有时,数据的获取途径,获取方法等因素也会造成数据质量下降。我们为了得到正确的结论,首先要做到的就是在分析前,得到可信度,正确率较高的数据。
而目前看来,处理数据不再像以前一样只是单纯的一维数据了,我们有很多多维数据且容量庞大急需处理。譬如一个淘宝客户在某个时间,某个地点买了,什么途径买了哪个领域的什么产品。一个信息中就包含了多组数据。而我们要处理的是成千上万乃至亿的信息。因此,我们需要引入多维数据的异常数据识别是十分必要的。这正是为了在大数据时代之下,高效并且有效的获得高质量数据的必要手段之一。
3.本课题的主要内容
1. 了解一维异常数据识别的方法