登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

基于Matlab的数据预处理软件开发毕业论文

 2020-04-15 21:02:04  

摘 要

为了提高所获得的原始数据的质量,我们往往要对数据进行预处理,以便于对其进行进一步的统计分析。数据噪声、缺失值、异常值的存在往往会使统计分析的结果产生偏倚,从而使工作难度与复杂性大大提高,降低统计工作的效率。因此,在使用数据前对数据进行预处理是很有必要的,合适的预处理方法能够很大程度地降低无效数据的影响。随着数据研究的发展,越来越多的数据处理方法应运而生,但是,无论何种方法,都不能完全消除数据中低质量的部分。因此,为了尽可能地提高我们所要处理的原始数据的质量,选择合适的处理方法就很重要。

本文选取经典的Iris数据集与Wine数据集,从数据去噪、缺失值填补、异常值检测三个方面对其进行预处理。本文在数据去噪方面选用分箱法去噪、移动平均滤波去噪、小波去噪;在缺失值填补方面选用均值填补、K近邻法填补、BP神经网络填补;在异常值检测方面采用3准则、局部异常因子检测、K均值聚类检测,通过这九种方法对上述数据集进行处理,并设计GUI界面,将上述所选算法与GUI整合为一个工具包,方便用户使用。

关键词:数据预处理;数据去噪;缺失值填补;异常值检测

The development of a data preprocessing software based on Matlab

Abstract

The purpose of data preprocessing is to ameliorate the quality of information for further statistical analysis. The existence of data noise, missing values and outliers will often bias the results of statistical analysis, increase the difficulty and complexity of work, and thus reduce the efficiency of statistical work. Thus, it is important to preprocess the data before using it. Appropriate preprocessing means can greatly reduce the impact of invalid data. As data research develops, a lot of data processing methods emerge at the historic moment. However, no matter what method is adopted, the low-quality part of data cannot be completely eliminated. Therefore, in the process of data processing, in order to improve the quality of data as much as possible, it is very important to choose the appropriate processing method.

In this paper, the classical Iris data set and Wine data set are selected and preprocessed from three aspects of data denoising, missing value imputation and outlier detection. In terms of data denoising, this paper selects box-splitting method, moving average filtering and wavelet denoising. We use Mean value, K nearest neighbor method and BP neural network to impute the missing value. In the aspect of abnormal value detection, 3 sigma criteria, local abnormal factor detection, k-means clustering detection are used. The above data sets are processed through these nine methods. And the GUI interface is designed and integrated with the selected algorithm into a toolkit for users.

Keywords: Data preprocessing; Data denoising; Missing data imputation; Outlier detection

目录

摘 要 I

Abstract II

第一章 绪论 1

1.1 研究背景与意义 1

1.2 数据去噪、数据缺失值填补、数据异常值去除的必要性 2

1.3 研究现状 2

1.4本文拟研究内容及本文章节安排 4

第二章 数据的处理方法 7

2.1 数据去噪 7

2.1.1 分箱去噪 8

2.1.2 移动平均滤波去噪 8

2.1.3 小波去噪 8

2.2 缺失值填补 9

2.2.1 均值填补法 9

2.2.2 k最近邻填补-k Nearest neighbor imputation,KNNI 9

2.2.3 人工神经网络-Artificial neural networks 10

2.3 异常值检测 11

2.3.1 3准则 11

2.3.2 局部异常因子算法-LOF 12

2.3.3 k均值聚类 13

2.4 小结 13

第三章 GUI界面设计 14

3.1 设计GUI界面目的 14

3.2 GUI简介 14

3.3 Matlab中的GUI界面设计 15

3.4.1 数据去噪 17

3.4.2 缺失值处理 18

3.4.3 异常值检测 18

3.5 小结 19

第四章 数据处理效果及程序优化 21

4.1 数据介绍 21

4.2 评价指标 21

4.2.1 均方差 22

4.2.2 平均绝对误差[21] 22

4.2.3 均方误差 22

4.3 数据去噪的效果 23

4.3.1使用分箱法数据进行处理 23

4.3.2 使用平均移动滤波法进行数据处理: 24

4.3.3 使用小波去噪进行数据处理: 25

4.4 缺失值填补的效果 25

4.4.1 使用均值填补法进行数据填补: 26

4.4.2 使用K近邻法进行缺失值填补: 27

4.4.3 使用BP神经网络算法进行缺失值填补 28

4.5 异常值检测的效果 29

4.5.1 使用3准则法进行异常值检测 29

4.5.2 使用局部异常因子算法进行异常值检测: 31

4.5.3 使用K均值聚类法进行异常值检测: 33

4.6 小结 35

第五章 总结与展望 36

参考文献 37

致谢 39

附录 40

第一章 绪论

1.1 研究背景与意义

数据是非常重要的,在这个高度数据化的时代尤为如此,从虚拟的互联网文件、各类数据、聊天记录数据到现实中的生产数据如过程、传感器数据等。然而,我们能够直接获得的这些数据,也就是原始数据,往往难以满足我们的使用要求,究其原因,是因为这些数据的“质量”不过关。对数据“质量”的研究,主要是从数据的准确性和完整性两个方面进行判断[1]。准确性包括对于数据是否正确反映生产过程状况、是否合乎实际的判断,对于所获取的数据内容是否有错误,通过数据所计算得到的结果是否正确的判断等。完整性包括对于数据本身内容是否有缺失,所测量的项目是否齐全的判断等。对于数据准确性的判断主要有两个方面:原理检查和算术检查。原理检查主要通过判断数据合乎原理与否,数据成分合适与否,各数据之间是否出现了互不相通的情况等来进行断定,这一方法较为适合对定性的数据进行判断。数据预处理有以下四个主要过程:准确性审核,适用性审核,及时性审核,一致性审核。其中,在准确性的审核方面,我们通常通过检查资料数据是否真实、精确度是否足够来进行浦判断,这一审核的重点对象是数据产生过程中的误差。而在适用性审核方面,我们一般通过对数据的用途进行分类,来判断数据是否合理的阐述了相关问题,以及阐述问题的清晰程度。在这一过程中,最重要的是数据与对象的匹配程度。在及时性审核方面,最重要的是确定数据的及时程度,即是否在要求的时间内获取相关数据,若未能及时获取数据,就需要确定其原因。而一致性审核方面,需要确定数据的可比性,且这一可比性的范围包括不同的时间段、不同的地域 [2]

因此,为了使数据的质量符合我们进行进一步应用的要求,数据预处理这一步骤是不或缺的。传统的数据处理方法包括数据的集中、数据的清洗、数据的转换、数据的化简等[3]。对于以上的几个问题,本文主要对其中的清洗方面着手,拟使用Matlab开发一款数据预处理工具,以便于实现对适量数据进行去噪、缺失值填补及异常值检测的功能。

1.2 数据去噪、数据缺失值填补、数据异常值去除的必要性

在工业过程中所采集到原始数据通常也要进行预处理,包括对原始数据的去噪、缺失值的填补、异常样本的剔除等。模拟与数字式信号处理设备均具有易受噪声影响的特性,噪声可以是数据采集过程中因不同原因导致的具有均匀频率分布的随机噪声或白噪声,也可以是由设备机制或信号处理算法引入的与频率相关的噪声,它们都会干扰数据的分析,虽然噪声数据未必增加存储空间量,但它可能会影响对数据分析的结果,很多算法尤其是线性算法,都是通过迭代来获取最优解的,如果数据中含大量的噪声数据,那么数据在进行迭代时的收敛速度将会收到很大影响,同时,对于训练生成模型的准确度也有很大影响,因此数据去噪是非常重要的[4]。图像数据的去噪也是数据预处理的一种,而且在生活更为广泛地被应用,如去除照片中的噪点,提高画面清晰度等。

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图