基于支持向量回归机的时间序列预测毕业论文
2021-06-08 01:11:58
摘 要
随着生活质量的日益提升,人们对于环境的重视逐渐加深。为了完善空气质量监察系统,我国2012年起开始采用空气质量指数(Air Quality Index, AQI)描述空气状况,相比原有标准,AQI新增了细颗粒物(PM2.5)、臭氧、一氧化碳三种指标。不仅普通居民需要AQI预测了解未来空气质量,环保部门也需预测结果对AQI变化严格监察,对污染超标的地区管制排查,从而保障城市空气质量。
由于AQI概念较新,目前有关AQI预测的研究仍有待深入。AQI及空气污染物构成的数据网络十分复杂并具有高度非线性,有一定预测难度。支持向量回归机(Support Vector Regression,SVR)可实现任意精度下逼近任给非线性连续函数,并运用核函数应对输入、输出数据间的非线性关系,适用于识别复杂非线性系统。基于此,本文以武汉市2014年1月至2016年5月间月度AQI数据及六项污染物浓度为研究样本,设置输入变量为六项污染物浓度,输出变量为下一月度AQI值,采用SVR进行武汉市AQI预测分析。为了选择出最佳参数,分别采用传统参数确定法及PSO法进行参数确定,对比发现 PSO-SVR预测平均误差率及最大误差率均有显著减小,其学习效果基本令人满意。
本文创新之处在于采用两种参数选取法,即传统法以及PSO参数确定法,分别预测并对结果对比分析,从而选出较优模型提升预测精度。在实证探究方面,本文取材相对新颖,对AQI预测不仅可预测空气质量,还能侧面反映出经济趋势。此外,相比于已有的研究,本文创新性地从六项空气污染物的数据变化出发预测AQI变化趋势,相比于单纯基于AQI数据预测,本研究抓住了“变化源头”并实现最大限度地数据信息挖掘。
关键词:SVR;AQI;PSO;空气质量预测
Abstract
With the rising of the quality of life, the people's attention to the environment gradually deepened. In order to improve the Air Quality monitoring system, our country adopted Air Quality Index (Air Quality Index, AQI) to describe the Air condition in 2012. Compared to the original standard, AQI added three kinds of Index, including PM2.5, ozone and carbon monoxide. Not only ordinary people need AQI forecasts to know future air quality, the environmental protection department also need it to predict AQI change, so as to guarantee the urban air quality.
The AQI concept is relatively new, so the study of AQI prediction still remains to be further. Since the data of AQI and air pollutant composition is complex and highly nonlinear, the prediction is difficult. Support Vector Regression machine is a derivative method of Support Vector machine (SVM), which is suitable for the identification of complex nonlinear system. Based on this, this paper adopts the traditional parameter determination method and PSO method to determine the parameters of SVR. With the monthly AQI and six pollutants data of Wuhan city, this paper adopts the six pollutants as input variables and makes the next monthly AQI value as output variables. Through the comparison of the two methods, we found that the average error rate and maximum error rate of PSO - SVR model significantly decreased.
The innovation of this article lies in the two kinds of parameter selection method, so as to choose a better improved prediction model. Besides, in empirical research, this paper researches relatively new aspects. The forecasts of the AQI not only can predict air quality, also can reflect the economic trends. In addition, compared with the existing research, this paper creatively adopts the six pollutants as input variables and makes the next monthly AQI value as output variables. This study captures the source of change and realizes the maximum data mining.
Key words: Support Vector Regression; AQI; PSO; Air Quality Forecast
目录
摘 要 I
Abstract II
目 录 I
第1章 绪论 1
1.1 研究的目的及意义 1
1.1.1 SVR研究意义 1
1.1.2 空气质量指数(AQI)定义及研究意义 2
1.2 国内外研究现状 3
1.3 本文工作及创新点 4
第2章SVR理论概述 5
2.1统计理论基础 5
2.1.1 V C维 6
2.1.2 界的推广 6
2.1.3 结构风险最优化 6
2.2支持向量机学习思想 8
2.2.1 线性支持向量机 8
2.2.2 非线性支持向量机 9
2.3 核函数及特征空间 10
2.3.1 核函数概念 11
2.3.2 常见核函数 11
2.4 支持向量回归机 12
2.4.1 ε-不敏感函数 12
2.4.2 最优超平面 14
2.4.2 SVM线性回归 14
2.4.4 最优超平面解法 15
2.5 本章小结 17
第3章 基于PSO确定参数的SVR预测模型 18
3.1 PSO算法介绍 18
3.2 参数及核函数选取 20
3.2.1 误差ε的选择 20
3.2.2 核函数的选择 21
3.2.3平衡系数C的选择 21
3.3 基于PSO的参数寻优 22
3.4 本章小结 24
第4章 基于PSO-SVR的武汉市AQI指数预测 25
4.1数据来源及预处理 25
4.1.1 数据来源 25
4.1.2 数据预处理 26
4.1.3 相关性分析 27
4.2 核函数及参数确定 28
4.2.1 传统参数确定 28
4.2.2 基于PSO参数选择 29
4.3 基于PSO-SVR的武汉市AQI指数预测 31
4.3.1 传统参数确定AQI预测结果 32
4.3.2 PSO参数寻优AQI预测结果 33
4.4 结果分析 35
4.5 本章小结 37
第5章 总结与展望 40
5.1 总结 40
5.2 展望 41
参考文献 43
致 谢 45
第1章 绪论
1.1 研究的目的及意义
信息时代背景下,各类数据的几何增长极大地促进了人们对于数据分析技术的重视,信息的激增与数据统计分析技术的落后间的差异愈发明显。通过对已知的海量数据透彻分析从而更好地进行技术创新、商务计划、医疗改善、环境保护等想法逐渐走入了人们的视野,数据挖掘(Data Mining)也因而得以发展。数据挖掘主要可概括为从纷杂多样的数据中找寻潜藏的信息,作为一个学科融合领域,它集合统计学、智能计算、数据库系统等多类方法。
1.1.1 SVR研究意义
支持向量机 ( Support Vector Machine , SVM ) 核心在于实现结构风险最优,该法可有效避免“超量挖掘”,其核函数理论可防止“维数之灾”,在众多领域预测中性能表现优良。支持向量回归机( Support Vector Regression , SVR ) 为SVM处理回归问题时的衍生方法,它可实现在任意精度下迫近任给的连续非线性函数,适用于识别复杂的非线性系统。
与传统的建模手段比较,SVR表现出显而易见的优势。首先SVR对于非线性系统可以较好地适用,在此系统下建模回归效果优于AR模型(Auto Regression),MA模型(Moving Average ) ,ARMA模型 ( Auto Regression Moving Average ),GARCH模型等线性模型。其次,SVR模型无需探究建模体系的结构及其物理含义,为黑盒建模,即给定数据输入、输出的格式即可构建出隐式数学模型,获取输入、输出间的映射结构。与同为隐式模型的神经网络( Artificial Neural Network , ANN)相比,SVR结构更自由,也更有效率[1]。此外,SVR运用核函数应对输入、输出数据间的非线性关系,且核函数形式多样,可以按照数据源曲线特性的不同进行选择,从而实现最佳拟合,十分适用于非线性系统识别。基于支持向量回归机的优良性能,采用该方法对时间序列中潜在的客观规律进行“挖掘”,更深入地了解、把握、并利用其规律无疑对生产生活中的决策与风险管理具有重要意义。
1.1.2 空气质量指数(AQI)定义及研究意义
2015年2月,随着《穹顶之下》的热播,“雾霾”一词再度走入大众视野并晋升年度热词。当年的1月,4次大规模雾霾袭来,全国三十多个省(区、市)受到不同程度影响,我国首都只有5天为非雾霾天气。据当年空气分析报告显示,我国仅不足1%的城市空气质量达到了世卫监测水平,与此同时,全球空气质量最恶劣的10个地区中,我国占了7个。2014年1月,我国开始将对严重威胁健康的“雾霾”作为播报指标日常监测。