基于机器学习的城市PM2.5浓度预测——以上海市为例文献综述
2020-04-15 17:08:26
1.1 选题背景
近年来,随着我国城市化建设的飞速发展和社会工业化的高度发达,环境问题也日渐突出,值得关注的是空气质量堪忧,雾霾污染问题引起人们的广泛关注,对人们的生活产生了较大的影响。
PM2.5是指直径小于或等于2.5微米的颗粒物,相当于头发丝直径的1/20,已到达肺泡的临界值。PM2.5以下的细微颗粒物,人体的鼻腔、咽喉已经挡不住,它们可以一路下行,进入气管、肺泡,最终进入整个血液循环系统,对人体的呼吸系统和心血管系统造成伤害。PM2.5颗粒物是构成霾的主要成分,是导致雾霾天气的“罪魁祸首”,所以治理雾霾的关键就是解决PM2.5问题。
1.2 国内外研究现状
从雾霾出现至今,对雾霾污染的研究就从未中断,最初受限于科学技术的发展水平,对雾霾的研究停留在成因、危害和治理层面,国外英国“伦敦烟雾事件”和美国“洛杉矶光化学烟雾事件”的相比较于国内的雾霾天气出现较早,最早遭受雾霾污染,因此对雾霾的研究也比较早。
欧美地区的部分发达国家首先完成了光烟雾事件形成原因的研究,研究结果显示,工业发展过程中煤炭燃烧产生硫氧化物和粉尘是诱发伦敦烟雾事件的直接原因,由于逆温层的存在而使得空气污染物随时间堆积是间接原因[1]。机动车和化工厂排放的一次污染物(主要包括碳氢化合物和氮氧化物)和光化学产生的二次污染物(主要包括臭氧、醛、酮、酸、过氧乙酰硝酸酯等)造成美国洛杉矶光化学烟雾[2]。
Minguill等通过正定矩阵来分析瑞士地区PM2.5的主要组成以及形成因子[3]。Georage D 等利用回归模型研究了希腊雅典地区气象条件和颗粒浓度之间的复杂关系,结果表明 PM2.5与一氧化碳和氮氧化物高度相关,与当地风速呈负相关,当地工厂排放和机动车尾气影响 PM2.5浓度[4]。
随着雾霾天气在中国的不断发生,一批中国学者者对雾霾发生过程中的天气特征进行了深入研究。王继志等通过对低能见度下的雾霾天气进行调查,阐述了几类适用于该气象条件下雾霾的诊断分析和预测方法,并且讨论了在预测过程中需要注意的科学问题和实例分析[5]。李青春等对 1980-2010 年北京地区的19个检测站能见度观测资料和道面专业气象监测数据采用最优值法分析可能影响北京地区能见度的因素,研究雾霾污染时北京地区能见度分布和演化特征,并由此深入探讨城市化建设可能对能见度产生一定程度的影响[6]。钱峻屏等利用广东26个地面气象观测站采集的23年观测数据,分析了雾霾天气的时间分布特征,并发现雾和霾是影响该地区能见度的主要因素,并且雾霾天气的能见度与季节变化规律有一定的差异[7]。
伴随着对雾霾研究时间的增长,各国学者的不断努力和尝试推动雾霾研究方法的成熟,雾霾相关的观测样本集合和研究工作积累到比较完整的程度。针对雾霾污染的影响因子的研究,国内外学者结合自身研究和相关工具分析雾霾天气的成因,并得出更加明确的结论。Chaloulakou A 选用化学源解析技术对 PM2.5分析,结果表明温度和风速是影响雾霾污染源浓度的主要原因,其中,细颗粒物更易受到气候因素的影响[8]。GD Thurston 应用多变量方法来识别和量化 PM2.5中的成分,利用因子分析对雾霾日均数据并剔除次要组成成分,来达到识别 PM2.5 排放源的结果[9]。李伟芳结合多元线性回归技术和应用因子分析天津地区 PM2.5 的污染特征和来源,呈现冬季高、夏季低的特点[10]。
对雾霾的预测研究工作是十分有必要的,根据雾霾预测结果不仅能约束人类破坏空气质量的问题,也能为雾霾污染治理提供有效方针。对雾霾的研究很早就开始了,但是由于当时雾霾检测技术并不十分完备,因此最早期的雾霾预测方法主要采用统计等相对较简单的方法。BMG Kibria等提出了多元空间预测方法来预测 PM2.5 空间分布,推导出当前测量站点在未启动测量时的预测分布,得出预测分布是具有适当的协方差参数和自由度的矩阵分布[11]。Ming Dong等提出一种基于隐马尔科夫模型来预测雾霾污染天气中高 PM2.5 浓度值,建立参数与所选输入变量之间的数学函数映射,训练完成的隐马尔科模型能较好的预测未来 24 小时的 PM2.5 高浓度值[12]。敖希琴采用多元统计方法预测 PM2.5 浓度,首先检验各影响因素与 PM2.5 存在的线性关系,并且在保持变量不相关且独立的条件下测试预测模型,最终采用均方根误差来检测模型预测效果,并得到比较好的预测结果[13]。
由于PM2.5与其影响因子是呈现出非线性关系,因此对雾霾预测采用概率统计的建模方法并不能取得很好的预测效果。同时,很多回归、分类等预测方法均是浅层的结构算法,在对线性相关数据预测中有较好的效果,但是在对 PM2.5的预测过程中,相关的复杂特征无法表示,泛化能力比较差。基于此,国内外研究学者提出了基于智能算法的 PM2.5 预测方法,对样本要求低,并且在提取非线性复杂数据特征的能力强。因此在雾霾污染预测领域,人工神经网络也开始广泛被应用。P Perez等利用智利圣地亚哥市区的一个固定点观测PM2.5 小时平均浓度,并用前一天的浓度拟合目标 PM2.5 浓度值,分别选用了跟踪法、线性回归和多层神经网络预测该地区的 PM2.5 浓度值,结果显示,神经网络预测结果最好,还讨论了降噪效果、数据重构和气象因素的影响[14]。艾洪福等提出了更加完善的BP人工神经网络的预测方法,建立了基于时间序列的雾霾天气预测模型,结果表明,能够比较准确的预测雾霾天气,但是处理大量数据能力不足,收敛速度缓慢[15]。王敏等选用 BP 神经网络预测某市PM2.5 浓度的空间变异,并与普通克里格插值方法相比较,结果证实了 BP 神经网络在固定的观测点能更精准预测 PM2.5 浓度[16]。D Mishra等结合神经网络和模糊逻辑回归对印度地区雾霾天气下 PM2.5 浓度进行预测,在相对湿度小于 90%,并且 PM2.5 浓度高的情况下,模糊-神经模型比人工神经网络和多元线性回归模型预测结果好[17]。Haiyao Wang 建立了卡方检验和 BP 神经网络雾霾预测模型,先利用卡方检验方法确定模型影响因素,再用神经网络进行训练,表明模型具有比较好的预测精度[18]。X Qiu 提出一种集成的深度学习模型用于时间序列预测,通过支持向量回归模型汇总不同的深度神经网络的输出[19]。X Cui选用气溶胶光学厚度和气象因子观测数据对北京-天津-河北地区 PM2.5 浓度建立深度置信神经网络预测模型,并与 BP 神经网络进行对比,预测结果相对准确[20]。
2. 研究的基本内容与方案
{title}本文基于2018年的PM2.5浓度数据和气象数据,使用机器学习方法预测上海市PM2.5的浓度。本文的主要研究内容:
(1)数据获取及预处理
通过编写 python 爬虫代码采集从 2018 年 1 月 1 日——2018 年 12 月 31 日中国空气质量在线监测分析平台网站中上海市普陀、十五厂、虹口、徐汇上师大、杨浦四漂、青浦淀山湖、静安监测站、浦东川沙、浦东新区监测站、浦东张江共计10个检测点每个时刻的 PM2.5、PM10、SO2、NO2、O3、CO的实时浓度数据,将10个监测点数据的平均值作为历史数据作为PM2.5预测模型的有效数据。
考虑到数据源本身可能有缺失和因不测因素导致的数据爬取失败,对获取的数据进行缺失值处理,随后进行数据标准化处理。
(2)特征选择
从给定的特征集合中选出相关特征子集的过程称作特征选择,从众多污染物影响因子和气象影响因子中选择和PM2.5相关性更大的特征子集,其中,气象影响因子包括气温、气压、露点、风向风速,数据源为NCDC(美国国家气候数据中心,National Climatic DataCenter)。如此选择出重要的特征,使得后续学习过程仅仅需要在一部分特征上构建模型,减轻了维数灾难问题,也会降低学习任务的难度。
(3)历史数据时间窗口的确定
考虑 PM2.5 与之前 N 小时内已有的 PM2.5 及污染物数据的关系,尝试不同的取值,求得最适合的N取值。
(4)PM2.5预测模型研究