在空气污染指数预测中的人工神经网络模型的研究进展外文翻译资料
2022-12-07 16:14:32
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
在空气污染指数预测中的人工神经网络模型的研究进展
摘要
空气污染指数(API)报告系统被引入到中国的一些选定城市,用于空气质量数据公共交流。上海是中国的第一个提供日均API报告和预报的城市。这个报告介绍了在上海的API预测的人工神经网络(ANN)的发展模式。这是多层感知器(MLP)的网络,其使用气象预测数据作为主要输入,输出下一日平均API值。然而,最初版本的MLP模式没有很好的效果。为了改进模型,发展了一系列的测试分别针对于该训练方法和结构优化进行。根据测试结果,训练算法进行了修改并建立了新的模型。新的模型现在正在上海用于API预测。它可以合理地与观测值比较。旧模式只用弱相关性观察。在1年的应用中,相关系数分别为0.2314,0.1022和0.1710分别为TSP,SO2和NOx。但对于新模式,为8个月以上的应用程序,相关系数提高到0.6056,0.6993和0.6300分别为可吸入颗粒物,SO2和NO2:此外,新算法不依赖人力干预,以便它应用于中国其他几个气象条件很不同的城市。模型的结构和应用效果也在本文中被提出,以及待进一步研究的问题。
1.简介
空气污染指数(API)报告系统,以对健康的影响为根基,引入了一个较为一致的比较过程针对不同污染物水平的标准。API表示为整数,使得它们更容易被公众所理解。该API系统是第一个由美国环保局介绍的(EPA)在20世纪70年代的污染标准指数(PSI)现在被广泛用作AQI(空气质量指数,美国环保署,1999年)。类似的指标体系在其他地方也使用,例如,AQI在加拿大(温哥华大区域区),IMECA在墨西哥,PSI在新加坡和API在香港。 在中国,该API系统已被引入到1997年的中国城市的API报告要求中。转换监测日均空气质量数据成整数值,并报告给公众。设计对应于线性插值的断点污染物浓度列于表1。目前,有47个城市申报日均API值,可以在官方网站上找到:http://www.zhb.gov.cn。这些API提供中国主要部分的空气质量概述。在这些选定的城市中,上海是第一个做API报告的,可追溯到1997年6月,也是第一次预报API的,从1999年6月到2000年6月之前,空气污染物API报告和预测内容分别选定为总悬浮颗粒物(TSP),硫,二氧化碳eth;SO2THORN;和氮氧化物eth;NOxTHORN;:由于中国国家环保总局(国家环境保护局)的要求,2000年6月后,污染物被切换为可吸入颗粒物eth;PM10THORN;; SO2;和氮,二氧化碳eth;NO2THORN;。为了帮助上海的API预报,作者开发了基于气象的人工神经网络模型,观察和观测到的API数据。它是一个MLP网络反向传播(BP)纠错系统。然而,最初的模式版本表现不好。之后进行了一系列测试用于修改模型。根据研究结果,这导致了新的训练算法。而指标污染物被切换到PM10; SO2;和NO2,该要求由国家环保总局制定,自2002年9月一个新的模型建立并已应用于根据从2002年9月17日应用到2003年5月,新的模式合理的工作以及比较观察,并适用于不同的机型。旧的模式只用弱观察值相关。在1年的应用中,相关系数分别为0.2314,0.1022和0.1710对应TSP,SO2和NOx。但对于新模式,应用于8个月以上,相关系数被提高到0.6056,0.6993和0.6300分别为可吸入颗粒物; SO2;和NO2。由于新的训练算法不依靠人力干预,它现在在施加其他几个中国城市设立类似的MLP楷模。本文介绍的MLP网络中,测试以提高模型和新算法,结果在比较新的MLP等模型之间比较。
2.上海的API报告和预测
上海的API报告和预测是由上海环境监测中心(SEMC)和上海气象科学研究所(SMSI)制定。在上海的大都市区,有七个自动监测站SEMC。这些台站装备精良,采样和分析遵循国家环保总局的规定。TAPI(Teledyne公司先进污染仪表)100E紫外荧光分析仪和化学发光200E分析器用于监测气态污染物,SO2和NO2:在另一方面,鲁普雷希特&Patashnick TEOM 1400A用于监视PM10:该操作连续进行,并提供各污染物的日均浓度。
然后,这些平均值被转换为以用于报告给相应的API值,并发布公众。根据国家环保总局的要求,标准样品来自美国国家标准,而每星期的质量检查来自北京理工大学。 SMSI负责气象观测和预报。 SMSI负责地表和高空观测。然而,只有表面数据,以10m高度测定,在本研究中使用于对模型的训练,验证和测试。气象观测的情况并不是都像上海一样好。然而,模型应用程序使用的气象预测数据,这是在SMSI由所产生的操作OFA中尺度模式MM5(Anthes和华纳,1978;陈和Dudhia 2001A,B)与60公里水平分辨率。
对于API的预测,几款模型在使用SMSI并联(Tan等人,2001)。这些模型的不同类型,包括CAPPS,K-模型,MRG,TAR,和MLP。除西藏自治区(阈值自回归)由SEMC,这是开发模型基于时间序列分析观测的API值,所有其他模型需要的气象数据作为输入值,由MM5生成。该CAPPS由气象科学研究院开发(徐和朱,2000年)。它是一种非静态平衡
多箱模型,以46,61网格在水平(60公里分辨率),并且垂直10层高达边界层的顶部。
该CAPPS包括干湿两种沉积,但不是化学转化。随着MM5数据,CAPPS被操作一次,每3小时。CAPPS的结果都进行平均来表示,对于上海的大都市区。 CAPPS的显着特征是它并不需要源库存数据作为输入,但依赖于空气污染监测数据。根据徐和朱(2001年),开始CAPPS其操作与初始场分布。在此期间模型操作这个来源的信息,不断调整基于所述试验和计算结果与观测来更正数据。它还注意到,CAPPS现在用在47个城市API的主要空气质量模式预测中。由南京信息工程大学发展,K维模式,为了闭合使用欧拉网格模型,但只有二氧化硫(Tan等人,2001年)。除了气象输入,详细的排放来源库存也是必要的运行模式。排放源的数据往往是不完整,并有许多不确定性,这可能是该K-模型没有得到好结果的重要原因。TAR,MRG和MLP都是统计模型。柏油基于时间序列分析。它的输入是用固定数量的之前观察的API数据样本。
因此,TAR不使用气象数据。MRG是一个多元回归模型,MLP是人工神经网络模型的多层感知器网络。无论MRG和MLP使用的气象观测条件和数据是否是MM5输出的预测数据。
一个MM5模式在操作SMSI到预知明天的气象数据。然后API预测模型并行运行预测明天API值。计算结果是与观察到的API的当天数据进行比较。基于SMSI之间的讨论和SEMC,接下来API预测最终选择结果和预报给公众。
3. MLP模型API上海预测
ANN的研究主要分为三类:生物神经网络本身,计算机网络结构的发展,在科学和工程学的应用。在大多数应用中,ANN是视为非线性统计方法,目前该方法受到科学技术的的关注(Sarle,1994)。回顾加德纳和多林(1998),在大气污染方面,神经网络被用于地表臭氧浓度预报(鲁伊斯 - 苏亚雷斯和Mayora,1994;易和Prybutok,1996;科姆里,1997年)。更多最近的MLP模型,用于预测其他常见的空气污染物浓度(Chelani等人,2002)。在中国,人工神经网络的应用环境问题也受到越来越多的关注(例如,Liu等,2000;浩等,2000)。
MLP是一个前馈神经网络,它是在实际应用中最经常遇到。该基本理论,工作原理和MLP的公式可以在其他领域找到(例如,主教,1995年)。这里仅仅是一个简要的介绍。一个MLP由输入层,一个输出层,和至少一个隐藏层构成,使得总层数至少三层。每个层可以有
不同数目的节点,或神经元。一项使用是MLP基于BP纠错,它使用梯度下降优化减少错误。该过程可以即时或分批进行。即时训练手段的权重调整相应于每个输入矢量的误差。然而,
分批训练指基于调整汇总错误批输入模式。除此之外,过程中,学习率和矩通常适于在误差校正。API值从空气污染物浓度换算以便在API的变化主要是由于气象条件和排放源的变化。第二个考虑是,输入数据应该是容易得到,使该模型可以应用到其他城市。因此,在我们的模型中,输入项目基于日期,最大值和平均地表温度,表面压力,表面湿度,风,云覆盖面,日降水量。日气象周期性变化系统,以及平日和周末之间发射的不同。日期转换为输入数据节点:正弦和余弦一个星期的时间。风显然是在主导污染物运输的因素。表面风数据收集4次,每天14:00,20:00,02:00,08:00北京时间,使八个输入节点。其他气象因素是日均值,但每天的集成结果被送往账户。大气的稳定性,在帕斯奎尔,吉福德大气稳定性分类(帕斯奎尔和史密斯,1983年)。空气质量也强烈地受天气系统。例如压力,温度,和湿度。基于的想法是,这些可以提供天气系统的信息。降水是空气污染物的有效去除机制。全部以上做节点输入层。最初我们心仪的版本MLP模型的开发是根据有限数量的限制研究时间数据的。 MLP设计的基础上进行了调查和测试,发表在国际和国内同类工程期刊。训练数据分别为108套(选自1998年6月至1999年3月)和测试数据分别为30套(全月ofApril1999年)。许多项目开发了各自的不同的模型结构。这些结构比较了当它们加入不同测试数据集的结果,并基于多元线性回归。当时决定让模型结构分别用10和6个神经元的隐藏层。这些TSP和二氧化硫,氮氧化物的API分别计算。因此有三个MLP模型,每一个有四层结构,16:10:6:1。然而,尽管结果测试数据集似乎可以接受,在实际API预测MLP模型没有得到良好的结果,如表2所示。为了找到这些问题,我们收集更多数据实验来检验受各种因素影响的模型的性能,并制定了新的模式。
4.检查和MLP模型的改进
MLP以其结构简单清晰,容易理解的工作原理被大家熟知。其缺点包括:耗时的计算过程中,局部最优解,尤其是缺乏结构优化理论。隐藏层的数目和次数在每个隐藏层神经元主要由试验和错误确定。因此,MLP的优化主要问题特异性和手动实验是常必要的,这极大地限制的该模型的适用性。奥凡MLP模型的最简单的结构是唯一的一个隐藏层和只有一个神经元的隐藏层。对于这样的MLP,除活化功能,它的形式是相同的直链的回归模型。线性回归使用最小二乘为优化方法所得到的组系数被唯一地确定。虽然BP错误校正MLP是梯度下降一种形式,即使激活函数也是线性的,简单的MLP模型不能获得超过那些通过线性回归得到的计算结果。然而,一个MLP允许有隐藏层上更多的神经元,并有多个隐藏层。由此加权系数被允许增加。因此,线性回归可作为一个参考标准,而精心设计的MLP是可能的收效比回归更好。人工神经网络理论已经表明(主教,1995年),当有足够的神经元在隐藏层,计算误差可以是无限小,这样的模型输出可以是任意接近目标向量。该问题是,有包含在两个不确定性输入数据和目标矢量。太多的神经元会导致过度拟合,因此,它将使在实际应用中的结果变差。此外,由于MLP是一个统计模型,输入模式的充分性显著影响了计算的真实结果。影响MLP设立的主要因素是正确的模型结构,输入数据的充分性,以及训练算法的代表性。在考察我们的MLP模型时,在计算算法首次改善与计算模式的比较,可以发现
是计算量减少更明智。输出错误和学习率进行了测试。我们发现较小的学习率计算结果更顺畅,其原因可能与即时计算有关。一个验证的数据集并行使用到计算。每次当一个计算过程
完成,使用新的加权系数用于验证数据以及相应的输出记录错误。在理想的情况下,两个典型误差曲线示于图1(Gardner和多林,1998年)。由于验证数据没有输入加权系数的调整,优化基于验证错误似乎更可靠。然而,因为在我们的情况下,国家发布的数字及两个数据集代表性的限制,实际的曲线只有如图所示。
其次,我们修改了MLP模型。查询错误的方法被广泛使用。基于该108的训练数据集和测试30的数据集,试用覆盖1-2隐藏层,并在每个神经元1-16层。根据排列组合,200
结构可以进行调查。我们测试了一半以上可能的结构。大概是因为数据仍然有限,很难得出
从测试结果系统而来的想法。作为第三检查,我们后来用三倍的数量,该数据使得该计算,验证和测试套分别由397,30和30的图案。测试运行更合理。然后我们发现结果比一隐藏层的更好两个隐藏层,和MLP的最佳性能使用的结构,得到与3-6元隐藏层。在模型结构试验表明,复杂的结构达到较高的计算精度,但更简单的结构产生了较高的测试精度。该
试验还表明,数据集量的足够是用于建立最佳MLP模型的必要条件。
采集的数据中,使用训练集调整加权系数,验证集用来寻找正确的模型结构,但测试集
是独立的训练。因此,测试可采取错误来代表该模型的真实表现。另一方面,现有的数据分别以这样的方式分割:每7天,其中的数据为后计算的,就被认为是验证某一天的资料和
为测试另一天的数据。因此,验证和测试数据比,对于更均匀选择以前的模式。验证的一个例子,测试结果示于图2。.以上讨论中,预期改善MLP模型应能更好地工作。
5.新的MLP模型及应用
作为SEPA,从2000年6月起,空气污染物指示量已改为PM10; SO2;和NO2。因此需要新的MLP模式来预测API。根据对前代车型的检查检测手段,新的MLP正式成立。然而,有一些在输入层节点做的更改。是转换为四个节点:正弦和余弦为时间既是一年的一个星期。其次,有人认为,MM5不提供云层覆盖和日常降水资料。因此,就对云覆盖的节点替换。对于边界层,基于一个与SMSI讨论后,决定每天分类降水量分为5级:0到4各自对应没有雨,
lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[31596],资料为PDF文档或Word文档,PDF文档可免费转换为Word