登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

基于改进的随机森林算法的河流水质评价应用毕业论文

 2022-01-26 12:23:50  

论文总字数:25943字

摘 要

准确的水质评价对工业决策具有十分重要的意义,也对生态环境的持续发展具有十分重要的意义。传统的检测装置难以对污染因子做出快速的测量,因此本文以淮河为主要研究对象,并且建立了水质评价模型,进而能够对水质指标做出准确有效的评价。本文的研究内容主要如下:

首先对搜集来的水质数据集进行了处理,处理的步骤包括利用for循环删除缺失值较多的特征,利用均值插补法对缺失值少的特征进行填补,将文本类的信息转换为数值型,这样做的原因是原始的数据集不能直接用于机器学习。

其次在python上完成了特征选择,降低了数据的维度,加快了机器学习的效率。然后利用smote算法对小类样本进行合成,因为随机森林的训练集中约有36.3%的袋外数据,这样做提高随机森林对小类样本的分类能力。之后利用网格搜索法寻找随机森林内部的重要参数,例如决策树棵树、最大深度等,然后引入了粒子群算法优化随机森林的参数。

最后建立了支持向量机的水质评价模型和bp神经网络模型。将四种模型的分类结果对比,实验结果表明:改进后的随机森林模型在评价过程中的准确率更高。

关键词:随机森林 粒子群 决策树 河流水质

Application of river water quality assessment based on improved random forest algorithm

Abstract

Firstly, the collected water quality data set is processed. The processing steps include using the for loop to delete the features with many missing values, using the mean interpolation method to fill the features with few missing values, and converting the information of the text class into a numerical type. The reason for this is that the original data set cannot be used directly for machine learning.

Secondly, feature selection was completed on Python, which reduced the dimension of data and speeded up the efficiency of machine learning. Then use the smooth algorithm to synthesize small sample samples, because the random forest training concentration has about 36.3% of extra-bag data, which improves the ability of random forests to classify small samples. Then use the grid search method to find important parameters inside the random forest, such as decision tree, maximum depth, etc., and then introduce the particle swarm optimization algorithm to optimize the parameters of random forest.

Finally, the water quality evaluation model of support vector machine and the water quality evaluation model of bp neural network are established. Compare the classification results of the four models. The experimental results show that the improved random forest model has higher accuracy in the evaluation process.

Keywords: Random forest; Particle Swarms optimization;Decision tree;Water quality

目 录

摘 要 Ⅰ

ABSTRACT Ⅱ

第一章 绪论 5

1.1 研究背景及意义 5

1.2 国内外研究现状 5

1.2.1国外研究现状 5

1.2.2国内研究现状 6

1.3本文主要研究内容和重点工作 7

1.4全文章节安排 7

第二章 水质评价和数据预处理相关概念介绍 8

2.1水质评价概述 8

2.2水质评价相关参数的选取 9

2.2.1评价标准 9

2.2.2 评价指标的选取 9

2.2.3 机器学习分类结果的性能指标 10

2.3 数据预处理 10

2.3.1 缺失值 10

2.3.2 特征编码 11

2.3.3 数据标准化 11

2.4 本章小结 11

第三章 随机森林算法 12

3.1 决策树算法 12

3.1.1 决策树的概念 12

3.1.2 信息增益 12

3.1.3 决策树算法的分类 13

3.1.4 决策树的剪枝 14

3.1.5 决策树的优缺点 14

3.2 Bagging算法 15

3.2.1 Bagging 算法流程 15

3.2.2 Bagging算法的特点 15

3.2.3 袋外数据 16

3.3 随机子空间算法 16

3.3.1 随机子空间算法流程 16

3.3.2 随机子空间与Bagging算法分析对比 17

3.4 随机森林算法 17

3.4.1 随机森林的构建 18

3.4.2 随机森林的投票策略 18

3.4.3 随机森林的优缺点 19

3.5 非平衡数据 19

3.5.1 非平衡数据 19

3.5.2 处理非平衡数据的方法 20

第四章 粒子群算法优化随机森林 21

4.1 粒子群优化算法 21

4.2 粒子群优化随机森林 22

第五章 基于改进的随机森林算法的河流水质评价应用实验仿真 24

5.1 试验说明 24

5.1.1 实验数据说明 24

5.1.2 研究区概况 24

5.1.3 实验配置说明 24

5.2 实验仿真研究综述 25

5.3 实验仿真 25

5.3.1 数据预处理 25

5.3.2 特征选择 25

5.3.3 smote算法合成数据 26

5.3.4基于网格搜索法的随机森林参数寻优 27

5.3.5 PSO_RF与其他模型分类结果的对比 28

5.4 本章小结 31

第六章 总结与展望 32

6.1 文章总结 32

6.2 展望 32

参考文献 33

致 谢 36

第一章 绪论

1.1 研究背景及意义

随着国家工业和经济的持续发展,保护环境的工作受到广泛关注,特别是水资源的保护,国家也把水资源的保护提到了极其重要的位置[1],准确的水质评价对工业决策和生态环境的和谐发展至关重要。然而随着社会生产力的发展水污染的程度愈发地严重,工业的发展、人类的健康和社会的进步都与水质环境密切相关。近年来,有关水质污染的负面新闻不断发生。例如,2012年广西柳江金河矿业有限公司违规排放工业污水导致镉[2]超标80倍,2014年南京市的居民城镇饮用水中检测出抗生素,2017年四川广元市嘉陵江铊元素超标4.6倍等等。水污染不仅危害到我国生态坏境,而且严重损害了人类的健康,它已经成为威胁我国环境安全[3]的重要因素之一,因此水污染的预防和治理迫在眉睫。2017年《全国生态环境公报》表明:“我国七大流域的的1617个水质断面中,Ⅳ类占14.6%;Ⅴ类占5.2%;劣Ⅴ类占8.4%”[4]。说明超过四成的河水无法饮用或直接接触。虽然与2016年的数据相比较我国河流水质出现好转,但并没有从根本上改变我国水污染现象较为严重的现状。

面对严重的环境污染,国家环保部也在出台《十三五生态环境保护规划》、《水污染防治行动计划》和《关于实施最严格水资源管理制度的意见》等相关政策。而在水污染的预防和治理中,如果能对河流水质进行准确的评价,不仅能够让有关部门针对不同水污染问题做出及时有效的反应,而且对我国经济的可持续发展和社会的繁荣稳定起到了积极的的作用。水质评价是在是在特定的区域内按照一定的评价标准、评价指标和评价方法对水质等级进行分类。通过河流水质评价,可以清晰地了解到不同地区水质等级与污染物相互联系的规律,分析水体污染物浓度的变化规律以及流域内污染物浓度变化趋势和影响因素,给不同地区的污染治理提供科学依据,因此只有在水质评价能够快速准确地应用在各个流域上才能进一步落实生态保护的工作。所以水质评价是防治流域污染的基础,是改善水环境的必要条件。对水质进行评价及预测研究,为水资源治理提供科学决策依据,是水环境质量评价的目的[5]

1.2 国内外研究现状

1.2.1国外研究现状

请支付后下载全文,论文总字数:25943字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图