主成分聚类分析方法在环境污染评价中的应用开题报告
2020-04-13 11:42:57
1. 研究目的与意义(文献综述)
本毕业设计的最终目的是设计一种高效的主成分聚类分析方法用于讨论环境污染问题。主成分分析和聚类分析属于统计学中的数据分析方法,适用于针对数据化的样本特征的分析。
在实际问题中,为了尽可能完整地获取有关信息,往往需要考虑众多的变量,这样虽然能保证信息的完整性,但增加了问题的复杂性。在一般情况下,同一问题的变量之间会存在一定的相关性,这就使得各变量的信息有所重叠。所以在处理问题时,我们希望能用为数较少的、信息不重叠的新变量来反映原变量提供的大部分有效信息。主成分分析的主要目的是对原变量的特征进行提取,在不损失原变量太多信息的情况下尽可能地降低原变量的维数,即用较少的“新变量”代替原来的各变量。
在认识事物时,往往先将被认识的事物进行分类。聚类分析就是研究分类的,其目的是在不知道总体有多少种类型不知道的情况上,寻求客观的分类方法。聚类分析一般有两种类型,即按样本聚类或按指标聚类。基本思想是通过定义样品或变量间“接近程度”的度量,以此为基础,将“相近”的样品或变量归为一类。常用的聚类方法有两种,快速聚类法和谱系聚类法。本论文对两种聚类方法都有讨论,并针对两种方法聚类的结果进行比较。
2. 研究的基本内容与方案
本毕业设计的基本内容大致分为几个部分。首先对国内外在该问题的研究成果进行简单的概述,总结几个主流方法的优劣势;再加入自己的理解提出一种合理的主成分分析方法,并将来源于网络的统计数据带入方法进行分析;在聚类方法中,将直接引用较为广泛使用的几个方法,分别对实际数据进行分析;最后比对几种方法的优缺点并将方法进行改进,对相同数据进行重新分析。在设计主体中,首先要面对的是特征提取的问题。这个过程需要应用环境学和化学的一些指标。然后我们需要考虑的是构建新的、能高效表示数据特征的变量,这一部分专业性较强会着重描述。能用什么方式使得信息缺失最少,是主成分分析中的重点。在讨论聚类分析时,主要面对的问题是效率。实际问题中出现的数据往往较为繁杂,若在之前的主成分分析中得到的新的变量比较适合进行聚类分析,那么聚类分析这一步骤的效率就会大大提升,所以我们也不能将主成分分析与聚类分析完全当做两个问题来讨论。
本毕业设计的目标是针对环境污染问题中面对的数字的特征,寻找高效合理的分析方式,同时提出自己的观点。
3. 研究计划与安排
| 任务内容 | 时间节点 |
1 | 查阅文献,了解综合评价方法及国内外研究现状并完成开题报告; | 第1-3周 |
2 | 总体设计,深入学习理论基础,精读重要参考文献,确定文章总体思路并完成论文综述; | 第4-6周 |
3 | 设计算法程序,完成功能模块的设计; | 第7-10周 |
4 | 编程进行测试,与实际情况进行核对; | 第11-13周 |
5 | 提交论文初稿,给老师检查后修改定稿,答辩。 | 第14-15周 |
4. 参考文献(12篇以上)
[1]胡洋,巴图那生,蔡舰, 等.焉耆盆地农排渠水质变化特征及其污染源分析[j].水资源保护,2017,(5):154-158,176. doi:10.3880/j.issn.1004-6933.2017.05.024.
[2]王晓东,田俊.聚类分析分类结果合理性考核方法[j].数学的实践与认识,2008,(20):110-113.
[3]石陆魁,柳冰,沈雪勤.一种基于非线性降维的聚类算法[j].河北工业大学学报,2005,(z1):112-114. doi:10.3969/j.issn.1007-2373.2005.z1.034.