主成分聚类分析方法在环境污染评价中的应用文献综述
2020-05-02 17:58:12
本毕业设计的最终目的是设计一种高效的主成分聚类分析方法用于讨论环境污染问题。主成分分析和聚类分析属于统计学中的数据分析方法,适用于针对数据化的样本特征的分析。
在实际问题中,为了尽可能完整地获取有关信息,往往需要考虑众多的变量,这样虽然能保证信息的完整性,但增加了问题的复杂性。在一般情况下,同一问题的变量之间会存在一定的相关性,这就使得各变量的信息有所重叠。所以在处理问题时,我们希望能用为数较少的、信息不重叠的新变量来反映原变量提供的大部分有效信息。主成分分析的主要目的是对原变量的特征进行提取,在不损失原变量太多信息的情况下尽可能地降低原变量的维数,即用较少的“新变量”代替原来的各变量。
在认识事物时,往往先将被认识的事物进行分类。聚类分析就是研究分类的,其目的是在不知道总体有多少种类型不知道的情况上,寻求客观的分类方法。聚类分析一般有两种类型,即按样本聚类或按指标聚类。基本思想是通过定义样品或变量间“接近程度”的度量,以此为基础,将“相近”的样品或变量归为一类。常用的聚类方法有两种,快速聚类法和谱系聚类法。本论文对两种聚类方法都有讨论,并针对两种方法聚类的结果进行比较。
随着全球经济的快速增长,越来越多国内外的学者注意到那些与提高生活质量相关的问题,其中就包括环境问题。在国内,改革开放以来,我国经济增长较快,人口数量逐渐增多,利用的自然的产物也是逐渐在增多。因此,在这种情形下,我们给自然环境产生的废物也是渐渐变多了,这就会对环境产生比较严重的污染。这种环境污染问题是会给人民现有的生活质量造成某种程度的影响。这是我们大家都不想看到的。怎样才能让环境污染的现象越来越少,或者说不受太多的影响呢?它是关系到人类子孙后代的利益。这个问题也是困扰着社会各个行业人士,关于环境污染的研究在高校也是非常热门的。
目前国内外对于数据统计分析方法在环境方面的研究很多,从上个世纪九十年代之后就陆续出现了很多相关的研究,在近五年来更是出现大量研究内容。对环境污染方面的数据统计,按数据来源一般分为研究河道污染、研究空气污染、研究水库污染和研究土壤污染等。研究中数据的分类方式也有不同,有将数据按污染源分的,也有将数据按污染成分分的。由于在这些研究中所面对的数据的特征都有相似性,所以用到的方法很多大同小异或建立在一个基本模型上。其中也有学者提出一些新颖的想法,但总得来说就是研究很多但思路并不广。
各核心期刊都有很多关于该问题的研究,主要思路集中在模糊聚类、k-means方法、加权的主成分分析等方法。林燕萍等人提出利用一些改进的方法如增强矩阵主成分分析和正定矩阵因子分解,可以克服多元统计分析中的不足。吕翠芬提出了两种考虑波谱曲线特性的聚类方法:基于规范化波段差值的模糊聚类方法和基于地物曲线特性的模糊聚类方法,以增强高光谱图像聚类分类的效果。
2. 研究的基本内容与方案
{title}本毕业设计的基本内容大致分为几个部分。首先对国内外在该问题的研究成果进行简单的概述,总结几个主流方法的优劣势;再加入自己的理解提出一种合理的主成分分析方法,并将来源于网络的统计数据带入方法进行分析;在聚类方法中,将直接引用较为广泛使用的几个方法,分别对实际数据进行分析;最后比对几种方法的优缺点并将方法进行改进,对相同数据进行重新分析。在设计主体中,首先要面对的是特征提取的问题。这个过程需要应用环境学和化学的一些指标。然后我们需要考虑的是构建新的、能高效表示数据特征的变量,这一部分专业性较强会着重描述。能用什么方式使得信息缺失最少,是主成分分析中的重点。在讨论聚类分析时,主要面对的问题是效率。实际问题中出现的数据往往较为繁杂,若在之前的主成分分析中得到的新的变量比较适合进行聚类分析,那么聚类分析这一步骤的效率就会大大提升,所以我们也不能将主成分分析与聚类分析完全当做两个问题来讨论。
本毕业设计的目标是针对环境污染问题中面对的数字的特征,寻找高效合理的分析方式,同时提出自己的观点。