聚类分析方法比较及应用文献综述
2020-04-29 19:58:14
文 献 综 述 一、前言 聚类分析是数据挖掘的重要研究领域之一,是实现对数据全方位分组的一类方法。
现已广泛应用于机器学习、模式识别、图像分析、信息检索、生物信息学等众多领域。
目前,聚类算法有上百种之多,不同算法对类的定义有所不同,大体上分为划分的方法、 层次的方法、基于密度的方法 、基于网格的方法和基于模型的方法等。
这些聚类策略各有千秋,但在理论、方法上也都存在一定的缺陷。
所以对聚类算法进行深入研究和优化是必要的,不仅能够丰富其理论,而且对许多不同的应用领域具有重要意义,同时很大程度上促进了聚类算法的应用和推广。
二、研究现状 以下是对各学者的研究进行回顾总结,主要归纳和阐述了传统的聚类算法,列举了新发展的聚类算法以及一些聚类融合算法的新讨论。
传统聚类算法 1.基于划分的聚类算法 基于划分的聚类算法是给定要构建的划分数目K,由一个初始划分开始,通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以输出多个互不相交的聚类集。
其中k-平均(k-means)算法和 k-中心(k-medoids)算法是最重要的两种算法,除此之外的其他类型的划分方法都是在它们的基础上演化而来的。
多数基于划分的聚类算法都是非常高效的,但这种算法中存在着关于初始值有关的两个重大缺陷(聚类数目k的确定、初始中心点集的选择),因此有研究者进行了更为深入的研究。
郑洪英[1]采取”射靶”的原理进行类中心的搜索,得到的聚类结果更加稳定,减弱了对初始聚类中心的依赖性。