基于马氏距离的模糊聚类优化算法开题报告
2022-01-17 23:07:56
全文总字数:2346字
1. 研究目的与意义及国内外研究现状
模糊聚类作为无监督机器学习的主要技术之一,采用模糊集理论对数据进行分析和建模,来建立样本类属的不确定性描述,使相似的样本尽可能归为一类,而不相似样本划分到不同的类中。在众多的模糊聚类算法中,模糊 C-均值聚类算法(Fuzzy C-Means clustering,FCM)应用最为广泛且较成功,在 1971 年由 Bezdek 提出,算法的优势在于能够处理大规模数据集,不足之处为聚类结果对初始聚类中心的选择极为敏感,容易陷入局部极小值,而得不到全局最优解,在聚类数比较大的情况下,这一缺点尤为明显。而且传统的模糊 C-均值聚类算法的距离度量函数采用的是欧几里德距离函数,会将用户的不同兴趣爱好看作是一样的,这一点不能满足用户的兴趣爱好有差别的要求,且其不能检测超球体。为了克服这些不足,需要对FCM算法进行优化。
国内外研究现状
模糊聚类分析通过利用模糊集理论对给定数据对象进行分析,得出数据对类别归属的不确定度的描述,从而客观地反映出现实规律,是无监督机器学习的主要技术之一。它已经被有效地应用于金融数据分析、数据挖掘、卫星图片处理、空间数据处理等领域,不仅具有充分的理论还具有很大的应用价值。随着数据挖掘技术的发展进步,模糊聚类算法的研究成果 也日益丰富。关于模糊聚类的研究应用最广的是基于目标函数的模糊聚类方法,FCM算法是最经典的基于目标函数的模糊聚类算法,但也存在一些问题,因此基于FCM算法的改进算法和应用被研究者所关注。蔡静颖为改进FCM算法不能处理非球形簇且未考虑样本矢量各特征重要程度、处理高相关数据集时错误率增加的缺点,使用马氏距离得到FCM-M算法及MF-FCM算法。针对其他方面的新模糊聚类算法更是数不胜数。
2. 研究的基本内容
本课题主要研究基于马氏距离的模糊聚类算法的优化,在整个过程中主要完成以下工作:
(1)深入了解模糊聚类算法的研究意义、在国内外的发展现状和应用前景。
(2)学习基于欧氏距离的经典算法和基于马氏距离的优化算法之间的异同,分析马氏距离在模糊聚类中的优势。
3. 实施方案、进度安排及预期效果
实行方案:
一、在网上或者图书馆查阅相关资料,深入了解课题内容;
二、在熟悉matlab的基础上,学习各种模糊聚类算法基本原理并利用编程软件加以实现,比较马氏距离在模糊聚类中的优越性;
4. 参考文献
[1] 蔡威.模糊聚类算法在数据挖掘中的应用研究[d].兰州:兰州交通大学,2012.
[2] 王丽娟,关守义,王晓龙,等. 基于属性权重的 fuzzy c mean算法[j]. 计算机学报,2006,29(10):1797-1803.
[3] 祖志文,李秦. 基于马氏距离的模糊聚类优化算法——km-fcm[j]. 河北科技大学学报,2018,39(2):159-165.