基于MapReduce的K-means聚类算法并行实现开题报告
2020-02-18 19:27:48
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
数据挖掘是一门从大量数据或者数据库中提取有用信息的科学,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息。在数据挖掘中,聚类分析是一个重要的课题。所谓聚类,就是将一整个物理或抽象的数据集分割成为多个簇,使得同一簇内的数据间相似度高而不同簇内的数据间相似度低的一个过程。它被广泛的运用于文本搜索、模式识别、人工智能、图像分析等领域。目前已经存在许多的聚类算法,比如基于划分的 kmeans算法,基于层次的cure算法,基于密度的dbscan算法,基于网格的sting方法,基于模型的cobweb方法等等[7]。
近年来,而随着社会信息化程度的不断加深,人类活动在网络中产生的数据也呈爆炸式增长,如何在大数据环境下高效准确地挖掘出数据中的有价值的信息成为了一个亟需解决的问题[5]。面对急剧增长的数据量,传统的聚类算法已经很难满足实际应用的需求。其问题主要表现在以下两点:(1)当数据规模过大时,受制于内存容量,传统聚类算法往往无法有效地运行;(2)过多的数据使得聚类算法的执行时间大大延长,算法执行效率过低。
2. 研究的基本内容与方案
2.1 基本内容与目标
学习以k-means算法为代表的传统聚类算法的相关知识、技术、实现方法。在此基础上,研究云计算相关理论,利用hadoop分布式系统架构和mapreduce编程模型设计并实现并行的k-means聚类算法。在完成并行k-means聚类算法的设计后,将其部署在集群上进行实验。通过对比算法在处理不同大小的数据集、拥有不同数量的节点及执行不同的节点分配策略等情况下的运行效果,来检测算法的是否能够有效地处理实际应用中出现的大型数据集,并测试出算法在何种条件下运行最有效率。
3. 研究计划与安排
(1) 2019/1/19—2019/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2) 2019/3/1—2019/4/30:系统架构、程序设计与开发、系统测试与完善;
(3) 2019/5/1—2019/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1] hartigan j a,wong m a. algorithm as 136: a k-means clustering algorithm[j]. journal of theroyal statistical society, 1979, 28(1):100-108.
[2] xu y , qu w ,li z , et al. efficient $k$ -means approximation with mapreduce[j]. ieeetransactions on parallel and distributed systems, 2014, 25(12):3135-3144.
[3] zhao w , ma h, he q . parallel k-means clustering based on mapreduce[j]. lecture notes incomputer science, 2009:674.