基于MapReduce的K-Means聚类算法的并行实现文献综述

2020-05-01 08:49:52

1．目的及意义

随着互联网的飞速发展，用户每天产生的数据呈现了爆炸性的增长，大数据的时代正式到来。如何从用户产生的数据中获取到有效的信息，一直是学术界以及工业界感兴趣的问题，为此数据挖掘技术应运而生，传统的数据挖掘的算法主要有C4.5算法、k均值聚类算法、支持向量机算法、关联算法、最大期望算法、PageRank算法、AdaBoost算法、k最邻近算法、朴素贝叶斯算法、CART分类算法十种。其中k-means聚类算法作为一种基于划分的聚类算法，由于其简单高效，因此成为运用比较广泛的一种算法。

但是，传统的K-means算法在数据量非常大的时候，算法的运行效率非常低，因此在海量数据挖掘的时候效果并不是非常理想。

非常幸运的是谷歌针对处理海量数据早就提出了MapReduce并行计算模型，而且MapReduce极大的简化了并行程序的设计。因此，使用MapReduce并行计算模型来改善k-means聚类算法是一个非常不错的思路。

{title}

2. 研究的基本内容与方案

{title}

研究的基本内容：针对经典的K-Means聚类算法，使用MapReduce计算模型，应用Hadoop框架实现K-Means算法的并行化。

目标：改善K-means聚类算法。

技术方案：主要采用Hadoop框架和MapReduce计算模型。

3. 参考文献

1. Hartigan, John A., and Manchek A. Wong."Algorithm AS 136: A k-means clustering algorithm." Journal ofthe Royal Statistical Society. Series C (Applied Statistics) 28, no. 1(1979): 100-108.
2. Wu, Xindong, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, QiangYang, Hiroshi Motoda, Geoffrey J. McLachlan et al. "Top 10 algorithmsin data mining." Knowledge and information systems 14, no. 1 (2008):1-37.
3. Kantardzic, Mehmed. Data mining: concepts, models, methods,and algorithms. John Wiley amp; Sons, 2011.

4. Lin K, Li X, Zhang Z, et al. A K-meansclustering with optimized initial center based on Hadoop platform[C]//ComputerScience amp; Education (ICCSE), 9th International Conference on. IEEE, 2014:263-266.

5. Cui X, Zhu P, Yang X, et al. Optimizedbig data K-means clustering using MapReduce[J]. Journal of Supercomputing,2014, 70(3): 1249-1259.

6. Yuan Q, Shi H, Zhou X. An optimized initializationcenter K-means clustering algorithm based on density[C]//Cyber Technology inAutomation, Control, and Intelligent Systems (CYBER), 2015 IEEE InternationalConference on. IEEE, 2015: 790-794.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码