基于Spark平台的数据挖掘并行化方法开题报告
2022-01-04 20:46:52
全文总字数:2496字
1. 研究目的与意义及国内外研究现状
互联网数据爆炸式增长的时代,传统数据挖掘算法已经不能很好地处理大规模数据。传统挖掘算法的设计是基于单机计算的,通过并行化改进可提高效率。与传统的单机多线程式并行化相区别的是,在云计算平台下的数据挖掘的并行化是不同节点间的,因而适应云计算平台的并行化改进需要进行进一步的研究。
本文在 spark 平台上实现 k-means 算法并行化。对基于 spark 平台的 k-means 并行算法和 canopy-kmeans 并行算法在准确性、加速比、扩展性、与其他平台性能进行了比较。研究表明,spark平台实现并行化是可行高效且具有现实意义的。
国内外研究现状
由加州伯克利 amp 实验室新开发的内存计算分布式框架 spark 主要针对海量数据处理和机器学习。相较于传统并行计算框架,其内存计算的特性能很好的适应迭代计算,同时在数据切分、并行处理、容错健壮性方面进行了封装,能良好的适应于并行化计算开发。
2. 研究的基本内容
本文是基于云计算平台 spark 上数据挖掘 k-means 算法和 canopy-kmeans的并行化研究。工作主要在以下几个方面:
(1)通过阅读大量的资料文献,介绍数据聚类、聚类并行化和 spark等云计算相关技术,并介绍并行聚类现状以及对数据挖掘和云计算平台进行理论分析。
(2)研究 spark 编程模型,设计基于 spark 的 k-means 并行算法和基于 spark 的canopy-kmeans 并行算法。
3. 实施方案、进度安排及预期效果
1月5日:填写任务书;
1月12日:完成开题报告;
2月19日:完成相关资料搜集;
4. 参考文献
[1]毛国君.数据挖掘原理与算法[m].清华大学出版社有限公司, 2005.
[2] 梁彦. 基于分布式平台spark和yarn的数据挖掘算法的并行化研究[d].中山大学,2014.
[3]郭斯杰,贾鸿飞,熊劲.互联网海量数据存储和处理技术综述[j].信息技术快报,2009,7(5):1-29.