基于Spark平台的数据挖掘并行化方法开题报告

2022-01-04 20:46:52

全文总字数：2496字

1. 研究目的与意义及国内外研究现状

互联网数据爆炸式增长的时代，传统数据挖掘算法已经不能很好地处理大规模数据。传统挖掘算法的设计是基于单机计算的，通过并行化改进可提高效率。与传统的单机多线程式并行化相区别的是，在云计算平台下的数据挖掘的并行化是不同节点间的，因而适应云计算平台的并行化改进需要进行进一步的研究。

本文在 spark 平台上实现 k-means 算法并行化。对基于 spark 平台的 k-means 并行算法和 canopy-kmeans 并行算法在准确性、加速比、扩展性、与其他平台性能进行了比较。研究表明，spark平台实现并行化是可行高效且具有现实意义的。

由加州伯克利 amp 实验室新开发的内存计算分布式框架 spark 主要针对海量数据处理和机器学习。相较于传统并行计算框架，其内存计算的特性能很好的适应迭代计算，同时在数据切分、并行处理、容错健壮性方面进行了封装，能良好的适应于并行化计算开发。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

本文是基于云计算平台 spark 上数据挖掘 k-means 算法和 canopy-kmeans的并行化研究。工作主要在以下几个方面：

（1）通过阅读大量的资料文献，介绍数据聚类、聚类并行化和 spark等云计算相关技术，并介绍并行聚类现状以及对数据挖掘和云计算平台进行理论分析。

（2）研究 spark 编程模型，设计基于 spark 的 k-means 并行算法和基于 spark 的canopy-kmeans 并行算法。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

1月5日：填写任务书；

1月12日：完成开题报告；

2月19日：完成相关资料搜集；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

[1]毛国君.数据挖掘原理与算法[m].清华大学出版社有限公司, 2005.

[2] 梁彦. 基于分布式平台spark和yarn的数据挖掘算法的并行化研究[d].中山大学,2014.

[3]郭斯杰,贾鸿飞,熊劲.互联网海量数据存储和处理技术综述[j].信息技术快报,2009,7(5):1-29.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付