登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

基于Spark平台的数据挖掘并行化方法开题报告

 2022-01-04 20:46:52  

全文总字数:2496字

1. 研究目的与意义及国内外研究现状

互联网数据爆炸式增长的时代,传统数据挖掘算法已经不能很好地处理大规模数据。传统挖掘算法的设计是基于单机计算的,通过并行化改进可提高效率。与传统的单机多线程式并行化相区别的是,在云计算平台下的数据挖掘的并行化是不同节点间的,因而适应云计算平台的并行化改进需要进行进一步的研究。

本文在 spark 平台上实现 k-means 算法并行化。对基于 spark 平台的 k-means 并行算法和 canopy-kmeans 并行算法在准确性、加速比、扩展性、与其他平台性能进行了比较。研究表明,spark平台实现并行化是可行高效且具有现实意义的。

国内外研究现状

由加州伯克利 amp 实验室新开发的内存计算分布式框架 spark 主要针对海量数据处理和机器学习。相较于传统并行计算框架,其内存计算的特性能很好的适应迭代计算,同时在数据切分、并行处理、容错健壮性方面进行了封装,能良好的适应于并行化计算开发。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本文是基于云计算平台 spark 上数据挖掘 k-means 算法和 canopy-kmeans的并行化研究。工作主要在以下几个方面:

(1)通过阅读大量的资料文献,介绍数据聚类、聚类并行化和 spark等云计算相关技术,并介绍并行聚类现状以及对数据挖掘和云计算平台进行理论分析。

(2)研究 spark 编程模型,设计基于 spark 的 k-means 并行算法和基于 spark 的canopy-kmeans 并行算法。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

1月5日:填写任务书;

1月12日:完成开题报告;

2月19日:完成相关资料搜集;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]毛国君.数据挖掘原理与算法[m].清华大学出版社有限公司, 2005.

[2] 梁彦. 基于分布式平台spark和yarn的数据挖掘算法的并行化研究[d].中山大学,2014.

[3]郭斯杰,贾鸿飞,熊劲.互联网海量数据存储和处理技术综述[j].信息技术快报,2009,7(5):1-29.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图