基于Hadoop框架的大数据挖掘开发开题报告
2020-04-13 15:22:03
1. 研究目的与意义(文献综述)
1.1 课题研究的目的及意义
随着社交网络、电子商务、在线视频等新一代互联网应用的发展,大数据应运而生,数据挖掘是一种提出隐含在大量数据中的潜在的、有用的信息并被人们识别、处理的数据库中的只是发现。云计算的普及以及需求日益增加,实现云计算关键的一点就是需要有传统数据挖掘算法参与的云计算平台,hadoop框架就是一个解决大数据挖掘开发的平台。越来越多的企业用户需要进行高效的大数据挖掘处理工作,但是一台机器处理大数据的存储或者是计算的操作效率是有限的,因此他们利用hadoop框架来进行搭建分布式平台。hadoop主要解决了用户群体的两大问题:大数据存储和大数据分析,即hadoop distributed file system(hdfs)和mapreduce。
目前,hadoop框架已经算是一个成熟的框架了,同时也是一个运用非常广泛的大数据平台。hdfs是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。mapreduce为分布式计算框架,主要包含映射(map)和归约(reduce)过程,负责在hdfs上进行计算。因此,毕设目的是实现一个基于hadoop框架的大数据挖掘的mapreduce并行算法,进行数据挖掘。
2. 研究的基本内容与方案
2.1研究的基本内容
对于处理大规模数据集进行计算机建模,现在运用价值最高的莫过于基于hadoop框架的大数据挖掘。本次研究的主要内容如下:
1. 学习hadoop框架的概念、架构、组件、生态系统以及hadoop相关编程,并且在linux系统下配置hadoop的环境,启动hadoop集群;
3. 研究计划与安排
1-3周:查阅文献,完成开题报告
4-6周:总体设计,完成论文综述
7-10周:设计算法,功能模块设计
4. 参考文献(12篇以上)
[1] tom white.hadoop:the definitive guide [m].北京:清华大学出版社,2017.
[2] liu xiaoli,xu pandeng,liu mingliang,et al.design and development of real-time query platform for big data based on hadoop[j].high technology letters,2015,21(2):231-238.
[3] ibra cire mbaye.an improved parallel k-means clustering algorithm with mapreduce and hadoop[d].湖南:湖南大学,2015.