基于hadoop的频繁项集算法的实现任务书
2020-05-14 22:14:35
1. 毕业设计(论文)的内容和要求
hadoop实现了一个分布式文件系统(hadoop distributed file system),简称hdfs。hdfs有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。hdfs放宽了(relax)posix的要求,可以以流的形式访问(streaming access)文件系统中的数据。
hadoop的框架最核心的设计就是:hdfs和mapreduce。hdfs为海量的数据提供了存储,则mapreduce为海量的数据提供了计算。
要求基于hadoop实现频繁项集算法,主要完成以下工作:
2. 参考文献
[1]万川梅, 谢正兰.hadoop应用开发实战详解[m]. 北京:中国铁道出版社, 2013.
[2]tom white. hadoop 权威指南[m]. 清华大学出版社, 2010.
[3]王宏宇. hadoop 平台在云计算中的应用[j]. 软件, 2011, 32(4): 36-38.
3. 毕业设计(论文)进程安排
起讫日期 |
设计(论文)各阶段工作内容 |
备 注 |
12.9-12.15 |
学生与导师见面,布置学生查阅文献确定选题 |
2015年 |
12.16-1.4 |
导师下达任务书、攥写开题报告 |
2016年 |
1.4-1.15 |
检查、修改开题报告 |
|
1.15-2.4 |
学习Hadoop相关知识 |
|
2.5-3.2 |
学习Map/Reduce相关知识 |
|
3.3-3.24 |
建立一个Hadoop集群 |
|
3.25-4.16 |
实现频繁项集挖掘算法 |
|
4.17-5.8 |
实现基于Hadoop的频繁项集挖掘算法 |
|
5.9-5.16 |
算法测试以及最后修改 |
|
5.17-5.25 |
攥写论文 |
|
5.26-6.5 |
论文修改、打印、装订、答辩 |
|
|
|
|