基于hadoop的频繁项集算法的实现开题报告
2020-05-16 20:19:10
1. 研究目的与意义(文献综述包含参考文献)
一. 选题依据 1.课题背景 如今我们生活在一个信息爆炸的时代,信息爆炸的背后是数据量以惊人的几何式速度增长。
根据idc(international data corporation)的数字宇宙 (digital universe) 研究报告显示,2006年全球数据总量为0.18zb ,2011年增长至1.8zb,而到2020年,这个数字预计将增长到惊人的40zb。
并且届时,约有33%的数据将包含有价值的信息。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容、问题解决措施及方案
由于Hadoop只能运行于linux操作系统上,因此在windows上做开发、测试,需要安装cygwin来模拟linux环境。
Hadoop是基于JAVA开发的,因此电脑中需要安装JAVA。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付