基于Hadoop的海量文本处理系统的设计与实现开题报告
2020-11-13 21:36:13
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
随着信息化时代的到来,移动设备和互联网网络快速发展,互联网上产生的大量数据将我们带入了大数据时代。国际数据公司(idc)曾经发布报告称,2006年数字世界(digital universe)项目统计得出全球数据总量已达到0.18zb,并预测2011年全球将产生1.9zb的数据,将2012年称为“big date”年。
在海量的数据中有各种形式的数据,有文本数据,有图片视频等等,其中文本数据产生最多最广的海量信息,通过对这些文字信息的处理,我们可以获得大量有价值的信息,如商家可以更好的了解用户需求,政府可以通过这些信息了解民情、民意。
2. 研究的基本内容与方案
2.1研究目标
本次毕业设计针对文本分词中训练阶段耗时较长,且处理海量数据速度慢的问题,研究海量文本分类的并行算法,基于词频反文档频率(tfidf)分类算法,设计出基于hadoop与并行tfidf算法的海量文本分类系统,并完成该文本分类系统的性能测试。
2.2研究内容
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需的理论基础。确定毕业设计方案,完成开题报告。
第4-5周:掌握java开发环境和使用方法,了解mapreduce的相关理论知识。
第6-9周:学习hadoop研究框架的使用和研究分布式算法,完成整个系统的前期设计工作。
4. 参考文献(12篇以上)
[1]张学亮,陈金勇,陈勇.基于hadoop云计算平台的海量文本处理研究[j].无线电通信技术,2014,(01):54-57.
[2]王静宇,赵伟燕.基于hadoop平台的tfidf算法并行化研究[j].计算机工程与科学,2014,(06):1018-1022.
[3]晁平复,郑芷凌,房俊华,张蓉.支持通信数据查询分析的分布式计算系统[j].华东师范大学学报(自然科学版),2014,(05):89-102 116.