基于Hadoop的海量文本处理系统的设计与实现开题报告

2020-11-13 21:36:13

1. 研究目的与意义（文献综述）

1.1 研究目的及意义

随着信息化时代的到来，移动设备和互联网网络快速发展，互联网上产生的大量数据将我们带入了大数据时代。国际数据公司（idc）曾经发布报告称，2006年数字世界（digital universe）项目统计得出全球数据总量已达到0.18zb，并预测2011年全球将产生1.9zb的数据，将2012年称为“big date”年。

在海量的数据中有各种形式的数据，有文本数据，有图片视频等等，其中文本数据产生最多最广的海量信息，通过对这些文字信息的处理，我们可以获得大量有价值的信息，如商家可以更好的了解用户需求，政府可以通过这些信息了解民情、民意。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

2.1研究目标

本次毕业设计针对文本分词中训练阶段耗时较长，且处理海量数据速度慢的问题，研究海量文本分类的并行算法，基于词频反文档频率（tfidf）分类算法，设计出基于hadoop与并行tfidf算法的海量文本分类系统，并完成该文本分类系统的性能测试。

2.2研究内容

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

第1－3周：查阅相关文献资料，明确研究内容，学习毕业设计研究内容所需的理论基础。确定毕业设计方案，完成开题报告。

第4－5周：掌握java开发环境和使用方法，了解mapreduce的相关理论知识。

第6－9周：学习hadoop研究框架的使用和研究分布式算法，完成整个系统的前期设计工作。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1]张学亮,陈金勇,陈勇.基于hadoop云计算平台的海量文本处理研究[j].无线电通信技术,2014,(01):54-57.

[2]王静宇,赵伟燕.基于hadoop平台的tfidf算法并行化研究[j].计算机工程与科学,2014,(06):1018-1022.

[3]晁平复,郑芷凌,房俊华,张蓉.支持通信数据查询分析的分布式计算系统[j].华东师范大学学报(自然科学版),2014,(05):89-102 116.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码