登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 通信工程 > 正文

基于Hadoop的海量文本处理系统的设计与实现毕业论文

 2021-03-10 23:22:52  

摘 要

互联网加时代,越来越多的企业依赖于互联网这个平台进行商业活动并且与消费者互动,如何有效快速的处理和利用互联网上产生的海量数据,或者说,完成海量文本的处理,成为学者及企业研究及开发的热门方向。文本分类属于文本处理中的一个基础环节,本文研究的基于Hadoop的海量文本处理系统完成了海量文本的分类。本文完成的工作具体如下:

  1. 研究了Hadoop的基础构架,包括Hadoop编程模型MapReduce中各节点的不同作用及其运作方式,并探讨了HDFS中文件是如何存储及写入读出的。
  2. 研究了文本分类算法的基本原理。包括相量空间模型(VSM),并着重讨论了一种基于VSM和TFIDF的分类算法,给出了其具体实现原理。
  3. 基于研究结果,完成本文设想的海量文本分类系统的模块设计,使用虚拟机及Ubuntu搭建Hadoop平台。实现文本分类系统,并通过实验数据测试分类器的性能好坏,指出本文所设计的系统中的不足之处,给出改进的方向。

关键词:Hadoop;MapReduce;HDFS;TFIDF

Abstract

In the era of Internet plus, more and more companies rely on the Internet platform for commercial activities and interaction with consumers, how to effectively and quickly deal with and use the massive data generated on the Internet, or to complete the processing of massive text, has become a hot topic for scholars and enterprise research and development. The classification of text belongs to the most basic step in text processing. The massive text processing system based on Hadoop researched in this paper has completed the classification of massive text. The work done in this paper is as follows:

  1. studied the basic structure of Hadoop, including the Hadoop programming model, the different functions of each node in MapReduce and its operation mode, and how the files in HDFS are stored, written and read out.

(2) The basic principle of text categorization algorithm is studied. Including the phasor space model (VSM), and focuses on a classification algorithm based on VSM and TFIDF, and gives its concrete realization principle.

(3) Based on the research results, the module design of the massive text classification system envisaged in this paper is completed, and the Hadoop platform is built using virtual machine and Ubuntu. To achieve the text classification system, and through the experimental data test classifier performance is good or bad, pointed out that the design of the system in this shortcomings, given the direction of improvement.

Keywords:Hadoop; MapReduce; HDFS; TFIDF

目 录

第1章 绪论 1

1.1 课题研究的背景和意义 1

1.2 国内外研究现状 1

1.2.1 海量文本处理的研究现状 1

1.2.2 文本分类的研究现状 2

1.3 论文内容安排 2

第2章 Hadoop平台 3

2.1 Hadoop起源及其特点 3

2.2 Hadoop概述 3

2.3 HDFS 4

2.3.1 HDFS简介 4

2.3.2 HDFS构架 4

2.3.3 HDFS文件的读/写 6

2.4 MapReduce 7

2.4.1 MapReduce简介 7

2.4.2 MapReduce模型 8

2.4.3 MapReduce运行过程 10

第3章 基于TFIDF的文本分类 12

3.1 文本分类 12

3.1.1 文本预处理 12

3.1.2 文本向量化 13

3.1.3 文本训练及分类 14

3.2 TFIDF算法 14

第4章 海量文本分类系统设计及实现 16

4.1 文本分类系统需求分析 16

4.2 文本分类系统模块设计 16

4.2.1 基于TFIDF文本分类算法的并行实现 16

4.2.2 文本并行分类算法的模块设计 17

4.3文本分类系统各模块的实现 24

4.4 Hadoop平台搭建 27

4.4.1 VMware workstation及Ubuntu 27

4.4.2 Hadoop平台搭建 28

4.5 实验结果及分析 31

4.5.1 Eclipes远程调试Hadoop 31

4.5.2实验数据分析 34

参考文献 39

致谢 40

第1章 绪论

1.1 课题研究的背景和意义

随着信息化时代的到来,互联网上产生的大量数据将我们带入了大数据时代。针对这些每时每刻不断产生的数据,如何去除其中繁杂的、无意义的信息,提取有效的、有隐藏意义的信息成为了众多企业和政府的诉求。因此,海量数据处理逐渐进入了人们的视野,而文本分类是海量数据处理中重要且基础的一部分。随着信息规模的爆炸性增长,原有的单机文本分类工具和方法早已不能满足对海量数据的处理需要[1],人们急需一种新的、可靠的、针对大量数据可以做出快速反映的数据处理体系。为了解决单机计算速度慢、容量有限等问题,研究人员提出了并行计算,并提出了基于并行计算的MapReduce编程模型来解决这些问题。2005年Hadoop项目开始被引入,2006年三月份MapReduce被纳入Hadoop项目中,Hadoop目前已发展成为分析大数据的领先平台。

本文提到的文本分类是指计算机通过设定好的算法及程序实现如同人工完成的对文本类别进行归纳的工作[2],其中,按照与语意有关与无关可以将中文文本分类算法分为两类[3]:第一类为与文本语意无关的分类算法,又称为基于外延方法的分类算法,如向量空间模型,利用了统计的方法,广泛应用于机器学习领域;另一种类型与语意有关,由于目前对自然语言处理的技术发展还不够成熟,很少使用。本次设计采用基于VSM及TFIDF的分类算法,结合云计算平台Hadoop实现海量文本分类的分类处理。

1.2 国内外研究现状

1.2.1 海量文本处理的研究现状

大数据时代标志着新兴的产业和商机的出现,越来越多的商业机会和决策依赖于对数据的处理与分析,如淘宝可以通过对用户浏览记录的处理找到用户偏向的商品类型,从而更好的满足用户的需求,企业可以通过不同商品的销售情况甚至更多因素推测商品的需求量,从而优化商品的生产销售结构。通常来说,企业的数据有三种类型,其中如文本数据这样的非结构化数据占比最多,在所有数据中占大约85%,其余为半结构化和结构化数据[4]

MapReduce编程模型改变了传统的程序顺序运行的模式,采用了一种全新的、更适合程序并行化执行的编程模式。现在MapReduce在各类机器学习及计算领域,具体包括实现分布排序、聚类程序等方面得到了大面积的应用。

不少商家现在都依赖Hadoop进行技术开发,国外应用Hadoop的有我们熟悉的Facebook、Yahoo,国内有百度、淘宝等,它们的数据分析和机器学习都借助于Hadoop机群,日志分析和网页数据挖掘技术也有很多是依靠Hadoop研发的。

1.2.2 文本分类的研究现状

首次提出用词频统计来进行文本分类的是Luhn H P[5]。1990年代,文本分类完成了由人工分类到机器学习的跨越。最近的几十年间,国内外专家学者对不同类型的文本分类算法进行了一系列探索和尝试,其中,发展比较完善且现在较为常用的分类算法包括神经h网络、K邻近、朴素贝叶斯算法等[6]

云计算平台Hadoop使用并行计算构架,是研发人员为处理大量的数据运算而特别设计的,从而受到广大研究文本分类的学者和企业的青睐。北京邮电大学研究了基于Hadoop的SVM并行文本分类,上海交通大学的刘丛山提出了K-NCA算法,最近有学者研究出了一系列新的文本分类模型,有多种分类方法相结合并改进而提出的新分类方法如voting,也有学者把模糊集和粗糙集同时用于文本分类以改善分类效果。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图