登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

基于Hadoop的分类算法的实现毕业论文

 2022-03-22 20:31:58  

论文总字数:20276字

摘 要

在近十年里,互联网的出现大大的改变了我们的生活,几乎任何事情都可以通过互联网来解决,网上购物,网上点餐,网上预订,网上阅读,这些行为伴随着大量数据的产生,而互联网行业为了更好更有针对性的对每个人服务必须分析采集大量用户数据,这对互联网时代的公司来说是一个巨大的挑战。从而可见我们人类社会已经进入了大数据时代。数据量的增长既是机遇,也是挑战。我们拥有庞大的,多的来不及处理的数据,而这也为存储和分析这些数据,挖掘其中的有用信息的方法提出了一个难以达到的要求。随着步入大数据时代,我们需要从这些庞大的数据中进行分析和计算,找出其中有价值的数据,为我们所用,而Hadoop便是一个可以更容易开发和运行处理大规模数据的软件平台。

本文首先介绍了什么是Hadoop分布式计算平台和贝叶斯分类算法以及贝叶斯分类算法在现实生活中有什么运用,然后介绍了如何基于Hadoop平台,利用Mahout实现了贝叶斯分类算法。

关键词:Hadoop 贝叶斯分类算法 Mahout spark

Implementation of clustering algorithm based on Hadoop

Abstract

随着当今社会科技的高速发展,我们身边的世界瞬息万变,我们 周围的信息日益增

With the rapid development of science and technology in today's society, the world around us is changing rapidly, and the information around us is increasing day by day,so the data in this world is growing at alarming rate,From this we can find that human society has entered the era of big data. The growth of data volume is both an opportunity and a challenge. We have a huge, multi time processing of the data, which is also for the storage and analysis of these data, mining useful information of the method put forward a difficult to achieve the requirements.As we enter the era of big data, we need to analyze and calculate from the huge data, and find out the valuable data for us, and Hadoop is the one which can more easily develop and run processing software platform for large-scale data.

您输入的可能是:中文

本文首先介绍了什么是Hadoop分布式计算平台和K-均值聚类算法,然后介绍了如何基于Hadoop平台,利用Mahout实现了K-均值聚类算法。

This paper first introduces what is the Hadoop distributed computing platform and Bayes classify method and what is Bayes classify method use for in real life, and then introduces how to use Mahout to achieve the Bayes classify method based on the Hadoop platform.

Key Words: Hadoop; Bayes classify method; Mahout;Spark

目录

摘 要 I

Abstract II

目录 III

第一章 绪论 1

1.1 课题的背景及意义 1

1.1.1 数据挖掘简介 2

1.1.2 分类分析简介 2

1.1.3 云计算简介 2

1.1.4 基于Hadoop的分类算法的实现的意义 2

1.2 Hadoop国内外应用现状介绍 3

1.2.1 关注相关性原理 3

1.2.2 预测原理 3

1.3 论文内容安排 4

第二章 Hadoop分布式系统与Mahout介绍 5

2.1 Hadoop分布式系统介绍 5

2.1.1 分布式文件系统HDFS 5

2.1.2 MapReduce并行编程框架介绍 6

2.2 Mahout介绍 7

第三章 贝叶斯分类算法简介 8

3.1贝叶斯分类算法的原理 8

3.2 算法流程 9

3.3 贝叶斯分类算法的实现 10

第四章 基于Hadoop的MapReduce函数的实现 12

4.1 MapReduce函数基本原理 12

4.1.1 Map函数的设计 12

4.1.2 Reduce函数的设计 12

4.2函数框架流程 13

4.3 函数实现 13

4.3.1 Mapper 13

4.3.2 Reducer 14

第五章 算法实现及实验结果 16

5.1 实验硬件配置 16

5.2 Hadoop平台的搭建 16

5.2.1 节点网络设置 16

5.2.2 关闭防火墙 16

5.2.3 配置host列表 17

5.2.4 安装配置JDK 18

5.2.5 免密钥登录配置 19

5.2.6 配置环境变量hadoop-env.sh 19

5.2.7 配置环境变量yarn-env.sh 20

5.2.8 配置核心组件core-site.xml 20

5.2.9 配置文件系统hdfs-site.xml 21

5.2.10 配置文件系统yarn-site.xml 21

5.2.11 配置计算框架mapred-site.xml 22

5.2.12 配置从节点文件slaves 23

5.2.13 将Hadoop复制到从节点 23

5.2.14 配置Hadoop启动的系统环境变量 23

5.2.15 创建数据目录 23

5.2.16 格式化文件系统 23

5.2.17 启动Hadoop 24

5.2.18 用Web UI检查集群是否启动成功 25

5.2.19 运行实例检查集群是否成功 26

5.3 Mahout的搭建 28

5.3.1 安装配置Mahout 28

5.3.2 验证Mahout安装是否正确 29

5.4 实验结果 29

5.4.1数据的准备 29

5.4.2生成input的数据 29

5.4.3生成test的数据 30

5.4.4在Hadoop中执行命令与过程 31

第六章 基于Hadoop的分类算法的拓展——Spark 33

6.1 Spark的安装 33

6.1.1 Hadoop环境配置 34

6.1.2 验证Spark安装 34

6.1.3查看执行结果 36

6.1.4 spark shell 36

结束语 38

参考文献 39

致谢 40

第一章 绪论

1.1 课题的背景及意义

在近十年里,互联网的出现大大的改变了我们的生活,几乎任何事情都可以通过互联网来解决,网上购物,网上点餐,网上预订,网上阅读,这些行为伴随着大量数据的产生,而互联网行业为了更好更有针对性的对每个人服务必须分析采集大量用户数据,这对互联网时代的公司来说是一个巨大的挑战。可以说社交网络的出现和移动设备的发明给我们处理数据的方法带来了翻天覆地的变化。过去人们依靠报纸广播电视甚至口口相传来了解世界信息,而现在人人都是一个自媒体,人人都是信息源,只要拿起手机打开电脑就可以迅速了解到最新的信息,信息在社交网络内迅速传播形成热点话题。这些信息也是一种数据,所以互联网和手机的普及使得数据更加容易产生,数据的传递也变得更加迅速,这导致我们身边的数据以几何式的倍率在增涨着。2012年Qmee做的一项研究:在60秒内互联网世界发生了什么。它告诉我们在过去的每一秒Twitter收到了278000条推文,Facebook收到41000条post,YouTube上传了时长达72小时的视频。这些是比较大的网站了,但就算一些大型机构或跨国公司的网站收集的日志达到上百万条也是很正常的。

虽然我们身边的数据以如此惊人的速度在增长着,但是我们身边的这些数据对我们来说并不一定都是有用的,其中只有少数的数据包含着有价值的信息。随着电子设备种类和数量的快速增加,数据的来源也变得更加多种多样,小到纪录运动信息的穿戴设备,大到探寻宇宙起源的巨型射电望远镜,无不在源源不断的产生数据。数据量的增长既是机遇,也是挑战。我们拥有海量的,多的处理不完的数据,而这也为存储和分析这些数据,挖掘其中的有用信息的方法提出了一个难以达到的要求。随着大数据时代的来临,我们需要从这些庞大的数据中进行分析和计算,找出其中有价值的数据,为我们所用。

请支付后下载全文,论文总字数:20276字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图