登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 计算机科学与技术 > 正文

基于hadoop的异常数据检测技术实现毕业论文

 2022-06-26 23:19:23  

论文总字数:21837字

摘 要

本文首先介绍了Hadoop分布式计算平台和K均值聚类算法,然后针对传统的串行K均值聚类算法的时间复杂度比较高的问题,基于Hadoop平台,利用MapReduce编程模型并行化实现了K均值聚类算法。Map函数计算每个记录到每个聚类中心的欧式距离,然后将每个记录重新划分到距离其最近的聚类中心。Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,并将新的聚类中心提供给下一次MapReduce任务使用。此过程将一直运行直到到达迭代次数或聚类中心的改变量小于既定阈值,最后给出聚类中心以及每个聚类中心所包含的记录。如果某个聚类中心内所包含记录的数量少于人为给出的阈值,则可以将这种类定义为异常聚类,其中的记录就是异常数据。

关键词:Hadoop K均值 MapReduce 异常检测

Implement of Abnormal Data Detection Technology Based on Hadoop

Abstract

This paper introduces Hadoop distributed computing platform and K-means cluster algorithm firstly, and then for the problem of high time complexity of serial K-means cluster algorithm, uses MapReduce programming model to implement K-means cluster algorithm parallel. Map function is designed to calculate the Euclidean distance of each record to each cluster center, and then categories each record to the cluster center which is closest to it. Reduce function will calculate new cluster centers according to the intermediate result that Map function get, and provides them to next MapReduce job. This process will not stop until reach the maximum iteration times, or the variation of cluster center is below given threshold value, and finally outputs all cluster centers and record including in each cluster. If there is a cluster center containing records fewer than the threshold value given by user, this kind of cluster can be defined abnormal cluster, and records in it are abnormal records.

Key Words: Hadoop; K-means; MapReduce; anomaly detection

目录

摘 要 I

Abstract II

第一章 绪论 1

1.1 课题的背景及意义 1

1.1.1 数据挖掘简介 1

1.1.2 聚类分析 1

1.1.3 云计算 1

1.1.4 基于hadoop的异常数据检测技术的意义 2

1.2 国内外现状分析 2

1.2.1 聚类 2

1.3 论文内容安排 3

第二章 Hadoop分布式计算平台 4

2.1 分布式文件系统HDFS 4

2.1.1 HDFS文件结构 4

2.1.2 HDFS工作流程 5

2.2 MapReduce并行编程框架 5

第三章 K-均值聚类及实现 7

3.1 K-均值聚类算法的原理 7

3.2 算法流程 8

3.3 优缺点分析 10

3.3.1 优点 10

3.3.2 缺点 10

3.4 K-均值的实现 10

第四章 基于Hadoop的分布式K-均值聚类 12

4.1 算法基本原理 12

4.1.1 Map函数的设计 12

4.1.2 Reduce函数的设计 12

4.2 算法框架流程 13

4.3 算法实现 13

4.3.1 Mapper 13

4.3.2 Reducer 14

第五章 实验平台搭建及实验结果 16

5.1 实验硬件配置 16

5.2 Hadoop平台的搭建 16

5.2.1 节点网络设置 16

5.2.2 配置ssh无密码登录 18

5.2.3 设置远程无密码登陆 20

5.2.4 安装JDK 21

5.2.5 安装并配置hadoop 22

5.2.6 启动hadoop集群 26

5.3 实验结果 27

结束语 30

参考文献 31

第一章 绪论

1.1 课题的背景及意义

随着近年来信息技术的飞速发展,数据量已呈现出爆炸性增长的趋势,互联网已经成为了全球最大的数据库。现如今,互联网已经时时刻刻都在影响着我们的日常生活。社交网络帮助人们能够时刻参与朋友们的生活,购物网站让人们能够足不出户就购买生活所需。在这些网站的背后,奔涌的是流量惊人的数据流。每一条文本信息,每一张图片,每一段视频,组成了这股数据流。这些数据呈现出了数据量大、增长迅速、存储分散等特点。然而,这些数据包含的信息中,隐含着许多对人们有意义和价值的信息。这些数据就像是一座矿藏,而有效信息就像是深埋地下的金矿,只要探测到金矿所在,就能发掘出有用的信息。因此,数据挖掘技术应运而生。

1.1.1 数据挖掘简介

数据挖掘(Date Mining)是指从大量的数据中通过一定的算法自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘是海量有用数据快速增长的产物,用来迎接处理数据库中大量数据的挑战,它的主要方法是数据统计分析和人工智能搜索技术。

1.1.2 聚类分析

聚类分析指的是把含有相似属性的对象通过分成不同的分组或者更多的子集,使得在同一个子集中的成员对象的属性都尽可能的相似,而在不同子集中的成员对象的相似性较低。通过聚类分析,我们可以找到这些对象中相似的特征,再把他们进行进一步归类处理。因此,在很多应用中,聚类分析被用来对数据进行的预处理,为进一步处理和分析有用数据奠定了基础。一个能生成高质量的聚类的算法必须要满足以下两个条件:每个类内各个对象间的相似度最强,即他们之间有较高的紧致度;不同的类之间的对象间的相似性最弱,即他们之间的分离度较高。

1.1.3 云计算

云计算是一种涉及到网络的计算模型,在这种模型上运行有连接到服务器而非本地的个人电脑的程序或应用。简而言之,这种服务基于网络而不是本地。与传统CS模型或更早的主机计算模型相似,用户连接到服务端来执行任务。云计算依赖于资源的共享来获得一致性与规模效益,类似于网络的使用。云计算的基础是对于融合式基础架构和共享的服务更广泛的概念。

1.1.4 基于hadoop的异常数据检测技术的意义

这种基于Hadoop的异常数据检测技术可以用于对集群进行入侵检测,实现对Hadoop集群的安全监测,提高Hadoop集群的安全性。本文所写的异常检测技术是使用聚类分析的方法对异常数据进行检测,如果运用于入侵检测,则可以以大量对用户的行为和活动数据的分析为基础,实时地检测系统的使用情况,确保系统的安全运行。

1.2 国内外现状分析

1.2.1 聚类

在最近几年,大量的心血被花费在改进现存算法的性能。随着最近对于处理越来越大的数据集的需求,交易更高生成聚类的语义的意愿一直在增加。这导致了预聚类方法的发展,比如canopy聚类,它能够高效的处理大数据集。但这些距离的结果仅仅是对数据集粗略的预划分,之后用现存的较慢的方法分析划分方式,比如K均值聚类。各种其他聚类方法都已经被尝试,比如种子聚类。

对于高维度数据,许多现存的方法都因为维数灾难失败了,因为它提出高维度空间中特定的距离函数是有问题的。这导致了产生新的专注于子空间聚类的专为高维度数据准备的聚类算法,还有另一种寻找任意旋转子空间聚类的相关聚类,这种聚类能通过给定的属性相关性建立模型。这种聚类算法的例子有CLIQUE和SUBCLU。

请支付后下载全文,论文总字数:21837字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图