登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 软件工程 > 正文

基于Storm的分布式流数据聚类算法及其实现毕业论文

 2021-03-19 21:22:51  

摘 要

发展至今,大数据技术正在兴起且日趋完善。在各个信息服务领域,海量数据的到来成为了进一步发展的关键技术问题。基于大数据本身所具有的规模和速率,针对这些数据的处理方式成了必须解决的难点。

面向流式大数据的计算,本文完成了对相关的聚类算法的探索。并基于Storm这一实时数据处理平台,设计并实现了分布式并行化的方案。本文对于聚类算法选择了K-means算法,对于数据集选择了wine数据集,最后通过1个主节点、3个工作节点进行构建,并部署到Storm平台上进行数据分析。考虑到数据由多台计算机进行输入,可能产生阻塞,会对实验结果产生影响,引入了Kafka消息队列来解决这一问题。

实验结果表明,在数据量较大的情况下,基于Storm集群的数据处理明显比Java单机运行环境下的要优良。且随着数据量的增大,优良性不断提升。因此,本次实验较为成功,且研究内容与目前大数据发展环境相符合。

关键词:大数据;Storm;K-means聚类算法

Abstract

Until now, big data technology has been rising and becoming more and more perfect. In the field of information services, the arrival of massive data has become a key technical problem for further development. Because of the size and speed of the big data itself, the way to deal with these data has become a difficult problem to be solved.

For streaming large data, I have completed the exploration of related clustering algorithms. And based on Storm, a real-time and data processing platform, a distributed and parallel scheme has been designed and implemented. In this paper, K-means algorithm is selected for clustering algorithm, and wine data set is selected for application. At last, one main node and three working nodes have been constructed and deployed to Storm platform for data analysis. Considering that data is input by multiple computers, it may cause congestion and will have an impact on the experimental results. Kafka message queue is introduced to solve the problem.

The experimental results show that the data processing based on Storm cluster is obviously better than that of Java under the condition of large data. And with the increase of the amount of data, the quality shows a trend of continuous improvement. Therefore, this experiment is successful, and the content of the research is in line with the current development environment of big data.

Key words: big data;Storm; K-means algorithm

目录

摘要 II

Abstract III

第1章 绪论 1

1.1 研究背景及意义 1

1.2 国内外研究现状 1

1.3 研究内容 2

1.4 本论文的组织结构 2

第2章 流式大数据相关技术 3

2.1 流数据挖掘相关技术 3

2.1.1 数据挖掘 3

2.1.2 流数据概论 3

2.2 Kafka消息队列 5

2.3 Storm平台概况 5

2.3.1 Storm基本组件 6

2.3.2 Storm运行机制 6

第3章 基于Storm的K-means聚类算法设计 8

3.1 聚类算法的基本介绍 8

3.2 K-means算法 9

3.3 k-means算法的设计 10

3.3.1 数据流的接入 10

3.3.2 对数据流进行训练 10

3.3.3 对数据流进行聚类 10

第4章 实验及分析 12

4.1 实验平台 12

4.2 实验环境搭建 12

4.3 单机处理实验 15

4.3.1 实验数据集 15

4.3.2 Java单机实验 16

4.4 吞吐量对比实验 18

第5章 总结与展望 20

5.1 论文总结 20

5.2 未来展望 20

致谢 21

参考文献 22

  1. 绪论

1.1 研究背景及意义

在数据挖掘和数据分析领域,聚类是较为常用的方法。对于大多数聚类算法来说,其高复杂度都是一个不可跨越的问题[1]。在这种背景下,如果简单在单机上完成数据聚类,得到的输出结果很可能会伴随有速率低下、延迟性高等一系列缺点[2]。为了解决这一问题,进一步提高聚类分析的效率和准确性,可以通过分布式集群计算来处理数据。在很大程度上,这种新途径弥补了单机环境下处理数据的缺憾,让计算性能得到了很大提高。

作为一个开源的分布式平台,Storm对数据的实时处理能力非常强大。在本文中,使用了Storm平台对流式大数据进行聚类分析,并引入了Kafka消息队列,来解决多平台数据的阻塞问题。本文基于Storm平台,完成了对聚类算法K-means的设计,并通过搭建分布式集群环境,对K-means算法进行了实现。最后用wine数据集作为输入,对比分析了单机环境与集群环境的吞吐量区别。

1.2 国内外研究现状

作为当今信息领域的标志性创新,大数据技术已经多层次的体现了其实用性和重用性。在当今这个信息高速发展的现代社会,许多互联网公司都开始充分地利用大数据技术,以实现商业利益的深层次最大化。大数据技术,这个早已炽手可热的新话题,随着电子商务时代的到来,已经颠覆性地完成了前所未有的技术革新。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图