基于Storm的分布式流数据聚类算法及其实现开题报告
2021-03-24 23:52:54
1. 研究目的与意义(文献综述)
作为数据库领域的一个分支,数据流处理技术一直属于研究热点。流式大数据作为大数据的一种重要形态,在商业智能、市场营销和公共服务等诸多领域有着广泛的应用前景,并已在金融银行业、互联网、物联网等场景的应用中取得了显著的成效。随着大数据时代的到来,面向大数据的数据流处理技术不断完善和革新,新的流处理模型被不断提出。
早期的数据流处理系统是一种集中式的架构,而集中式数据流处理系统的缺点在于,一旦部署查询的节点出现资源饱和,最终结果的输出时间就会延长。针对这一问题,分布式数据流处理系统被提出,但一个节点的负载高峰仍极大地影响最终输出时间。为进一步降低负载突然变化产生的影响,并行分布式数据流处理系统诞生了。storm是个并行分布式的数据流处理系统,其设计重点放在分布式、并行和故障容错上,至于元组的处理则由用户定义。适用于无需先存储,可以直接进行数据计算,对实时性要求很严格,但数据的精确度要求稍微宽松的应用场景。
为提高流数据聚类效率,可基于经典流聚类算法knn的思想和storm的计算架构,采用阿里数据集,来设计了一种分布式实时流聚类算法。既可以研究提高聚类精度的方法,又可以研究提高聚类算法计算效率的方法,并基于实时流计算平台storm对聚类算法knn进行了实现。
2. 研究的基本内容与方案
一、基本内容与目标
1. 了解目前分布式数据流系统的发展现状和基本原理;
2. 了解storm平台的设计原理、详细流程和使用方法;
3. 研究计划与安排
第1~3周 查阅文献;分析题目研究现状,学习基本理论;
第4周 阅读文献、撰写开题报告,英文文献翻译;
第5周 了解面向大数据的流处理技术现状以及各技术的特点;
4. 参考文献(12篇以上)
[1]孙大为,张广艳,郑纬民. 大数据流式计算:关键技术及系统实例[j]. 软件学报,2014,04:839-862.
[2] 南海京. 一种基于storm的交通流数据实时处理系统设计与实现[d]. 北方工业大学, 2015.
[3]崔星灿,禹晓辉,刘洋,吕朝阳. 分布式流处理技术综述[j]. 计算机研究与发展,2015,02:318-332.