spark和flink计算框架应用对比开题报告
2022-01-09 22:00:28
全文总字数:2616字
1. 研究目的与意义及国内外研究现状
世界正在快速改变,今天的it已经在向dt(数字科技)时代快速跨越。it科技和数据科技不仅仅是不同的技术,而是人们思考方式的不同,人们对待这个世界的方式不同。dt时代是一个数据更充分流动的时代,会更加透明,利他,更注重责任和体验。
在未来,经济将不再是石油驱动,而是数据驱动。dt时代的工具突出表现为“云计算 大数据”, spark和flink是当前大数据最流行的计算框架,spark是基于内存计算的大数据分布式计算框架,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将spark部署在大量廉价硬件之上,形成集群。apache flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个flink运行时(flink runtime),提供支持流处理和批处理两种类型应用的功能。
基于spark和flink特性,研究spark和flink在不同实验环境下性能表现,对比分析两种计算框架的优缺点,对实际应用两种框架解决具体实际问题有重大意义,同时也为针对具体问题,选择合适的计算框架提供指导,更有利于充分发挥spark与flink的性能,实现问题的最优解。
2. 研究的基本内容
本次研究主要通过实验的方式在Spark和Flink框架上实现应用算例,根据实验结果结合参考文献,主要从性能对比、流式计算比较、SQL支持、迭代进程、内存管理、语言实现、API、与外部数据源的整合几个方面来研究和分析Spark与Flink计算框架。
3. 实施方案、进度安排及预期效果
实施方案:本次研究主要以实验的方式进行,通过在linux系统上分别实现spark和flink的部署,并以伪分布式的方式进行算例实现,对比分析实验结果,并根据实验结果结合参考资料撰写论文。
进度安排:
1.准备阶段:
4. 参考文献
[1] 黎文阳. 大数据处理模型apache spark研究[j]. 现代计算机(普及版),2015,0(3):1-6
[2] 王家林,孔祥瑞.spark零基础实战[m].北京:化学工业出版社,2016.10
[3] 于禁,向海.spark核心技术与高级应用[m].北京:机械工业出版社,2015.12