Spark与MapReduce2.0在异构环境下的性能对比与分析研究开题报告
2021-12-18 21:56:59
全文总字数:2353字
1. 研究目的与意义及国内外研究现状
spark是基于内存计算的大数据并行计算框架。spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。mapreduce作为经典的分布式大数据处理框架,已经被人熟知,尤其随着yarn的兴起,mapreduce诞生了2.0版本。然而,在大数据处理方面,2个框架都是性能比较好的框架。但是诸多开发者很少能清楚的分辨出两者在不同环境下的性能优劣,所以spark与mapreduce2.0在异构环境下的性能对比与分析有其必要性。
从上面的论述来看,本课题研究的目的在于理解spark和mapreduce框架的运行流程,找出两者的异同点。这样当我们需要搭建一个大数据运行框架的时候,可以对搭建的框架的用途进行详细的分析,从而选择适合的大数据处理的框架。这样可以达到事半功倍的效果。
研究意义在于理解大数据框架,搭建测试床,多个异构环境的建立,这样对于数学建模的方法也可以得到锻炼。国内外研究现状
在过去几年,apache spark的采用以惊人的速度增加着,通常被作为mapreduce后继,可以支撑数千节点规模的集群部署。在内存中数据处理上,apachespark比mapreduce更加高效已经得到广泛认识;但是当数据量远超内存容量时,我们也听到了一些机构在spark使用上的困扰。因此,国内外spark社区一起,投入了大量的精力做spark稳定性、扩展性、性能等方面的提升。既然spark在gb或tb级别数据上运行良好,那么它在pb级数据上也应当同样如此。
2. 研究的基本内容
熟悉大数据处理框架的相关知识,包括spark和mapreduce的核心技术以及现今国内外的研究的热点问题;
学习linux系统的使用,这是实现平台模拟的关键,还包括一些实用工具的学习;
搭建两个测试环境,建立数据测试床以及异构环境的搭建,测试分析;
3. 实施方案、进度安排及预期效果
2015.12-2016.2,前期大量的阅读文献包括Spark和MapReduce架构的文章,熟悉Linux操作系统的操作,同时也要提高自己的编码能力;
2016.2-2016.3,中期搭建两个大数据框架,同时建立测试床,在完成整个实验平台的搭建之后,详细分析,建立异构环境分析比较两个框架;
2016.3-2016.5,后期论文的撰写,修改。4. 参考文献
[1] d. hall. a scalable language, and a scalable framework.http://www.scala-blogs.org/2008/09/scalable-language-and- scalable.html.
[2] rajendra bose, james frew, lineage retrieval for scientific data processing: a survey, acmcomputing surveys (csur), v.37 n.1, p.1-28, march 2005 [doi10.1145/1057977.1057978].
[3] c. t. chu, s. k. kim, y. a. lin, y. yu, g. r. bradski, a. y. ng,and k. olukotun. map-reduce for machine learning on multicore. in nips 06,pages 281-288. mit press, 2006.