Spark环境集群构建与Spark SQL编程毕业论文
2022-06-14 21:28:05
论文总字数:25154字
摘 要
现代互联网信息中含有极为丰富的商业价值,如何从这些海量数据中挖掘出有用的信息是一个重要的课题。而“信息爆炸”产生的海量数据在传统计算机上进行聚类分析处理需要耗费大量的时间,不能满足现今的商业需求,结合云计算平台的并行化改进能有效解决这一问题。伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,Spark技术以集大成的无比优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术[1]。在国外,Yahoo!、Intel、Amazon、Cloudera等公司率先应用并推广Spark技术,在国内淘宝、腾讯、网易、星环等公司敢为人先,并乐于分享。在随后的发展中,IBM、MapR、Hortonworks、微策略等公司纷纷将Spark融进现有解决方案,并加入Spark阵营。Spark在工业界的应用也呈星火燎原之势。面对蓬勃发展的Spark技术,本文对其做了以下几项工作:
(1)构建了Spark集群环境并通过Eclipse IDE构建了Spark开发环境。
(2)Spark支持多语言编写,通过向Spark传递函数的方面说明了Scala、Java、Python的不同。
(3)用Spark编写了一个Top K实例,可以应用在求过去一段时间消费次数最多的消费者、访问最频繁的IP地址等等,在当今社会很有效果。
(4)介绍并研究了Spark SQL。
关键词:Spark,Hadoop,数据挖掘,云计算......
Clusters of Spark environment and Spark SQL
Abstract
Modern Internet information is rich in commercial value, how to mine useful information from these massive data is an important issue.. And "information explosion" produce huge amounts of data in traditional computer cluster analysis and processing need to spend a lot of time, can not satisfy the current business needs, combined with cloud computing platform of the parallel improvement can effectively solve this problem. With the gradual maturity of the big data technologies and industries, following Hadoop, spark technology to master the incomparable advantages, the rapid development of, will become alternative Hadoop's next generation of cloud computing, data core technology. Abroad, Yahoo, Intel, Amazon, Cloudera, and other companies pioneered and promote Spark technology, Taobao, Tencent, Netease, star ring and other companies dare first, and willing to share. In the subsequent development, MapR, Hortonworks, IBM, micro and other companies have Spark into the existing solutions, and join the Spark camp. Spark is also a spark Liaoyuanzhishi application in industry.In the face of the vigorous development of Spark technology, this paper has done the following work:
- The environment of Spark cluster is constructed and the Spark development environment is constructed by IDE Eclipse.
- Spark supports multi language writing, through the Spark transfer function to explain the differences of Scala, Java, Python.
- Spark with Top K instance, can be used in seeking the most time of the consumer, the most frequent IP address, etc., in today's society is very effective.
- The Spark SQL is introduced and studied.
Key Words:Spark,Hadoop,Data mining,Cloud computing......
第一章:绪论 1
1.1 论文的研究背景 1
1.2 研究的目的和意义 2
1.3 本文的工作 2
1.4 论文内容的组织结构 3
第二章:相关技术 4
2.1 云计算 4
2.2 大数据 7
2.3 本章小结 8
第三章 Spark介绍 9
3.1 Spark简介 9
3.2 Spark计算模型 11
3.3 本章小结 13
第四章:Spark集群构建 15
4.1 搭建Hadoop单机和伪分布式环境 15
4.2 构造分布式Hadoop集群 16
4.3 构造分布式Spark集群 21
4.4 构建Spark集成开发环境 24
4.5 Spark多语言编程 26
4.6 Spark编程实例 28
4.7 本章小结 31
第五章 Spark SQL 32
5.1 使用Spark SQL的原因 32
5.2 Spark SQL架构分析 33
5.3 Shark简介 35
5.4 本章小结 36
第六章:总结和展望 37
6.1 总结 37
6.2 展望 37
参考文献 39
第一章:绪论
本章将介绍基于云计算平台Spark研究的背景,研究现状和意义,本文的主要工作和论文的组织结构。
1.1 论文的研究背景
在这个网络信息爆炸的年代,每天都有数以亿万计的数据产生,其中蕴含了大量有价值的知识,如何发现并使用这些知识成为了热门的研究方向。在此背景下,数据挖掘这门学科应运而生,它致力于从大量的数据中寻找出不为人知却有价值的信息知识。按照具体需求将信息知识转换成规律模式加以利用。
数据挖掘在我们的生活中随处可见,百度上的推送广告、淘宝上的的商品推荐都是基于数据挖掘得出来的,数据挖掘在生活中扮演着重要的角色。聚类分析是数据挖掘中重要的技术组成部分,通过聚类规则将数据集中的数据对象划分为若干个不同的聚类的标准是同类中数据相似,不同类中数据相异。聚类分析有着广泛的应用空间,在安信息安全领域,聚类分析能够根据之前的网络入侵、攻击工具等分析出网络簇间攻击的特征,从而预估出新的未知攻击模式;在销售领域,聚类分析能够推断出商品的受欢迎程度,从而针对客户需求定制出高销量的商品;在广告领域,聚类分析能帮助企业更好的搜索到潜在目标客户,精确地把广告投放给目标客户,在降低营销成本的同时提高产品销量。
请支付后下载全文,论文总字数:25154字