基于Spark的工业大数据分析系统毕业论文
2021-10-27 22:05:49
摘 要
随着计算机和互联网技术的高速发展,工业与物联网,大数据,云计算等新型信息技术深度融合,使得工业体系进入了智能化的阶段,带来了生产力、生产技术以及商业模式的更新。现阶段,我国工业生产从自动化走向了数据信息化,在整个工业流程中产生的信息数据也呈指数级增长,企业领导者已经发觉到了在积累和存储这些海量数据的同时,从中挖掘有价值的信息对于企业发展是目前迫切的需求。因此,设计并实现一个大数据分析平台,使其能够对工业生产中以及运营累积下来的大数据进行存储、管理和分析,一方面由此可以让企业能够挖掘数据的潜在价值,提高工业生产的效率,另一方面可以让企业进入智能制造的数据驱动阶段,具有很大的现实意义。
工业大数据的主要特点就是大规模,高实时性,信息密度较低,数据的来源多样,若继续使用传统的数据管理平台,显然无法满足需求。因而,研究更加高效的工业大数据分析平台已成为时下的首要任务。本文设计并实现了一个基于Spark的工业大数据处理平台,可以对工业大数据进行储存、管理和分析,主要完成的工作如下:
首先,设计基于Spark大数据分析平台架构,通过分层的方式将系统分为数据存储层,数据计算层,Web服务层和用户操作层。各层分工明确,相互协作,实现数据上传、存储、分析和可视化等基本功能。
其次,实现基于Spark工业大数据分析系统,分为数据存储模块、数据分析模块和数据可视化模块。数据存储模块实现数据的存储和查询,数据分析模块利用多元线性回归算法分析数据,数据可视化模块基于Spring Boot Echarts实现分析结果可视化。
最后,以烟草生产为背景,基于此工业大数据分析平台,完成影响烟草质量的工艺指标分析,验证了方案的正确性和系统的可行性。
关键词:Spark;工业大数据;数据挖掘;HBase;数据可视化
Abstract
With the rapid development of computer and Internet technology, industry has been deeply integrated with the Internet of things, big data, cloud computing and other new information technologies, which has brought the industrial system into the stage of intelligentization and brought the update of productivity, production technology and business model. At the present stage, China's industrial production is moving from automation to data informatization, and the information data generated in the whole industrial process is also growing exponentially. Enterprise leaders have realized that while accumulating and storing these massive data, it is an urgent need for enterprise development to dig out valuable information. Therefore, designing and implementing a large data analysis platform, make its operations in the industrial production and accumulated large data storage, management and analysis, on the one hand, this can enable enterprises to the potential value of the mining data, improve the efficiency of industrial production, on the other hand can let enterprise into intelligent manufacturing data driven stage, has great practical significance.
The main characteristics of industrial big data are large-scale, high real-time, low information density and diverse data sources. If we continue to use the traditional data management platform, it is obviously unable to meet the demand. Therefore, the research on a more efficient industrial big data analysis platform has become a top priority. This paper designs and implements an industrial big data processing platform based on Spark, which can store, manage and analyze industrial big data. The main tasks are as follows:
Firstly, based on the Spark big data analysis platform architecture, the system is divided into data storage layer, data computing layer, Web services layer and user manipulation layer in a hierarchical way. Each layer has a clear division of labor and cooperates with each other to realize basic functions such as data upload, storage, analysis and visualization.
Secondly, the industrial big data analysis system based on Spark is implemented, which is divided into data storage module, data analysis module and data visualization module. Data storage module realizes data storage and query, data analysis module USES multiple linear regression algorithm to analyze data, and data visualization module realizes analysis result visualization based on Spring Boot Echarts.
Finally, with the tobacco production as the background, based on the industrial big data analysis platform, the process indicators affecting the quality of tobacco were analyzed, and the correctness of the scheme and the feasibility of the system were verified.
Key Words:Spark; industrial big data; mining data; HBase; data visualization
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1课题研究背景 1
1.2 国内外研究现状 2
1.3 本文的组织结构 3
第二章 大数据分析平台相关技术 4
2.1 Hadoop生态系统 4
2.1.1 分布式文件系统HDFS 4
2.1.2 分布式计算框架MapReduce 5
2.1.3 资源管理框架YARN 6
2.1.4 分布式列存数据库HBase 6
2.2 Spark大数据处理框架及其生态系统 8
2.2.1 Spark架构 8
2.2.2 弹性分布式数据集RDD 9
第三章 工业大数据系统设计 11
3.1 系统设计目标与原则 11
3.2 系统体系架构 11
3.2.1数据存储层 12
3.2.2数据计算层 14
3.2.3 WEB服务层 17
3.2.4 用户操作层 18
3.3小结 18
第四章 基于Spark大数据分析平台的实现 19
4.1 系统环境搭建 19
4.2 数据存储模块 22
4.3 数据分析模块 24
4.4 数据可视化模块 25
4.5 小结 27
第五章 总结与展望 28
5.1 论文总结 28
5.2 展望 28
参考文献 29
致 谢 31
第一章 绪论
1.1课题研究背景
党的十八大以来,我国的工业体系逐渐向着信息化的方向靠拢,智能制造业的发展如雨后春笋。截止到2019年6月,我国各个企业的信息开发工具占有比例为69.3%;核心工序的数字控制化率达到49.5%。与此同时,开展服务型制造的普及率为25.3%,网络化协同占比为5.3%、个性化定制的大规模企业比例达到8.1%。工业互联网的发展也开始尽显活力,表现在:我国富有工业影响力的平台已经高达50个,关键平台的设备数量已达59万台。由此可见,近几年工业系的信息化取得了显著的成效。
工业大数据是结合智能制造的模式,在整个产品的生命周期,从客户需求到产品的研发、设计、工艺、制造、供应、销售、存储,期间每个相应过程产生的数据以及这些技术和应用的总称[1]。但是随着工业信息化的逐步发展,工业数据量不仅来源多样化,其数据量也成指数级增长。如何利用大数据分析平台对这些大规模且多源异构的数据进行存储、处理和分析,挖掘数据中潜在的价值,为工业发展中可能出现的各种问题提供必要的解决方案以及制定预防管理方案成了一个极大的挑战。