基于Hadoop的工业大数据分布式存储系统的设计与实现开题报告

2020-02-18 18:26:17

1. 研究目的与意义（文献综述）

1.1研究目的意义

大数据时代的出现，是信息化高度发展的必然结果。因为世界信息技术的不断飞速发展，电子信息化设备在人类生活中广泛应用，使得信息数据的产生、获取、传输都达到了前所未有的新高度，同时存储技术的快速发展为海量数据的存储提供了技术保障，使得对于大数据的分析应用成为了可能。我们目前已经进入了数据技术时代，现如今数据驱动创新的局面已经逐渐在全世界范围内显现出来。世界各大互联网巨头公司也都加入其中，诸如国外的谷歌、苹果、微软、雅虎等，国内的阿里、百度、腾讯、华为、网易等。他们纷纷加入到大数据研究行列中，亦都是察觉到了大数据的发展前景。如此多巨头公司的一致认可也从更加证实了，大数据在行业来来发展中所要扮演的重要角色。

目前，大数据技术已经在医疗、制造、交通、金融、互联网等行业中广泛应用，并且取得了卓越的成就。在工业领域随着信息化建设和工业物联网技术的不断深入发展，以及近些年电子信息科技的不断发展，所带来的电子采集设备的多元化及廉价化，使得工业物联网得到了快速的发展。同时国家对工业科技信息化建设不断投入，以及对智慧工业、精细化工业、工业物联网科技等项目的大力开展，使得我国目前的工业科技水平实现了快速的发展。工业领域已经成为大数据应用的又一个重点领城。工业物联网中的数据已经显现出了大数据的5V特点，海量数据(Volume)，处理速度快(Velocity)，数据类型多样性(Variety)，价值大 (Value)，精确性高(Veracity)。相信大数据技术应用于工业领域之后，一定可以给工业的发展带来新的活力和机遇^[10]。

但是，由于工业领域本身就属于一个多学科交叉应用的领城，众多学科、行业的技术都在工业领域有相应的应用，并且工业具有地域性分布明显，受季节、位置影响明显等特征。因此它所产生的数据具有明显的异构性，很难用现有的常规方法来处理分析其数据集。在整个工业的生产、加工、销售流通、质量溯源、工业管理等等过程中会产生多种多样的数据类型，包括文本、图像、视频、声音、文档、GIS坐标信息等，这些数据由结构化、半结构化及非结构化组成。面对如此庞大且种类繁多的工业数据，首先第一步需要解决的是对数据的采集，其次是对数据的存储，最后才是对数据的分析挖据。

1.2国内外研究现状

在国外，很多国家目前已经建立起了自己国家的工业大数据中心，大数据中心存储有全国的工业数据，在数据中心通过大数据技术对这些数据库中的数据进行挖掘处理分析，这些分析结果能够很好为本国工业生产提供指导和帮助。例如美国通用电气，传感器已经被嵌入到通用电气公司制造的250,000台“智能机"上，包括喷气发动机、动力涡轮机、医疗器械设备等等。这些传感器收集和分析的数据在优化产业经营方面拥有巨大的潜力：“在未来的15年间，工业互联网有望为全球经济带来15万亿美元的提高”。通过工业系统中的海量数据对工业系统的运行和管理进行建模和优化，让整个工业系统优化运行，使产量尽可能高，质量尽可能好，成本尽可能低，消耗尽可能低，环境污染尽可能小。工业大数据应用技术可将这一愿景变为现实。2013年6月，通用电气宣布联手亚马进等公司打造“工业云”产品，利用亚马逊的云技术，准备将全球在运营的并已经联入网络的机器和设备，以“大数据”的概念和方式来处理原始数据。并在同一年，通用电气在其白皮书中介绍了其工业大数据分析处理平台^[8]。

2. 研究的基本内容与方案

2.1研究内容

对工业海量数据分析其复杂的行为特征，是解决传统方法难以解决复杂问题的新方法。本文设计并实现面向工业大数据分布式存储系统，通过搭建Linux集群和部署安装Hadoop相关组件实现一个面向工业大数据的分布式存储和管理系统。

主要的研究内容有：

1.对工业大数据研究的现状分析，对工业大数据分析的支持技术进行研究；

2.研究工业大数据的特点和研究难点，设计实现不同种类工业大数据存储系统框架并搭建数据存储与管理的平台；

3.基于Hadoop分布式数据存储原理，根据数据存储与管理平台，完成对工业大数据的存储与管理系统的设计与实现。

2.2研究目标

工业企业的数据有多种来源，且分布于多个独立的系统，各数据源的数据彼此孤立。对于企业基于数据的决策分析来说，难以利用企业拥有的全部数据资源实现企业的生产优化、经营管理优化等；对于整个行业的决策分析来说，也难以利用全面的数据资源来实现行业发展指导。因此，本次研究的目标是构建一个支持多源的、多层次的数据存储和管理的平台。

2.3技术路线

对于面向工业大数据的分布式存储和管理系统，主要从以下几个方面来实现：

1.分析工业大数据的数据结构，其由结构化、非结构化和半结构化的数据并存组成。结构化数据指的是具有固定的结构、规范的数据，通常被称为关系型数据。非结构化数据与结构化数据相比，不方便使用关系型数据的二维关系描述，一般在数据格式方面没有明确的规范，比如文本文档、图片、Excel表格或者视频等。而半结构化数据则是介于结构化数据和非结构化数据之间的，不能以结构化数据的二维关系描述，却又能附带一些描述性数据，形式和结构都比较灵活。

2.设计如下图1所示的多源工业数据存储框架。

如图1所示，理想的情况是将各个企业的分布于不同物理位置的工厂生产数据、企业管理数据等等都存储于一个统的大型数据平台为不同的应用提供数据支撑。工业大数据除了来自管理信息系统的结构化数据之外，还有很大一部分半结构化和非结构化数据。

在数据的存储系统中，我们采用Redis作为缓存区暂时存储数据，每隔一段不定的时间将其溢出到数据类型所对应的数据库当中。对于企业资源管理系统以及生产过程执行优化产生的数据，我们将其经过Redis后存储到MySQL数据库中。对于基础控制部分产生的数据，如DCS等，需要进行分布式处理，所以将其从Redis溢出后放入到HBase数据库中。对于Excel等文本类型的数据，我们将其从Redis溢出后放入到基于分布式文件存储的MongoDB数据库中。而对于视频监控，我们可以直接将其按照时间或者企业打包放入HDFS存储系统中。

3. 基于Hadoop的工业大数据存储与管理系统主要由数据存储模块与数据查询模块两大模块组成。其中在数据存储模块，针对于不同种类的数据，分别细化对应有视频、时序、文档、事务的数据存储模块，同样的，在数据查询模块中也有相对应的数据种类查询模块划分。同时，数据缓存模块可以为数据的存储和查询提供缓存空间，提高工作的效率，减少故障的发生。其功能模块图如图2所示。

MySQL作为常用的关系型数据库，它可以有效的存储ERP、CRM等企业在资源管理产生的事务信息数据。MySQL依托于三大范式，可以根据一个不会重复的主键将每个不可再分的原子属性存储到数据库中。HBase是一个不同于MySQL的非关系数据库，它是一个稀疏的，分布式的，持久化的，多维的，排序的映射，索引通过行键，列键以及时间戳来实现，它可以有效的存储大量工厂随机产生的控制时序数据。MongoDB是现今主流的非关系型文档数据库，其一对多的存储模型可以用于存储Excel等文档数据。视频数据可以利用HDFS数据库，它是一种分布式存储的非关系型数据库，将数据分块处理，一式三份的存储在DataNode上；同时又将文件与数据块的映射关系、数据块与数据结点的映射关系存储在NameNote上，通过心跳消息来存储与管理数据。Redis数据库是key-value存储非关系型数据库，数据存储在内存中，它可以用作数据库、缓存和消息中间件。在数据的存储和查询过程中，将数据存放在缓存区，可以有效地加速度写，降低后端负载。

对于数据存储模块，其时序图如图3所示：

当数据源产生的数据想要存储至数据库中时，首先需要请求缓存区，等待应答后将数据存储至缓存区。在缓存区的数据等待一段时间后，通过缓存区溢出至数据库完成存储。

对于数据查询模块，其时序图如图4所示：

当我们需要查询数据时，首先访问缓存区，如果缓存区有该数据则进行查询过程，如果缓存区没有则向数据库进行查询过程，这可以有效的提高查询效率。

3. 研究计划与安排

第1周—第3周搜集资料，撰写开题报告；

第4周—第5周论文开题；

第6周—第12周撰写论文初稿；

第12周—第15周修改论文；

第16周论文答辩。

4. 参考文献（12篇以上）

[1]万轶，向广利．基于Hadoop和HBase的分布式索引集群研究[J]，信息技术与信息化,2015(01)：102-103

[2]AlexanderThomasian,Yujie Tang. Performance, reliability, and performability of ahybrid RAID array and a comparison with traditional RAID1 arrays[J]. ClusterComputing,2012,15(3).

[3]Blomer J. ASurvey on Distributed File System Technology[J]. Journal of Physics: Conference Series,2015,608(1).

[4]Kaur R,Chadha R. Comparative analysis of various file formats in HIVE[J]. Int. J.Technol. Comput, 2017, 3(6): 135-139.

[5]景晗，郑建生，陈鲤文，许朝威．基于Map Reduce和HBase的海量网络数据处理[J]．科学技术与工程，2015，15(34)：182-191．

[6]陈兴振．基于Hadoop的数据作业管理平台设计与实现[D]．中国科学院大学，2015．

[7]邹立民．基于Hadoop的分布式数据存储系统应用的研究[D]．沈阳工业大学，2018．

[8]王淑芬．基于大数据的制造运行监测与分析平台研究[D]．广东工业大学，2014．

[9]谢青松．面向工业大数据的数据采集系统[D]．华中科技大学，2016．

[10]张强．面向大数据的农业物联网数据采集与存储研究[D]．北方民族大学，2017．

[11]王建军．基于Hadoop的钻井工程实时数据分析研究[D]．西安石油大学，2016．

[12]王建军，王震，战非，赵侃．基于Hadoop的高校社团信息资源存储研究[J]．产业创新研究．

[13]陈中，范开勇，饶宏博．基于Hadoop分布式交通大数据存储分析平台设计与实现[J]．数据库与信息管理，2018．

[14]张国栋．基于Hadoop技术的电信大数据分析平台的设计与实现[D]．上海交通大学，2014．

[15]张华．基于Hadoop的电信大数据平台应用探究[J]．长春大学学报，2018．

[16]欧建林．基于Hadoop的商业银行大数据平台研究与实现[J]．中国金融电脑，2019．

[17]陈莉莉，张赛桥，狄颖琪．基于Hadoop平台的轨道交通能效管理系统的建设方案[J]．自动化仪表，2018．

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码