基于编码的分布式存储系统研究文献综述
2020-04-14 17:19:20
大数据时代,各种新型的网络应用和数据服务蓬勃发展,例如流媒体、社交网络、在线存储以及移动支付等,丰富了人们的生活体验,导致用户数量急剧增加,这使得全球数据量呈现爆炸式增长。海量数据的爆炸式增长,使得信息技术从以计算设备为核心的计算时代进入到以存储为核心的存储时代。随着全球数据量的不断增长,对存储系统的容量,数据的可靠性等方面都提出了更大的挑战。面对海量数据的存储需求,分布式存储系统应运而生,有效地整合和利用分散在网络上的各个节点资源,满足用户随时随地存储、访问和分享数据的需求。分布式存储系统是存储技术、计算技术和网络技术的融合,其目标是利用廉价的硬盘构建大规模、高可靠性、可扩展性的存储系统。然而,存储节点的分散性、异构性及不可靠性,给数据的可靠性带来诸多难题和挑战。随着存储系统规模的日益增大,存储节点故障已经成为一种常态而绝非偶然。如何有效保障数据存储的可靠性成为了当前分布式存储系统迫切需要解决的问题。为了提供可靠的数据存储服务,本课题拟研究根据实际的分布式存储系统的特性,如何通过编码的方式引入冗余来增强分布式存储系统的容错能力以及热点数据的可用性。
目前国内大多数关于分布式存储系统编码的研究主要着眼于某个特定的编码方案进行研究分析。如文献[3]提出了HRCSD纠删码,他们比较了三副本技术和S~2-RAID纠删码,证明了HRCSD纠删码具有更高的容错能力和更低的修复开销。文献[4][7][8]也对纠删码的容错方法和性能优化做了深度的研究。在再生码方面,文献[11]研究了与副本结合的部分再生码,文献[10]对再生码的性能进行了分析并对其优化设计,文献[2]通过理论分析和实验仿真研究了高性能再生过程的再生码策略。
而国外的相关研究中,很相似的也是比较偏重某个编码方案。文献[16]基于纠删码阐述了两种编码方案namely regenerating codes和locally recoverable codes以及修复Reed-Solomoncode的新方法。文献[13]在再生码的研究上,通过使用扩展域理论中的概念,获得了两个重新生成代码的显式结构。而像诸多国际会议上讨论总结的也大多是新的编码方案或某个编码方案的修复手段。因此本课题选取了基于编码的分布式存储系统进行研究旨在比较主流现存的编码方案的区别和应用条件,以提升当前的分布式存储系统的容错能力和可靠性。
{title}2. 研究的基本内容与方案
{title}研究内容:本课题的研究内容主要是比较现存主要编码方案的应用环境和优缺点(复制,纠删码,再生码),研究复制编码,纠删编码与再生编码技术原理,并分析它们的性能,讨论各种编码方案的适用场景,。
研究目标:通过对编码方案的比较,根据分布式存储的特性,设计适用的编码方案,引入冗余,以提高分布式存储系统的可靠性和可用性,从而解决大数据时代带来的海量数据的可靠存储问题,满足用户方便快捷地存储和访问数据的需求,同时保障数据的安全性。
研究技术方案及措施:
1. 文献研究法
通过调查各类文献,全面了解复制编码,纠删编码和再生编码的技术原理。对已有研究进行分析,根据目前的研究现状,形成自己的研究方向。
2. 实验法
利用Matlab和HDFS构建分布式存储系统,并对三种编码方案测试,观察、记录实验数据。