基于Gossip的分布系统服务监测研究文献综述
2020-05-25 23:42:34
背景与问题:
计算机网络和分布式系统的应用已经越来越广泛,网络的复杂度和规模都成指数增长,尤其在大数据时代的来临下,高可靠度和高性能要求显得越来重要,但与此同时却越来越难以实现和维护。尤其是在一些关键领域(如银行、医疗、军事、航天等),人们对重要的网络节点(如服务器群)提出了更高的可用性和可靠性要求。于是节点故障监测技术应运而生,并且为实现高效容错打造坚实的基础。
大数据技术以成本较低、快速采集、处理和分析技术,从各种超大规模的数据中提取价值应用于分布式系统中。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式,在数据量迅速膨胀的同时,要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,2014 年全球大数据市场规模达到285 亿美元,同比增长53.2%。大数据成为全球IT 支出新的增长点。2014年大数据对全球IT 开支的直接或间接推动达2320 亿美元,预计到2018 年这一数据将增长三倍。
在大数据信息时代,像淘宝这种交易网站每天交易超过数千万笔,其单日数据产生量超过50TB, 峰值时处理交易达到9万笔/分钟,1GB/s。在阿里数据平台事业部的服务器上有超过100PB己处理过的数据。而在这些数据的背后,是庞大的分布式集群系统的通力合作,去完成这惊人的数据的吞吐。
近几年,大数据在公共服务中的交通、医疗、教育、预测服务等领域得到广泛应用。随着第三方服务机构的参与,公众需求被不断挖掘,应用场景逐步丰富。所以对于支撑起大数据的分布式系统的状态检测尤为重要。
同时随着云计算的兴起,Microsoft、Google等公司相继加入到了云计算的开发当中。根据调研机构IDC的调查报告显示,过去的一年里,私有云IT基础设施的支出同比增长19.1%,达到124亿美元;公有云IT基础设施的支出则同比增长28.2%,达到204亿美元,未来云计算的发展会向构建大规模的能够与应用程序密切结合的底层基础设施的方向发展。另外,不断创建新的云计算应用程序、为用户提供更多更完善的互联网服务作为云计算的一个发展方向,如此大规模的基础设施的搭建,这些设施中的分布式系统服务的活性的检测也就成了重中之重,也是云计算非常重要的一个环节。
互联网规模的不断扩大,传统的 TCP/IP 模型逐渐暴露一些可扩展性不足的问题。例如:IPv4 地址匮乏,NAT 的大量使用导致 P2P 通信障碍,网络主干网带宽成指数上涨,通信子网间路由转发速度需大大提高,分布式网络计算服务应用等尤其是网络中大量冗余数据的传输导致网络堵塞的现象已经十分普遍。因特网技术的开发性、自由性使得网络环境中存在大量的安全隐患,主要涉及网络的系统安全和信息安全。对于网络的系统安全,诸如网络和系统软硬件或协议设计缺陷等问题一旦出现,往往会造成灾难性事故;而对于网络信息安全,诸如信息泄露、病毒攻击等问题也会对个人或企业甚至国家安全造成无法挽回的损失。因特网技术基于分组交换的数据传输通信,在网络规模逐渐扩大时,数据传输量以及路由转发速度的质量要求必定节节攀升。比如在主干网络中,大量垃圾信息的存在,势必会对正常数据的传输造成干扰,从而影响整体的网络通信和服务质量。
目前关于节点监控的研究包含两个方面,其一是自组织网络拓扑组建和消息散播方式,其二是关键节点数据采集和故障分析,文献研究的重点为前者。总结组织网络的特性及研究方法,探讨 Gossip 协议、P2P 通信以及开发方面的技术;文献[6]
随着网络大规模化、强动态化的特点进一步加,节点监测本身的自适应能力和可扩展性而也变得非常重要。传统的故障检测和消息散播模式会引起时延加剧、网络拥塞等问题,导致监测性能下降,甚至成为有效服务的额外负担。
然而面对目标网络大规模化、动态化、复杂化等趋势,传统的失效检测方法已很难达到高扩展性和自适应性的要求,并且常常造成局部网络拥塞、传输时延和误判率增加等现象,这直接导致检测的效率严重下降。文献在现有研究基础上,提出了基于自组织邻域的动态节点失效检测方法。