云服务中的辅助渠道,云存储中的重复数据消除案例外文翻译资料
2022-08-28 13:55:51
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
翻译:
云服务中的辅助渠道,云存储中的重复数据消除案例
丹尼·哈尼克
IBM海法实验室
本尼·皮克斯
巴尔伊兰大学
亚历山德拉·舒尔曼·佩格
IBM海法实验室
shulmana@il.ibm.com
概述——云存储服务通常使用通过仅存储每个文件或数据块的单一副本来删除冗余数据的方式重复数据消除服务。重复数据消除降低了数据存储服务的空间和带宽要求,这是当应用于跨多个用户时云存储产品常见的且效率最高的做法。
我们研究了跨用户重复数据消除的隐私含义,展示了将重复数据用作辅助渠道的方法,以揭露其他用户关于文件内容的信息。在另一种情况下,不论受攻击的机器上防火墙如何设置,重复数据消除都能被用作恶意软件与其控制中心交流的隐蔽渠道。
由于跨用户重复数据消除所提供的高(成本/空间)节约,云存储供应商不可能停止使用这项技术,因此我们建议用简单的机制来实现跨用户重复数据消除,同时大大降低数据泄露的风险。
关键词:云存储,重复数据消除,辅助渠道,差别隐私
1 介绍
数据量的快速增长导致对在线存储服务的从简单的备份服务到云存储基础架构的需求增加。远程备份服务为用户提供了一个在线系统,该系统用于收集、压缩、加密数据并将数据传输到托管公司提供的备份服务器。云存储是指可扩展的弹性存储功能,使用互联网技术以服务的形式提供,具有弹性供应和基于使用的定价,不会因用户在未通知的情况下更改其存储消费而对其进行处罚[9],[1]。
术语“重复数据消除”是指仅存储冗余数据的单个副本,并提供指向该副本的链接,而不是存储该数据的其他实际副本的技术。随着服务从磁带向磁盘的过渡,重复数据消除已成为备份过程中的一个关键组成部分。通过仅存储和传输重复数据的单个副本,重复数据消除节省了磁盘空间和网络带宽。对于供应商来说,它通过减少磁盘轴的数量实现了电力和冷却方面的二次成本节约[8]。根据最近的统计数据,重复数据消除被认为是影响最大的存储技术,预计在未来几年内将应用于75%的所有备份[8]。
-
- 重复数据消除办法
重复数据消除策略可以根据它们处理的基本数据单元进行分类。在这方面,有两种主要的重复数据消除策略:(1)文件级重复数据消除,其中每个文件只存储一个副本。如果两个或多个文件具有相同的哈希值,则它们被识别为相同。这是一种非常受欢迎的服务类型,在多种产品中提供[5],[2];(2)数据块级重复数据消除,将文件分割成数据块,并且只存储每个数据块的单个副本。系统可以使用固定大小的块[7]或可变大小的块[6],[11]。本文的讨论可以应用于这两种策略。
就重复数据消除解决方案的体系结构而言,有两种基本方法。在基于目标的方法中,重复数据消除由目标数据存储设备或服务处理,而客户端不知道可能发生的任何重复数据消除。这项技术提高了存储利用率,但不节省带宽。另一方面,基于源的重复数据消除在数据传输之前会对客户端的数据产生影响。具体来说,客户端软件与备份服务器通信(通过发送散列签名)以检查文件或块的存在。重复数据由指针代替,实际的重复数据从不通过网络发送。这种方法的优势在于它提高了存储和带宽利用率。
重复数据消除的有效性:重复数据消除的有效性取决于多种因素,如数据类型、保留期和用户数量。空间缩减的百分比被计算为比空间缩减率的倒数小100%,而例如,即使是1:3的重复数据消除率也可以节省66%。常见业务设置中报告的重复数据消除率从1:10到1:500不等,从而节省了90%以上的磁盘和带宽[3]。这些节约转化为云存储服务提供商和用户的巨大财务节约。
-
- 云存储中和重复数据消除中的隐私风险
将数据委托给存储云中存在固有的风险,因为数据所有者基本上是在释放对你的数据的控制。然而,实际上,许多用户和应用都非常愿意将他们的数据存储任务移交给云提供商。他们信任云提供商的完整性及其使用的访问控制机制的安全性。
抛开这些问题,我们指出了另一个威胁跨用户重复数据消除的隐私含义。我们展示了如何将云存储服务中的重复数据消除用作辅助渠道,以揭示其他用户文件内容的相关信息。在另一种情况下,重复数据消除可以用作隐蔽通道,恶意软件可以通过该通道与其命令和控制中心进行通信,而不管受攻击机器上的任何防火墙设置如何。
我们分析了这些威胁,并提出了一种简单的机制,可以实现跨用户重复数据消除,同时大大降低数据泄漏的风险。更具体地说,所提出的方法是一种陈述规则的机制,通过这些规则,有时会人为地关闭重复数据消除。我们将这个简单实践的保证量化,这向客户保证,将他们的数据添加到云中对对手可能了解到的这些数据的影响非常有限。因此,有可能从根本上确保客户的数据隐私。
2 安全问题
我们描述的攻击可以应用于在文件级或块级执行的重复数据消除(具体来说,我们假设从现在开始重复数据消除在文件级执行)。但是,重复数据消除服务有两个特性对攻击至关重要:
- 基于源的重复数据消除。也就是说,必须在客户端执行重复数据消除。如上所述,此版本的重复数据消除节省了带宽,因此是常用的。应用这种方法的结果是,客户端可以观察某个文件或数据块是否经过重复数据消除(或简称为“重复数据消除”)。这可以从检查通过网络传输的数据量来完成,如果该软件提供此类报告的话,这也可以通过观察存储软件的日志来完成。
- 跨用户重复数据消除是对攻击至关重要的第二个特征。也就是说,将每个文件或数据块与其他用户的数据进行比较,如果服务器上已经有相同的副本,则进行重复数据消除。这种方法很受欢迎,因为它在单个用户拥有相同数据的多个副本和在不同用户存储数据副本两种情况下,都节省了存储空间和带宽。(企业客户端通常存储相同或相似数据的多个副本。我们发现,即使对私人客户来说也是如此:我们尝试使用流行的备份服务备份的几乎所有常见软件手册或媒体文件都已在服务器上可用,因此进行了重复数据消除。请注意,这些文件非常大,因此重复数据消除为服务提供商节省了大量成本。)
识别易受攻击的存储提供商:我们执行了以下测试,以识别执行基于源和跨用户重复数据消除的服务(任何读者都可以在他选择的存储服务上重复该测试):(1)我们在两台不同的计算机上安装了该服务的客户端软件,并创建了两个不同的用户帐户;(2)我们用一个账号上传一个文件(在我们的测试中这个文件是孙的VirtualBox软件,大小差不多73M);(3)我们用第二个账号再次上传同一个文件,检查是否确实上传。当文件没有通过网络重新传输时,我们得出结论,备份服务执行了基于源的跨用户重复数据消除。(事实上,在检查流行存储服务时,不需要使用两个帐户,因为如上所述,在网络上找到的任何流行文件都可能存在于服务器上,因为它以前是由其他用户上传的。因此,测试可以包括从网络上下载一个受欢迎的文件,将其上传到服务,并检查重复数据消除是否发生。)
我们确定了三家领先的备份和文件同步提供商的服务,它们执行跨用户、基于源的重复数据消除。这些服务是:(1) DropBox(云存储),一种流行的文件共享和备份服务,跨越了300万用户的里程碑;(2) Mozy(备份和恢复)是消费者和企业在线备份的领先提供商,为100多万客户和50,000名企业用户提供备份,并存储超过25pb的数据;(3)Memopar(记事簿)被《备份评论》评为欧洲最佳在线备份服务,每天有近1000名新用户。值得注意的是,大多数供应商并不试图掩盖重复数据消除发生的事实,在我们的测试中,这一事实可以通过几种简单的方式轻松检测到:(1)检查历史或日志文件(这种方法适用于MozyMe);(2)根据上传状态消息,这在上传文件和已消除重复数据的文件之间有所不同(这种方法适用于Memopar);(3)根据上传速度,检查一个文件的上传是否在比客户端机器上传带宽要求的时间短得多的时间内完成(DropBox就是这种情况);(4)最后,最通用的重复数据消除检测方法是监控网络流量并测量传输的数据量,该方法适用于所有服务,无论其接口如何。我们注意到,大多数服务都有额外的客户端-服务器通信流量,但与上传大文件时传输的大量数据相比,这种流量可以忽略不计。
当满足上面列出的要求时,存储服务本质上充当“oracle(神谕)”,它为以下查询提供答案:“以前有用户上传过此文件的副本吗?”攻击者通过请求上传文件副本并观察重复数据消除是否发生来回答该查询。请注意,这是一个相当有限的查询:首先,答案是“是/否”,它没有详细说明谁执行了文件的上传,或者是在什么时间执行的。此外,在攻击的基本形式中,攻击者只能查询一次——通过上传文件来查询;之后,文件存储在上传服务中,因此查询的答案总是肯定的。
后一个限制可以通过阿迪·萨莫尔向我们建议的以下策略来克服:攻击者开始上传文件,并观察重复数据消除是否发生。如果重复数据消除没有发生,并且完全上传开始,则攻击者关闭通信通道并终止上传。因此,攻击者拥有的文件副本不会存储在服务器上。这使得攻击者能够在以后重复相同的实验,并再次检查文件是否已上传。此外,通过定期应用此过程,攻击者可以找到上传文件的时间窗口。
在以下几节中,我们描述了对在线存储服务的三种攻击。前两种攻击使攻击者能够了解其他用户的文件内容,而第三种攻击描述了一种新的隐蔽通道。
2.1 攻击Ⅰ:识别文件
这第一次攻击允许识别攻击者已知的特定文件以前是否上传到存储服务。
假设有一个叫爱丽丝的攻击者,她想了解云存储服务的用户鲍勃的信息。那么很明显,如果爱丽丝怀疑鲍勃有某个特定的敏感文件X,而这个文件不太可能被任何其他用户拥有,她可以使用重复数据删除来检查这个猜想是否属实。爱丽丝所要做的就是尝试备份X的一个副本,并检查是否发生了重复数据删除。
作为一个具体的例子,假设有一个文件证明某些非法活动(例如,一个暴力事件的记录,或一个文件含有一些被盗的敏感信息,或与儿童色情有关的材料)。执法机构一旦获得该文件的副本,就可以将该文件上传到不同的云存储提供商,并识别存储该文件副本的存储服务。然后,他们可以请求法院发布命令,要求服务提供商披露上传文件的用户的身份。(如果出于识别拥有文件的用户的目的,文件被认为过于敏感而无法上传,那么,如上所述,当局上传文件的过程可以在开始时终止,在识别是否对该文件应用了重复数据消除之后立即终止。)
2.2 攻击Ⅱ:学习文件的内容
上述攻击仅允许检查特定文件是否存储在云存储服务中。然而,攻击者可能将此攻击应用于同一文件的多个版本,实质上是对文件内容的所有可能值执行暴力攻击。例如,假设爱丽丝和鲍勃在同一家公司工作,该公司使用云备份服务来备份其所有员工的机器。所有员工每年都会收到一份新的标准合同副本,其中包含他们最新的工资。爱丽丝很想知道鲍勃的新工资,很可能是500美元的几倍,在50,000美元到200,000美元之间。爱丽丝所要做的就是生成一个鲍勃的合同模板,上面有鲍勃的名字和新合同的日期,然后为鲍勃的每个可能的工资生成一份合同副本(总共301个文件)。然后,她对她和鲍勃使用的公司备份服务进行备份。发生重复数据消除的单个文件包含鲍勃的实际工资。
只要目标文件的可能版本数量适中,就可以实施这种攻击。这似乎与企业环境非常相关,在企业环境中,文件通常是标准模板的小变体。例如,考虑以下三个示例:
- 网上银行服务向其客户发送一份包含其登录名和个人识别码的文件,个人识别码是一个4位数。因此,爱丽丝可以用登录名“鲍勃”和所有可能的个人识别码值生成10,000个文档,并检查这些文件中的哪些已经被存储。该文档对应于鲍勃的实际个人识别码。如果密码来自一个中等规模的域,同样的攻击也可以应用于任意密码。请注意,与在线字典攻击不同,被攻击的银行服务不会注意到有人正在尝试某个用户的所有潜在密码。
假设鲍勃的电脑里存储着一份详细记录他的一些医学测试结果的文件。爱丽丝可以使用这种攻击来找到测试结果,该结果通常来自一个小的域(例如,对于遗传病的发生或妊娠测试的结果,它是一个是/否的答案,或者来自一个范围,例如,一百个可能的胆固醇测试值)。转诊医生的姓名和转诊日期可能是爱丽丝知道的,或者可能来自一个小的领域。如果爱丽丝有一个在相似日期进行的测试结果的例子,那么即使测试的序列号(如果存在这样一个数字的话)也可能被她猜到。
假设爱丽丝和鲍勃都参加了一场拍卖,这要求投标人以包含他们的姓名和投标的标准格式提交他们的投标(这实际上是许多拍卖和采购过程中的常见做法)。如果爱丽丝可以推测出鲍勃最有可能的10,000个出价值,她可以使用相同的攻击来找到鲍勃的实际出价,然后相应地设置她的出价。
2.3 攻击Ⅲ:秘密渠道
假设爱丽丝设法在鲍勃的机器上安装了一些恶意软件。然而,鲍勃运行一个防火墙,防止未经授权的程序连接到外部世界。即使这样的防火墙没有运行,爱丽丝也可能想要隐藏恶意软件与其命令和控制服务器之间的通信。
如果鲍勃正在使用使用跨用户重复数据消除的在线存储服务,那么爱丽丝可以使用重复数据消除攻击来建立从恶意软件到她运行的远程控制中心的隐蔽通道。(隐蔽通道的存在可能是二阶攻击,也可能有其他方式建
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[405096],资料为PDF文档或Word文档,PDF文档可免费转换为Word