大数据——安全和隐私外文翻译资料
2022-12-19 17:35:50
英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
大数据——安全和隐私
Elisa Bertino
摘要:本文介绍了有关大数据安全和隐私的研究,探讨了在大数据环境中关于数据保密性,隐私性和可信度的研究挑战和方向。本文讨论的主要研究问题包括如何协调安全与隐私,数据所有权的概念以及如何在大数据存储中实施访问控制。
关键词:数据保密性;隐私;数据可信度
1.引言
技术的进步和新颖的应用,如传感器、信息物理系统、智能移动设备、云系统、数据分析、社会网络、物联网、智能互联医疗设备,使捕获、处理和共享大量数据(称为大数据)成为可能,并且能从这些数据中提取有用的信息,例如模式,并预测未来趋势和可能发生的事件[1]。大数据正在把先前很困难的任务变成可能,如预防犯罪、个性化医疗保健、紧急情况处理、甄别新商业机会、支持精准农业以及保障食物和水。正如经济学人所说的那样[2],“这些数据如果管理得当,可用于开拓新的经济价值来源,为科学提供新的见解以及使政府承担责任”。
然而,大数据的可用性及其被用于许多保密性敏感和隐私敏感的任务,使得数据安全和隐私成为越来越关键的需求。例如,可以轻松组合和分析的多个数据集的可用性使得敏感信息非常容易被推断出来。从多种数据源和设备(例如智能电话、智能电表、个人健康设备)收集的大量数据进一步加剧了数据隐私的问题。这种数据收集通常旨在收集隐私敏感信息,例如个人习惯信息。此外,由于数据通常会将知识产权和其他高价值的信息编码到整体中,越来越多的攻击集中在数据窃取和泄漏上。此类攻击不仅来自机构外部各方面,也来自内部。MERIT数据库[3]和FEMA紧急管理研究所[4]报告了有关知识产权盗窃案件的数据。数据必须被共享并且可以实时地提供给各种用户和应用程序进一步使得数据保护问题变得复杂。采用云技术存储和管理大数据及其应用程序也为大数据的数据安全和隐私问题增加了难度。
由于数据通常用于决定关键性决策,数据可信度也是至关重要的[5]。我们需要保护数据不会未经授权就被修改,所有操作必须是可靠和认证的。数据必须准确、完整并且是最新的。综合数据可信度解决方案很难实现,因为它们需要结合不同的技术,例如数字签名、语义完整性、数据质量和数据语义。另外需注意,数据可信度的确保可能需要严格控制数据管理过程,而这又会对隐私产生影响。
在下文中,我们首先讨论大数据的概念,然后我们对大数据的数据安全和隐私方面的相关挑战和研究方向进行概述,最后我们通过描述一些结论来总结本文。
2.什么是大数据
为了讨论大数据管理的安全性和隐私性,更好地理解所有与大数据有关的特征至关重要。 在这里用四个特征来定义大数据:
- 体积——数据大小范围从太字节到字节(即1021字节)。
- 多样性——数据有多种不同的格式,从结构化数据,即根据一些结构如数据记录来分布,到非结构化数据,如图像、声音和视频,这些数据更难以搜索和分析。
- 速度——在诸如智能城市和智能星球等许多新颖应用中,数据经常以非常高的频率连续到来,从而产生连续的高速数据流,因此处理这些数据的时间应该非常短。
- 大量数据源 - 大数据集的真正价值在于多个数据集是综合和交叉相关的。有着不同来源的数据集之间的综合性和相关联性允许人们通过查看单独的数据集来发现通常无法发现的信息和趋势。
3.数据安全
正如Bertino和Sandhu所探讨的[7],任何综合的数据安全解决方案必须满足三个要求:
1)保密性是指保护数据免遭未经授权的泄露;
2)完整性是指防止未经授权和不正确的数据修改
3)可用性是指防止硬件和软件错误以及对恶意数据的拒绝访问使得数据库系统不可用。
以上三个要求几乎出现在所有应用环境中。数据管理系统的不同组成部分都应该实现数据保护。诸如数据库管理系统之类的系统提供了全面的保护技术。这些技术通常包括:访问控制机制、支持基于内容和上下文的访问控制、语义完整性约束,通过该约束可以确保数据验证了一组条件或谓词,以及恢复和并发控制机制。尽管存在硬件和软件故障以及并发应用程序的访问,也要确保数据是可用并且正确的。然而,将这些技术扩展到大数据层面却是一个巨大的挑战,因为目前用于管理大数据的许多系统没有或只有有限的数据安全和隐私保护机制。
接下来我们首先讨论数据保密性的研究方向,然后是数据可信度,它概述了数据完整性的概念。
3.1 数据保密性——研究方向
目前存在许多数据机密性技术——最值得注意的是访问控制和加密。这两种技术都被广泛地研究[8,9,10],确保数据保密性必需用到这两种技术。然而,开发大数据访问控制系统面临一些挑战:
- 合并大量访问控制策略
在很多情况下,大数据需要整合来自于多个来源的数据集;这些数据集与它们自身的访问控制策略相关联,称为“粘性策略”,即使这个数据集与其他数据集是集成的,也必须强制执行这些策略。因此,需要通过使用一些自动或半自动的策略集成系统来集成策略并解决冲突。EXAM是这种系统的一个例子[11]。但是,它旨在处理少量策略的集成。如果扩展它来支持数百个策略的集成需要重新对系统进行全面的设计。此外,在处理隐私感知访问控制模型(如PRBAC[12])时,策略集成和解决冲突要复杂得多,因为这些模型可以指定一些策略,包括允许访问受保护数据项,使用数据产生的义务,以及访问数据必须满足的特殊隐私相关条件。如何自动整合这种政策与解决冲突是一项重大的挑战。
- 自动管理大数据的权限,特别是如何授予权限
如果细粒度的访问控制是必需的,则我们无法手动管理大型数据集的授权。我们需要可以基于用户的数字身份、配置文件、上下文、数据内容和元数据等自动授予权限的技术。Ni等人提出了开发这种技术的第一步[13]。这种技术使用机器学习来学习系统管理员手动授权的方法。学习完成后,系统可以使用学习模型自动授予权限。然而,动态变化的情况和上下文内容则需要更先进的方法来处理。
- 自动设计,发展和管理访问控制策略
在处理源、用户和应用程序和数据使用不断变化的动态环境中,自动设计和发展策略的能力对于确保数据同时满足可用性和保密性是至关重要的。
- 对不同多媒体数据实施访问控制策略
基于内容的访问控制是一种重要的访问控制类型,这种访问控制的授权与否是根据数据内容决定的[14]。在处理安全性很关键的视频监控应用程序时,基于内容的访问控制至关重要。支持基于内容的访问控制需要了解受保护数据的内容,这在处理多媒体大数据方面是具有挑战性的。
- 在大数据存储中实施访问控制策略
当前用于查询大数据集的方法依赖于使用Java等编程语言编写的脚本和作业。例如在Hadoop中,用户可以提交用Java编码的任意的MapReduce作业。其中的挑战在于如何将细粒度的访问控制策略嵌入到作业和脚本中。尽管研究者已经提出了将访问控制实施注入Java程序的初始方法[15],但我们仍需要扩展此类方法来支持更复杂的访问控制策略,并且需要研究基于加密的方法,以便在Hadoop等库中实施访问控制策略。
3.2 数据可信度——研究方向
大数据的一个主要应用是决策制定。但是为了使数据使用者能够进行准确的分析,做出有效的决策和预测并采取行动,数据必须是可信的[16]。确保数据可信度是一个难题,因为不但要确保数据没有错误,而且还要保护数据免受恶意方的攻击,以免欺骗数据使用者。由于采用的确保数据可信度的特定方法通常取决于所考虑的应用程序的语义,这个问题变得更加复杂。
目前,没有全面的方法来解决高保证数据可信度的问题。然而,计算机科学的不同领域已经提出了几种相关技术,包括计算机安全领域的完整性模型,如Biba模型[17]和Clark Wilson模型[18];数据库领域的语义完整性技术;数据质量技术[19];最近提出的声誉管理技术[20,21]。
当前已经开发出了针对与大数据不同应用场景的技术,因此一个广泛的研究方向是研究在处理大量的快速产生的数据时,这些技术将如何扩展。接下来我们将阐述一些具体的研究方向:
- 用户对使用数据基于可信度评估的支持
由于数据最终将被用户使用,因此有必要向用户提供一些关于收到数据可信度水平的指标。例如“信任得分”,即0到1之间的数字[22]。接近0的值表示较为不可信的数据,而接近1的值表示高可信度数据。然而随着这样的指标,需要一些有关数据可信度评估方法的解释来帮助用户更好地理解系统提供的指标。例如,在Lim等人的循环框架中[2],由给定数据源提供的数据项值的信任得分构成了这两个因素的函数:数据源的声誉;以及来源于其它报告值之间的差异。在只有一个数据源报告该值的情况下,数据得分通常不是很高。在这种情况下,用户也许仍然决定使用该值,也可能要采取一些操作来验证该值(如果是可行的)。如果是后者,那么系统必须实施适当的验证操作。
- 数据关联技术
正如Jagadish等人所讨论的那样[23],互联的大数据通常会形成有着信息冗余的大型异构信息网络。这种冗余展示了一个交叉检查冲突数据值和关联数据的重要机会。然而,需要扩展这些技术以便有效地应用于大数据集及不同类型的数据值和格式,包括非数值、多媒体数据和图形数据。
- 高度保证和有效来源
由于数据来源通常是评估数据可信度的关键因素[24],因此在数据经过系统各个部分时,保护其来源信息免受篡改至关重要。此外对于传感器网络、嵌入式系统和物联网等环境,采用有效的方法编码来源信息也非常重要。最近研究者提出了基于数据字典[25]和算术编码[26]的方法,但是它们需要扩展才能用于动态移动环境。
- 来源相关技术
由于有关数据源的名气等其他信息是评估数据可信度的重要因素,因此必须考虑数据源之间的关系。例如,假设我们观察到三个不同数据源提供了相同的数据值。通常这可能使人们断定数据值是可信的,但如果这三个数据源有非常紧密的关系,那么数据值由三个独立来源所提供这一假设是不正确的。解决此类问题的方法是,基于各种数据源之间的关系强度提出“源相关”标准。
4.数据隐私
如今,数据隐私在我们能想到的所有应用领域都比以往任何时候更加重要。尽管对于实现数据隐私来说,数据保密性是至关重要的,但数据隐私还有其他要求,包括管理用户是否同意其使用个人数据,支持使用隐私敏感数据所产生的责任以及遵守与隐私相关的法规[27]。
在过去十五年里,研究者致力于设计隐私增强技术。因此,许多此类技术被开发出来,包括加密技术、支持加密数据计算的技术[28]、隐藏数据访问模式的隐匿数据结构技术、数据匿名化和差分隐私技术,这些技术转换了数据,使其将特定数据记录与特定个人联系起来变得更加困难[29]。最近的研究工作主要集中在特定应用领域的隐私,例如位置隐私[30,31]、智能手机[32]和社交网络[33]。
尽管有着大量的研究工作,大数据时代的数据隐私问题仍然是一个挑战。接下来我们将详细阐述一些关键的研究方向:
- 效率
许多隐私增强技术使用加密技术,因此无法应用于大型数据集。最近研究者试图通过研究有效的加密构建块来解决效率问题,例如乱码电路[35]。但是仍然需要做很多工作:有效组合不同构建块的工程协议和系统;密码协议的并行处理技术;用于评估效率、数据隐私和使用不同构建块实用性的指标;以及支持效率、数据隐私和数据实用性之间面向任务的权衡。Cao等人提出了一种结合不同构建块和并行处理的方法[36],但是并未达到适合实际应用的效率水平。
- 隐私安全
许多大数据的相关应用是安全的,包括网络安全、国土保护和医疗保健,并且在许多这样的应用中,相关方(例如执法机构)可能需要个人可识别信息。因此,安全和隐私似乎是相互冲突的。如果我们想要实现安全,就必须放弃隐私;另一方面,如果我们热衷于保护隐私,我们可能会破坏安全性。但是,情况可能不一定如此。应用密码学的最新研究使得处理加密数据成为可能——例如对加密数据进行分析[37,38]。然而更多的工作需要被完成,因为使用的数据隐私技术在很大程度上取决于数据的具体应用和即将到来的安全任务。
- 数据所有权
谁是数据项所有者是一个存在争议的问题。在数据隐私的背景下,这是一个关键问题,因为通常数据项的所有者正是控制该项的一方。例如,这样的一方通常决定谁能够以什么样的目的访问数据项,然而对于数据所有权问题仍然没有一个好答案。比如数据项所有者可以被定义为用户,其信息被记录在数据项中,或是所有者被定义为通过收集用户信息来创建数据项的一方。
因此,用利益相关者的概念代替数据所有者的概念可能会更好。多个利益相关者可与每个数据项相关联,利益相关者的概念与风险密切相关。每个利益相关者将有不同的(可能相互冲突的)目标,并且可以根据多目标优化建模。在某些情况下,利益相关者可能不知道其他人。例如,数据项所属的用户(以及数据项的利益相关者)可能不知道执法机构正在使用此数据项。因此需要审查技术上的、组织的和法律的解决方案来管理冲突。
- 隐私感知数据生命周期
大数据隐私的综合保护方法需要基于系统的数据生命周期方法。我们需要识别生命周期中的相关阶段并确定其隐私要求和含义。相关阶段包括:
数据采集。我们需要机制和工具来防止在使用诸如移动电话等设备时,与其他个人相关的数据被获取。我们需要能够在特定位置自动阻止设备记录和获取数据的机制,或是能够通知个人,记录设备在周围的某个位置。我们还需要通过一些技术,每个记录的主题能够表达用户对数据使用的偏好。
数据共享。用户需要掌握数据的共享和给其他方的转移。然而,
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19860],资料为PDF文档或Word文档,PDF文档可免费转换为Word