时空数据发布中的移动轨迹去匿名化算法研究文献综述
2020-04-14 19:44:28
随着社会的发展和科学技术的不断进步,移动通信和传感设备等位置感知技术搜集了大量的用户位置信息,并对其进行相关分析,发现潜在有用信息,合理运用,能够大大促进现代社会的智能化发展。而与此同时,人们也越来越担心运营商对位置的搜集会造成个人隐私的泄露,由此对个人生活产生负面影响。隐私的攻防已经成为当今信息时代中一个热门研究方向。
因特网服务提供商(Internet Service Providers, ISP)越来越多地收集匿名用户移动轨迹,以协助学术研究和商业应用,如网络优化,用户人口估计和城市规划等,给各种应用程序的开发带来了便利。与此同时,ISP数据的详细位置跟踪包含有关个人用户的敏感信息( 例如家庭、工作地点、个人习惯等),如若泄露,会给个人生活带来一定的风险。即使数据是匿名的人们仍然越来越担心用户可以通过外部信息( 如社交网络信息等) 重新识别。最近,美国国会已着手废除互联网隐私规则,并将ISP用户数据的共享(或商用)合法化。用户对ISP数据的共享也存在着疑问:如果将ISP匿名轨迹数据集共享,有多少用户隐私被泄露?
为了研究ISP数据共享下的用户隐私泄露问题,早期的研究通过评估轨迹的“唯一性”来估计理论上的隐私界限。如“On the validity of geosocial mobility traces”的研究中表明轨迹去匿名化是非常容易的,即在有4个时空点或访问量最高的3个地点的条件下,80%-95%的用户可在城市中被重新唯一识别。
近期,研究人员开始评估利用外部信息(例如来自社交网络的位置签入)对ISP轨迹进行去匿名的更实际的攻击。然而,由于缺乏大量的经验真实地面数据集(相匹配的ISP数据集和外部轨迹),现有的研究主要集中在对小型数据集,或模拟对综合生成的数据(例如,使用同一数据集的一部分作为搜集到的用户数据集,剩下的作为外部信息源)的攻击。
目前主要的轨迹去匿名算法有HMM、HIST、WYCI、ME、POIS、NFLX、MSQ等。不同的算法侧重点不同,具体特征如下:HMM算法侧重于研究用户移动模式,它训练了一个Markov模型用来描述用户的移动性;HIST算法侧重于匹配移动轨迹直方图,特别之处是其使用的用户信息是用户数据的时间平均统计量以及它同时对所有用户,而非一个用户的可用信息进行匹配;WYCI算法侧重于使用不同位置用户的登录概率进行用户识别;ME算法侧重于匹配数据元素进行用户识别;POIS算法假设每个用户在一段时间内访问某位置的次数遵循Poisson distribution,每个服务器上的操作服从Bernoulli distribution,利用“encountering”事件进行用户识别;NFLX算法考虑了时间不匹配,但未考虑空间不匹配,对于数据扰动的鲁棒性较好,主要通过候选信息与对手辅助信息之间的最小相似属性进行用户匹配识别,其算法特点在于匹配评分函数赋予统计稀有属性更高的权重以及为了提高鲁棒性,匹配准则要求最高得分显著高于第二得分;SQ算法侧重于利用最小化期望平方来进行用户识别,其能够容忍空间不匹配,不能容忍时间不匹配。
到目前为止,尚不清楚攻击者运用上述轨迹去匿名化算法在实际操作中是否能够对大量的用户轨迹数据进行去匿名化和重新识别以及识别效果。
{title}2. 研究的基本内容与方案
{title}2.1 研究内容和目标
研究的基本内容:本次设计首先在HMM、HIST等现有算法的基础上对轨迹隐私去匿名化算法进行分类,在真实数据的基础上运行现有算法,并分析结果和对各种算法进行评估。分析现有算法不佳原因,主要为时空不匹配以及数据稀疏。针对这两个问题设计新的算法,使其能够更适用于真实轨迹数据的去匿名化。
研究目标:设计一个适用于真实数据的轨迹去匿名化算法,并验证其效果,完成资料整理和论文编写。