基于差分隐私技术的回归诊断算法研究文献综述
2020-04-24 09:58:42
用户个人信息的数字化,有利于促进多领域的科学研究。研究人员分析用户数据的常用方法是建立线性或逻辑回归模型,然后分别用残差图和ROC曲线诊断模型的可信度,以修正模型,使用模型来推测或解释数据。但是,在这过程中会产生用户敏感数据泄露的风险。现有的研究成果只解决了隐私建模的问题,但不能有效评估出回归模型的质量,仍旧需要进行回归诊断,同时继续保护隐私。因此,基于差分隐私的回归诊断算法可以解决这一问题,通过构建敏感数据的线性和逻辑回归模型的诊断工具(残差图和ROC曲线),使其能够测量模型对原始数据的拟合程度或预测能力,同时确保差分隐私。
在目前的研究工作中,为了限制分析人员获取到原始的敏感数据,主要有两种解决方案:1.要求分析人员使用覆盖噪声的算法查询数据,建立回归模型。目前已经产生了一些针对逻辑回归和线性回归的差分隐私训练算法,用于建立有噪的回归模型,但存在的问题是这些算法并不保证该隐私模型已准确地描述了原始数据中的关系,也没有保证它能产生高质量的预测结果。2.将原始数据集合成为一个虚拟的数据集,供分析人员使用。这样,从虚拟记录中就不会匹配到真正的记录。但存在的问题是通过这种方法建立的模型,可能只对合成数据拟合、预测良好,不一定完全适用于原始数据。因此,这两种方案都需要后续的回归诊断,以保证其可用性,且该诊断过程仍需提供隐私保护。
目前对于隐私保护下线性回归诊断的研究,主要有Qardaji等人提出了扰动残差图的想法,但他们的噪声分布不满足差分隐私或任何其他的隐私保证。除此之外,也没有其他人研究基于差分隐私进行的残差诊断。对于逻辑回归诊断,Boyd等人通过使用平滑敏感度来计算AUC和ROC曲线的变体,并称之为对称双正态ROC曲线;Chaudhuri等人提出了一种通用技术来评估隐私测试集的分类器。但是,他们假设评估函数的全局敏感度较低(一个很小的常数),但由于生成ROC曲线的大量统计数据具有较高的全局敏感度,因此适用性不高。所以,为解决在差分隐私保护下有效诊断回归模型的问题,研究可以诊断线性回归和逻辑回归的差分隐私算法,具有非常重要的意义。
{title}2. 研究的基本内容与方案
{title}1.研究内容:
设计两种算法,以分别创建满足差分隐私的残差图和ROC曲线,便于确定数据是否满足线性回归模型的假设条件和评估逻辑回归模型的预测效果,然后通过实验评估算法的性能。
2.研究目标:
针对线性回归,给定一个原始数据集和回归模型,算法能够输出基于差分隐私保护的残差图,通过该残差图能够直观判断该数据集是否满足回归假设,且能区分出来每种异常情况。
针对逻辑回归,给定一个原始数据集和回归模型,算法能够输出基于差分隐私保护的ROC曲线,该曲线的形状能够接近原始ROC曲线,且通过该曲线能够区分出分类器的好坏。
3.拟采用的技术方案及措施:
为设计能诊断差分隐私保护下的线性回归算法,首先确定回归模型的预测值和残差的界限范围。然后通过隐私空间划分技术(离散化、扰动、采样)产生预测值和残差在界限内的分布,即残差图。最后通过差分隐私的性质证明算法满足差分隐私,并通过实验评估算法的性能。