基于差分隐私技术的回归诊断算法研究开题报告
2020-04-06 11:10:55
1. 研究目的与意义(文献综述)
用户个人信息的数字化,有利于促进多领域的科学研究。研究人员分析用户数据的常用方法是建立线性或逻辑回归模型,然后分别用残差图和roc曲线诊断模型的可信度,以修正模型,使用模型来推测或解释数据。但是,在这过程中会产生用户敏感数据泄露的风险。现有的研究成果只解决了隐私建模的问题,但不能有效评估出回归模型的质量,仍旧需要进行回归诊断,同时继续保护隐私。因此,基于差分隐私的回归诊断算法可以解决这一问题,通过构建敏感数据的线性和逻辑回归模型的诊断工具(残差图和roc曲线),使其能够测量模型对原始数据的拟合程度或预测能力,同时确保差分隐私。
在目前的研究工作中,为了限制分析人员获取到原始的敏感数据,主要有两种解决方案:1.要求分析人员使用覆盖噪声的算法查询数据,建立回归模型。目前已经产生了一些针对逻辑回归和线性回归的差分隐私训练算法,用于建立有噪的回归模型,但存在的问题是这些算法并不保证该隐私模型已准确地描述了原始数据中的关系,也没有保证它能产生高质量的预测结果。2.将原始数据集合成为一个虚拟的数据集,供分析人员使用。这样,从虚拟记录中就不会匹配到真正的记录。但存在的问题是通过这种方法建立的模型,可能只对合成数据拟合、预测良好,不一定完全适用于原始数据。因此,这两种方案都需要后续的回归诊断,以保证其可用性,且该诊断过程仍需提供隐私保护。
目前对于隐私保护下线性回归诊断的研究,主要有qardaji等人提出了扰动残差图的想法,但他们的噪声分布不满足差分隐私或任何其他的隐私保证。除此之外,也没有其他人研究基于差分隐私进行的残差诊断。对于逻辑回归诊断,boyd等人通过使用平滑敏感度来计算auc和roc曲线的变体,并称之为对称双正态roc曲线;chaudhuri等人提出了一种通用技术来评估隐私测试集的分类器。但是,他们假设评估函数的全局敏感度较低(一个很小的常数),但由于生成roc曲线的大量统计数据具有较高的全局敏感度,因此适用性不高。所以,为解决在差分隐私保护下有效诊断回归模型的问题,研究可以诊断线性回归和逻辑回归的差分隐私算法,具有非常重要的意义。
2. 研究的基本内容与方案
1.研究内容:
设计两种算法,以分别创建满足差分隐私的残差图和roc曲线,便于确定数据是否满足线性回归模型的假设条件和评估逻辑回归模型的预测效果,然后通过实验评估算法的性能。
2.研究目标:
3. 研究计划与安排
第1周—第4周 查阅相关文献资料,明确研究内容,确定实施方案,完成开题报告;
第5周—第9周 学习差分隐私和回归诊断相关理论,设计相关算法;
第10周—第12周 通过python软件进行实验,评估算法;
4. 参考文献(12篇以上)
[1] 熊平, 朱天清, 王晓峰. 差分隐私保护及其应用[j]. 计算机学报, 2014, 37(1): 101-122.
[2] almeida t, hidalgo j m g, silva t p. towards sms spam filtering: results under a new dataset[j]. international journal of information security science, 2013, 2(1): 1-18.
[3] boyd k, lantz e, page d. differential privacy for classifier evaluation[c]// differential privacy for classifier evaluation. proceedings of the 8th acm workshop on artificial intelligence and security. acm: 15-23.