差分隐私原理以及在数据安全中的应用
隐私保护的挑战
数据隐私
大数据时代,个人数据隐私面临严峻挑战,涉及社交、医疗、金融等多领域敏感信息。匿名化方法如敏感数据库匿名化在存在外部数据库的情况下,往往无法有效保护个人隐私。
模型隐私
机器学习模型也易遭受隐私攻击,如模型反演攻击和成员推理攻击,导致敏感信息泄露。仅发布模型而隐藏训练数据无法有效保证隐私。
差分隐私
差分隐私提供更严格的数学化隐私保护方法,可有效抵御多种攻击手段,如成员推理攻击、属性推理攻击和记忆攻击。
差分隐私原理
差分隐私的核心思想是保证攻击者无法分辨由相邻数据集(仅一条数据样本不同的数据集)训练得到的模型。其数学定义为:对于算法输出值域中的所有事件,相邻数据集上的输出分布相似性需满足一定不等式,相似性越大,隐私性越强。
差分隐私通过添加随机噪声实现,包括输出扰动、目标函数扰动和梯度扰动三种方式。随机噪声不一定导致性能下降,反而可能跳出局部最小点、加速收敛并增加模型鲁棒性。
数据异质性
传统差分隐私算法对所有训练数据等同视之,而数据异质性差分隐私算法根据数据对模型输出的影响大小决定是否添加噪声,减少噪声添加总量,提升模型精度。理论分析和实验结果表明,该方法能有效提升经验风险和总体风险。
差分隐私应用
联邦学习
联邦学习面临数据集非独立同分布(Non-IID)的挑战,影响全局模型效果。差分隐私在联邦学习中实现“数据不动模型动”,解决隐私保护问题。
非独立同分布
联邦学习的全局模型是本地模型的加权平均,Non-IID问题导致本地模型差异较大,影响全局模型效果。研究通过特征映射范数、目标函数等约束,提升Non-IID联邦学习的泛化性能。
实验结果表明,FedAvgR在多组Non-IID数据上的测试精度显著优于其他算法,且分布不一致性距离的约束对算法效果的提升影响最大。随着训练进行,本地特征分布与全局特征分布之间的不一致性距离逐渐减小。
前景与展望
差分隐私机器学习领域仍面临非凸问题和Non-IID问题的挑战,需要进一步研究提升模型精度和解决数据异质性问题。