您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [DataFunSummit:2023年用户隐私与数据安全峰会]:端云协同隐私计算系统的设计和落地探索 - 发现报告

端云协同隐私计算系统的设计和落地探索

信息技术 2023-07-13 DataFunSummit:2023年用户隐私与数据安全峰会 Roger谁都不是你的反派大魔王
报告封面

演讲人:Luca-OPPO-高级隐私计算研究员 背景及设计理念 术语说明 传统纯云智能系统 础润而雨 •1月30日,厦门银行违反个人金融信息保护规定、违反信息披露管理规定等23项违法行为罚款764万元•2月12日,Telegram查询机器人爆出国内45亿个人信息泄露,数据主要来自各快递平台•公安部公布黑产“断号”行动十大典型案例,个人信息占7成•特斯拉、TikTok、拼多多身陷数据安全、隐私问题的风口浪尖 e.g.输入法下一词预测 •2020/11,欧盟颁布《数据治理法》(Data GovernanceAct)草案;2022/02颁布《数据法案》(Data Act)草案•2022/12,启动“欧盟-美国数据隐私框架充分性决定”进程并发布草案,旨在促进安全的跨大西洋数据传输•2022/12,《数据二十条》出台,提出探索数据产权运行机制,形成“数据三权”分置的特色制度,促进数据合规高效流通使用•2022/12,欧盟委员会发布2023-2024年数字欧洲计划工作方案•2023/03,美国OSTP发布Privacy-Preserving Data Sharingand Analytics (PPDSA)战略 端云隐私计算系统设计假设 数据假设•数据分布在端侧,内容被保护 •云侧可能持有少量数据•端云间交互无法反推隐私的中间数据 计算基础•端具有极有限计算能力 •端云网络不稳定,带宽低•端数量千万级•端分布在全球不同区域 任务定义•端云计算任务可分解为子任务 迭代执行•端参与运算,每子任务需要部分端运行•可能需要云聚合端运行结果 端云隐私计算系统的三层功能需求 端云隐私计算系统设计理念 全球千万级设备协作 面向落地智能业务 主动隐私 主动隐私意为以用户为中心,主动感知、主动审计、主动合规,以用户隐私安全为第一优先级,从提升用户智能服务体验出发,主动构建数据合法合规使用和流通策略,通过系统实现隐私技术透明公开、可证可信地承载全生命周期用户隐私安全保护能力 系统面向落地智能业务,包含智能业务全层级,从业务定义、数据采集、数据转换、数据分析、端云建模、效果评估等全链路多方面实现端云协同且双方隐私保护的智能服务 面向分布在全球的千万级异构计算设备,通过安全高效的端云协同实现隐私保护的设备间协作 整体架构:选择-计算-聚合范式 大规模端采样:端选择三象限 问题定义:从可用端全集中选择一个子集参与一个子任务 大规模端采样:随机异步时空均匀的端选择 问题定义:从可用端全集中选择一个子集参与一个子任务 落地智能业务:云侧无数据的模型评估 •模型评估范式转变,传统为数据到模型,在端云隐私保护场景下,为模型到数据•隐私保护模型评估可以分为验证数据集构建、模型下发、端侧本地评估及云侧聚合3个步骤•验证数据集基于用户选择(即端选择)和端内数据划分两个维度构建•模型下发除标准下发外,可以随训练基础模型下发以节省通信量,还可以多模型一起下发以实现A-B模型测试•本地评估和聚合分为端侧计算评估指标并加密,云侧聚合两步骤 落地智能业务:联邦学习≠安全,过程安全 端云协同挑战——安全 攻击的研究工作 •投毒攻击(Poisoning): 问题:端云范式的脆弱性 •FedPerturb[1]提出了一种新型联邦学习无目标投毒方案,能够打破多种先进防御方案,并造成全局模型发散。-Step1.根据相应的策略选择具体的攻击扰动目标(如全连接层的bias,BN层前一个卷积层的weight)-Step2.确定扰动的范围与训练更新L2范数的缩放倍率(实验结果显示仅需将这两个超参数设定在一个范围内即可获得良好的攻击效果)-Step3.根据设定好的超参数对指定范围的训练更新进行自适应缩放-Step4.最后将该训练更新上传即可实现一次攻击 •客户端数据操作:参与客户端数量众多,可利用模型参数和训练数据实施攻击•被损害的中央服务器:中央服务器负责聚合和分发数据,存在被攻击者利用的可能性•聚合算法的不足:一般聚合算法无法识别出异常的数据并抛弃那些可疑的数据 •后门攻击(Backdoorattacks): •FedBA[2]工作利用精心设计的GSC和PFAgg算法有效且隐蔽地攻击speaker验证模型,且表明了FL后门攻击能够取得与集中式方法相当的性能 [1]Jin,Tongsai, et al. “FedPerturb: Covert Poisoning Attack on Federated Learning via PartialPerturbation." (ECAI, 2023). (Our Work, under review)[2]Dan Meng*,XueWang, Jun Wang."Backdoor Attack Against Automatic Speaker VerificationModels in Federated Learning" ICASSP 2023-2023 IEEE International Conference on Acoustics, Speechand Signal Processing (ICASSP). IEEE, 2023.[PDF] . (Our Work) 主动隐私技术层:联邦学习≠安全,数据安全 端云协同挑战——安全 •FedExU[3]:让模型有效遗忘指定训练数据,是一种保护用户数据隐私的方式,能降低训练的计算和时间开销,也保障遗忘指定数据前后模型的表现相同遗忘学习 安全防御的研究工作 差分隐私 •防止梯度泄露并保护参与方的隐私[1]:通过在本地梯度中添加噪声来保护隐私,使攻击者无法推断出任何关于单个客户端的敏感信息•作为主要参与方制定差分隐私行业团队标准 •FedIPR[4]框架提出了联邦深度神经网络所有权验证方案•允许嵌入和验证所有权签名,以声明FedDNN模型的合法知识产权(IPR),从而防止模型被非法复制、重新分发或滥用模型水印 [1] Ye,Dayong, et al. "One Parameter Defense—Defending Against Data Inference Attacks via DifferentialPrivacy." IEEE Transactions on Information Forensics and Security 17 (2022): 1466-1480.[PDF][2]基于差分隐私的用户个人信息保护技术要求(Our work) [3] Cai,Yichen, et al. “ Federated Exact Unlearning."2023. (Our work, under review)[4]Li, Bowen, et al."FedIPR: Ownership verification for federated deep neural network models." IEEETransactions on Pattern Analysis and Machine Intelligence (2022).[PDF] 小结 •传统纯云智能系统存在用户隐私泄露风险,端云隐私计算系统需求逐渐增大•端云隐私计算系统针对大规模设备的选择-计算-聚合架构•端选择三象限及随机异步选择中的按不同业务需求的三种策略•随机异步选择中基于时空两维度的均匀端选择机制•端云隐私计算系统中模型评估范式转变和新流程•联邦学习不等于安全,所谓安全包含数据安全、过程安全两个方面,数据安全包含用户隐私数据安全和模型数据安全两部分,联邦学习更易受到投毒、后门攻击 感谢观看