您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国通信院]:联邦学习应用安全研究报告(2023年) - 发现报告

联邦学习应用安全研究报告(2023年)

AI智能总结
查看更多
联邦学习应用安全研究报告(2023年)

联邦学习应用安全研究报告 (2023年) 中国信息通信研究院安全研究所2023年12月 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,编者将追究其相关法律责任。 前言 “数据孤岛”,是数据为“王”的时代的一个不可被忽视的现象,各组织机构的数据如同大洋上的岛屿,隔海相望、孤立无援。这种现象来源于组织机构对敏感数据域外共享的数据安全担忧,随着数据安全法律法规日趋严格,各组织机构难以承担数据泄露所带来的严重后果,使数据既出不去,也进不来。 在追求数据要素高效高质流通的当下,“数据孤岛”现象无疑是数据要素市场化建设进程中的障碍,于是“原始数据不出域,数据可用不可见”的新范式被提出,联邦学习也作为能够实现该范式的代表技术之一,得到了快速的发展。联邦学习技术可避免原始数据流出本地,转而通过“本地存储+分布式学习”的联合机器学习建模方式完成多方数据价值的释放,很好地解决了数据流通与数据安全之间的矛盾。 联邦学习作为能够打破“数据孤岛”的有力技术工具,为实现保障数据安全流通的初衷,仍然需要确保其自身的各属性的安全可靠。本研究报告着眼于联邦学习技术产品、系统、平台等形式的应用的安全,介绍了联邦学习应用的安全现状,分析了联邦学习在应用中面临的安全问题,并针对以上痛点问题,提出了联邦学习应用的未来发展建议。本报告的编写得到了不少业界同仁的大力支持,希望本报告能为社会各界深入了解联邦学习应用安全的现状与发展提供有价值的参考。 目录 版权声明........................................................................................................................1 (一)背景................................................................................................................1(二)联邦学习技术体系........................................................................................2 (一)跨机构应用是国内联邦学习应用的主要形态............................................4(二)中心化架构在联邦学习产品中占比最多....................................................5(三)半诚实敌手环境是当下联邦学习主要的应用环境....................................7(四)密码技术是当下联邦学习产品的主要安全保护技术................................9 三、 联邦学习应用安全现状与问题分析................................................................11 (一)数据泄露类风险是联邦学习产品最易出现的安全风险.......................... 11(二)联邦学习应用安全风险的隐蔽性高..........................................................14(三)协调方的存在为联邦学习应用带来了安全方面的不确定因素..............15(四)联邦学习应用的安全保护强度与性能要求在一定程度上相互制约......16(五)联邦学习应用安全相关标准尚未健全......................................................18四、 联邦学习应用安全学界研究现状....................................................................19(一)偏重于恶意安全环境下的安全研究..........................................................19(二)如何优化性能是热门研究方向..................................................................20五、 联邦学习应用安全发展建议............................................................................21(一)加速联邦学习应用安全的标准化建设......................................................21(二)加强联邦学习应用安全的研究..................................................................22(三)推动联邦学习应用安全的基础设施建设..................................................23 图 目 录 图1联邦学习架构.................................................................................................... 4图2联邦学习产品架构总体分布统计.................................................................... 6图3不同场景中的联邦学习产品架构分布统计.................................................... 7图4联邦学习产品安全保护技术使用占比统计.................................................. 10图5联邦学产品安全风险占比统计(半诚实环境).......................................... 11图6联邦学习产品安全风险分布统计(半诚实环境)...................................... 12 表 目 录 表1联邦学习应用分类............................................................................................ 3表2联邦学习应用的安全假设................................................................................ 8 一、联邦学习概述 (一)背景 在数据价值被充分重视的大数据时代,数据流通成为了数据价值释放的重要步骤。2022年1月6日国务院办公厅印发的《要素市场化配置综合改革试点总体方案》提出了要探索“原始数据不出域、数据可用不可见”的数据交易范式。联邦学习技术是实现该交易范式的典型代表技术之一,具有巨大的发展潜力。近年来,联邦学习的应用实践正在不断落地,其实用性已经得到了反复印证。 联邦学习作为数据流通领域的重要技术应用,一旦其出现安全问题,则保护数据的初衷将无法实现。因此,联邦学习的使用者对其安全性要求普遍较高。目前,联邦学习多被用于金融、医疗、政务等行业1,这些行业对数据安全及个人隐私保护有着严格要求,一旦联邦学习应用的安全性存疑,数据系统将面临着数据泄露的风险,并可能对企业或组织机构造成巨大损失。 近年来,联邦学习安全已经得到了学界的高度重视。从研究热度上看,在2016年至2022年的区间内,联邦学习安全方面的论文数量持续增加1,整体研究热度呈现上升的趋势。从研究广度上看,联邦学习安全方面的研究主题已经涵盖了恶意攻击、网络安全、隐私泄漏、容错、以及与其他隐私保护技术融合应用等多个领域1。联邦学习应用的安全风险发现和防御理论持续得到更新。 (二)联邦学习技术体系 联邦学习的概念最初在2016年由谷歌提出,经过一段时间的发展,有了比较明确的定义——“联邦学习是一种机器学习的形式,这种形式中多个实体(客户端)在中央服务器或服务提供商的协调下协作解决机器学习问题。每个客户端的原始数据都存储在本地,不进行交换或传输,并以聚合更新的方式达成学习目标”2。它的出现打破了传统机器学习的集中式数据训练模式,各组织、机构的原始数据不必流出本地,各自使用本地原始数据参与模型训练,通过迭代、聚合等过程最终得到全局模型。同时,各组织、机构、设备间的交互被以保护隐私为目标而精心设计,使得联邦学习应用可以在保护隐私的前提下,完成多方数据联合建模的任务。 联邦学习可以从以下三个维度进行分类,如表1所示。一是,根据参与方的性质,联邦学习可划分为跨机构(cross-silo)联邦学习和跨设备(cross-device)联邦学习。跨机构联邦学习指不同组织、机构之间,或者地理分离的数据中心之间的联邦学习,其特点是参与方数量少,各方的数据规模、质量等方面相对一致,技术实现相对简单;跨设备联邦学习指大量移动通信设备或物联网终端、边缘计算设备等之间的多方数据建模模式,其特点是参与方数量规模巨大,且各方的数据质量以及所处的网络、硬件环境相差较大,因此需考虑数据不平衡、设备性能不平衡、网络性能差等问题,实现难度较大。二是,根据多方训练数据样本和特征空间的异 同,联邦学习可划分为横向应用与纵向应用。在横向应用中,各参与方数据集的特征相同,而样本不同,其“横向”扩展了训练数据的样本空间。纵向应用则与横向应用相反,各参与方的数据拥有相同的样本空间,但在特征上各不相同,纵向应用实现了训练数据特征空间的“纵向”扩展。三是,根据技术架构的不同,联邦学习可以划分成中心化架构和去中心化架构。中心化架构中需要中央服务器作为协调方协助完成联邦学习过程,中央服务器及协调方程序通常部署于诚实的第三方中。去中心化架构中则没有处于中心地位、用以协调的第三方,如图1所示。 二、联邦学习应用概况 联邦学习应用已在我国多个行业落地实践,在此背景下,中国信息通信研究院安全研究所(以下简称安全所)于2021年至2023年间开展了联邦学习安全测评活动(以下简称“活动”),对40余款联邦学习产品进行了安全测评。同时期,中国信通院也针对20余项联邦学习产品或应用进行了安全性调研(以下简称“调研”)。本报告以本次“活动”与“调研”中积累的数据为基础,从联邦学习的应用情况、存在的安全风险、技术保障措施等方面分析了当下联邦学习技术的应用现状。 (一)跨机构应用是国内联邦学习应用的主要形态 目前国内联邦学习应用需求主要来自金融、医疗、政务等行业3,实现的是跨“孤岛”的联合建模,即跨机构的联邦学习。跨机构联 邦学习应用的参与方数量少,相应的计算和通信压力相对较小,且成功的数据共享是各参与方的共同需求,在联合建模过程中各参与方为达成共同目标通常不会主动发起攻击行为,因而其对性能和安全性方面的技术要求相对较低,当下的联邦学习技术已可满足跨机构应用的大部分技术要求,这使得跨机构的联邦学习应用能够获得相对广泛的落地。相反,在跨设备的联邦学习应用中,参与方数量巨大,应用对计算效率、通信开销、安全防御等方面的要求更高。而现有技术在这些方面仍显不足,不能满足该类应用的高性能计算、低通信开销的要求,也难以应对恶意设备的投毒与攻击。技术上的不足使联邦学习实践难以向跨设备应用方面扩展。因此,跨机构应用成为了目前联邦学习应用最主要的应用形态。 (二)中心化架构在联邦学习产品中占比最多 在技术架构方面,从总体上看中心化架构在各类联邦学习产品中占比最高,如图2