您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OpenMPC]:安恒信息2023全球隐私计算报告 - 发现报告

安恒信息2023全球隐私计算报告

信息技术2024-01-18OpenMPC大***
AI智能总结
查看更多
安恒信息2023全球隐私计算报告

杭州数据协同创新未来实验中心·隐私计算联合创新实验室 版权声明 本报告版权属于杭州数据协同创新未来实验中心,并受法律保护。转载、摘编或利用其他方式使用本报告内容时,应该注明“来源:《2023全球隐私计算报告》”。且对本报告进行转载时,请保持报告的完整性,只能全文转载,不得有故意掩盖出品单位和编写成员或额外添加其他内容等不当操作。对于任何违反上述申明的行为,我们将追究相关法律责任。 指导单位 •杭州数据资源管理局 联合发起单位 •火山引擎•杭州数据交易所 •联通研究院•OpenMPC社区 •数据要素社 •西安交通大学 •隐私计算联合创新实验室•中国电信翼支付 支持单位 •杭州数据安全联盟 •杭州国际数字交易联盟 (排名不分先后,以拼音首字母排序) 主编: 熊婷 编写组成员: 编写成员 陈孔阳、何志坚、姜亚彤、林浩、路航、李增鹏、李雪雁、李安国、柳兴、梁栋、庞雷、潘凯伟、任雪斌、史楠迪、WenHui Zhang、王凯崙、由林麟、杨树森、张锦锋、周旦 CONTENTS目录 全球隐私计算发展概览 隐私计算图谱2023 隐私计算应用和市场动态 全球隐私计算技术进展 隐私计算开源选型参考 第一章:全球隐私计算发展概览01 政策法规动态-国内 2023年3月7日 根据国务院关于提请审议国务院机构改革方案的议案,组建国家数据局。 中共中央国务院印发《数字中国建设整体布局规划》。《规划》提出,到2025年,数字基础设施高效联通,数据资源规模和质量加快提升,数据要素价值有效释放。 国务院办公厅关于印发《政务服务电子文件归档和电子档案管理办法》,指出各级政务服务机构应当在符合国家有关法律法规要求的前提下,依托政务服务平台积极推进本单位政务服务电子文件和电子档案共享利用。 2023年年10月25日 国家数据局挂牌成立。 数据使用保护方面 2023年3月7日根据国务院关于提请审议国务院机构改革方案的议案,组建国家数据局。负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。10月25日,国家数据局挂牌成立。2023年8月3日国家网信办发布《个人信息保护合规审计管理办法(征求意见稿)》,指出专业机构应当采取相应技术措施和其他必要措施,保障数据安全。2023年8月8日国家网信办发布《人脸识别技术应用安全管理规定(试行)(征求意见稿)》,面向社会公众提供人脸识别技术服务的相关技术系统应符合网络安全等级保护第三级以上保护要求,并采取数据加密等措施保护人脸信息安全。国家金融监管总局、中国人民银行、中国证监会、国家网信办、国家外汇管理局《关于规范货币经纪公司数据服务有关事项的通知》,构建覆盖数据全生命周期和应用场景的安全保护机制,开展数据安全风险监测评估。2023年8月25日 工信部等16部门发布《关于促进数据安全产业发展的指导意见》,指出优化升级数据识别、分类分级、数据脱敏、数据权限管理等共性基础技术,加强隐私计算、数据流转分析等关键技术攻关。加强数据质量评估、隐私计算等产品研发。推进安全多方计算、联邦学习、全同态加密等数据开发利用支撑技术的部署应用。 2023年11月10日 国家数据局局长刘烈宏在北京数据基础制度先行区启动活动上表示我们正要积极推进隐私计算、数据空间、区块链等数据流通技术研发和集成应用,布局建设数据基础设施,为数据可信、高效流通提供有力的基础支撑。 工信部发布《工业领域数据安全标准体系建设指南(2023版)(征求意见稿)》,提出将多方安全计算、联邦学习等作为数据共享安全技术产品标准重点建设方向,将数据脱敏、可信执行环境等作为数据安全防护技术产品标准重点建设方向。 央行发布《中国人民银行业务领域数据安全管理办法(征求意见稿)》,指出数据处理者采用隐私计算等技术促进数据融合创新应用时,应当确认原始数据未离开自身控制范围,且多个数据提供行为关联后,暴露约定范围外信息的风险可控。采用隐私计算技术提供数据时,应当建立统一的技术风险评估和控制策略,明确安全可验证性、性能可接受性等风险对应的缓释措施。 政策法规动态-国外 联合国大数据和数据科学专家委员(UNCEBD)会发布《隐私增强技术指南》(The PET Guide),重点关注隐私增强技术在官方统计数据中的应用,旨在帮助各国的国家统计局更好地理解和运用隐私增强技术处理敏感数据。 2023新技术热点 AIGC技术发展带来的影响 区块链技术发展带来的影响 •在推动数实结合、加快产业升级的进程中,金融、医疗、制造、工业等各行各业AIGC应用也都在快速发展。•AIGC的应用在推动产业发展的同时,也带来了数据泄露的风险。AIGC的应用是借助大模型厂商提供的服务进行的,存在着模型和数据隐私泄露风险。•如何通过异构AI隐私计算的技术手段,保护大模型在训练、部署和服务时的数据和模型参数安全,满足AI大模型应用落地过程中的隐私保护需求。•如何利用AI的生成式能力助力隐私计算的发展,给隐私计算带来了新的挑战。 •在隐私计算中,数据共享缺乏安全性校验,参与者身份及数据缺乏记录和验证;数据共享参与者缺乏合理的激励机制和公平的协作环境。•区块链技术可以解决隐私计算中参与者身份与数据的可信验证问题,可以提供公平合理的合作环境。•隐私计算技术和区块链技术结合可以提高隐私计算中身份认证及密钥管理的安全性和灵活性、解决数据共享参与者身份及数据可信问题、增强区块链的隐私保护能力。 隐私计算 •量子计算可在较短的时间内破解传统加密算法,给基于密码学原语的隐私计算长效安全性带来威胁,如何实现抗量子是量子时代隐私计算面临的巨大挑战。•NIST已广泛征集关于后量子密码算法的研究,将后量子密码算法迁移到隐私计算的组件中可以应对量子计算对目前隐私的威胁。•量子密钥分发也是应对量子计算威胁的手段之一。量子密钥分发可用于传输隐私信息,保证数据要素安全,完善隐私计算中数据出域的信任链问题,从而推动抗量子隐私计算的发展。 •云MaaS理念提出以智能模型为核心的开发范式,搭建了智能云计算技术和服务架构提供包括模型训练、推理、部署、精调、测评、产品化落地等在内的全方位服务。•云原生在企业中的应用越来越广泛和深入,如果隐私保护不到位,云原生技术的发展会带来巨大的隐私泄露问题。•针对云原生网络架构虚拟化、连接情况复杂、网络边界动态变化的特点,将模型作为一种服务提供给用户,需要实现对用户数据要素的隐私保护和对模型参数本身的隐私保护,想要推动云原生技术的发展和完善,离不开隐私计算技术的护航。 云原生技术发展带来的影响 2023隐私计算行业国际动态 •隐私增强技术(PET)发展势头强劲,获得政府、公共机构、监管机构、企业的广泛关注;•PET逐步走向立法和监管变革,诸如英国ICO指南草案、加拿大C-27隐私法、拟议的欧盟人工智能法案、美国人工智能权利法案;•PET技术标准和质量评估措施迅速发展,即将推动公共和私营部门机构的PET应用案例建设。 关键词热度分析 第二章:2023全球隐私计算图谱02 第三章:全球隐私计算技术进展03 安全多方计算 密码学原语研究:更注重效率与安全 •融合深度学习,利用混淆电路协议对分布式客户端生成的数据进行扩展的深度学习分析。•融合迁移学习,通过部署与数据无关的特征提取方法,在不泄露任何关于私有图像或分类器的信息的情况下,实现图片分类。•融合知识图谱,实现保护用户数据的推荐。 从计算到学习:与机器学习广泛融合 •Sequre:安全多方计算在生物信息领域的最新开源框架,已应用与在各种生物信息学任务上,包括全基因组关联研究、药物-靶标相互作用推断等。•Squirrel:摩根大通服务金融行业的安全多方计算框架(未开源),可在纵向切分的数据集上进行安全的两方GBDT训练,训练过程中不会泄露任何敏感的中间信息。 从理论到实践:更多实用框架提出 联邦学习 •目前联邦学习技术除了支撑主流的机器学习方法和模型训练外,更多聚焦于安全与隐私保护技术上,可信联邦学习成为重要趋势,联邦大模型技术、模型产权保护(IPR)、模型定价等正在初步探索,在应用方面则突出了物联网、区块链移动设备方面的研究。 公平性 安全性 为避免模型偏差所造成的影响,联邦学习对数据集精度要求与日俱增,许多研究团队着力探讨开放训练的公平性问题,通过定义公平性衡量指标,来保证联邦参与者的贡献与收获均衡,并实现每一个参与者的持续激励。 除了传统隐私性的考虑,联邦学习作为分布式系统也容易受到恶意攻击,如1)通过获取训练过程中的中间参数,逆向推理得到隐私数据,2)通过数据投毒,干扰联邦学习过程,导致模型训练失效。通过研究相关的防护机制,保证联邦学习的安全性。 大模型 新模式 通过分布式的算力与数据实现大模型的联邦化训练、微调与部署。为适配异构的算力与数据,实现大模型在资源受限条件下的有效训练,通过大小模型的有效联动,实现本地小模型的高效训练、全局大模型的精准更新,以及更新模型的个性化部署。 基于去中心的联邦学习过程,可对现有的AI模型与学习方法进行联邦化、隐私化改造,如联邦图学习、联邦强化学习、联邦元学习等。同时,针对实现应用场景,如物联网应用,随着用户与内容的日益丰富,增量式联邦学习成为支持相关服务与应用的基础。 可信执行环境 •随着越来越多的业务上云,端到端的全链路可信或机密正在慢慢成为公有云基础设施的默认要求而不再是一个特性,需要综合利用加密存储、安全网络传输、机密计算来实现对用户敏感数据全生命周期的保护。机密计算是当前业界正在补齐的环节,主流的硬件平台已经部分提供或正在实现对机密计算的支持,目前主要云厂商(Azure , AWS, GCP等)的机密计算架构产品如下图所示,正在如火如荼的升级支持中。其中AWS坚持走自己的路线、没与具体硬件绑。2023年,我们看到Google拥抱AMD SEV系列云产品,并发布了Intel TDX VM的预览版本。Azure还在2023年率先推出了对GPU TEE(StrongBox,Graviton,H100)的支持。阿里云拥抱新产品,支持了TDX VM,并率先提出用TDX保护大模型的解决方案。 差分隐私 •差分隐私能够解决传统隐私保护的两个关键问题。首先,在最大背景知识假设下,差分隐私保护无需考虑攻击者所拥有的任何可能的背景知识。其次,差分隐私对隐私保护进行了严格的定义并提供了量化评估方法,使得不同参数处理下的数据集所提供的隐私保护水平具有可比较性。因此,差分隐私理论迅速被业界认可,并逐渐成为隐私保护领域的一个研究热点。 中心化差分隐私 中心化差分隐私研究已较为广泛,传统主要集中在统计分析和机器学习/深度学习模型训练场景,当前研究最新进展已开始尝试将差分隐私引入到自然语言处理、生成式模型、视频数据分析等复杂应用场景中。 本地化差分隐私 本地化差分隐私由于适用于大规模环境部署,受到工业界的广泛应用。当前研究进展主要集中于实现更多复杂场景的数据分析算法设计。一方面,针对统计查询场景,主要集中在对高维、流式、图数据等统计分析场景算法的优化;另一方面,针对机器学习与深度学习场景,主要集中在与深度学习、联邦学习的结合,近来也开始实现与大语言模型结合,实现大语言模型预训练与推理过程的本地隐私保护。 分布式差分隐私 中心化差分隐私对可信假设要求较高但能够保持较好数据分析效用;而本地化差分隐私对可信假设要求较低但相比中心化差分隐私的分析效用较低;分布式差分隐私通过结合一些密码学原语辅助的安全性,可以实现分布式隐私保护的同时获得接近中心化差分隐私的效用性。 混洗差分隐私 混洗差分隐私通过第三方的消息混洗节点,实现本地差分隐私消息收集过程的匿名性,通过增大隐私安全特性来降低所需的噪声,从而提升数据效用性,也收到当前理论研究的关注。作为分布式差分隐私的一种变体,近来也被广泛应用到联邦学习算法的设计中。 隐私放大理论