杭州数据协同创新未来实验中心 2024年9月 目录 01隐私计算产业发展概况022024隐私计算产业图谱03隐私计算技术演进和融合04隐私计算产业应用分析05隐私计算与人工智能06隐私计算未来展望 指导单位 •杭州市数据资源管理局 联合发起单位 •浙江大学区块链与数据安全全国重点实验室•中国联通智能城市研究院•数据要素社•杭州数据交易所 支持单位 •浙江省大数据产业技术联盟•杭州国际数字交易联盟 特别支持单位 •中关村实验室•杭州金智塔科技有限公司•浙江蚂蚁密算科技有限公司•联通数字科技有限公司 主编 张秉晟王鹏熊婷 参编人员 许苗峰、殷泽原、郭大宇、胡爽、应琦、潘凯伟、林洋、梁子轩、刘泽宇、申奇、申冠生、武通、卢天培、钱润芃、卢益彪、田磊原、冯宇扬、徐泽森、张洵、张文、吴钰沁、彭乐坤、张菊芳、黄益超、谢琴超、周旦、郑超 Part One第一章 隐私计算产业发展概况 隐私计算技术是保障数据安全的关键技术 国家数据局围绕数据要素市场化改革开展系列工作 •2023年,国家数据局会同有关部门制定《“数据要素×”三年行动计划(2024—2026年)》•国家数据局积极探索布局数据基础设施,加快数据空间等技术研究,推动隐私计算技术应用,打造安全可信流通环境,为数据要素流通、开发、利用提供支撑 •隐私计算是用于保护数据安全、个人信息和商业秘密,促进数据高效流通、处理和分享等一系列技术的总称 •助力实现数据“供得出”“流得动”“用得好”“保安全” 隐私计算技术是保障数据安全的关键技术 隐私计算,通常又被称为隐私保护计算,是“在计算中和计算后保护数据隐私的技术”。 -----《联合国隐私保护计算技术手册》 隐私计算概述 •隐私计算是“隐私保护计算”(Privacy-Preserving Computation的简称,可以在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算,有效提取数据要素价值,保障了数据在产生、存储、计算、应用、销毁等各个环节中的“可用不可见”。 •隐私计算以安全多方计算(SecureMulti-partyComputation,MPC)、联邦学习(Federated Learning,FL)、可信执行环境(Trusted ExecutionEnvironment, TEE)三大技术路线为代表,同时发展出了同态加密、差分隐私等其他密码学技术为辅助的成熟技术体系。 隐私计算技术的四个发展阶段 •克劳德·香农在20世纪40年代发表的重要论文《保密系统的通信理论》《密码学数学理论》•1976年Diffie和Hellman创建了公钥加密体制•1978年Rivest等人设计的非对称加密算法RSA和首次提出的同态加密概念•1981年Rabin首次提出不经意传输协议 萌芽期(1949-1981) 隐私计算作为独立的概念在产学研界得到关注和发展,并融合密码学、人工智能等多学科技术逐渐形成了综合性技术体系。主流技术相继出现:•1982年姚百万富翁问题 •1987年Goldreich等人提出的安全多方计算协议•2009年Gentry提出全同态加密及OMTP提出首个可信执行环境标准•2016年《中华人民共和国网络安全法》使隐私计算技术不可或缺 •随着数字经济的快速增长,隐私计算技术快速发展,成为促进数据要素跨域流通和应用的核心技术,广泛用于金融、通信、互联网、政务等领域•相关政策标准不断细化完善,如:2018年欧盟GDPR,2019年联合国《隐私保护计算技术联合国手册》,2020年中国“数据二十条”2022年美国《促进数字隐私技术法案》等•产业方面,开源项目如FATE,Mesa开始商用和落地 •隐私计算开始在实际应用中发挥重要作用,技术不断成熟,应用规模将呈现稳定增长趋势•隐私计算在技术上将迎来一系列创新迭代,各个主流技术路线持续优化,业内探索技术融合等方式来突破应用瓶颈 隐私计算技术市场前景广阔 •政策法规支持,产业需求增加 •技术加速创新并与区块链、人工智能等新兴技术融合•相关技术标准和产业规范逐步完善、产业链完整、应用扩展 应用扩展、产业链融合 产业需求增加 隐私计算生态包括数据提供方、数据加工方、数据使用方、服务商与交易所等 隐私计算在金融、通讯、政务、医疗、保险等产业应用更广泛 产业链从上游的可信硬件,到中游的技术提供方,再到下游的应用方,已形成较完整的生态 企业和个人需求日益增长,有巨大市场空间 人工智能技术的发展 2023-2024年间,AI在技术创新、政策法规与应用投资等方面均取得较大进展。目前60个国家拥有AI战略,预计生成式AI每年将为全球经济贡献4.4万亿美元。 应用和投资规模扩大 政策法规支持 技术创新 •麦肯锡2024年调查发现,在过去六年中,全球的AI采用率2019年之前一直在50%以下,2023年跃升至72%;生成式AI采用率从2023年的33%增加到2024年的65%,几乎翻了一倍。超过60%的中国企业计划在未来1-2年内部署生成式AI•2023年对生成式AI的投资激增,达到252亿美元,比2022年增长近八倍 •2023年人工智能相关法规25项•欧盟AI法案(EU AI Act,2024):全球首个全面的AI法律框架,基于风险分类对高风险AI系统设置了严格的监管•美国AI权利法案(AI Bill of Rights):防止AI系统中的歧视,确保算法透明性和隐私保护•中国AI监管法案:加强对AI技术的监管,特别是涉及国家安全风险的应用,如生物识别和监控技术。•加拿大人工智能和数据法案(AIDA):重点强调数据隐私和AI的伦理使用,如金融和保险领域•其他国家和地区:南韩《South Korea's AIFramework Act》;巴西《Brazil's AIRegulation Bill》;印度《Digital India Act》 •2023年,具有开放许可证的日益高效的基础模型呈爆炸式增长,比2022年增加一倍以上,新模型如:LlaMa、StableLM、Falcon、Mistral、LlaMa 2、DeepFloyd和StableDiffusion等•以ChatGPT为代表的新一代生成式人工智能问世,在全球范围大火,改变了人工智能(AI)技术与应用的发展轨迹,加速了人与AI的互动,是人工智能发展史上的新里程碑•GPT-4、Gemini、Gemini Ultra和Claude3等先进模型展示出强大的多模态能力,综合性能优越 隐私计算与人工智能的技术融合 AI大模型在创造巨大价值的同时,可能带来明文训练数据被泄露或个人信息被滥用等安全和隐私风险,隐私计算技术通过提供安全计算环境,可以有效降低这些风险。 产业界进展 •2019年,微众银行人工智能团队发起了全球首个联邦学习工业级开源框架FATE,可以让企业和机构在保护数据安全和数据隐私的前提下进行数据协作,核心功能包括联邦特征工程,联邦统计,联邦机器学习,联邦深度学习,联邦迁移学习等 •2024年,蚂蚁集团发布“隐语Cloud”大模型密态计算平台,提高大模型密态托管和大模型密态推理服务 未来发展方向 •增强的模型安全性:隐私计算技术可以增强AI模型的安全性,防止模型被恶意攻击或篡改。例如,使用同态加密技术可以在加密状态下对数据进行处理,确保模型训练和预测过程的安全性,使用联邦学习、差分隐私等技术可以在不暴露原始数据的情况下训练模型 •技术融合与创新:隐私计算与AI技术的融合将催生新的技术路线和创新应用。例如,结合区块链技术可创建更透明、可追溯的数据处理流程,促进跨域数据合作•性能优化:当前隐私计算和AI技术面临的一个挑战是性能问题,尤其是在处理大规模数据时。随着算法和硬件的优化,隐私计算和AI技术的性能将有望得到显著提升,从而更好地支持AI应用•产业定制化解决方案:不同产业对隐私计算和AI技术的需求不同。未来将出现更多针对特定产业需求的定制化解决方案,如医疗健康、金融风控等专用隐私平台•AI伦理和合规性:通过确保数据处理过程符合隐私保护要求,隐私计算可以帮助AI技术更好地适应法律法规,解决AI应用中的伦理和合规性问题 Part Two第二章 2024隐私计算产业图谱 国内外隐私计算垂类服务商分析 隐私计算垂类服务商正在快速成长,国外企业专注技术研发,在技术层面取得较多成果;国内企业技术研发和商业化落地协同发展。 国内外隐私计算产品概况 安全多方计算 差分隐私 同态加密 联邦学习 可信执行环境 隐私保护广告位集合竞价平台(Meta) TensorFlow Privacy框架(谷歌) FATE联邦学习框架(微众) HElib全同态加密库(IBM) Occlum TEE系统(清华&蚂蚁) 高易用性,只需要少量修改程序源码即可在TEE上执行。 提供用于训练差分隐私模型的工具。提供跟踪和管理隐私预算功能。 支持多种机器学习模型联邦建模。社区多达570家企业参加(2021年)但代码性能低(Python)。 首个开源实现全同态加密算法(BGV算法)提供密文自举代码实现。但使用成本高,代码缺乏维护。 利用MPC技术完成用户浏览页面广告位的隐私保护集合竞价。 高性能,支持多TEE任务同时高效执行。 “翠湖”安全处理器和全同态协处理器(中关村实验室) Privacy-PreservingData Analytics(Uber) 隐语SecretFlow安全计算框架(蚂蚁) JaxFed计算库(谷歌) Concrete全同态计算框架(ZAMA) 自研TEE,高性能密态计算能力,支持主流全同态加密算法与52种全同态加密算子的硬件加速,比软件性能提升200倍以上。 提供密文自举代码实现(TFHE算法)。前端兼容科学计算库Numpy。实现零成本编写同态应用。 利用差分隐私与匿名化技术。帮助公司在处理用户乘车数据时保护隐私,同时进行交通流量和其他分析。 统一前端编写成本低加入中间层解耦前后端易于扩展新协议。 通过提供相关组件提高编写和部署联邦学习算法效率。支持TPU、GPU等硬件加速。 隐私计算技术开源情况 n开源促进了隐私计算的快速发展 开源技术可以有效促进隐私计算技术的发展、普及及应用推广,开源项目降低了隐私计算产业门槛,从而进一步促进产业的发展与繁荣。 n开源提升了隐私计算平台的安全性 在隐私计算领域,安全性是核心关切。开源社区的代码透明、审查公开,用户可以检验和监督平台的安全性。这种开放性有助于及时发现并解决产品中的潜在安全问题。n国内外开源隐私计算技术与应用不断涌现,包括微软、蚂蚁集团、原语科技、UC伯克利、复旦大学等国内外企业与高校推出多个隐私计算开源项目,进一步促进隐私计算技术普及、应用和发展。 国内开源隐私计算技术 由复旦大学Daslab实验室韩伟力教授及其学生独立研发的开源安全多方学习平台,是基于BGW协议的开源安全多方学习框架。 由微众银行开源的联邦学习开源项目,提供了一种基于数据隐私保护的安全计算框架,为机器学习、深度学习、迁移学习算法提供强有力的安全计算支持。 由蚂蚁集团研发的开源可信隐私计算框架,以安全、中立、易用为核心设计理念,用一套通用框架支持了包括安全多方计算(MPC)、联邦学习(FL)、同态加密(HE)、可信执行环境(TEE)以及差分隐私(DP)在内的多种主流隐私计算技术,是国内生态影响力最大的开源社区,技术方案最为齐全的隐私计算框架之一。 由原语科技研发的开源可信隐私计算平台,该平台融合了安全多方计算(MPC)、联邦学习(FL)、同态加密(HE)、可信执行环境(TEE)等多种隐私计算技术。 国外开源隐私计算技术 EzPC Zama 由微软开源的安全多方学习框架,针对安全推理场景提供了相对完备的安全级别定义,相关研究工作自成一体,是安全多方学习框架中安全推理场景的标杆之一。 由UC Berkley Rise实验室维护安全多方学习框架