您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [北京市政务服务和数据管理局&上海市数据局&天津市数据局&重庆市大数据应用发展管理局&福州市数据局&杭州市数据资源管理局&西安市数据局&武汉市数据局&成都市数据局&苏州市数据局&青岛市大数据发展管理局&大连市数据局&上海数据交易所&赣州市数字产业集团有限公司&北京化工大学&北京交通大学&北京物资学院&安恒信息技术股份有限公司&蚂蚁技术研究院&中国移动研究院&湖南天河国云科技有限公司&浪潮云信息技术股份有限公司&上海零数科技有限公司&杭州高新数联互通科技有限公司]:国家数据基础设施技术路线发展研究报告 - 发现报告

国家数据基础设施技术路线发展研究报告

报告封面

第二章 世界各国积极探索数据基础设施建设12美国的数据基础设施探索实践欧盟的数据基础设施探索实践1321 2024年7月18日,党的二十届三中全会审议通过了《中共中央关于进一步全面深化改革、推进中国式现代化的决定》,明确提出“建设和运营国家数据基础设施,促进数据共享”。2024年10月9日,中共中央办公厅、国务院办公厅发布《关于加快公共数据开发利用的意见》,提出“加强数据基础设施建设,推动数据利用方式向共享汇聚和应用服务能力并重的方向转变。”“研究制订数据基础设施标准规范,推动设施互联、能力互通,推动构建协同高效的国家公共数据服务能力体系。”2024年12月31日,国家发展改革委、国家数据局、工业和信息化部发布《国家数据基础设施建设指引》,正式按下国家数据基础设施建设的启动键,开启了国家数据要素化事业的新征程。国家数据基础设施建设是一项前无古人的伟大创新事业,从实现目标上要形成数据高效流通与安全可信间的协调统一。从技术架构上要突破引领全球计算机和信息系统发展了80余年的冯.诺依曼架构;从建设运营上要实现供给方、需求方和服务方等数据主体基于共识规则基础上的价值共创。具有极大的挑战性,至今还未形成成熟的技术路线。《国家数据基础设施建设指引》充分考虑国内外技术最新发展趋势,结合我国各地方各行业具体探索实践,提出了隐私保护计算、区块链、可信数据空间、数场、数联网、数据元件等六条技术路线,选择了北京、天津、上海等18个城市围绕以上六条技术路线开展城市数据基础设施建设试点试验,并启动了11项数据基础设施国家标准研究制订。目前,《指引》提出的六条技术路线成熟度还不高,还不能完全实现安全可信基础上的数据大规模流通,全国各地方各行业特别是开展试点示范的18个试点城市,对各条技术路线的发展现状、技术特点、适用范围、应用情况、发展趋势等方面有迫切需求。非试点地区和行业也对数据基础设施的试点建设进展高度关注。基于此,北京化工大学联合北京市政务服务和数据管理局、上海市数据局、天津市数据局、重庆市大数据应用发展管理局、福州市数据局、杭州市数据资源管理局、西安市数据局、武汉市数据局、成都市数据局、苏州市数据局、青岛市大数据发展管理局、大连市数据局、上海数据交易所、赣州市数字产业集团有限公司、北京交通大学、北京物资学院、蚂蚁技术研究院、安恒信息技术股份有限公司、中国移动研究院、湖南天河国云科技有限公司、浪潮云信息技术股份有限公司、上海零数科技有限公司等23家机构,共同倡议发起成立“数据基础设施技术路线专题研究组(WG6-SG1)”,并先期开展了“国家数据基础设施技术路线研究”课题,形成了《国家数据基础设施技术路线发展研究报告 1.0版》本研究报告由“数据基础设施技术路线专题研究组(WG6-SG1)”倡议成员机构共同完成,旨在为各地方各行业,特别是18个试点试验城市的数据基础设施建设提供参考。前 言 照生产要素划分,人类社会7000多年的文明史可以分为三个阶段。第一阶段是农业社会,以土地和劳动力为主要生产要素;第二阶段是工业社会,以技术和资本为主要生产要素;第三阶段是数字社会,以数据为主要生产要素。数据作为数字社会的新型生产要素,不同于土地、劳动力、技术、资本等传统生产要素,具有虚拟性、非稀缺性、易复制性等二十多个独特的特性,彻底颠覆了传统资源稀缺理论、边际效应递减理论、产权理论等经济学经典理论,对现代经济社会发展模式提出了新的挑战。数据资源正成为继土地、劳动力、技术、资本之后的第五大生产要素网络空间升级为计算空间后正在向数据空间进一步迭代土地劳动力资本技术数据农业社会工业社会知识社会物理空间网络空间计算空间数据空间 第一章人类社会正进入数据要素化发展新阶段 在现代经济社会发展史上,任何一项新型事业的发展壮大都离不开背后产业的支撑,正如软件事业背后的软件产业、集成电路背后的集成电路产业、电子信息事业背后的电子信息产业一样,数据事业的发展壮大也离不开数据产业的发展。当前,围绕数据资源“采、存、算、管、用”的全生命周期各环节,已形成一大批数据资源、数据技术、数据应用、数据服务、数据安全、数据基础设施等类型的数据企业,产业集聚效应更加明显,产业链发展更加完备,数据产业正在快速发展壮大。数据产业正快速发展成为数字经济社会的主导产业按照人们生产生活的空间划分,人类社会7000多年的文明史可以分为两大阶段四小阶段。第一阶段是物理空间时代。7000多年的绝大多数时间都生活在一个三维的物理空间中,人们的生产生活学习等所有活动都在这个物理空间中开展;第二阶段是网络空间时代。上世纪90年代互联网在全球普及之后,人类社会又多了一个新的网络空间,从通讯和社交开始,人类社会的工作、学习和生活等逐渐从物理空间向网络空间迁移;第三阶段是计算空间时代。2000年以后,随着移动终端、云计算、物联网等新业态的不断出现,政府、企业和个人等不同主体,将越来越多的管理、服务、生产、经营、工作、学习等事务迁移到网络空间,网络空间的传输功能逐渐被计算功能超越,网络空间也由此升级为计算空间;第四阶段是数据空间时代。近年来,随着大模型等人工智能技术的突破,以及人们对网络空间依赖程度的加深,对原先在互联网上难以流通的非结构化数据和私域数据提出了流通的需求,如何构建一个既能让数据高效流通同时又确保安全可信的数据空间,成为网络空间升级为计算空间后的又一次的跃升。 可流通数据只占全部数据的很小部分。自上世纪90年代互联网普及以来,全球数据资源呈爆发性增长态势,特别是移动互联网、工业互联网、智慧城市、物联网、车联网等快速发展,手机终端、工业感应装置、道路监控设备、智能家居终端、智能汽车等都成为数据生产设备,并实现7×24小时不间断地采集汇聚各种数据。但是,在全部数据资源中,只有两成左右是可流通数据,八成左右是个人隐私、企业机密、国家秘密等不可流通数据。即使在20%可流通数据中,在万维网上真正流通起来的结构化数据只有4%,而其他16%的图片、音频、视频等多模态非结构化数据,受限于技术瓶颈,尚无法实现在互联网上自由流通。数据基础设施正逐步成为数据高效流通的可信安全环境私域数据个人隐私数据国家机密数据企业秘密数据道路监控设备工业互联网自动感应装置可穿戴设备智能家电广度扩展互联网爬取物联网自动生成深度扩展数据生产方式正在发生巨大变化。2022年人工智能大模型的异军突起,对数据资源的需求陡增。据京数智科技研究成果,预计到2028年全球可流通数据将完全耗尽。数据生产方式将从互联网上采集结构化数据的传统方式向数据资源的广度和深度两个方向拓展:第一个方向是向广度拓展,即从互联网爬取数据向物联网自动生成数据的方向拓展。各种可穿戴设备、智能家电、道路监控设备、工业互联网自动感应装置等生成的多模态非结构化数据,正成为当前数据来源的主流,专业数据生产方式不断向广度和深度拓展是数据要素化发展新阶段的重要标志 化的数据标注与合成技术正成为海量非结构化数据成为高质量数据集的关键核心技术。第二个方向是向深度拓展,即从公域数据领域向私域数据领域拓展。随着人工智能大模型的快速发展,全球可供大模型训练的公域数据即将耗尽,而原先由于涉隐涉密(国家机密、企业秘密、个人隐私)而被尘封的海量私域数据,正在成为人工智能高价值数据集的重要数据源。传统意义上的不可流通数据将随着隐私计算、区块链、智能合约、控制技术和数据沙箱等数据安全流通技术的不断突破,而逐步变成可流通数据,从而充分释放这些涉隐涉密数据的高价值潜能。数据安全流通要求新型数据基础设施的建立。人类社会不同发展阶段对统筹发展和安全提出了不同的要求。在信息化、网络化发展阶段,数据具有的要素价值还未被广泛充分认识,数据安全成为关注的重点,即必须确保信息和网络的绝对安全,甚至为了保障数据安全,往往采取分级保护、等级保护、认证保护、密码保护、隔离保护等技术手段,限制数据流动,以实现“进不来、看不懂、拿不走、可溯源”等数据静态安全。在数据要素化发展新阶段,数据成为新型生产要素,不仅对数据提出大规模、高通量、快速率的流通要求,充分发挥数据的要素价值作用,同时对数据安全也提出了新的、更严格的要求,即要确保数据在大规模、高通量、快速率的流通过程中的安全。数据安全发展到了动态全过程安全阶段,这时不仅需要更加强大的连接和算力功能,对数据更大规模、更快速率、更高通量流通利用的需求更强烈,而使用控制、隐私计算、区域链、数据沙箱、智能合约、数据标识、语义发现、元数据智能识别等可信安全的数据流通技术正在成为数据要素化发展新阶段的主流技术。 美国加州隐私法(CCPA)金融领域的《格雷姆-里奇=比利雷法》(GLBA)《健康保险流通和责任法》(HIPPAA)等中国《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《中华人民共和国网络数据安全管理条例》法律法规对比通过研究对比发现,美国在联邦层面上一直没有数据安全和个人信息保护等方面的立法,只在个别州和金融、健康、信用、视频、教育、证券、未成年人、通信、计算机、贸易、消费者保护等11个领域出台了隐私保护相关法律,这种相对宽松的数据流通法规环境,催生出了几种不同的数据基础设施建设和运营模式。代表企业亚马逊、谷歌、微软Databricks、Snowflake、PalantirAcxiom、Corelogic、Factual、BDEX、Infochimps与欧盟的《通用数据保护条例》(GDPR》、《数据治理法案》(DGA)、《数据法案》(DataAct)、《数字市场法案》(DMA)、《数字服务法案》(DSA)等数据相关法律制度,以及中国的《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《中华人民共和国网络数据安全管理条例》等数据安全法律法规相比,美国在联邦层面上一直没有数据安全和个人信息保护等方面的立法,只在个别州和金融、健康、信用、视频、教育、证券、未成年人、通信、计算机、贸易和消费者保护等11个领域出台了隐私保护相关法律,如《加州消费者隐私法》(CCPA)还有金融领域的《格雷姆-里奇=比利雷法》(GLBA)和健康领域的《健康保险流通和责任法》(HIPPAA)等。美国至今没有一部保护数据产权方面的法律,即使是数据隐私的相关法规也相对分散,管理较为宽松—只要不涉及公民隐私,企业通过政府开放平台、网络爬取、提供产品或服务中获得等各种方式得到的数据,都可以自由美国的数据基础设施探索实践使用技术或方案覆盖企业全部供应链、生产链、生态链的完善数据整合与协作体系云原生架构数据分析处理平台区块链和加密算法 第二章世界各国积极探索数据基础设施建设和运营 数据基础设施类别平台公司数据流通平台专业公司数据分析平台经纪商数据交易平台使用和流通。 托管和无服务器的,这一特性赋予了它最大程度的灵活性与可扩展性,使其能够支持从千兆字节到艾字节规模的存储和SQL查询。消费者可以将数据便捷地上传至BigQuery中,这些数据会被安全加密存储,保障数据的持久性和高度可用性。BigQuery还拥有高速内存中的BI引擎,每秒可处理450万行数据,便于更快地生成报告和进行分析。当服务提供商通过特定方式访问数据进行分析后,处理结果依然存储于BigQuery,方便消费者随时获取处理后的数据,极大地提高了数据的利用效率。(2) EDC搭建数据交互桥梁EDC是由Eclipse基金会托管的开源项目,其目标是提供一个可弹性扩展的开发架构。EDC在GoogleCloud的数据交互体系中扮演着桥梁的角色,是实现互操作性的关键一环。借助EDC,服务提供商和消费者的数据系统得以无缝对接。例如,消费者可以将数据发送到BigQuery中,服务提供商则通过EDC进行访问和分析,而无需直接共享自身数据,最终将处理后的数据提供给消费者。这一特性在保障数据自主权方面意义重大,服务提供商不用担心数据泄漏风险,还能充分利用自身分析能力为消费者数据提供价值。(3)联邦学习联邦学习是一种创新的机器学习框架。它是一种分布式机器学习方法,