
数据资源高效流通利用研究报告 ——加速分布式存储全闪化,构建高质量AI数据基础设施 中国计算机行业协会数据流通利用专业委员会 中国电子工业标准化技术协会数据存储专业委员会 下一代互联网关键技术和评测国家地方联合工程研究中心 中国软件评测中心 北京赛迪认证中心有限公司 2025年11月 版权声明 本报告版权属于中国计算机行业协会数据流通利用专业委员会(简称“数利委”)、中国电子工业标准化技术协会数据存储专业委员会(简称“数据存储专委会”)、下一代互联网关键技术和评测国家地方联合工程研究中心(简称“下一代互联网国家工程中心”)、中国软件评测中心(简称“中国评测”)、北京赛迪认证中心有限公司(简称“赛迪认证”),并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:数利委、数据存储专委会、下一代互联网国家工程中心、中国评测、赛迪认证”。违反上述声明者编者将追究其相关法律责任。 引言 数据已成为关键生产要素。在数字经济时代,数据作为与传统生产要素(土地、劳动力、资本、技术)并列的新型要素,其价值本质在于通过汇聚、加工和应用,优化资源配置、提升生产效率并创造经济价值。这一地位的确立源于数据在经济社会发展中的核心驱动作用,它不仅是信息社会的基础资源,更是推动新质生产力发展的核心引擎。 习近平总书记指出,数据是数字经济时代的基础性资源、重要生产力和关键生产要素。近年来大模型技术不断取得突破,大规模高质量训练数据的投入在其中起到了关键作用,也进一步将“以数据为中心的人工智能”推向一个新阶段。 在国家层面,以《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)为核心框架的数据基础制度体系已经构建。该体系围绕数据产权、流通交易、收益分配、安全治理四大支柱深化制度建设,旨在激活数据要素潜能并规范市场秩序。这一“四梁八柱”式的制度设计,正从政策框架向实操落地转化,为数字中国建设筑牢制度根基。 “十五五”时期(2026—2030年),推动数据资源高效流通利用具有显著紧迫性。一要突破经济增长瓶颈。通过数 据流通优化资源配置,提升全要素生产率,显著降低传统要素(资本、劳动力)错配成本。二要满足新质生产力培育的迫切需求。人工智能、生物育种等战略新兴产业依赖高质量数据融合;数据流通滞后将直接阻碍大模型训练、新材料研发等关键创新进程,削弱国际竞争力。三要破解数据要素市场化改革的深层次梗阻。权属界定模糊导致企业“不敢流通”等制度性堵点亟待疏通;数据跨境流动、隐私保护等风险尚未建立系统化治理框架;安全与效率的平衡面临挑战。四要抓住全球竞争格局重构的战略窗口期。加速应对以美国为首的数据跨境流动规则体系,提升我国数据跨境流通能力与数字贸易规则话语权。因此,“十五五”时期需以流通效率跃升为核心突破口,系统破解制度、技术、安全三重约束。 AI大模型爆发对数据流通利用提出新挑战。AI时代对数据处理的规模与速度要求实现了数量级的跃升,且数据呈现出巨量小文件、单一目录海量文件等独特特征;CPU、网络的新发展也需要全新软件的匹配,这都对面向AI时代的分布式文件系统提出了新挑战。伴随千行百业的数字化转型迈向深水区,AI、HPC、大数据等新型关键应用正加速融入企业生产决策系统,其对业务体验和底座支撑的要求也水涨船高,既有的存储产品及解决方案难免捉襟见肘。尤值一提的是,生成式AI浪潮打开了“潘多拉魔盒”,激活了视频、语音、文本、图片等海量非结构化数据的潜能。很多企业数 据中心汇聚了不同应用的多种类、多格式、多协议数据,这对实时分析、智能决策、节能减碳提出前所未有的挑战,以存力变革推动数据服务跃迁势在必行。 本报告着眼于健全AI领域数据资源高效流通利用的政策措施,提出适应AI应用的数据资源高效流通利用技术路径,打造高性能分布式存储全闪化数据基础设施底座,健全精准高效的数据管理体系,构建智能化、一体化的数据流通利用平台,深化AI领域数据资源高效流通利用场景,促进数据高质量供给、高效流通利用,降低社会用数成本和用数门槛,赋能实体经济,促进社会高质量发展,打造国际竞争新优势,构建“数据要素×人工智能”双向赋能的发展格局。 目录 一、AI领域数据资源高效流通利用概述.....................................................................................1(一)数据资源高效流通利用的基本概念..........................................................................1(二)高质量数据集的基本概念..........................................................................................7(三)适应人工智能(AI)应用数据基础设施概述..........................................................8(四)“十五五”时期数据资源流通利用趋势研判..........................................................12二、我国AI领域数据资源高效流通利用面临三大挑战..........................................................15(一)数据资源高效流通利用的社会环境仍需改善........................................................15(二)数据资源高效流通利用的技术体系有待优化........................................................17(三)数据资源高效流通利用的安全风险依然存在........................................................20三、AI领域数据资源高效流通利用可行技术路径...................................................................21(一)打造适应AI应用的“1+2+3+N”高效智能数据基础设施....................................21(二)突破传统数据基础设施限制,通过先进存储技术构建统一数据空间,加快AI数据湖建设..............................................................................................................................23(三)构建智慧化、一体化数据管理与流通平台,提高“全局可视可管可用”数据服务能力......................................................................................................................................24(四)打造可信AI数据空间,加快数据资源规模化流通利用......................................26(五)促进AI驱动数据资源高效流通利用,深化场景赋能..........................................27四、AI领域数据资源高效流通利用最佳实践...........................................................................27(一)AI赋能医疗行业:瑞金和华西医院AI数据湖及智能存储方案助力精准医疗28(二)AI赋能科技产业:东风岚图自动驾驶HPDA存储集群方案助推自动驾驶技术持续迭代......................................................................................................................................32(三)AI赋能金融行业:中原银行升级票据影像和数据湖平台显著提升商业价值..35(四)AI赋能动画产业:《哪吒2》火爆出圈得益于强大的数据存储底座能力.......36(五)AI赋能农业行业:崖州湾国家实验室“繁-未来农业智能枢纽”,赋能育种科研新模式..................................................................................................................................37五、AI领域数据资源高效流通利用发展建议...........................................................................39(一)制度为基:在国家层面建立健全数据资源高效流通利用政策措施...................39(二)技术为径:规模化布局全闪分布式存储设施,加快AI数据湖建设,打造高效智能数据基础设施......................................................................................................................40(三)场景为核:深化适应AI应用的数据资源开发利用场景,拓展AI应用的广度和深度...........................................................................................................................................42 一、AI领域数据资源高效流通利用概述 (一)数据资源高效流通利用的基本概念 1.数据资源的内涵特征 随着信息技术的飞速发展和数字化转型进程的深入推进,数据已经成为国家基础性战略资源,数据资源已成为推动经济社会发展的重要力量。根据《全国数据资源调查报告(2024年)》,截至2024年年底,我国数据生产总量已超过41.06泽字节(ZB)1。 早在我国《“十三五”规划纲要》中,就已有“大数据作为基础性战略资源”的提法。2中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称“《意见》”)中,提到“提升社会数据资源价值”、“加强数据资源整合和安全保护”等内容。3数据资源概念虽在政府文件、法律法规中多有提及,但至今未有官方文件对其做出定义,对于其概念的讨论散见于各类报告、专家学者论述和著作中。如2023年5月发布的《中华人民共和国数字经济促进法(专家建议稿)》提到“数据资源指以电子化形式记录和保存的具备原始性、可机器读取、可供社会化再 利用的数据集合。”42022年10月15日由CCF中国数字经济50人论坛发布的《数据资源体系构建白皮书》提到“数据资源指的是经归纳、整理和验证的、有价值的数字化数据。数据资源作为要素具有非定量约束特性,与土地、劳动力、技术、资本等经济发展要素紧密依存并具有放大或加速作用,其交换流转具有跨域互操作的特点。”52024年10月21日,国家数据局发布了《数据领域名词解释》征求意见的公告,其中对数据资源作出定义“数据资源,是指具有使用价值的数据,是可供人类利用的新型资源”。 数据资源展现出多模态、多层次且复杂的特性。有专家学者归纳提出了数据资源的一些特征,如:非消耗性,数据资源可以为相同主体跨时间重复使