您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:高质量数据集建设指引 - 发现报告

高质量数据集建设指引

AI智能总结
查看更多
高质量数据集建设指引

前言 党的十八大以来,以习近平同志为核心的党中央高度重视我国新一代人工智能发展。习近平总书记深刻把握世界科技发展大势,洞察人工智能的战略意义,在二十届中央政治局第二十次集体学习时指出,“人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻改变人类生产生活方式。”“我国数据资源丰富,产业体系完备,应用场景广阔,市场空间巨大。”这为把握智能化浪潮,释放数据要素价值指明了前进方向,提供了根本遵循。 随着大模型技术应用的快速发展,人工智能的研发重点正从“重点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的作用日益凸显。数据作为人工智能发展的三大核心要素之一,已成为人工智能大模型训练的核心要素资源,决定了大模型的性能。加快人工智能高质量数据集建设,夯实人工智能发展数据基础,对于推动“人工智能+”场景落地具有重要意义。国家数据局联合各部门、各地区,构建起“部门协同、央地联动”的工作机制,联合施策、协同发力,积极引导做好高质量数据集建设工作,明确提出“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里”。 由国家数据局指导,中国信息通信研究院、国家数据发展研究院、中国电子技术标准化研究院、国家信息中心、国家发展和改革委员会创新驱动发展中心、中国电子信息产业发展研究院等单位,在充分调研的基础上,编制《高质量数据集建设指引》,总结高质量数据集建设方法论,指导推进高质量数据集建设,力争为人工智能纵深发展提供有力支撑。 目录 一、高质量数据集建设背景.....................................................1 (一)高质量数据集的发展背景............................................1(二)高质量数据集的概念内涵............................................3(三)高质量数据集的分类....................................................5 二、高质量数据集应用需求.....................................................8 (一)基础认知层数据集需求——建立世界的基本认知...8(二)场景理解层数据集需求——解析复杂场景关系.....10(三)行动规划层数据集需求——规划执行具体行动.....13 三、高质量数据集建设现状..................................................17 (一)全球高质量数据集建设现状......................................17(二)我国高质量数据集建设现状......................................19(三)高质量数据集建设困难与挑战..................................21 四、高质量数据集建设方法与实践......................................24 (一)典型建设模式..............................................................24(二)建设核心环节..............................................................26(三)建设核心技术..............................................................28(四)数据集质量评价..........................................................33 五、高质量数据集建设运营体系..........................................40 (一)高质量数据集体系规划..............................................40(二)高质量数据集工程建设..............................................41(三)高质量数据集运营管理..............................................42 六、高质量数据集建设推进思路..........................................45 (一)体系化布局高质量数据集建设..................................45(二)设施化推进高质量数据集应用..................................47(三)生态化赋能高质量数据集发展..................................48 一、高质量数据集建设背景 (一)高质量数据集的发展背景 在以人工智能为代表的新一轮科技革命和产业变革深入推进的大背景下,数据正日益成为国家基础性战略资源和关键性生产要素。高质量数据集作为人工智能发展的基础支撑,其重要地位不断上升,成为驱动技术创新、赋能产业升级和提升治理能力的重要抓手。当前,高质量数据集的建设正处于政策驱动与场景牵引同步发力、协同推进的关键阶段。 1.高质量数据集成为人工智能发展核心支撑 人工智能技术迈入大模型时代后,研发重点从“重点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的作用日益凸显。主要表现在:一是将数据视为活的资产,不再是一次性收集、处理后就束之高阁的静态文件,而是一个需要持续投资、管理、监控和优化的动态、演进的战略资产。二是用自动化的、可编程的、可扩展的数据处理流程,取代手动的、一次性的数据处理工作,系统性处理海量数据,并能提升数据质量。三是整合领域专家,将拥有深厚行业知识的主题专家直接整合到数据处理的流水线中。专家知识被用来定义数据标准、标注复杂案例、识别数据中的细微偏差,从而将领域智慧注入数据。四是建立模型反馈闭环,将模型在实际应用中的错误作为诊断信号,用来发现数据中的问题(如标签错误、数据分布不均、边界案例缺失等),然后有针对性地改进数据集。由此就形成了一个“数据飞轮”效应,更好的数据训练出更好的模 型,更好的模型反过来帮助获得更好的数据。 大模型参数规模指数级增长与多模态能力的拓展,数据需求从“量级积累”转向“量质并重”。例如,以OpenAI为代表的国际领先科技企业正通过强化微调等技术手段,依托小规模但高度精准、精细化、结构化的高质量数据集,实现大模型在垂直领域的专业化和实用化演进。这种“以质取胜”的数据策略显著提升了模型性能与落地能力。而DeepSeek模型在复杂逻辑推理任务中取得突破性进展,源于其R1模型采用的数学推理数据集,不仅要求答案正确性,更对解题步骤的规范性、逻辑链的完整性提出严格标准,这种精细化的数据设计使得模型在抽象思维能力上实现质的提升。 人工智能走进千行百业的具体场景,行业模型的性能跃升越来越依赖数据与场景的深度耦合,从“数据规模竞赛”转向“数据质量深耕”。越来越多的企业开始采用自动化的数据筛选、数据标注与数据增强等技术工具,以提升数据集的专业性和适用性。在这种趋势下,模型训练不再依赖于盲目扩充数据规模,而是更注重数据的代表性、多样性和场景适配性,为人工智能的可持续发展奠定坚实基础。例如,医疗领域中某肺结节检测模型训练数据集仅利用1万多例数据和亚毫米级病灶边界勾画的标注信息,使得早期肺癌筛查中的假阳性率大幅下降;工业质检场景中某企业通过合成数据等技术生成了10万种“极端缺陷样本”,弥补了真实生产中罕见缺陷数据不足的问题,使模型缺陷识别覆盖率大幅提升。 2.国家高度重视高质量数据集建设 党中央、国务院高度重视数据资源的开发利用与高质量发展,围绕构建数据基础制度、完善数据要素市场、推动公共数据开放、夯实智能技术底座等方面,陆续出台多项纲领性政策文件,为高质量数据资源体系建设提供了顶层设计和制度保障。 2022年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》,明确提出探索开展数据质量标准化体系建设。2023年12月,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强调数据要素高质量供给与合规高效流通,提出打造高质量人工智能大模型训练数据集。2024年12月,国家发展改革委、国家数据局等部门印发《关于促进数据产业高质量发展的指导意见》,首次明确提出“高质量数据集”概念,将其作为人工智能与实体经济融合的核心载体,并对行业数据集建设提出具体要求。随后一系列政策相继发布,《关于促进数据标注产业高质量发展的实施意见》《关于促进企业数据资源开发利用的意见》以及《国家数据基础设施建设指引》等政策均提出建设行业“高质量数据集”,由此数据集高质量发展成为行业发展重要目标。2025年2月,国家数据局组织27个部委召开高质量数据集建设工作启动会,加强统筹协调,深化部门协同,全力推动高质量数据集建设,高效赋能行业高质量发展,标志着高质量数据集建设进入系统化、规模化推进阶段。 (二)高质量数据集的概念内涵 高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。高质量数据集主要服务于人工智能的实际应用场景,通常包括以下四个核心组成要素:特征、标签、元数据和样本。特征是模型训练的输入变量,用于描述每个样本的具体属性;标签是需要模型预测的目标输出;元数据记录了数据生成与处理过程的相关信息,如采集时间、地点、来源等;样本则是构成数据集的基本单元,由特征向量及其对应的标签共同组成。例如,机器学习中的经典数据集鸢尾花(Iris)数据集,包含150条样本,均匀分属三类鸢尾花,每类50条样本,使用花萼长度、花萼宽度、花瓣长度和花瓣宽度作为分类特征。再如图像识别领域广泛使用的ImageNet数据集,涵盖超过1400万张高分辨率图像,覆盖2万多个类别,每张图像均配有准确的类别标签,其中超过100万张图像还包含了物体边界框等精细标注信息。 高质量体现在规模“大”、安全“牢”、观点“正”、效果“好”、应用“广”等方面,可以采用静态和动态的质量评价方法来度量。静态质量主要关注数据本身的关键属性,在准确性、完整性、一致性、时效性等基础指标上增加多样性、真实性、合规性等维度,重点评估数据的领域覆盖、来源可靠性以及在隐私保护和安全合规方面的表现。动态质量则强调数据集在模型训练和应用中的实际效果,可通过引入代表性模型开展基准测试,结合基准评测数据集与量化指标,客观衡量模型性能的提升程度,从而明确数据集的“高质量”标准。同时, 还应建设统一的质量评估平台,规范评估流程与工具,增强不同数据集之间的可比性与通用性。由于不同行业数据集的模态分布、标注需求差异较大,需根据行业特点应用不同的数据处理技术和方法,其质量评价也需要在通用的指标上进行定制加强。例如,医疗卫生领域,以文本(电子病历)和医疗影像居多,侧重于文本解析、图文结合处理和专业标注等处理方式,更关注数据内容的合规性、安全性和标注准确性;工业制造领域,以时序数据、图像、图纸文档、仿真数据居多,侧重于时序数据处理、高精度合成和专业标注等处理方式,更关注数据内容的真实性、多样性和标注准确性。 (三)高质量数据集的分类 高质量数据集的类型和特性因应用场景、数据来源与模型目标的不同而呈现多样化,可以从数据模态、模型阶段与行业应用三个维度对当前主要的高质量数据集进行分类。 在数据模态方面,可以分为单模态数据集和多模态数据集。单模态数据中,文本数据是非结构化的语言信息,用于自然语言处理的机器翻译、情感分析等场景以及语言模型的训练;图像数据是像素矩阵构成的视觉信息,用于计算机视觉的图像分类、目标检测、医疗影像分析以及自动驾驶等场景;音