您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[CCSA TC601 大数据技术标准推进委员会]:2025高质量数据集实践指南(1.0) - 发现报告

2025高质量数据集实践指南(1.0)

AI智能总结
查看更多
2025高质量数据集实践指南(1.0)

版权声明本报告版权属于CCSATC601大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:CCSATC601大数据技术标准推进委员会”。违反上述声明者,将追究其相关法律 责任。 编制说明本报告的撰写得到了数据智能领域、高质量数据集领域多家企业与专家的支持和帮助,主要参编单位与人员如下。参编单位:大数据技术标准推进委员会、中国联通软件研究院、中国联合网络通信有限公司智能城市研究院、中国铁塔股份有限公司、中国移动通信集团有限公司、北京亦庄智能城市研究院集团有限公司、科大讯飞股份有限公司、中电数据产业集团有限公司、中国交通信息科技集团有限公司、中国航天标准化与产品保证研究院、中航信数智科技(北京)有限公司、蚂蚁区块链科技(上海)有限公司、联通数据智能有限公司、亚信科技(中国)有限公司、软通智慧科技有限公司、四川数通智汇数据科技有限公司、蓝象智联(杭州)科技有限公司、振华智造(西安)科技有限公司、上海市数字证书认证中心有限公司、东软集团股份有限公司、通用技术集团财务有限责任公司、重庆金山科技集团股份有限公司、中国医学科学院医学信息研究所、重庆祥富机电技术服务有限公司、普元信息技术股份有限公司、杭州数蜜科技有限公司、中国石油国际勘探开发有限公司参编人员:白玉真、杨靖世、尹正、姜春宇、刘渊、王思佳、童锦瑞、袁博、康宸、王宇、武天富、李桐、孙亮、董正浩、杜鹏、韩丽、蔡伟霞、唐双林、路骁虎、石庆华、陈雷、杨鹏、王刚、方飞、时蒙福、李嘉宁、刘彬彬、王晶、莫洋、张蕊、刘晓玉、刘锴、叶可、孙晓峰、崔杨、张博、乔娇娇、蔡健生、王昊、陈亚乐、冯文、王立 冬、林镇阳、胡鑫、张冰、李由、王超、奚瑜、李晓燕、王会、杨晶、许强、崔朝辉、祝旭明、方桂全、吴吉芳、李杰、吴思竹、曾祥富、万强、王仕亿、薛良、刘楚、李晓雄、王春红 前言随着人工智能技术迈入以大模型为核心的新纪元,数据已成为驱动模型能力跃迁与产业智能化升级的战略资源。DeepSeek的横空出世颠覆了“高算力和高投入是发展人工智能唯一途径”的固有认知,引领从业者高度重视数据质量与规模,高质量数据集成为人工智能发展的关键要素。然而,当前产业界面临着高质量场景数据供给不足、建设路径模糊、标准规范缺失、技术工具需提升、数据价值难以释放为推动高质量数据集建设,明确建设和运营方法论,加速赋能场景应用,总结未来发展趋势,大数据技术标准推进委员会牵头,联合行业专家共同编制《高质量数据集实践指南(1.0)》。本指南适用于从事数据管理、人工智能研发、数据产品运营的企业管理者、数据工程师、算法科学家及相关从业人员,旨在为其提供一套可参考、可落地的方法论与操作指引,助力业界构建并用好高质量数据集。有以一是“理概念”。从数据集的概念、数据集的分类、高质量的内涵深入阐述高质量数据集的概念内涵。二是“建体系”。基于理论研究与产业实践,总结高质量数据集建设模式,提供一套覆盖数据集研发、交付、运维、运营全生命周期的建设方法论,并搭建建设运营的成效评估体系。三是“促应用”。梳理分析高质量数据集的应用情况,并辅助具体场景实践案例为方法论落地实施提供参考。四是“看趋势”。从建设运营能力成熟度、行业场景应用、协同生态建设等方面展望高质量数据集的未来发展趋势。 等多重挑战。下亮点: 高质量数据集是快速发展的新兴领域,新问题、新理论、新技术、新方法层出不穷,我们将持续深耕研究。由于时间仓促,水平所限,本报告仍有不足之处,欢迎联系白玉真(18810275013)交流探讨。 目录一、高质量数据集概念与问题.................................................1(一)高质量数据集的发展背景........................................1(二)高质量数据集的概念内涵........................................4(三)高质量数据集的关键问题........................................8二、高质量数据集建设路径...................................................10(一)建设模式...............................................................10(二)核心环节...............................................................12(三)成效评估...............................................................15三、高质量数据集应用场景...................................................21(一)场景概述...............................................................21(二)实践案例...............................................................22四、高质量数据集发展趋势...................................................37(一)建设运营能力逐步成熟......................................37(二)多行业多场景加速落地......................................38(三)基础设施推动协同生态......................................38 1一、高质量数据集概念与问题(一)高质量数据集的发展背景1.高质量数据是人工智能发展的关键要素随着人工智能技术迈向大模型时代,行业发展正经历从“以模型为中心”向“以数据为中心”的范式转移。近年来以GPT、DeepSeek为代表的大模型技术突破实践表明,数据质量与规模已成为决定模型性能的核心要素。尤其是DeepSeek模型在复杂逻辑推理任务中取得突破性进展,源于其R1模型采用的数学推理数据集,不仅要求答案正确性,更对解题步骤的规范性、逻辑链的完整性提出严格标准,这种精细化的数据设计使得模型在抽象思维能力上实现质的提升。大模型参数规模指数级增长与多模态能力的拓展,促使数据需求从量级积累转向质量提升。一方面,模型训练需要覆盖更广的知识范畴、更多元的数据场景,这对数据的多样性与代表性提出更高要求。另一方面,大模型从通用能力向垂直领域深度融合时,面临着数据瓶颈的严峻挑战。尤其是医疗、法律、工业等专业领域存在明显的“数据孤岛”现象,领域知识密度高但结构化程度低,且涉及隐私保护与数据安全等问题,高质量的数据集构建成本往往成为技术落地的主要障碍。数据资源已成为全球人工智能产业竞争的核心战略要素。欧盟于2022年通过的《高价值数据集实施法案》已率先在环境、地理空间等关键领域明确了数据开放的标准与规范,推动公共数据的高效流通 2与再利用。以OpenAI为代表的国际领先企业正通过强化微调等技术手段,依托小规模但高度精准、结构化的高质量数据集,实现大模型在垂直领域的专业化和实用化演进。这种“以质取胜”的数据策略显著提升了模型性能与落地能力。面对全球AI竞争的新格局,我国亟需加快构建标准化、合规化、可持续发展的高质量数据供给体系,为大模型技术研发和产业化提供坚实支撑。这不仅是提升国家人工智能核心竞争力的关键环节,也是实现数字经济高质量发展的重要路径。2.我国高质量数据集建设进入加速期在人工智能产业发展浪潮中,高质量数据集建设已成为核心战略方向,从国家顶层设计到地方创新实践,各行各业都在积极探索。国家层面,多举措陆续完善顶层规划。2023年12月,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通。2024年,政府工作报告提出开展“人工智能+”行动,从顶层设计层面规划人工智能技术与大模型数据集建设。同年,《关于促进数据产业高质量发展的指导意见》首次明确提出“高质量数据集”,将其作为人工智能与实体经济融合的核心载体,并提出开发行业数据集的具体要求。随后一系列政策相继发布,《关于促进数据标注产业高质量发展的实施意见》《关于促进企业数据资源开发利用的意见》以及《国家数据基础设施建设指引》均提出建设行业“高质量数据集”,由此数据集高质量发展成为行业发展重要目标。2025年2月,国家 3数据局组织27个部委召开高质量数据集建设工作启动会,全力推动高质量数据集建设高效赋能行业发展。地方层面,各地立足区域特色,积极探索高质量数据集建设创新路径,形成了各具特色、协同发展的良好局面。有的出台政策积极鼓励,包括江苏、苏州、贵州、成都、上海、宁波、广东、福建、杭州、河南、山东等地分别从数据集建设、数据质量评价、数据产品开发等多方面建立相互补充、各具特色的政策体系。有的发布打造具有领域特色的行业案例,比如苏州发布30个高质量数据集,覆盖工业制造、交通运输、金融服务等领域。北京国际大数据交易截止目前为大模型提供覆盖32个行业475个数据集,形成覆盖自然语言处理、多模态交互的行业专有高质量数据集体系。研究层面,大模型企业和科研机构也积极贡献力量,丰富行业数据资源,为人工智能技术的持续创新提供动力。百度发布的百度百科数据集、百度搜索数据集等,凭借其庞大的数据规模和丰富的信息内容,成为研究人员和开发者进行模型训练和算法优化的宝贵资源。阿里巴巴发布的中文问答数据集,为智能问答系统的研发提供了高质量的训练数据。哈工大自然语言处理实验室发布的大规模中文分词、词性标注和命名实体识别数据集,为中文自然语言处理领域的研究提供了 重 要 数 据 支 撑 。 智 源 研 究 院 发 布 的 中 英 双 语 数 据集IndustryCorpus1.0包含3.4TB开源行业预训练数据,覆盖18类行业,为人工智能领域的跨语言研究和应用提供参考。 4(二)高质量数据集的概念内涵《高质量数据集建设指南》(征求意见稿)中定义高质量数据集(high-qualitydataset)是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。基于高质量数据集是面向人工智能应用的前提条件,那么它与人工智能数据集是什么关系、有哪几类的数据集、怎么才算是高质量,这些都是在建设数据集之前需要探讨清楚的问题,下面将从数据集的概念、数据集的分类、高质量的内涵三方面理清高质量数据集的概念。1.数据集的概念人工智能数据集是指用于训练和开发人工智能模型的数据集合。包含图像、文本、语音等大量标注的数据样本,用于训练人工智能系统识别和学习特征模式。通常一个数据集由四个主要部分构成:特征、标签、元数据和样本。特征是数据集的输入变量,它们描述了每个样本的具体属性。标签是数据集的输出变量,是需要预测的目标。元数据提供数据本身的信息,如数据收集的时间、地点、来源等。样本则是单独的一条数据记录,由一组特征向量和对应的标签组成。例如机器学习的经典数据集鹃尾花数据集(IrisDataset)包含150条样本,均匀分为3类鸢尾花,每类50个样本,以花萼长度、花萼宽度、花瓣长度、花瓣宽度作为分类的核心特征。图像领域的ImageNet视觉识别数据集,包含超过1400万张高分辨率图像,涵盖2万多类别,每张图像标注了类 5别标签,以及超100万张图像甚至还包含物体边界框的标注信息。2.数据集的分类从数据模态来看,可以分为单模态数据和多模态数据。单模态包括文本、图像、音频、IoT数据等,多模态数据包括图文数据、视频数据、思维链数据等等类型。单模态数据中,文本数据是非结构化的语言信息,用于自然语言处理的机器翻译、情感分析等场景以及语言模型的训练;图像数据是像