您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华信咨询设计研究院有限公司&中国电信浙江分公司]:高质量数据集建设与运营路径研究 - 发现报告

高质量数据集建设与运营路径研究

AI智能总结
查看更多
高质量数据集建设与运营路径研究

华信咨询设计研究院有限公司中国电信股份有限公司浙江分公司2025年12月30日 版权声明 本报告版权属于华信咨询设计研究院有限公司,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:华信咨询设计研究院有限公司”。违反上述声明者,本公司将追究其相关法律责任。 前言 在数字经济迅猛发展的时代背景下,数据已成为驱动社会进步和产业变革的核心生产要素。随着人工智能、大数据、云计算等新一代信息技术的广泛应用,高质量数据集作为支撑算法训练、模型优化与智能决策的关键基础,其重要性日益凸显。无论是科学研究、智能制造,还是智慧城市、医疗健康等领域,高质量数据集的质量直接决定了技术应用的精度与效能。然而,当前数据资源的“量大质低”问题依然突出,数据冗余、标注不规范、来源不可靠、更新滞后等问题制约了数据价值的充分释放。在此背景下,系统性地研究高质量数据集的建设与运营路径,具有重要的现实意义和战略价值。 本白皮书立足于国家政策导向与产业发展实践,旨在为高质量数据集的规划、建设与运营提供一套完整的方法论框架与实践指南。白皮书首先厘清了高质量数据集的概念内涵与多维分类体系,系统梳理了全球与我国高质量数据集的发展现状、典型模式与面临的共性挑战。核心部分聚焦于建设与运营实践,详细阐述了从建设模式选择,到覆盖“需求-规划-采集-治理-标注-验证”的全生命周期核心环节,再到构建“资源管理-价值转化-生态共建”三位一体的运营体系,并结合浙江电信的实践案例进行说明。最后,结合前沿趋势, 提出了涵盖系统能力建设、长效运营机制及基础制度保障的发展建议。 我们希望本白皮书能够为政府部门、行业企业等各类参与主体提供有价值的参考,共同推动我国高质量数据集建设迈向体系化、规范化、生态化的新阶段,夯实人工智能发展的数据根基,为发展新质生产力、建设数字中国注入强劲动力。 目录 一.高质量数据集概述.................................1 (一)高质量数据集政策背景........................11.国家持续完善高质量数据集顶层设计.............12.地方多措并举推动高质量数据集建设落地.........2(二)高质量数据集定义............................5(三)高质量数据集分类............................5 二.高质量数据集发展现状.............................8 (一)国外高质量数据集发展现状....................81.多元主体共建,开源生态驱动市场质效提升.......82.基础技术领先,构建完整技术生态体系..........12(二)国内高质量数据集发展现状...................131.数据集供给规模快速扩展,类型持续丰富........132.AI场景驱动数据集需求激增,规模快速扩张.....153.应用技术突破,技术生态体系加速构建..........16(三)我国高质量数据集发展难点堵点...............181.数据供给不足,高质量数据稀缺................182.技术不成熟,关键环节存在短板................193.数据来源单一,开源生态培育不足..............194.运营不完善,制约数据价值释放................20 三.高质量数据集建设路径............................22 (一)高质量数据集建设流程.......................22(二)高质量数据集建设模式.......................25(三)高质量数据集建设核心环节...................27 1.规划先行:定义数据集的建设方向与范围........272.数据采集:确保数据来源的合规性与多样性......283.数据标注:连接数据与应用场景的关键桥梁......304.质量测评:确保数据集安全可靠的关键标尺......33(四)高质量数据集建设典型案例...................35 四.高质量数据集运营体系............................39 (一)建立数据集管理体系..........................40(二)构建内外双循环价值体系......................421.对内资产化运营...............................432.对外产品化流通...............................45(三)打造协同发展生态体系........................49 五.高质量数据集实施建议............................50 (一)聚焦关键环节,打造系统建设能力.............52(二)建立运营生态,驱动数据价值演进.............50(三)构建制度保障,激发产业整体效能.............51 参考文献............................................54 一.高质量数据集概述 (一)高质量数据集政策背景 1.国家持续完善高质量数据集顶层设计 近年来,国家高度重视人工智能与数据要素发展,将高质量数据集建设视为夯实人工智能发展数据基础的核心抓手,密集出台系列政策,系统构筑了从战略规划到落地指引的顶层政策法规体系。 从长期布局看,国务院办公厅早在2021年印发《要素市场化配置综合改革试点总体方案》,提出建立公共数据共享协调机制,优先推进企业登记监管、卫生健康、交通运输、气象等高价值数据集向社会开放,为数据要素流通与数据集建设筑牢制度根基;2023年12月,国家数据局等部门发布《“数据要素×”三年行动计划(2024-2026年)》,聚焦科学数据开放共享,提出构建科学知识资源底座,建设高质量语料库与基础科学数据集,支持开展人工智能大模型开发和训练;2024年1月,工信部等九部门出台《原材料工业数字化转型工作方案(2024-2026年)》,明确建设适用于生成式AI的行业数据集,基于现有通用大模型技术底座进行定制化开发训练,构建细分行业大模型。2025年1月,国家 发改委、国家数据局、工信部联合发布《国家数据基础设施建设指引》,明确提出要建设“数据高效供给体系”,支持在农业、工业、交通、金融、科技等行业领域打造高质量数据集,从国家数据基础设施层面,为各行业数据集建设提供方向指引。2025年5月,《数字中国建设2025年行动方案》再次强调要加强交通、医疗、制造等重点领域数据标注,建设行业高质量数据集。 在国家政策协同驱动下,多部门合力推进高质量数据集建设。2025年2月,国家数据局在北京召开高质量数据集建设工作启动会,国家发展改革委、教育部、科技部、工业和信息化部等27个部门参会。同月,国资委“AI+”行动讲话精神要求,分批构建重点行业数据集,建设好通用基础数据集,鼓励龙头企业与链主企业牵头建设,做强做优数据产业。 2.地方多措并举推动高质量数据集建设落地 在中央政策引领下,各地积极推进高质量数据集建设。多地结合地方产业特色,围绕技术创新、生态培育、制度保障等关键环节出台了一系列政策举措,着力推动高质量数据集建设从政策规划加速应用落地。 多地以政策文件形式明确数据集建设的量化目标与重点领域,强化“数据+产业”联动。上海提出,2025年建成 1000个高质量数据集,覆盖金融、医疗、航运等领域;广东计划2027年落地50个以上行业数据集,聚焦制造、教育等典型行业;江苏要求面向制造、教育、建筑、交通、文旅、医疗、金融、政务等重点领域,到2027年建设30个以上行业高质量数据集,支撑人工智能大模型应用;天津以“算力+数据+算法”为路径,计划开发公共数据集、行业数据集、场景化数据集,到2026年推动打造2000个高质量行业数据集,重点覆盖工业制造、港口物流、生物医药领域。 多地通过激励机制激活市场活力。如贵州设立高质量数据集奖励机制,每年安排资金总额不超过500万元,对训练使用量、数据质量等综合排名前10的市场主体给予奖励;武汉设立人工智能政策专项资金,支持企事业单位建设人工智能产业高质量数据集,按建设投入成本的30%给予不超过200万元的奖励;浙江支持建设行业级可信数据空间、高质量数据集,支持建设高端数据标注平台,鼓励打造产学研用联动的创新载体,建设一批成效明显、特色鲜明的数据标注基地,开发高质量数据集。 具体政策如下: (二)高质量数据集定义 根据《高质量数据集建设指引》的定义,高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。 高质量数据集覆盖多个重点行业领域,凭借高技术含量、高知识密度、高价值应用三大核心特征,在数据要素生态中占据重要地位。高技术含量体现在数据集质量提升已进入技术驱动阶段,依托自动化标注、AI辅助标注等先进技术,增强对业务场景支撑作用。高知识密度体现在通过构建跨领域的知识图谱,推动多学科知识融合与深度利用。高应用价值反映为能够切实解决产业发展中的实际问题,如在提升决策效率、优化资源配置、改善用户体验等方面发挥重要作用。 (三)高质量数据集分类 从数据用途来看,高质量数据集包括通识数据集、行业通识数据集和行业专识数据集。通识数据集是面向社会公众的通用知识,具有广泛性、通用性等特点,覆盖多个领域,主要用于通用大模型的训练。行业通识数据集是面向特定行业或领域的通用知识,具有行业普适性、共识性等特点,主要用于行业大模型的训练。行业专识数据集是根据行业企业 自身业务场景和需求收集的专识数据集,具有场景针对性、定制化等特点,能够为行业企业提供高度个性化训练数据资源,主要用于业务场景大模型的训练。 从数据模态来看,高质量数据集包括文本、图片、音频、视频等单模态数据集及多模态数据集。单模态数据集中,文本数据集是指以书面语言为主要形式的数据集合,涵盖自然语言、符号序列等,用于支撑自然语言处理任务及语言模型的训练等;图像数据集是计算机视觉的核心资源,包括照片、绘图和数字生成的图像,多应用于医学诊断、工业检测、交通识别等领域;音频数据集则由声音信号组成,涵盖语音、音乐等多种声学形式,支持语音识别、情感分析等场景;视频数据集注入时空维度信息,支撑从通用动作识别到自动驾驶、机器人交互等应用场景的广泛研究;多模态数据集则指整合两种及以上模态的数据资源,用于支撑复杂任务中的跨模态感知与理解,如图文生成、人机对话、视频理解等应用场景。 从训练阶段来看,高质量数据集包括预训练数据集、微调数据集、评估数据集。预训练数据集是以无监督或自监督学习方式让模型获取通用特征与知识的数据集,具有规模庞大、无需标注和领域广泛等特点,并涵盖网页、书籍、社交 媒体与百科全书等多种来源。微调数据集是为优化模型特定任务的处理能力,专门用于对模型进行微调的数据集,具有规模较小、标注质量高、任务特定等特点,通常由一系列的问答对组成。评估数据集是专门用于验证和衡量模型性能和泛化能力的数据集,通常需要人工高精度标注,以确保测评结果可信,具备独立性、代表性、时效性等特点。 二.高质量数据集发展现状 (一)国外高质量数据集发展现状 1.多元主体共建,开源生态驱动市场质效提升 近年来,美国、欧盟等全球主要经济体加快培育高质量数据集,已形成成熟的供应链条和市场生态。人工智能发展对数据“海量、多模态、高质量”的需求,使国外形成政府机构、高校和科研机构、非营利组织和企业协同建设的格局,市场呈现多类型主体协同参与、开源共享为主导的商业模式。市场多主体协同下,国外高质量数据集市场在规模、质量、模态等方面持续提升: 政府机构层面主导公共数据开放,如美国构建了覆盖联邦、州及市三级政府的数据