2026年4月22日 工业重点场景高质量数据集建设面临问题与对策建议 随着现有通用大模型能力趋于饱和,行业高质量数据集在当前各国人工智能和大模型竞争赛道中的作用愈发关键。工业高质量数据集建设目前已从探索阶段进入规模化推进阶段,然而仍面临工业数据治理体系不完备、工业数据碎片化、工业数据储备严重不足等问题,制约了人工智能大模型在工业领域的应用赋能。建议加快提升工业数据治理、标注、测评等能力,开展工业数据集建设标准制定,推动行业、场景等数据集开源开放及流通交易,完善工业数据确权、资产评估等制度规范,激活工业数据要素潜能。 一、工业高质量数据集建设规模化推进 (一)从政策供给看,国家和地方政府均高度重视,工业重点场景高质量数据集建设政策环境向好 国家层面,工业和信息化部启动工业数据筑基行动,组织开展面向人工智能赋能的高质量行业数据集建设先行先试,提出到2026年底,打造一批高质量、标准化、可流通的行业数据集,赋能工业大模型、工业智能体等应用落地。国家数据局组织开展高质量数据集典型案例征集工作,首批遴选104个高质量数据集,其中工业制造涵盖石油化工、钢铁冶金、船舶制造、轨道交通设备制造、工业纺织等多个领域,涉及缺陷检测、故障诊断、设备运维等典型场景。地方层面,广东、广西、上海、江苏等地结合自身优势,纷纷出台政策文件部署行业通识和专识数据集建设、发展工业数据治理和合成技术、打造工业互联网平台及工业语料公共服务平台等重点工作,有序推进工业领域形成高质量数据集。例如,江苏省发布的《江苏省制造业领域面向人工智能的数据治理工作参考指引(2026年版)》,针对制造业数据“采不准、格式乱”等痛点,划分数据治理等级,明确数据采集、预处理等六大核心环节的治理路径,为工业高质量数据集建设提供技术指引。 (二)从建设主体看,工业高质量数据集建设呈现多点发力和多元协作发展局面 一是行业龙头企业内部数据资源整合。如海尔、三一重工、华为等企业依托自身丰富的业务场景和数据资源,率先建设企业级数据中台和私有数据集,用于内部提质、降本、增效,其数据集具有场景深、质量高、价值密度大的特点。二是工业互联网平台企业行业数据资源整合。如海尔卡奥斯、树根互联、航天云网等平台,汇聚了行业内海量入驻企业的设备、生产和运营数据,其致力于构建行业通用模型所需的平台级数据集,通过提供数据服务吸引生态伙伴,是当前行业公共数据集建设的重要力量。三是第三方数据服务商赋能行业数据价值化转变。如海天瑞声、希尔贝壳等数据服务商专注于数据采集、清洗、标注和交易,其通过合法合规的方式,整合多方数据源,生产面向特定AI模型训练的标准化数据集,满足广大中小企业对高质量数据的迫切需求。四是科研院所与行业联盟数据开源开放。如工业互联网产业联盟等组织机构致力于建设开源、基准性数据集,用于学术研究和行业基准测试,推动算法创新和产业共识的形成。 (三)从技术路径看,工业高质量数据“采”“治”“用”等工程化能力体现全域化、智能化、安全化特征 一是数据采集从“有线”到“无线”,从“单点”到“全域”。5G、工业Wi-Fi 6、TSN等网络技术保障了海量设备数据的实时、稳定采集。传感技术的进步使得过去难以获取的工艺参数如振动、声纹、热成像等得以数字化,极大地丰富了数据集的维度和价值。二是数据治理与质量管理的核心环节日益受重视。数据治理、标注等工具链自动化水平不断提升,大模型辅助数据标注正在应用。数据编织、主动元数据管理等新兴理念和技术开始被引入,旨在实现数据的智能发现、血缘追溯和质量监控,构建“治理即服务”的能力。三是隐私计算技术赋能数据流通。联邦学习、安全多方计算、可信执行环境等隐私计算技术,在“数据不出域”的前提下,实现多个参与方的联合建模,在保护商业秘密和个人隐私的同时,为共建高质量数据集提供了可行的技术路径。 (四)从应用场景看,工业高质量数据集重点场景应用从外围辅助向核心环节深度渗透 一是已获价值验证的成熟场景。如基于设备运行时序数据的预测性维护、基于视觉检测和工艺参数数据的质量管控、基于能源数据的能耗优化等。二是正处于规模化应用前夜的增长型场 景。如基于生产结果数据的工艺参数优化、打通上下游企业数据的供应链协同、基于用户数据和生产数据的个性化定制等。三是前沿探索场景。如基于数字孪生的全生命周期工厂数据的仿真与决策,基于材料、流体、结构等仿真与实验数据的新工艺研发等。 二、工业高质量数据集建设面临三大难题 采集难,工业数据供给质量较低。一是部分工业现场数据采集存在技术瓶颈。如在高温、高压、高粉尘等复杂工业现场,现有传感技术的稳定性和准确性尚存短板,直接制约工业高质量数据的获取。二是工业数据储备严重不足。半导体、化工等行业数据涉及核心工艺参数等商业机密,难以有效对外提供。关键数据如缺陷数据集的规模普遍偏小,难以支撑模型应用需求。三是已采集的数据质量较低。工业设备协议分散,PLC、SCADA等核心系统型号多样,造成数据格式不兼容、颗粒度不一、严重碎片化等问题,虽有大量数据沉淀但难以直接使用。四是工业数据存储成本高昂。高频设备监控数据、机器视觉数据等数据量极大,仅工厂设备状态监控数据的年增量就可达到PB级。 治理难,工业数据治理体系不完备。一是专业化治理工具缺失。工业数据具有高吞吐时序、非结构化视频等特殊性,市场通用数据治理工具适配性不足,难以高效完成数据质量清洗、元数 据管理、主数据管理等任务。二是工业数据标注专业化、智能化和高效性有待提升。当前智能化标注工具成熟度较低,面对工业场景中设备日志、检测图像、巡检视频等混合结构数据难以高效处理。此外,部分场景数据标注高度依赖领域专业知识,如振动频谱故障模式、油液分析等,需专业工程师参与判断,标注成本高且难以规模化推进。三是工业数据集标准体系滞后。工业数据采集标准缺乏统一规范,质量评估指标与标注规范尚未健全。同时工业领域行业间存在明显“数据鸿沟”,不同行业如汽车与化工行业的数据集标准难以通用。 共享难,产业协同生态尚未形成。一是数据集流通动力不足。多数工业企业担忧自身工艺、设备、产品等核心高价值数据的开放降低企业核心竞争力,对高价值数据共享意愿偏低。此外,不同企业设备型号、工艺参数差异显著,导致数据集迁移性差、难以复用。二是商业模式与回报机制不明确。工业数据专业性强、应用场景特定,价值评估和定价机制复杂,数据流通交易困难,阻碍数据价值释放。三是建设主体角色分工模糊。数据供给方、使用方、服务方、平台运营方等参与主体在数据供给、产品开发、服务运营等数据价值变现过程中的合作模式仍处于探索初期,尚未形成产业协同的生态闭环。 三、对策建议 提升工业数据治理、标注、测评等能力。加快打造工业数据技术攻关库,推动工业数据关键技术图谱编制。引导工业企业建立覆盖全生命周期的数据治理体系,推动数据价值从资源向核心资产转变。鼓励数据标注企业打造面向行业特定的智能化、自动化数据集标注工具,强化人机协同能力,推动智能标注、数据合成等技术迭代。加快构建面向多模态数据集的多维测评框架,支持开发工业场景专用的质量测评工具集,推动建立第三方测评认证机制,提升数据集的可信度与市场认可度。 建立健全工业数据集标准体系。加快关键急需标准的研制,推进制定工业数据采集协议标准、数据标注规范与标签体系、数据集质量评估标准、数据安全与隐私保护标准以及数据集互操作标准等,推动工业重点场景数据分类分级体系构建。鼓励在工业重点场景开展标准应用试点示范,建立标准符合性认证体系,引导工业企业在数据集建设过程中遵循国家标准。 推动行业、场景等数据集开源开放。加快建设工业数据开源专区,鼓励龙头企业贡献脱敏后的高质量数据集,形成“龙头贡献+中小企业应用”的开放循环。支持建设行业级数据集开源平 台,制定开源数据集贡献与使用规则,探索建立分层开放机制,建立社区化协作机制。 探索建立工业数据集流通交易模式。加快重点行业可信数据空间等基础设施建设,探索建立工业数据确权、资产评估、数据流通交易等制度规范。支持各类数据流通服务机构创新多元化流通交易模式和利益分配机制,探索推行订阅制、按调用计费、模型服务费等模式,在重点场景开展试点示范,形成可复制的交易模式。 打造普惠创新服务生态。加快组建政府引导、龙头企业牵头、高校科研院所支撑、用户单位参与的政产学研用一体化创新联合体,支持开展制度创新、技术创新、模式创新。鼓励打造区域性的工业创新中心,通过数据共享、场景开放、模型训练、智能体开发、测试验证等公共服务,降低中小企业数据集建设及应用门槛。 本文作者:赛迪研究院许越凡梁丹钰联系方式:18811320259电子邮件:xuyuefan@ccidthinktank.com