2025年09月 前言 人工智能作为引领新一轮科技革命和产业变革的战略性技术,是新型工业化的重要推动力量。党的十八大以来,以习近平同志为核心的党中央把发展人工智能提升到战略高度,强调加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。随着大模型技术的迅猛发展与规模化应用,人工智能发展范式从传统以算法模型优化为导向逐步转向以高质量数据集构建为支撑。特别是在工业领域,人工智能、工业机理等模型的构建,对数据集的质量和规模提出更高要求。工业高质量数据集作为支撑各类工业智能模型落地应用的“核心燃料”,是人工智能技术在工业领域应用发展的关键要素。加快构建工业高质量数据集,是我国抢占全球工业智能制高点、应对国际产业竞争的重要抓手,对加速推进新型工业化具有重大战略意义。 当前,工业高质量数据集概念界定不清晰,内涵特征不明确,分级分类标准不完善。不同行业的高质量数据集建设水平和需求存在较大差异。数据获取、专业标注、多模态融合、数据集质量评估、数据集流通与共享等关键环节缺乏系统规划和指引,建设实施过程面临多重挑战,亟须以场景需求为导向,分级分类推进数据集建设,构建高质量数据集建设运营体系,为推动人工智能赋能新型工业化夯实数据基础。 为指引和推动工业领域高质量数据集建设,在工业和信 息化部信息技术发展司指导下,中国工业互联网研究院牵头组织产业界、学术界进行深入研讨交流、凝聚行业共识,联合相关研究机构和行业龙头企业开展了深入实践探索,编制了《工业高质量数据集研究报告》。本报告围绕工业高质量数据集的建设与应用展开深入研究,旨在厘清其内涵特征,明晰分级分类标准,探索数据集建设、评估、流通应用全链路有效路径,为业界推进工业高质量数据集建设、评估及应用提供可参考的理论支撑与发展指引。 编写组 指导单位: 工业和信息化部信息技术发展司 组织单位: 中国工业互联网研究院 参编单位(排名不分先后): 北京大学北京理工大学北京航空航天大学西安交通大学东北大学北京邮电大学北京科技大学西安电子科技大学华北电力大学北京东方国信科技股份有限公司联通(辽宁)产业互联网有限公司北京博华信智科技股份有限公司上海新唐利企业发展集团有限公司深圳市杉岩数据技术有限公司北京顺鑫福通大数据集团有限公司南京钢铁集团有限公司联通数据智能有限公司西安塔力科技有限公司蔚来控股有限公司北京领邦智能装备股份公司中国电信集团有限公司广东汉数科技有限公司沈阳立知科技有限公司蓝卓数字科技有限公司无问智行科技有限公司北京光辉世联科技有限公司北京工业大数据创新中心青岛兮易信息技术有限公司无锡雪浪数制科技有限公司合肥莱斯博科技有限公司中电科普天科技股份有限公司矩质算能(上海)科技有限公司卡奥斯物联科技股份有限公司北京疆来能源管理有限公司重庆机电智能制造有限公司 目录 一、工业高质量数据集的内涵意义...........................................................................1 (一)相关概念....................................................................................................1(二)工业高质量数据集的内涵与特征............................................................2(三)工业高质量数据集建设的重大意义........................................................4 二、工业高质量数据集的分级分类...........................................................................5 (一)分级体系....................................................................................................5(二)分类体系..................................................................................................13 三、工业高质量数据集的建设路径.........................................................................17 (一)建设规划..................................................................................................18(二)研发实施..................................................................................................21(三)应用验证..................................................................................................29(四)典型案例..................................................................................................30 四、工业高质量数据集的评估体系.........................................................................38 (一)评估框架..................................................................................................39(二)评估指标..................................................................................................40(三)测评方法..................................................................................................44 五、工业高质量数据集的流通应用.........................................................................45 (一)面临问题..................................................................................................46(二)解决路径..................................................................................................47(三)实现方案..................................................................................................50 图目录 图3-1工业高质量数据集建设流程..........................................................................18图3-2工业高质量数据集建设技术流程..................................................................22图4-1工业高质量数据集评估框架..........................................................................40图4-2工业高质量数据集评估流程..........................................................................45图5-1工业高质量数据集可信数据空间总体功能架构..........................................48图5-2工业高质量数据集可信数据空间部署架构..................................................49 表目录 表2-1工业高质量数据集分级方法............................................................................6表2-2工业高质量数据集分类方法..........................................................................13表3-1典型案例:中厚板轧制力实时智能预测数据集建设要求..........................31表3-2典型案例:矿山行业高质量数据集覆盖要素与场景..................................37表3-3典型案例:矿山行业高质量数据集典型场景应用成效..............................38表4-1工业高质量数据集评估指标..........................................................................42 一、工业高质量数据集的内涵意义 工业高质量数据集作为工业领域人工智能技术应用的关键要素,相较原始工业数据或高质量数据集,场景导向性更强、数据价值更高,能更为充分地满足工业机理模型、工业智能模型等工业模型的建模需求。加快建设工业高质量数据集,对我国抢占全球工业智能制高点、应对国际产业竞争、加速推进新型工业化具有重大战略意义。 (一)相关概念 工业数据作为工业领域认知与改造活动的直接产物,是指在工业生产、制造、创新、运营及相关活动中产生、采集、处理和使用的各类数据的总和,它贯穿于工业产品全生命周期以及工业企业运营管理全过程,是工业数字化、智能化转型的核心要素。在国家标准《智能制造工业数据分类原则》[1]中,定义工业数据为“在工业领域中,涉及企业的所有生产活动和服务所产生的数据”。国际标准化组织指出,工业数据“可被视为某种工业流程的产物,受制于一般性的生命周期活动”[2],并在ISO8000系列数据质量国际标准中做出定义“工业数据涵盖产品与生命周期流程,包括制造、分销和维护,生命周期流程所使用的设施,数字孪生,产品几何形状、拓扑结构和可视化、技术词典以及零部件目录”[3]。 狭义的工业数据是指工业设备与软件运行过程中沉淀的数字化信息,包括生产过程中的传感器数据、设备的运行参数与日志等,是工业生产的直接记录。广义的工业数据更强调由原始数据经融合加工所沉淀的工业机理与规律认知, 不仅包含狭义定义中的原始数据,还涵盖了对这些原始数据进行清洗、挖掘、分析后形成的与工业生产相关的各类认知成果,例如通过对设备运行数据的长期分析总结出的设备故障预警模型所蕴含的故障发生机理。工业数据的特征包括领域特定性、多源异构性、高时序性、强关联性等。领域特定性指数据产生于工业环境,与设备、产品等物理实体和业务流程紧密相关,需结合行业知识才能理解和应用。多源异构性指工业数据来源广泛,涵盖