AI智能总结
版权声明 本研究报告(以下简称“报告”)的全部内容,包括但不限于文字、数据、图表及分析结论,版权均归属中电数据产业集团有限公司与中国信息通信研究院所有,受《中华人民共和国著作权法》保护。 任何单位或个人复制、传播、改编、汇编、摘编等任何形式使用本报告内容或观点的,需注明版权归属“来源:中电数据产业集团有限公司、中国信息通信研究院”。 违反本声明者,版权方将依法追究其停止侵害、赔偿损失等民事责任,情节严重的将追究相关法律责任。本版权声明的最终解释权归版权方所有。 编制说明 本报告的撰写得到众多企业与专家的支持和帮助,牵头单位和参编单位如下。 牵头单位:中电数据产业集团有限公司、中国信通院云计算与大数据研究所 参编单位(排名不分先后):中国石油天然气集团有限公司、国家石油天然气管网集团有限公司、中国南方电网有限责任公司、中国第一汽车集团有限公司、中国铝业集团有限公司、中节能大数据有限公司、中国交通信息科技集团有限公司、国机数字科技有限公司、中国移动通信集团有限公司、中国电信集团有限公司、中国联合网络通信集团有限公司、新兴际华集团有限公司 目录 一、央企高质量数据集建设背景.......................................................1 (一)发展趋势..........................................................................1(二)政策驱动..........................................................................2 二、央企高质量数据集建设问题和挑战............................................6 三、央企高质量数据集实践分析.......................................................8 (一)数据集建设....................................................................8(二)数据集运营..................................................................12(三)基础保障体系...............................................................15 四、央企高质量数据集建设案例.....................................................19 (一)智慧能源......................................................................19(二)工业制造......................................................................26(三)绿色低碳......................................................................30(四)交通物流......................................................................32(五)医疗卫生......................................................................35(六)现代农业......................................................................37(七)移动通信......................................................................40(八)应急管理......................................................................46 五、主要结论及未来展望.................................................................48 (一)现状评估........................................................................48(二)核心发现........................................................................49(三)未来建议........................................................................50 一、央企高质量数据集建设背景 在新一轮科技革命和产业变革深入推进的背景下,高质量数据集已成为支撑人工智能发展和行业智能化转型的关键基础。近年来,国务院国资委围绕实施央企“人工智能+”行动和产业焕新行动,将高质量数据集建设作为提升中央企业智能化能力和核心竞争力的重要抓手,通过专题部署、示范发布和平台建设等方式,持续推动数据资源向可用、可管、可共享的数据资产转化。与此同时,随着能源、制造、交通、通信等重点行业的智能化转型不断深化,对高质量、多模态、可持续迭代的数据集需求日益凸显,数据集建设正从单点建设应用,转向体系化建设和加速行业支撑。在产业需求与政策引导的双重驱动下,央企高质量数据集建设逐步进入系统性推进时期。 (一)发展趋势:行业智能化转型依赖高质量数据集 当前,人工智能正加速向各行业核心业务环节渗透,推动生产方式、管理模式和决策机制发生深刻变化。行业智能化转型已不再停留在应用辅助分析,而是逐步向生产运行优化、风险预测预警和系统协同等方向拓展。这一趋势对数据的规模、质量提出了更高要求,单纯依赖零散数据或业务系统数据已难以支撑复杂模型训练和规模化应用,高质量、可复用、可持续迭代的数据集正成为行业智能化发展的关键基础。 从数据需求来看,能源、交通、制造、通信等行业的智能化应用往往涉及设备端侧数据、业务数据与外部数据的融合,数据呈现出来 源多样、标准不一、时序跨度长等特点,需要建设高质量数据集实现统一组织与治理。一方面,企业普遍拥有大量设备、系统和长期积累的数据资源,具备开展智能化应用的基础;另一方面,由于业务专业性强、运行环境复杂,对模型的可靠性、稳定性及可解释性要求更为严苛,不仅要求数据规模实现“多”的突破,更强调数据质量达到“可用、好用”的标准。所以,需要通过系统化的数据集建设,将分散在不同系统、不同阶段、不同模态中的数据进行统一组织、规范处理和质量控制,形成能够真实反映业务运行状态和关键规律的数据集,从而满足人工智能模型对大规模、高质量训练数据集的需求。 从应用实践来看,高质量数据集正在逐步成为承载行业知识、支撑模型训练、提升人工智能应用能力的重要载体。通过围绕典型业务场景构建结构清晰、标签明确、质量可控的数据集,企业能够将隐含在长期运行过程中的经验、规则和模式转化为模型可学习、可泛化的输入要素,从而显著提升智能应用的落地效果和稳定性。高质量数据集已从支撑性资源转变为基础性能力,企业高质量数据集建设能力已经在很大程度上决定了央企智能化转型的深度和质量。 (二)政策驱动:全面支持高质量数据集建设 政策引导持续加强,行业高质量数据集建设提速。2023年12月,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,提出在科研、文化、交通运输等领域,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。2024年,国家发展改革委、国家数据局等四部门联合 印发的《关于促进数据产业高质量发展的指导意见》,首次明确提出“支持企业面向人工智能应用创新,开发高质量数据集”“大力支持重点行业高质量数据集建设”,为后续各行业启动专项建设提供了政策依据。2025年,围绕“人工智能+”行动和数字中国建设,国家层面加速系统化部署和行业政策出台。一方面,通过《数字中国建设2025年行动方案》《关于深入实施“人工智能+”行动的意见》等文件,将高质量数据集作为人工智能应用和产业发展的关键基础,作为重点任务统筹推进;另一方面,围绕交通运输、政务等重点领域,陆续出台行业高质量数据集建设方案和应用指引,明确数据集建设的业务场景和关键要素,推动高质量数据集加速向行业、场景建设。 二、央企高质量数据集建设问题和挑战 近年来,在政策驱动和需求推动下,央企高质量数据集建设加快,行业高质量数据集不断形成,在模型训练、业务应用中取得突出成效。但由于当前数据集建设以项目制为主,从整体能力来看,高质量数据集建设仍处于起步阶段,仍存在制度、标准、技术和生态等方面的问题和挑战。 内外部制度待细化,制约数据集系统化建设。当前,央企在高质量数据集建设中普遍缺乏制度规范的约束,既包括跨主体的数据基础制度,也包括企业内部的配套制度和细则。一是数据所有权、使用权和收益分配等关键制度不清晰,缺乏明确的定价与利益分配机制,导致各央企对数据共享、流通交易普遍持审慎态度,数据资源获取和高质量数据集流通存在障碍。二是数据汇聚机制缺失,尤其是涉及行业基础性、共性数据时,因行业缺乏统一的汇聚共享机制导致部分数据集重复建设。另外,在央企内部,由于高质量数据集建设处于起步阶段,企业以项目化方式推进数据集建设,尚未形成覆盖全环节的制度体系,影响高质量数据集的持续建设。 标准体系不完善,数据获取与共享困难。多数行业尚未形成覆盖数据采集、格式、标注和质量评估的标准体系,行业内不同企业间的数据结构、元数据、标注方式存在差异,造成数据的互通、标注结果和质量结果互认存在困难。例如,工业领域,不同设备的协议、数据格式和接口不统一;交通领域,时序数据的标注需结合统一的时空现状和物理规则;生态环境领域,部分地方的生态环境开发的管理系统 多达数十套,各系统的数据标准和技术接口均不统一。 技术支撑能力不足,影响建设效率和效果。技术架构方面,尽管部分央企已搭建数据平台,具备数据标注、质量评估等工具,但数据采集、处理、标注、评估、应用全过程不打通,容易造成开发、标注等过程难以追溯、验证和迭代。数据处理方面,缺乏面向非结构化、多模态数据的智能数据处理工具,导致多模态数据的结构和特征提取能力不足,非结构化数据的联合建模可用性较差。数据标注方面,部分数据标注工具对BIM模型、影像等非结构化数据的标注效率较低,影响构建效率。质量评估方面,质量评估常作为事后环节开展,而非贯穿于采集、处理、标注等各阶段,导致系统无法实现对采集偏差、标注错误、样本分布失衡等问题的即时发现与修正。 协同生态未建立,阻碍数据集流通应用。目前不少央企虽已开始构建企业或行业可信数据空间,但尚未形成成熟落地的运行模式。空间内的主体准入、应用成效、收益分配等运营机制和规则均未完全明确,导致开发的数据集难被其他需求方使用,使用反馈、再开发和迭代更是难以实现。另外,数据提供方、服务方与使用方之间缺乏以“数据即服务”为核心的商业模式,数据产品供给形式单一、价值实现路径模糊,进一步阻碍了高质量数据集的服务化推广和产业化落地。 三、央企高质量数据集实践分析 高质量数据集建设是一项基础性、长期性、系统性的工程,建设过程不仅涉及数据采集、处理、标注、评估等多环节,也涉及多公司、多部门的协同。高质量数据集建设运营主要内容和实施路径如下图所示,本章节从数据集建设、数据集运营和基础保障体系三部分对央企的具体实践情况展开深入分析。 (一)数据集建设 企业以场景为牵引,梳理行业数据资源,以形成一批产业亟需、规模庞大、模态丰富、