您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:中国信息通信研究院:智算运维产业发展研究报告(2025) - 发现报告

中国信息通信研究院:智算运维产业发展研究报告(2025)

AI智能总结
查看更多
中国信息通信研究院:智算运维产业发展研究报告(2025)

(2025)中国信总 一,智算运维产业发展现状(一)政策环境与产业发展(二)技术选代与行业应用二、智算运维服务面临的挑战(一)多用户多场景训推并行,资源失衡制约算力利用效率(二)智算系统向超节点形态演进,对运维提出新要求,(三)运维语料多源异构难统一,智能运维大模型训练受限...(四)系统与业务安全威勘,平台可信保障面临考验..6..6.7(一)算力调度能力,(二)智能运维能力...9(三)数据治理能力,.15(四)安全防护能力,.16(五)能效保障能力.18四、未来楚势预测和展望.20(一)技术层面,多要素协同演进,推动智算运维向纵深智能化发展,(二)市场层面者算运维由“拼规模”向“拼效率、拼服务、拼价值”转型(三)生态层面,产业链协同形成开放、融合、共高的智算运维新格局...21五、智算运维落地实践,.22.22(二)联想燃弘都算运维实践,..26(三)科大讯飞智算运维AI节能实践.29通信研究 图1智算系统训推技术栈10图 2制冷系统效率由线图51图3节能优化平台,.中国信息通信研究院 随着“人工智能+”行动的深入推进,我国智能算力(智算)基础设施进入高速发展阶段,算力规模持续扩张,应用场景不断深化。然而,智算运维的规模化,异构化和复杂化也给传统运维模式带来了前保障智算基础设施稳定、高效、绿色运行的核心支撑,其产业价值日益凸显。 本报告旨在系统梳理我国智算运维产业的发展现状,核心技术与应用实践。报告首先概述了当前智算产业的发展背景,从宏观层面分析政策牵引与产业扩张的驱动力,并从微观层面展现技术跃迁与应用深化的具体表现。随后,报告剖析了当前智算运维面临的核心挑战与行业痛点,并聚焦这些新的挑战重点探讨如何构建面向算力调度、智能运维、数据治理、安全防护、能效优化等关键能力的服务体系。最后,报告面向未来3一5年,对智算运维产业的技术演进趋势、市场格局变化以及生态发展趋势进行了预测和展望,为决策者、技术研发及运维实践提供系统性参考,研究院 本报告由中国通信标准化协会TC628标准推进委员会率头编写主要参编单位包括中国信息通信研究院,中国移动通信集团有限公司科大讯飞股份有限公司,联想(北京)有限公司、兴业银行股份有限公司、金融街证券股份有限公司、华为技术有限公司、甘肃燃弘绿色 本报告主要参编人员包括杨玲玲,刘昭炜、杨帆,张健一,武仪、谢洪涛、蔡旭辉、陈曦、刘鹏飞、周逸飞、郑卿、赵宇,王将、常悦、研究院 杜长斌、刘天伟、冯旭瀚、侯澄、郑倚志、陈文春、余荣、罗胜涛、吴婷、鲍中帅、崔希琳、程文东、朱殷存、陈钢、李海东、梁丰、罗俊杰、潘凌、汪海龙、叶荣春、赵建波、李聪、金开旭、张诚、卢甘禹、陈晨、王春阳、周守杰、方卫国、邱超、秦鸿林、蔡国兴、赵素云、安海宇。 恩请各位专家和读者不客指正。中国信息 当前智算运维产业发展整体呈现出“政策牵引、产业扩张、技术跃迁,应用深化”的态势。政策牵引力度不断增强,产业规模持续扩张,技术体系加速跃迁,应用场景全面深化,使运维成为支撑智算体维加速向智能化、平台化、自治化演进。这一发展态势也为后续的算力调度管理能力、智能化运维能力、安全管理能力、能效管理能力等章节奠定了逻辑基础,中国 (一)政策环境与产业发展 1.政策体系持续完善,国家与地方协同推动智算发展 政策体系方面,智算产业的发展得到了国家战略层面的强力驱动。2023年工信部等部门出台《算力基础设施高质量发展行动计划》,提出优化算力运载质量,探索构建算力互联网等目标,旨在增强异构算力与网络融合能力,实现计算与存储资源的高效利用。各地方政府也究院北京发布《北京市促进通用人工智能创新发展的若干措施》,将新增算力建设项目纳入算力合作伙伴计划,加快推动智算中心建设,形成规模化先进算力供给能力,2025年3月,上海市经济和信息化委员会印发《上海市关于促进智算云产业创新发展的实施意见(2025-2027年)》,提出到2027年,本市智算规模力争达到200EFLOPS,其中自主可控算力占比超70%,这些政策不仅加速了智算运维的建设落地也为智算运维市场的发展创造了广阔空间,通信研究院 2.产业规模持续扩张,生态体系加速繁荣 算力规模方面,随若AI模型参数规模持续攀升,训练成本快速上涨、推理需求高速增长,全球算力市场进入新一轮扩张周期。根据2025中国算力大会上公布的最新数据,裁至2025年6月底,我国在用算力中心标准机架达1085万架,智能算力规模达788EFLOPS(FP16),算力中心平均PUE(电能利用效率)降至1.42,预计到2028年中国智能算力规模将达到2.781.9EFLOPS 模型生态方面,大模型从通用能力迈向垂直行业深耕,开放模型、轻量模型、智能体生态莲勃发展,训练频率提升、模型版本迭代加快、推理服务规模激增,均对底层运维体系提出全新要求。 (二)技术迭代与行业应用 1.AI基础设施加速演进,超节点架构驱动智算运维范式重构 在科技飞速发展的当下,市场竞争日益激烈,用户对于产品的性能,功能,能效等方面的要求不断提高。为了满足这些不断变化的需求,保持产品的竞争力,企业需要不断对产品进行升级换代。智算系,究院统架构与代际持续快速演进,也是顺应技术发展趋势和市场需求变化,持续投入研发资源,推动产品创新和优化的过程。相关演进不仅体现在产品性能的提升上,还涉及到产品架构、芯片,互联方式以及散热技术等多个关键领域的革新。同时,AI业务负载的变化正深刻重塑运维范式:大模型训练呈现“长周期,高并发、强耦合”的特点,对网络抖动、单卡故障和调度效率急发敏感;推理侧则从高线推理转向高并发、低时延,弹性伸缩的实时服务,对资源碎片化治理,QoS保证和跨域调度提出更高要求。基础设施能力与业务负载形态的双重变化,研究院 使传统以节点为中心的运维方式难以为继,驱动智算运维向全链路可观测、因果关联分析、智能调度,数据驱动的AIOpS与多智能体协间方向加速转型。 2.垂直行业应用加速落地,推理场景驱动智算运维需求升级 “模型能力突破”进入“规模化应用落地”阶段,推理业务的爆发式增长,成为驱动算力需求与运维复杂度提升的关键力量,政务领域大规模上线行政助理,热线助手等应用,对数据安全与服务连续性要求极高:金融行业的智能投研,智能凤控强调低时延,高可靠;医疗行业的临床辅助、影像分析推理量级持续上升:要求严格的多模态处理与合规审计,与此同时,人工智能生成内容(AIGC)、搜索增强生成(RAG),多模态交互等新型应用带来高并发,强峰谷,突发性流量的推理特征,使算力调度从“静态资源规划”转向“实时弹性供给”,对链路可观测、SLA管控、跨域容灾提出更高要求。究院 行业侧需求的快速多样化,使智算运维从传统的资源管理和集群等更广阔的场景,推动运维体系不断向精细化、智能化,业务化方向演进,究 尽管市场前景广阔,但当前智算运维仍面临人系列严峻挑战。基础设施多样化、业务负栽复杂化以及行业应用多元化,使智算运维工作面临前所未有的复杂性和高要求,因此,构建面向大规模算力、异构架构和复杂业务场景的高效、智能、安全、绿色的运维体系,成为研究院 支持智算平台稳定运行、提升业务连续性和保障产业可持续发展的核心任务。本章将围绕智算运维服务面临的主要挑战与能力需求进行系统梳理,为后续各能力模块的分析奠定现实背景和逻辑基础, (一)多用户多场景训推并行,资源失衡制约算力利用 效率 多用户智算环境中,资源分配失衡是关键瓶颈,任务规模差异致部分节点闲置、部分超负荷,资源碎片化,拉低整体利用率。混合调度时,优先大模型整节点训练会限制其他任务,影响业务多样性与灵活性,推理业务流量波动大,算力闲置浪费,超额申请难满足需求。为提升利用率,需构建智能算力调度能力,实时感知任务与资源状态,实现算力动态分配和灵活调度,打破资源壁垒,让闲置算力充分利用,保障任务运行,推动智算高效稳定发展, (二)智算系统向超节点形态演进,对运维提出新要求 当前国内外主流智算产品正在向超节点形态快速演进(英伟达,面,超节点功率密度更高,散热需求及供电可靠性要求更高:另一方面,超节点超平面采用总线组网(IB、UB网络等),器件、连接数相比原有智算形态增长7倍,多轨组网、逻辑超节点等形态叠加,导致业务运行更复杂、故障传播机制变化更大,跨域跨层定界定位诊断更、难。现有运维能力难以匹配超节点稳定运行的需求, 同时,智算系统呈现技术栈紧耦合,无元余、0容错的特点,在训练场景,算存网跨域故障频发易引发训练中断,慢卡慢网络等劣化导研究院 改的训练低效难感知,导致损失大耗时长。在推理场景,推理全链路统一监控与分析诊断能力缺失,导致推理业务故障识别定位难,性能,成本难评估。训推业务的稳定运行对系统可观测性及数字李生能力提出更高要求, 受限 智算运维场景下,不同设备厂商(GPUNPU/ASIC),不同AI柜框架(MindSpore,PyTorch,TensorFlow),不同通信库(NCCLHCCL、GCCL)产生的数据格式,字段语义和事件结构高度不一致,缺乏统一的数据规范与词汇体系,导致运维大模型在训练阶段面临语料缺失,标注成本高、跨场景迁移能力弱等瓶颈。模型无法从多厂家,多组件,多架构的复杂语料中提炼可靠的知识关联关系,使得智能体在根因分析、故障推演,策略生成等任务上的能力发展受限,究院 (四)系统与业务安全成胁,平台可信保障面临考验 增加。系统安全方面可能出现算力劫持、容器逃逸;数据安全方面存在运维目志,训练数据泄路或复改:模型安全方面可能遭受数据投套或推理复改。安全事件不仅影响业务连续性,还可能对企业声誉造成损害。应对这一挑战,运维体系须具备全链路安全监控、访问控制管理,异常行为检测与快速响应能力,以保障系统,数据与模型的可信运行。 (五)节能调度优化压力大,连锁失效风险多、损失大 大规模算力集群功耗高,能效低问题突出。训练任务长周期,高并发,推理任务波峰波谷明显,使得能耗管理和调度优化成为核心排战。虽然节能调度技术已部分落地,但在大规模部署及运行过程中仍热巨大,液冷技术是必然选择,但其复杂管路系统(串联/并联混合)导致冷媒分配与流量控制难度激增,引发多重登加凤险:任一节点故障(如管路阻塞或泄漏)都可能引发连锁失效,造成局部“超温";冷板表面温差易产生“凝露”;流体长期运行可能“结晶”,连接点多则“漏液”风险倍增。一旦故障发生,将直接导致昂贵算力集群停机,损失巨大,对系统可靠性、可维护性提出极致要求,) 综上所述,智算运维正处于从传统模式向智能化、自动化转型的关键时期。市场需求旺盛,政策支持有力,但技术和管理上的挑战也同样艰巨。解决资源利用率低、运维成本高、故障管理难等核心痛点,构建科学、高效的智算运维能力,已成为推动我国智算产业高质量发展的当务之急。息通信研究院 三、智算运维服务能力的建设 (一)算力调度能力 仪算力调度能力主要包括虚拟化、容器化,池化、异构算力适配与框架兼容以及调度算法。其目标是实现多用户、人多任务、多平台的算力资源高效管理与调度,提升训练和推理任务的整体算力利用率,降低资源碎片化和调度冲突,研究院 虚拟化、容器化、池化技术是算力调度管理的基础。虚拟化技术通过对物理AI算力芯片GPU、NPU等资源进行细粒度切分与抽象,将其划分为多个独立的虚拟计算单元(vGPU),实现单卡资源的多任务共享硬件资源。例如NVIDIA使用MPS(Multi-ProcessService)实现GPU的分时复用X提高单卡多任务的并发处理能力;使用MIG(Multi-InstanceGPU)实现GPU的硬件级算力切片与隔离,确保不同任务间的OoS可预测性。华为异腾通过vNPU实现对物理NPU的切片与抽象可将虚拟化后的算力实例挂载至容器/虚机,实现细粒度资调分配. 中国容器化技术基于操作系统级虚拟化,实现多个隔离的应用实例共享操作系统内核,对快速送代,弹性伸缩的AI推理应用至关重要,显著提升智算集群整体利用率,例如Docker与containerd作为主流容器运行时,用于构建轻量化AI任务