AI智能总结
(2025) 目录 一,智算运维产业发展现状(一)政策环境与产业发展..(二)技术选代与行业应用二、智算运维服务面临的挑战(一)多用户多场景训推并行,资源失衡制约算力利用效率(二)智算系统向超节点形态演进,对运维提出新要求,(三)运维语料多源异构难统一,都能运维大模型训练受限..5(四)系统与业务安全威勘,平可信保障面临考验(五)节能调度优化压力大,连锁失效风险多、损失大,.6三、智算运维服务能力的建设(一)算力调度能力,(二)智能运维能力.(三)数据治理能力..15(四)安全防护能力...16(五)能效保障能力....18四、未来趋势预测和展望....20(一)技术层面,多要素协同演进,推智算运策向纵案智能化发展...20(二)市场层面,者算运维由“拼规模”向“拼效率、拼服务、拼价值”转型.20(三)生态层面,产业链协同形威开放、融合、共赢的智算运维新格局...21五、智算运维落地实践...22(一)中国移动智算训指资源池运维实践.22(二)联想燃弘暂算运维实践...26(三)科大讯飞智算运维AI节能实践.29 图目录 图1智算系统训推技术栈10图 2制冷系统效率由线图,31图3节能优化平台32 引言 设施进入高速发展阶段,算力规模持续扩张,应用场景不断深化。然而,智算运维的规模化、异构化和复杂化也给传统运维模式带来了前所未有的挑战。智算运维作为AIOps在算力领域的垂直深化,正成为保障智算基础设施稳定、高效、绿色运行的核心支撑,其产业价值日益凸显。 本报告旨在系统梳理我国智算运维产业的发展现状,核心技术与应用实践。报告首先概述了当前智算产业的发展背景,从宏观层面分折政策牵引与产业扩张的驱动力,并从微观层面展现技术跌迁与应用深化的具体表现。随后,报告剖析了当前智算运维面临的核心挑战与行业痛点,并聚焦这些新的挑战重点探讨如何构建面向算力调度、智能运维、数据治理、安全防护,能效优化等关键能力的服务体系。最后,报告面向未来3一5年,对智算运维产业的技术演进趋势、市场格局变化以及生态发展趋势进行了预测和展望,为决策者、技术研发及运维实践提供系统性参考, 本报告由中国通信标准化协会TC628标准推进委员会率头编写,主要参编单位包括中国信息通信研究院,中国移动通信集团有限公司,科大讯飞股份有限公司、联想(北京)有限公司、兴业银行股份有限公司、金融街证券股份有限公司、华为技术有限公司、甘肃燃弘绿色算力有限公司、北京神州泰岳软件股份有限公司。 本报告主要参编人员包括杨玲玲,刘昭炜,杨帆,张健一,武仪、谢洪涛、蔡旭辉、陈曦、刘鹅飞、周逸飞、郑卿、赵宇、主将、常悦, 杜长斌、刘天伟、冯旭瀚、侯澄、郑倚志,陈文春、余荣、罗胜涛、昊婷、鲍中帅、崔希琳、程文东、朱殷存、陈钢、李海东、梁丰、罗俊杰、潘凌、汪海龙、叶荣春、赵建波、李聪、金开旭、张诚、卢甘禹、陈晨、王春阳、周守杰、方卫国、邱超、秦鸿林、蔡国兴、赵素云、安海宇。 本报告力求为智算运维研究与实践提供参考,但难免有不足之处,恩请各位专家和读者不客指正。 一、智算运维产业发展现状 当前智算运维产业爱展整体呈现出“政策牵引、产业扩张,技术跃迁,应用深化”的态势。政策牵引力度不断增强,产业规模持续扩张,技术体系加速跃迁,应用场景全面深化,使运维成为支撑智算体系稳定、高效,可信运行的核心基础能力,并推动运维模式从人工运维加速向智能化,平台化,自治化演进。这一发展态势也为后续的算力调度管理能力、智能化运维能力、安全管理能力、能效管理能力等章节奠定了逻辑基础, (一)政策环境与产业发展 1.政策体系持续完善,国家与地方协同推动智算发展 政策体系方面,智算产业的发展得到了国家战略层面的强力驱动。2023年工信部等部门出台《算力基础设施高质量发展行动计划》,提出优化算力运载质量,探索构建算力互联网等目标,旨在增强异构算力与网络融合能力,实现计算与存储资源的高效利用。各地方政府也积极响应,北京市、上海市、广东省等地相继出台政策,2023年6月,北京发布《北京市促进通用人工智能创新发展的若干措施》,将新增算力建设项自纳入算力合作伙伴计划,加快推动智算中心建设,形成规模化先进算力供给能力,2025年3月,上海市经济和信息化委员会印发《上海市关于促进智算云产业创新发展的实施意见(2025-2027年)》,提出到2027年,本市智算规模力争达到200EFLOPS,其中自主可控算力占比超70%。这些政策不仅加速了智算运维的建设落地:也为智算运维市场的发展创造了广阔空间。 2.产业规模持续扩张,生态体系加速案荣 算力规模方面,随若AI模型参数规模持续攀升,训练成本快速上涨、推理需求高速增长,全球算力市场进入新一轮扩张周期。根据2025中国算力大会上公布的最新数据,裁至2025年6月底,我国在用算力中心标准机架达1085万架,智能算力规模达788EFLOPS(FP16),算力中心平均PUE(电能利用效率)降至1.42,预计到2028年中国智能算力规模将达到2,781.9EFLOPS 模型生态方面,大模型从通用能力迈向垂直行业深耕,开放模型,轻量模型,智能体生态瑾勃发展,训练频率提升,模型版本送代加快,推理服务规模激增,均对底层运维体系提出全新要求。 (二)技术迭代与行业应用 1.AI基础设施加速演进,超节点架构驱动智算运维范式重构 在科技飞速发展的当下,市场竞争目益激烈,用户对于产品的性能,功能,能效等方面的要求不断提高。为了满足这些不断变化的需求,保持产品的竞争力,企业需要不断对产品进行升级换代。智算系统架构与代际持续快速演进,也是顺应技术发展趋势和市场需求变化,持续投入研发资源,推动产品创新和优化的过程,相关演进不仅体现在产品性能的提升上,还涉及到产品架构、芯片,互联方式以及散热技术等多个关键领域的革新。同时,AI业务负载的变化正深刻重塑运维范式:大模型训练呈现“长周期,高并发,强耦合”的特点,对网络抖动、单卡故障和调度效率愈发敏感;推理侧则从高线推理转向高并发,低时延,弹性伸缩的实时服务,对资源碎片化治理、QoS保证和跨域调度提出更高要求。基础设施能力与业务负载形态的双重变化, 使传统以节点为中心的运维方式难以为继,驱动智算运维向全链路可观测、因果关联分析、智能调度,数据驱动的AIOpS与多智能体协间方向加速转型。 2.垂直行业应用加速落地,推理场景驱动者算运维需求升级 大模型在政务、金融、医疗、制造、交通等行业深度渗透,AI从“模型能力突破”进入“规模化应用落地”阶段,推理业务的爆发式增长,成为驱动算力需求与运维复杂度提升的关键力量,政务领域大规模上线行政助理,热线助手等应用,对数据安全与服务连续性要求极高:金融行业的智能投研,智能风控强调低时延,高可靠:医疗行业的临床辅助,影像分析推理量级持续上升,要求产格的多模态处理与合规审计。与此同时,人工智能生成内容(AIGC),搜索增强生成(RAG),多模态交互等薪型应用带来高并发,强峰谷,突发性流量的推理特征,使算力调度从“静态资源规划”转向“实时弹性供给”,对链路可观测、SLA管控、跨域容灾提出更高要求。 行业侧需求的快速多样化,使智算运维从传统的资源管理和集群维护,逐步扩展到全链路性能保障,数据治理、成本优化、安全可信等更广阔的场景,推动运维体系不断向精细化、智能化,业务化方向演进。 二、智算运维服务面临的挑战 尽管市场前景广阔,但当前智算运维仍面临一系列产峻挑战。基础设施多样化,业务负载复杂化以及行业应用多元化,使智算运维工作面临前所未有的复杂性和高要求,因此,构建面向大规模算力,异构架构和复杂业务场景的高效、智能、安全、绿色的运维体系,成为 支撑智算平台稳定运行、提升业务连续性和保障产业可持续发展的核心任务。本章将围绕智算运维服务面临的主要挑战与能力需求进行系统梳理,为后续各能力模块的分析奠定现实背景和逻辑基础 (一)多用户多场景训推并行,资源失衡制约算力利用效率 多用户智算环境中,资源分配失衡是关键瓶颈,任务规模差异致部分节点闲置、部分超负荷,资源碎片化,拉低整体利用率。混合调度时,优先大模型整节点训练会限制其他任务,影响业务多样性与灵活性。推理业务流量波动大,算力闲置浪费、超额申请难满足需求。为提升利用率,需构建智能算力调度能力,实时感知任务与资源状态,实现算力动态分配和灵活调度,打破资源壁垒,让闲置算力充分利用,保障任务运行,推动智算高效稳定发展, (二)智算系统向超节点形态演进,对运维提出新要求 当前国内外主流智算产品正在向超节点形态快速演进(英伟达,华为、曙光,浪潮、阿里等),智算超节点不仅是硬件的堆查,更是对数据中心供电、散热、网络、软件、运维流程的全方位重构。一方面,超节点功率密度更高,散热需求及供电可靠性要求更高:另一方面,超节点超平面采用总线组网(IB、UB网络等),器件、连接数相比原有智算形态增长7倍,多轨组网、逻辑超节点等形态登加,导致业务运行更复杂,故障传播机制变化更大,跨域跨层定界定位诊断更难。现有运维能力难以匹配超节点稳定运行的需求, 同时,智算系统呈现技术栈紧耦合,无完余,0容错的特点,在训练场景,算存网跨域故障频发易引发训练中断,慢卡慢网络等劣化导 政的训练低效难感知,导致损失大/耗时长。在推理场景,推理全链路统一监控与分析诊断能力缺失,导致推理业务故障识别定位难,性能,成本难评估。训推业务的稳定运行对系统可观测性及数字李生能力提出更高要求。 (三)运维语料多源异构难统一,智能运维大模型训练受限 智算运维场景下,不同设备厂商(GPU/NPUASIC)、不同AI柜架(MindSpore、PyTorch,TeusorFlow)、不同通信库(NCCL,HCCL,GCCL)产生的数据格式,学段语义和事件结构高度不一致,缺乏统一的数据规范与词汇体系,导致运维大模型在训练阶段面临语料缺失,标注成本高、跨场景迁移能力弱等瓶颈。模型无法从多厂家,多组件,多架构的复杂语料中提炼可靠的知识关联关系,使得智能体在根因分析、故障推演、策略生成等任务上的能力发展受限, (四)系统与业务安全威胁,平台可信保障面临考验 随着算力规模和数据价值的提升,智算平台面临的安全威胁显著增加。系统安全方面可能出现算力劫持,容器逃逸;数据安全方面存在运维日志、训练数据泄露或复改:模型安全方面可能遭受数据投毒或推理复改。安全事件不仅影响业务连续性,还可能对企业声誉造成损害。应对这一挑战,运维体系须具备全链路安全监控、访问控制管理、异常行为检测与快速响应能力,以保障系统,数据与模型的可信运行。 (五)节能调度优化压力大,连锁失效风险多,损失大 大规模算力集群功耗高,能效低问题突出,训练任务长周期,高并发,推理任务波峰波谷明显,使得能耗管理和调度优化成为核心排战。虽然节能调度技术已部分落地,但在大规模部署及运行过程中仍存在优化空间,整体成本控制难度大。同时:智算中心高密度算力发热巨大,液冷技术是必然选择,但其复杂管路系统(串联/并联泥合)导致冷媒分配与流量控制难度激增,引发多重查加风险:任一节点故障(如管路阻塞或泄漏)都可能引发连锁失效,造成局部“超温";冷板表面温差易产生“凝露”;流体长期运行可能“结晶”;连接点多则“漏液”风险倍增。一旦故障发生,将直接导致昂贵算力集群停机,损失巨大,对系统可靠性、可维护性提出极致要求, 综上所迷,智算运维正处于从传统模式向智能化、自动化转型的关键时期。市场需求旺盛,政策支持有力,但技术和管理上的挑战也同样艰巨。解决资源利用率低,运维成本高、故障管理难等核心痛点,构建科学,高效的智算运维能力,已成为推动我国智算产业高质量发展的当务之急, 三,智算运维服务能力的建设 (一)算力调度能力 算力调度能力主要包括虚拟化、容器化,池化,异构算力适配与架兼容以及调度算法。其目标是实现多用户、多任务、多平台的算力资源高效管理与调度,提升训练和推理任务的整体算力利用率,降低资源碎片化和调度冲突, 虚拟化、容器化、池化技术是算力调度管理的基础。虚拟化技术通过