您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:基于智能IP广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025年) - 发现报告

基于智能IP广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025年)

AI智能总结
查看更多
基于智能IP广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025年)

(2025年) 中国信息通信研究院技术与标准研究所华为技术有限公司2025年9月 版权声明 本报告版权属于中国信息通信研究院、华为技术有限公司,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院、华为技术有限公司”。违反上述声明者,编者将追究其相关法律责任。 前言 智能时代加速到来,企业模型训练、推理算力需求爆炸式增长。对于企业来说,采用第三方云上智算资源是降低资本支出的最佳选择,但在数据入算、模型微调、推理输出等过程中可能面临数据、模型泄漏的问题。对于企业和行业用户来说,一方面要降低算力成本,同时又要保障训练、推理过程中的数据安全、用算安全。本报告研究面向政企模型微调训练、推理等业务场景,围绕企业安全用算需求,基于智能IP广域网(AI WAN)研究并提出了存算分离与云边协同训推技术方案,满足企业原始数据不出域、安全租用云端算力、降低企业用算成本的需求。 在存算分离模型微调训练场景下,针对企业敏感数据园区外“不落盘”需求,采用精准流控、自动流级调度技术实现用户私有存储与远端算力中心之间的高效无损传输,可保障拉远100KM、400KM达到97%以上高算效,满足拉远训练需求。 在云边协同推理场景下,通过企业侧部署一体机提供少量算力,利用模型拆分学习技术、精准流控和自动流级调度技术,实现推理性能95%以上高算效,满足企业推理数据不出域的安全推理诉求。 本报告中同步给出了实验室环境下的测试验证,希望为业界提供企业安全用算、灵活用算的技术参考。 目录 一、概述......................................................................................................................1(一)背景.............................................................................................................1(二)AI大模型训练与推理技术应用...............................................................2二、大模型微调训推场景面临的挑战......................................................................4三、基于智能IP广域网(AI WAN)的存算分离与云边协同训推技术方案.....6(一)方案总体架构.............................................................................................6(二)模型拆分学习技术.....................................................................................8(三)精准流控技术...........................................................................................11(四)自动流级调度技术...................................................................................14四、关键技术典型场景实验....................................................................................17(一)存算分离拉远算效...................................................................................17(二)云边协同推理安全性...............................................................................18(三)云边协同算力资源配置优化...................................................................19五、总结展望............................................................................................................22 图目录 图1当前企业大模型微调训推场景算力解决方案示意图.....................................4图2存算分离与云边协同训推技术方案.................................................................6图3模型拆分学习技术工作机制.............................................................................9图4Transformer模型架构.......................................................................................10图5租户级拥塞导致整体算效下降示意图...........................................................12图6租户级拥塞不会导致拥塞扩散示意图...........................................................12图7精准流控技术工作机制...................................................................................13图8现有流级调度技术...........................................................................................14图9自动流级调度技术工作机制...........................................................................15图10实验室验证组网示意图.................................................................................17图11集中式推理网络抓包示意图.........................................................................19图12云边协同推理网络抓包示意图.....................................................................19图13集中式推理算力利用率.................................................................................20图14云边协同推理算力利用率.............................................................................20 表目录 表1典型行业AI训推技术应用情况表....................................................................3表2各类网络训推技术方案安全性对比................................................................22 一、概述 (一)背景 近年来,我国人工智能创新成果持续涌现,技术加速与实体经济深度融合,从自动驾驶汽车、智能医疗诊断,到人机交互、智能家居、智能教育等场景,人工智能的广泛应用不仅为人们生活带来诸多便利,更推动生产模式实现从“传统机械自动化”到“智能自动化”的关键转型——其作为新一代信息技术的通用性目的技术,已催生出数据、算力、算法等新型生产要素,并凭借智能化、自动化优势,在生产过程中实现对劳动要素的直接替代,为千行百业注入新动能。 与此同时,我国正不断加大力度,推动人工智能技术迈向更高水平的发展阶段。2024年政府工作报告中提出实施“人工智能+”行动,明确强调人工智能技术与实体经济的深度融合,将培育未来产业作为重要目标。同年,工业和信息化部等四部门联合印发《国家人工智能产业综合标准化体系建设指南(2024版)》,通过加强人工智能标准化工作的系统谋划,加快构建满足产业高质量发展与“人工智能+”高水平赋能需求的标准体系,为技术落地与产业广泛应用筑牢根基。2025年7月,国务院常务会议进一步审议通过《关于深入实施“人工智能+”行动的意见》,标志着“人工智能+”进入规模化推进新阶段。会议明确,要依托我国产业体系完备、市场规模大、应用场景丰富等优势,推动人工智能技术加速迭代演进,大力推进其规模化商业化应用,促使人工智能在经济社会发展各领域加快普及、深度融合,最终形成“以创新带应用、以应用促创新”的良性循环。 (二)AI大模型训练与推理技术应用 自2025年初开始,DeepSeek等通用大模型的开源加速了企业智能化转型步伐,业内从通用模型训练逐渐走向了行业模型训练。根据国际数据公司(IDC)在《2025年中国人工智能计算力发展评估报告》、《AI Agent企业级应用现状与推荐,2025》的分析,预计2025年42%的中国企业已经开始进行大模型初步测试和重点概念验证,并且随着AI智能体的快速成熟,预计在2028年中国企业级Agent应用市场规模将达270 +亿美元。同时,根据Gartner在《2025年十大战略技术趋势》报告显示,预计2030年AI渗透率将达到80%,将有1200万家大中小企业使用AI推理,真正实现AI推理普惠。 AI大模型训练与推理(以下简称“训推”)技术加速融入企业生产环节,帮助企业提升生产率。典型行业AI训推技术应用如下表所示: 当前企业用户在AI训推技术应用中的两种典型应用场景分别为模型微调训练、推理场景(以下简称“大模型微调训推”)。模型微调训练场景是指通过模型微调,让模型理解行业术语、适配业务逻辑,提升应用精准度。企业需筛选与业务场景高度相关的专属数据集,对预训练大模型的参数进行二次优化。实现领域化适配,让模型贴合实际业务。推理场景是指模型微调完成后,将模型应用于实际业务,实现“技术—业务”的价值转化,推动企业实现智能化、高效化转型。 二、大模型微调训推场景面临的挑战 在企业人工智能数字化转型进程中,面对企业AI模型微调训练、推理等场景产生的算力需求,目前通常有三种算力解决方案:一是企业通过自建算力中心的方式解决算力需求;二是企业通过租赁第三方智算中心的算力服务器,运输到企业本地进行使用;三是企业通过网络访问租赁的第三方智算中心的算力资源。如下图所示: 综合来看,这些方式都面临着安全和成本两重挑战: 一是训推过程的数据安全难以保障。国家数据局等部门提出“原始数据不出域、数据可用不可见、数据可控可计量”的治理理念,明确数据需在原始产生域内处理,以规避跨域流动中网络攻击、恶意篡 改等安全威胁。这里的数据,既包括企业、机构用于训练的样本数据,也包括模型微调训练数据和推理输出的Token结果。可能会造成数据泄漏的环节包括数据上传、Token传输