AI智能总结
版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队 项目经理:李军华瑞数鑫科技有限公司贡献专家:冯轶中国移动通信集团有限公司户星星中国移动通信集团有限公司李聪聪中国移动通信集团有限公司鲁江华中国移动通信集团有限公司豆坤三星(中国)半导体有限公司冯方三星(中国)半导体有限公司刘涛西部数据有限公司刘嘉锡捷科技服务(上海)有限公司李斌锡捷科技服务(上海)有限公司郭睿浪潮电子信息产业股份有限公司刘凤刚浪潮电子信息产业股份有限公司白欣璐浪潮电子信息产业股份有限公司梁文俊浪潮电子信息产业股份有限公司王报龙浪潮电子信息产业股份有限公司郭亮中国信息通信研究院王少鹏中国信息通信研究院谢丽娜中国信息通信研究院赵继壮中国信息通信研究院李佳媛中国信息通信研究院 高威中国信息通信研究院靳方春北京忆恒创源科技股份有限公司朱磊北京忆恒创源科技股份有限公司袁戎北京忆恒创源科技股份有限公司高建国北京忆恒创源科技股份有限公司孙英达北京忆恒创源科技股份有限公司段小锋北京忆恒创源科技股份有限公司李朝兰北京忆恒创源科技股份有限公司卓建江深圳佰维存储科技股份有限公司郝健深圳佰维存储科技股份有限公司刘金旻深圳佰维存储科技股份有限公司曹美燕深圳佰维存储科技股份有限公司吕志勇深圳佰维存储科技股份有限公司魏靖深圳佰维存储科技股份有限公司秦月深圳市江波龙电子股份有限公司胥文龙深圳市江波龙电子股份有限公司黄福帅联想(北京)有限公司吴福磊联想(北京)有限公司徐子怡联想(北京)有限公司胡振国联想(北京)有限公司孙志超曙光信息产业股份有限公司王学智曙光信息产业股份有限公司 陈磊静行吟信息科技(上海)有限公司胡泽志北京三快在线科技有限公司范振国北京三快在线科技有限公司张亮东芝电子元件有限公司王浩博东芝电子元件有限公司车岩磊华瑞数鑫科技有限公司范云松华瑞数鑫科技有限公司安万全华瑞数鑫科技有限公司罗挺得一微电子股份有限公司 前言 随着大模型参数量从十亿级跃升至万亿级,AI系统对存储带宽、容量与时延的需求呈指数级增长。本文系统梳理了AI在“训练-推理-本地部署”三大阶段的存储流量特征,指出PCIe总线带宽已逐渐落后于计算、网络、存储三者的需求增速,成为新的系统级瓶颈。结合最新学术与产业数据,本文定量分析了PCIe4.0/5.0/6.0/7.0在不同模型规模下的理论余量与实际缺口,并对比NVLink、CXL、UCIe等新兴互连技术的补偿效果。最后,面向边缘与终端的本地部署场景,提出以存储-计算协同设计、分层缓存、高并发NAND和内存内计算为核心的缓解路径。 目录 一、研究有关的技术现状综述...................................................................................1 二、AI时代的存储挑战..............................................................................................2(一)AI计算范式的转变与存储需求..............................................................2(二)存储墙问题的加剧...................................................................................3(三)存力问题的瓶颈分析与解决策略...........................................................3三、AI应用不同阶段对存储系统的要求分析..........................................................4(一)白皮书有关的技术背景...........................................................................4(二)AI存储流量的模型..................................................................................7(三)AI存储系统需求研究方案......................................................................7四、人工智能系统从训练到应用的八个阶段的存储需求.....................................11(一)阶段1:数据摄取(DataIngestion)...................................................11(二)阶段2:预处理(Pre-processing).......................................................13(三)阶段3:训练(Training).....................................................................15(四)阶段4:Checkpoint................................................................................17(五)阶段5:微调(Fine-tuning)................................................................19(六)阶段6:推理(Inference)...................................................................20(七)阶段7:边缘服务(EdgeServing).....................................................22(八)阶段8:终端离线(On-device)..........................................................26五、人工智能应用对存储系统的压力评测方法.....................................................30(一)带宽赤字指数(BDI)与展望..............................................................30(二)PCIe6.0/7.0技术透视...........................................................................33(三)CXL3.0/3.1技术解析...........................................................................36(四)NVLink5.0&UCIe2.0..........................................................................39(五)硅光互连:光子在AI机柜中的再定位.............................................42(六)近存计算(Near-DataProcessing,NDP)............................................44六、国产AI生态系统的存储架构建议.................................................................48七、结论与未来工作.................................................................................................50八、参考文献.............................................................................................................52 图目录 图12023–2024年已公开场景的BDI结果...............30图2公开路线打分情况................................32 一、研究有关的技术现状综述 在大模型参数规模持续膨胀的背景下,人工智能系统正由“计算主导”逐步演化为“存储主导”的新范式。本文立足于训练、推理与本地部署三大阶段,将之细分为8个阶段,并据此系统梳理了PCIe总线带宽与AI负载需求之间的结构性错位,并提出“带宽赤字指数(BDI)”以统一度量该错位程度。与已有研究侧重于峰值速率或单点实验不同,本文以公开论文、产业白皮书、合规测试报告及云厂商运维日志为依据,对AI全生命周期内的PCIe需求进行跨阶段、跨平台的实证剖析,所得结论可复现、可推广,无需额外虚拟实验。 研究发现,PCIe带宽的线性演进已难以匹配模型规模的指数级扩张。训练阶段中,Checkpoint写入与梯度同步构成了间歇性洪峰;推理阶段则因KV-Cache随机读放大而持续承压;边缘与终端场景虽暂时位于安全区,但随着模型下沉,带宽瓶颈将迅速前移。公开证据显示,2024年后PCIe5.0/6.0已无法满足主流训练集群的峰值需求,PCIe7.0亦仅能提供过渡性缓解。 为破解上述困境,本文进一步探讨了CXL3.0/3.1、NVLink5.0、UCIe2.0、硅光互连及近存计算(NDP)等五条技术路线的互补价值。研究表明,上述方案并非简单的速率叠加,而是在“机柜—封装—晶圆”三个空间尺度上形成分层协同:CXL与NVLink在机柜内部承担高带宽、低延迟的主干通路;UCIe与硅光在封装与板级实现“面积换带宽”;NDP则通过“计算驻留”范式显著减少PCIe往返次数,从而与PCIe/CXL形成互补缓冲带。产业公开时间表表明,CXL3.1 将于2025年进入规模商用,UCIe2.0预计2026年落地,二者共同构成“后PCIe时代”主干。 针对国产AI生态,本文提出芯片级CXL原生支持、整机级机柜拓扑重构、云-边-端权重分片协同的系统级路线图。该路线图依据主要互联网架构提供商的公开数据进行验证,具有较高的可行性。 综上,PCIe已不再是AI系统的决定性总线,而是多层异构互连生态中的低速边带。通过CXL、UCIe、硅光与NDP的协同演进,AI基础设施有望在2027年前实现带宽赤字的最优解,为后续万亿级参数模型的可持续训练与推理提供理论依据与工程范式。 二、AI时代的存储挑战 (一)AI计算范式的转变与存储需求 人工智能计算,特别是深度学习模型的训练与推理过程,呈现出与传统计算截然不同的存储访问特征。现代AI模型参数规模呈指数级增长趋势——从2012年AlexNet的6000万参数到2023年GPT-4的约1.8万亿参数,十年间增长了300,000倍。这种规模膨胀对存储子系统提出了前所未有的挑战,具体表现在三个方面: 容量需求:大型语言模型(LLM)的全精度参数存储需要数百GB甚至TB级内存容量。以GPT-3为例,其1750亿参数在FP32精度下需要约700GB存储空间,远超传统GPU设备的板载内存容