行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

申万计算机国产算力思考260322第四期从GTC的架构之变看云厂对算力

2026-03-23 未知机构李强

GTC最大变化：引入LPU？

核心观点

GTC最大变化是引入LPU，旨在满足Agentic LLM推理需求。
LPU通过完全确定性编译和静态存储SRAM保障数据读取确定性，提供极低延迟。
LPU并非全能，英伟达采用A-F-D分离方案，将Decode阶段的FFN计算（MoE计算）分配给LPU，而prefill和Attention计算仍由GPU负责。

算力需求变化

云厂是英伟达最大客户，Claude code、Openclaw出现后需求持续爆发。
供需不对称是驱动云涨价的持续动力。
供给端半导体产能增加是二次幂，需求增加是指数型，由大模型Attention机制决定。
Chatbot算力需求=（用户数用户粘性）^2，Agent/多模态算力需求=chatbot多轮调用/（图像像素数*视频帧数）。

新推理系统

NV发布的新推理系统满足云厂对ROI的追求。
A-F-D分离方案帮助云厂精打细算。

未来趋势

云厂可能继续解耦，将计算、存储、网络拆开售卖。
芯片职能将越来越细分，搜广推、LLM推理、Agent推理、多模态推理场景将使用不同芯片。
电胜于算，算力端将全面普及液冷技术。
PUE更低者能在涨价潮中获得更高利润率。

#GTC最大变化：引入LPU？为了Agentic LLM推理。 LPU是完全确定性编译，用编译器安排好硬件，使用静态存储SRAM保障数据读取的确定性，提供了极低延迟，能够满足Agentic LLM推理的需求。然而，LPU并非全能，因此英伟【申万计算机】国产算力思考260322第四期：从GTC的架构之变，看云厂对算力的需求变化？ #GTC最大变化：引入LPU？为了Agentic LLM推理。 LPU是完全确定性编译，用编译器安排好硬件，使用静态存储SRAM保障数据读取的确定性，提供了极低延迟，能够满足Agentic LLM推理的需求。然而，LPU并非全能，因此英伟达采用了A-F-D分离（Attention-FFN-Decode分离），给LPU安排了Decode阶段的FFN计算（MoE计算）职责，prefill和Decode的Attention计算仍然用GPU。可以认为是一种算力端的解耦，让每部分去承担最适合自己的职能。会，最大客户仍然是云厂，Claude code、Openclaw出现后，需求持续爆发。供需不对称成为驱动云涨价的持续动力。供给端，半导体产能的增加是二次幂（产能增长*良率提升），而需求的增加是指数型，这是由大模型Attention机制决定的，chatbot算力需求=（用户数*用户粘性）^2，agent/多模态算力需求=chatbot*多轮调用/（图像像素数*视频帧数）。 #NV发布的新推理系统，满足了云厂对ROI的追求。 A-F-D分离的方案，是帮云厂精打细算的。往后看，云厂可能会继续解耦。把计算、存储、网络拆开卖。你需要存KV Cache就买存储柜，需要跑FFN就买计算柜。芯片的职能也会越来越细分，搜广推、LLM推理、Agent推理、多模态推理场景，会推不同的芯片。并且，电胜于算，算力端会全面普及液冷技术。谁的PUE（能效比）更低，谁就能在涨价潮中获得更高的利润率。

点击免费查看完整报告