
#GTC最大变化:引入LPU? 为了Agentic LLM推理。 LPU是完全确定性编译,用编译器安排好硬件,使用静态存储SRAM保障数据读取的确定性,提供了极低延迟,能够满足Agentic LLM推理的需求。 然而,LPU并非全能,因此英伟 【申万计算机】国产算力思考260322第四期:从GTC的架构之变,看云厂对算力的需求变化? #GTC最大变化:引入LPU? 为了Agentic LLM推理。 LPU是完全确定性编译,用编译器安排好硬件,使用静态存储SRAM保障数据读取的确定性,提供了极低延迟,能够满足Agentic LLM推理的需求。 然而,LPU并非全能,因此英伟达采用了A-F-D分离(Attention-FFN-Decode分离),给LPU安排了Decode阶段的FFN计算(MoE计算)职责,prefill和Decode的Attention计算仍然用GPU。 可以认为是一种算力端的解耦,让每部分去承担最适合自己的职能。 会,最大客户仍然是云厂,Claude code、Openclaw出现后,需求持续爆发。 供需不对称成为驱动云涨价的持续动力。 供给端,半导体产能的增加是二次幂(产能增长*良率提升),而需求的增加是指数型,这是由大模型Attention机制决定的,chatbot算力需求=(用户数*用户粘性)^2,agent/多模态算力需求=chatbot*多轮调用/(图像像素数*视频帧数)。 #NV发布的新推理系统,满足了云厂对ROI的追求。 A-F-D分离的方案,是帮云厂精打细算的。 往后看,云厂可能会继续解耦。 把计算、存储、网络拆开卖。 你需要存KV Cache就买存储柜,需要跑FFN就买计算柜。 芯片的职能也会越来越细分,搜广推、LLM推理、Agent推理、多模态推理场景,会推不同的芯片。 并且,电胜于算,算力端会全面普及液冷技术。 谁的PUE(能效比)更低,谁就能在涨价潮中获得更高的利润率。