AI智能总结
1.LPU,有16x或32x per compute tray,或256x per rack的版本,具体端侧chat还是云侧长上下文推理应用未定,目前仅有demo,将来应该会更加集成到gpu附近,例如gou/lpu + 3d sram+ hbm(+hbf? ),这里散热和对gpu主频的影响值得关注;目标2028年量产;2. 关于下个月2026 GTC上可能会发布的信息的相关汇总: 1.LPU,有16x或32x per compute tray,或256x per rack的版本,具体端侧chat还是云侧长上下文推理应用未定,目前仅有demo,将来应该会更加集成到gpu附近,例如gou/lpu + 3d sram+ hbm(+hbf? ),这里散热和对gpu主频的影响值得关注;目标2028年量产;2.独占tsmc 1.6nm工艺资源的Feynman。 同时,25%的Feynman例如IO die,EMIB packaging计划给Intel做。 注: gpu原来的架构里就有sram和hbm,lpddr,所以这次feynman的主要设计演进貌似主要是? tsmc的3D堆叠@1.6nm? +? groq的软件cache集成到CUDA。 集成groq的lpu理念到nvda体系架构应该是最关键的布局,可以解决之前提到的到底先优化5%还是95%的负载的问题,1里提到的问题;3.VR200 NVL72平台带HBM4; 4.2027年scale-up cpo,2026年先走scale-out给spectrumx和infiniband;5.NVL576带448G serdes,中板使用PTFE base和Q-glass M9材料;6.Vera做为唯一支持LPDDR5的数据中心用于post-train的CPU,以减少Amdahl‘s Law单线程的性能影响;7.(GPU+Stacked Memory),有几种方案,以缓和内存的瓶颈问题。 这里可以衍生成多节点设计,即对接到storage expansion disaggregation的设计,进一步缓解kv cache的问题;8.展出(更真实的)正交背板;12月底是第一阶段先下单CCL需一个月,1月后PCB再需两个月至3月,然后第三阶段众多测试再需三个月;所以,应该是2026年中完成;9.BF5,NVL8,QC,等;10.软件,应用(Physical AI,Robotics,Digital Twin,垂直领域等),生态,合作等不赘述。