
芯片相关: 1、Vera Rubin:每瓦性能比Blackwell提高10倍; 2、Groq 3(LPU芯片):计划26Q3出货,三星代工;1)单芯片参数– 500 MB SRAM;– 150 TB带宽;– 1.2 PFlop算力;2)8芯片方案– 4GB SRAM;– 1200 TB带宽,是Rubin的5 【小熊团队】英伟达GTC大会更新 芯片相关: 1、Vera Rubin:每瓦性能比Blackwell提高10倍; 2、Groq 3(LPU芯片):计划26Q3出货,三星代工;1)单芯片参数 – 500 MB SRAM;– 150 TB 带宽;– 1.2 PFlop 算力;2)8 – 9.6PFlop(FP8下),Rubin是50 PFlop(FP4下);3)LPX机架:单机架256个LPU,置于Vera Rubin机架旁,Groq LPX可以将其Rubin GPU的每瓦Token 处理性能提升35x;其中GPU用于高吞吐,LPU用于低延迟。 – 128GB SRAM;– 40PB/s带宽;– 315 PFlop算力(FP8下);– 256颗芯片;– scale-up带宽:640TB/s;联合计算:通过英伟达Dynamo计算架构,Vera Rubin NVL72和Groq 3 LPX机柜联合计算,Vera Rubin负责Perfill和Decode ATTN阶段,Groq 3 LPX负责Decode FFN阶段。 根据英伟达披露数据,随着TPS/单用户的提升,TPS/MW(单MW每秒Token吞吐量快速下降),再加入LPU联合计算后,在高TPS/单用户环节,Rubin NVL72的TPS/MW是Blackwell NVL72的35倍。 3、Kyber原型机:预计27年发货,为Vera Rubin Ultra的下一代机架级系统,仍属于Rubin系列,单托盘144颗GPU,计算托盘以垂直而非水平放置,以提高密度并降低延迟。 其他1、DLSS 5:由AI 驱动,用于游戏的超分辨率,计划今年秋季推出。 2、Token King:老黄认为,英伟达拥有全球最低的单Token成本,是Token之王。 3、AI推理的拐点已经到来:云厂商的算力部署大约占到整体算力总需求的60%,剩下的是区域云、主权云、企业、工业、机器人、边缘计算等1)强调Token/watt、Token价格 2)GB300 Performance/Watt比竞争对手好50x;相比于H200 NVL8,GB300 NVL72的Token成本降低30x 4、Vera CPU:用于处理Agentic AI任务,比传统CPU速度快50% 。 5、太空算力:英伟达和合作伙伴正在研发一台用于太空的服务器,称其为Vera Rubin Space-1,最大的问题在于太空散热(太空中没有热传导、没有对流)。 6、Olaf机器人:英伟达和迪士尼正在制造一台Olaf机器人。 7、宣布NemoClaw参考栈:一个针对OpenClaw Agent平台的堆栈,用于创建AI Agent,其使用Nvidia AI Agent Toolkit 去优化OpenClaw,安装用于开源模型的OpenShell和沙盒。8、预计其Blackwell和Rubin产品,到2027年底,累计创造1万亿美金收入。25年10月,预估为5000亿美金,26年2月电话会,CFO上调预期,会超过先前的估算。