AI智能总结
摘要 -NVIDIA发布了内存增强版Blackwell产品Blackwell Ultra。NVL7规格显示,单卡Dense FP4算力较B200提升50%,HBM配置升级至288GB HBM3e。网络层面,采用ConnectX 8网卡替代ConnectX 7,进一步提升性能。Blackwell Ultra预计于2025年下半年出货。此前市场预期的GB300采用“SXM Puck”形式及BGA封装的设计未在本次发布会上得到确认,整体发布符合市场预期。 -NVIDIA发布了Blackwell继代产品Rubin和Rubin Ultra,并统一了GPU die计数标准。以Rubin NVL144为例,内含144颗die,实际由72颗Rubin芯片组成。Rubin Ultra单颗芯片整合4颗die,NVL576内仅有144颗Rubin Ultra芯片,低于此前预期的NVL288。Rubin Ultra采用纵向Tray结构,优化了机柜空 间,预计将在大规模Scale Up场景中成为主流。值得注意的是,相较于GTC 2024发布的路线图,Rubin系列的产品节奏出现约半年延迟,首款Rubin产品推迟至2026年下半年上市,而Rubin Ultra则需等待至2027年下半年,整体进度不及市场预期。此次延迟或与制程、封装及机柜层面的技术挑战有关,成为市场反应不佳的主要原因之一。 -NVIDIA发布了Spectrum-X Photonics和Quantum-X Photonics硅光交换机平台,单端口速率达1.6 Tb/s,总带宽最高400 Tb/s,显著提升数据中心传输性能。Spectrum-X Photonics提供最高512个800 Gb/s端口,Quantum-X Photonics提供144个800 Gb/s InfiniBand端口,采用200 Gb/s SerDes技术,进一步提升传输效率。该系列交换机提升了AI集群的扩展性,为超大规模数据中心提供更优解决方案。 -NVIDIA发布了DGX Spark和DGX Station,进一步推动AI超算向个人桌面端普及。DGX Spark采用GB10 Blackwell Superchip,具备128GB统一内存和最高4TB SSD,算力达1,000 TOPS。DGX Station搭载更强的GB300 Blackwell Ultra Superchip,AI性能达20 PFLOPS,配备784GB统一内存,满足更高强度的AI训练和推理任务,进一步拓展AI计算的应用场景。 -NVIDIA发布了开源推理服务框架NVIDIA Dynamo,旨在优化大规模AI模型的推理部署。Dynamo在运行 DeepSeek-R1模型时,将请求处理能力提升多达30倍。其性能提升得益于解耦的Prefill/Decode阶段、动态GPU调度、LLM感知请求路由、加速GPU间异步数据传输及KV Cache跨内存层级卸载机制。Dynamo已在GitHub开源,并集成至NVIDIA AI Enterprise的NVIDIA NIM微服务,助力企业更高效部署AI推理模型。 风险提示 芯片制程发展与良率不及预期中美科技领域政策恶化智能手机销量不及预期 内存加强版Blackwell产品Blackwell Ultra正式发布 英伟达正式发布其内存增强版Blackwell产品Blackwell Ultra,从NVL72总体参数上来看,单卡Dense FP4算力相较B200提升50%,单卡HBM配置提升至288GB HBM3e,网络层面,ConnectX 8网卡取代了之前的ConnectX 7,预计将于2025年下半年出货。 图表1:Blackwell Ultra参数 此前市场预期,与B200系列产品所采用的整套Bianca主板设计不同,GB300将以“SXM Puck”的形式提供,而Grace CPU将采用BGA封装形式。这一设计意味着B300可更快速地从主板上拆卸或更换,从而提升后期维护的便捷性。然而,这一消息并未在本次发布会上得到确认。 图表2:先前市场预期B300仅以SXM Puck的形式提供,给终端客户更大的定制空间 总体上,本次Blackwell Ultra产品发布符合市场预期。 Vera Rubin及后续产品Roadmap发布 在本次GTC大会上,NVIDIA同步发布了Blackwell继代产品——Rubin和Rubin Ultra。值得注意的是,公司在此次发布会上对GPU die的计数标准进行了统一,明确将die数量作为衡量机柜内互联范围的单位。以Vera Rubin NVL144为例,NVL144机柜内共包含144颗die。鉴于单颗Rubin芯片由两颗die组成,这意味着NVL144实际上由72颗Rubin芯片构成。相比之下,Rubin Ultra单颗芯片内集成了4颗die。 因此,尽管NVL576机柜内共有576颗die,但实际上仅由144颗Rubin Ultra芯片组成。这和先前市场预期的芯片层面而非die层面的NVL288(由288颗芯片组成)尚有差距。 图表3:Rubin NVL144参数 图表4:Rubin Ultra NVL576参数 在单卡算力方面,Rubin和Blackwell Ultra的芯片面积均接近两倍光罩极限。然而,Rubin的算力超过Blackwell Ultra的三倍,这表明Rubin可能采用了比N4更先进的制程工艺。而Rubin Ultra的芯片面积接近四倍光罩极限,算力相应翻倍,意味着Rubin Ultra的算力提升更多依赖于更大的芯片面积。这与我们此前的观点一致,即在晶体管制程迭代放缓的背景下,GPGPU的算力提升将更多依赖于更大的芯片和封装面积。 由于Rubin NVL144仍由72颗接近两倍光罩极限面积的芯片组成,其机柜结构与Blackwell NVL72类似。而Rubin Ultra NVL576由于芯片数量翻倍,机柜结构有所变化,可以看到机柜中所有的Tray均由横向放置改为纵向放置。此前市场对这一放置形式已有预期,从发布会的设计图来看,我们认为这一设计将在大规模Scale Up场景中成为主流方案。 图表5:纵向Compute Tray设计概念图 公司在本次大会上同步发布了后续数据中心产品的路线图,披露了Rubin的继任产品代号为Feynman。值得注意的是,与GTC 2024发布的路线图相比,本次GTC 2025发布的版本在产品迭代节奏上出现了约半年的延迟。根据GTC 2024的规划,Blackwell的产品周期原定为2024至2025年,而Rubin则覆盖2026至2027年。然而,从本次GTC公布的时间线来看,首款Rubin产品的上市时间已推迟至2026年下半年,而Rubin Ultra则需等待至2027年下半年。我们认为,公司的产品迭代节奏放缓主要受限于制程、封装及机柜层面的挑战。这一进度延迟正是GTC发布会后市场反应不佳的核心原因。 图表6:公司后续数据中心产品线路线图 推出首个硅光交换机产品 图表7:Spectrum-X和Quantum-X 图表8:Quantum-X结构图 在GTC 2025大会上,NVIDIA推出了面向超大规模数据中心的全新网络交换机平台——Spectrum-X Photonics和Quantum-X Photonics, 两者均采用硅光子(Silicon Photonics)技术。该系列新品将数据传输速率提升至每端口1.6 Tb/s,总带宽最高可达400 Tb/s,从而支持数百万颗GPU的高效协同运作。NVIDIA表示,相较于传统网络解决方案,新的交换机平台具备更高带宽、更低功耗损耗以及更优异的可靠性。 Spectrum-X Photonics以太网平台和Quantum-X Photonics InfiniBand平台均可实现每端口1.6 Tb/s的速率,达到当前顶级铜缆以太网解决方案的两倍。两者通过不同端口配置可实现高达400 Tb/s的总带宽。Spectrum-X Photonics交换机提供多种配置选项,基础型号支持128个800 Gb/s端口或512个200 Gb/s端口,总带宽可达100 Tb/s。 更高规格的机型则提供512个800 Gb/s端口或2,048个200 Gb/s端口,总带宽高达400 Tb/s。 Quantum-X Photonics系列则采用144个800 Gb/s InfiniBand端口,并配备200 Gb/s SerDes技术,以进一步优化数据传输效率。与上一代网络解决方案相比,Quantum-X平台的性能提升至两倍,且AI计算集群的可扩展性提升了五倍,使其成为应对高强度工作负载和构建超大规模AI集群的理想选择。 NVIDIA的Spectrum-X Photonics以太网平台和Quantum-X Photonics InfiniBand平台采用了台积电(TSMC)的硅光子平台——Compact Universal Photonic Engine(COUPE)。该平台将基于 65nm 工艺的电子集成电路(EIC)与光子集成电路(PIC)相结合,并采用台积电的SoIC-X封装技术,实现高度集成。 个人AI电脑DGX Spark与DGX Station 在本次GTC 2025大会上,NVIDIA发布了两款面向个人AI计算的新产品——DGX Spark和DGX Station,标志着AI超算能力正进一步向个人桌面端渗透。凭借更强大的计算性能与更便捷的部署方式,这两款设备有望在AI开发者、研究人员及数据科学家群体中引发广泛关注。 图表9:DGX Spark结构图 图表10:DGX Station母板 公司将DGX Spark定位为全球最小的AI超级计算机,外观类似Mac Mini,售价为3,000美元。该设备搭载了基于Grace Blackwell平台的GB10 Blackwell Superchip,集成第五代Tensor Core,并支持FP4格式计算,专为桌面小型化设计而优化。尽管体积小巧,DGX Spark依然具备强大的AI推理与微调能力,最高可实现1,000 TOPS(每秒万亿次运算)的算力,支持NVIDIA最新的Cosmos Reason世界大模型及GR00T N1机器人基础模型。此外,Spark配备128GB统一内存和最高4TB的NVMe SSD,进一步增强其本地AI训练与推理性能,满足中小型企业、研究机构及独立开发者的日常AI任务需求。 相比之下,DGX Station则以更强性能面向高强度AI开发和推理场景。其搭载的全新GB300 Blackwell UltraSuperchip具备高达20 PFLOPS(每秒千万亿次运算)的AI性能,并搭配高达784GB统一内存,充分满足大型模型训练、推理及复杂AI工作负载的需求。凭借强大的性能配置,DGX Station无疑将成为企业、科研机构及AI专业人员在本地AI开发中的理想选择。 开源分布式推理服务库Dynamo 公司发布了全新的开源推理服务框架——NVIDIA Dynamo,专为生成式AI和推理模型的大规模部署而设计。Dynamo在运行开源DeepSeek-R1模型时,将请求处理能力提升多达30倍,显著优化了推理性能和计算成本,尤其在NVIDIA Blackwell平台上表现突出。 图表11:Dynamo使Deepseek-R1和Llama 70B推理性能显著提升 Dynamo的性能突破源于多项创新设计,包括解耦的Prefill与Decode推理阶段以提升GPU吞吐量、动态GPU调度以优化资源利用、LLM感知的请求路由避免KV Cache重复计算、加速GPU间异步数据传输缩短响应时间,以及KV Cache跨内存层级卸载机制以进一步提高系统吞吐量。Dynamo已在GitHub ( ai-dynamo/dynamo )开源,并将集成至NVIDIA AI Ent