您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [开源证券]:美股公司首次覆盖报告:“三芯”齐驱,高速互联,再战10万卡集群 - 发现报告

美股公司首次覆盖报告:“三芯”齐驱,高速互联,再战10万卡集群

2025-03-25 吴柳燕,杨哲 开源证券 刘银河
报告封面

全球AI算力龙头,B系列放量在即,给予“买入”评级 依托CUDA体系构建的护城河,英伟达逐步发展为高性能计算行业的领军者,在整体GPU领域市场份额达到80%,在数据中心GPU更是达到98%的市场份额,公司下一代GPU产品B系列放量在即,有望驱动后续业绩增长,预计FY2026-2028年GAAP净利润为1104/1439/1626亿美元,对应EPS分别为4.75/6.15/6.95美元,同比增长52%/30%/13%,当前股价对应FY2026-2028年的PE估值为25.6/19.7/17.5倍。随着架构持续升级,英伟达GPU仍有望成为高算力集群时代的首要选择,“三芯战略”、10万卡网络互联平台、汽车及机器人等领域存在想象空间。首次覆盖,给予“买入”评级。 打造“三芯”战略,实现数据摩尔定律 当前数据中心已成为英伟达核心的业绩驱动,公司以GPU为核心,实行“GPU+CPU+DPU”三位一体的产品战略,提供基于CUDA的行业领先GPU设备,并可通过组件形式(HGX、DGX、NVL72等)提供加速计算解决方案。(1)GPU:架构持续迭代,在最新的Blackwell架构中,GPU有望达到20000 TFLOPS FP4算力,较以往代际的架构有本质的提升;(2)CPU:依托Arm实现较强内存一致性,NVLink-C2C保证芯片高宽带互联,更能适应AI数据计算;(3)DPU:收购Mellanox,加速了DPU技术的落地,以实现数据摩尔定律。 深化网络互联技术布局,静待10万卡集群时代 10万卡时代到来,网络集群能力将愈发重要。在GPU互联上,英伟达NVLink技术可实现GPU数据直连,NVSwitch提升GPU链路上限,用于Blackwell架构的NVLink5.0,整体双向带宽将达到1.8TB/s,是PCIe带宽的14倍,相比上代突破较大;在算力集群上,英伟达充分布局Infiniband和以太网,Spectrum有望在推理场景中充分放量。 风险提示:产能爬坡低于预期、行业需求低于预期、行业竞争加剧。 财务摘要和估值指标 1、英伟达:全球算力领军者,全方位布局AI产业 全球GPU龙头,充分布局Gen-AI。英伟达业务起始于图形处理器,打造了通用计算体系CUDA架构,由此开启了加速计算的新纪元,逐步发展为高性能计算行业的领军者,在当下火热的Gen-AI行情中占据关键位置。依托CUDA体系构建的护城河,英伟达在整体GPU领域市场份额达到80%,在数据中心GPU市场更是达到98%的份额。产品上,英伟达充分布局,在数据中心业务持续创收的同时,发掘多条成长曲线,实现了从芯片层、云计算层到软件应用层的全方位布局,为未来持续发展奠定基础。 图1:英伟达自下而上布局了从芯片到应用的几乎所有层级 受益于生成式AI带来的行业变革,数据中心业务成为核心增长引擎。在2023年(对应英伟达2024财年)之前,尽管英伟达在数据中心已有充分布局,但收入整体仍然受到游戏行业周期及GeForce更新迭代影响。2022年Q4,基于Transformer架构的ChatGPT诞生,带动科技行业加大GPU数据中心投入,作为核心“卖水人”的英伟达,数据中心业务迎来快速增长,FY2025Q4,英伟达游戏/专业可视化/计算/网络/汽车收入占比为6%/1%/83%/8%/1%。 图2:FY2024以来英伟达收入提速明显 图3:数据中心业务成为英伟达的核心增长来源(营收单位:百万美元) 英伟达GPU地位稳固,稳健升级带动毛利率提升。从较长的时间周期上看,得益于英伟达产品稳固的市场地位,GPU架构按照2-3年的速度持续更新,带动毛利率稳步提升,FY2014-FY2018年,数据中心业务快速起量,规模效应下费率摊薄明显,至FY2019年净利率达到35%。此后在生成式AI带动下,高盈利水平的数据中心业务占比持续提升,至FY2025净利率达到56%。 图4:随着产品持续迭代,中长期看英伟达毛利率稳步提升,带动净利率上行 2、发展历程:三十年历经沉浮,终成算力王者 2.1、1993-2004年(3D加速卡时代):背靠微软掌握标准,显卡龙头地位初显 公司早期聚焦图形芯片,依靠游戏主机厂世嘉赚取第一桶金。1993年4月,从集成电路生产商LSI Logic出来的黄仁勋,联合Sun公司两位年轻工程师——Chris Malachowsky和Curtis Priem共同创立了英伟达。初期,公司旨在通过生产3D图形芯片布局游戏和多媒体市场。彼时3D游戏及3D渲染仍然处于早期,业内并无统一标准,企业鱼龙混杂,既包括索尼、东芝、IBM等大厂,也有很多如英伟达一般的创业者,这其中,1994年成立的3dfx凭借Voodoo显卡,成为PC端3D游戏的领袖。1995年英伟达推出公司首款面向游戏主机的多媒体加速器——NV1,集成了声卡和手柄控制单元。尽管该产品相较Voodoo性能不高,兼容性差,但NV1仍被运用于世嘉第六代游戏主机“土星”,为公司赚得了第一桶金(游戏机不需要考虑兼容性问题)。 图5:90年代消费型3D显卡市场参与者较多 公司濒临破产,绑定微软重获新生。1996年,微软发布了Direct 3D标准(只支持“三角形绘图”),而英伟达因坚持“四边形绘图”的研发路线,NV1很快便无人问津,同时,为世嘉研发的NV2以失败告终,而对手Voodoo则顺应规律获得80%的市场份额,英伟达走到破产边缘。基于此,英伟达做出如下应对: (1)人事方面:任命主机游戏厂商水晶动力的首席技术官David Kirk作为英伟达的“首席科学家”; (2)研发方面:确定了为期六个月的内部周期目标,产品更新迭代较快,更快满足下游需求的变化,同时即便某一产品失败,也不会威胁到公司的生存; (3)拓客方面:绑定PC大客户微软,1997年推出全球首款128bit的3D处理器RIVA128(NV3),这是第一款支持微软Direct3D加速的图形芯片,也是当时市场上唯一真正具有3D加速能力的2D+3DAGP显卡,上市四个月出货量突破100万片。至1997年底,英伟达的3D显卡市场份额为24%,排名第二(仅次于3Dfx Interactive)。随后,英伟达进一步发布的RIVA 128ZX支持OpenGL,在雷神之锤中表现不错,而雷神之锤不支持GLIDE标准,使得Voodoo的优势有所弱化。 表1:90年代主要3D显卡芯片有着多种显示标准 随着90年代计算机的普及和Windows的崛起,图形芯片主流市场逐步从主机转向PC,也使得英伟达在微软的助力下快速起势。1999年1月,英伟达全年营收突破1.5亿美元,并在纳斯达克挂牌上市。同年5月,其图形处理器销量超过1000万。8月,英伟达推出第一款以GeForce命名的显示核心——GeForce256,并首次提出GPU概念,而后戴尔、Gateway、康柏、NEC、IBM等纷纷宣布预装英伟达的GPU,与此同时,传统3D加速卡市场也进入了快速洗牌阶段,2000年底英伟达以7000万美元现金、100万股公司股票,将3Dfx收入囊中,正式成为行业老大,彼时市场仍具备竞争力的厂商主要为ATI。在这一过程中,英伟达绑定微软持续推进业务,DirectX 7.0推出T&L技术(极大解放了CPU的算力,也是显卡从3D处理器转称为GPU图形处理器的核心原因)、DirectX 8.0实现了称为显卡革命的动态观影效果,而GeForce亦成为这些DX(DX即DirectX缩写,下同)系列的代表性显卡。 图6:1996年起,3D芯片厂商在经历过蛮荒增长后进入行业洗牌期 成也微软,败也微软,Xbox首发失利引发英伟达与微软矛盾。英伟达GPU的畅销加速了DirectX的普及,微软与英伟达相辅相成,由此微软不仅让英伟达参与到DirectX标准的制定中,亦在2000年将初代Xbox订单交于英伟达,这成为当时英伟达创办以来最大的订单。但由于研发时间短,期间出现电源供应Bug、数据库功能不足等一系列问题,最终Xbox错过先机败给了PS2。为了与PS2竞争,微软计划降低Xbox二代产品主机售价,并同时要求英伟达降低芯片价格,但受到黄仁勋拒绝,叠加各种品控问题,最终双方矛盾激化。 微软扶持ATI,最终带来N卡与A卡长期拉锯战。GPU行业更新迭代迅速,上一世代的赢家并不必定能锁定下一时代的胜局,而在DX9之前,英伟达产品持续领先ATI,核心在于跟紧DX标准更新,通过抢先发布支持新显示标准的产品来抢占市场。然而,由于英伟达与微软的嫌隙,微软转而重视ATI的扶植,使得英伟达错过了微软DX9规格确立的重要消息,直接导致当年推出的GeForce FX由于兼容性问题败给ATI的Radeon 9700,此后Intel也开始扶持ATI,进一步强化了ATI的生命力,尽管之后英伟达与微软达成和解,亦拿下索尼PS3的订单,但英伟达龙头地位已经开始动摇,至2004年三季度,在独立显卡市场,ATI市场占有率达到59%,英伟达只有37%。 2.2、2005-2016年(CUDA通用计算时代):打造CUDA通用计算体系,埋下时代伏笔 2006年英伟达推出CUDA通用计算平台,为AI时代埋下伏笔。2004-2007年,英伟达业务发展相对平稳,在这其间,AMD于2006年收购ATI,但整合过程困难,并让AMD背上承重的负债,致使ATI在与英伟达的竞争中落伍。当此之时,英伟达开始思考更为长远的问题,彼时英特尔的CPU可以通过多线程技术被所有计算机应用分享,但GPU还只能通过OpenGL/DirectX等接口与用户交互,如果能够在GPU中提供合适的编程模型,依托GPU的并行计算能力,每台PC都可以变成一座超大规模高性能计算机。基于此,2006年,英伟达发布CUDA平台,并运用于2007年发售的Tesla系列,标志着GPU不再是图形处理器,而成为通用计算平台。尽管在较长的时间里,CUDA带来的高投入低回报并未得到市场的充分认可,前谷歌CEO Eric Schmidt称“CUDA不过是NVIDIA为推广其GPU产品而推出的一项‘多余’的技术”。但随着AI时代到来,CUDA即成为维护英伟达深厚护城河的重要力量。 图7:2002-2004年ATI市场份额逐步攀升,短暂超越英伟达后持续向下 相比CPU,GPU拥有更多的数据处理单元、更高的算力与内存带宽,使得其更适合大规模并行运算。从运行效果上看,GPU体现出远高于CPU的运算能力及内存带宽,从运行逻辑上看,CPU适合复杂、灵活的逻辑运算,GPU适合简单、大规模的并行运算,在底层硬件上,CPU的控制单元、缓存单元占有较大比重,而GPU则以并行的数据处理单元为主。 图8:英伟达GPU浮点运算数远高于Intel的CPU 图9:英伟达GPU的内存带宽远高于Intel的CPU 图10:CPU与GPU架构对比,GPU拥有更多的数据处理单元 英伟达通过GPU实现加速计算的核心在于2个技术:SIMT(Single-Instruction,Multiple-Thread)和Hardware Multithreading。 SIMT:即单指令,多线程。所有线程共享同一指令流,这种设计使得GPU能够在大量数据上同时进行相同或几乎一致的计算; Hardware Multithreading:将进程的运行上下文一直保存在硬件上,因而不存在运行上下文切换带来开销的问题(传统CPU的多进程是将进程运行上下文保存在内存中,进程切换时涉及到内存的读取,因而开销较大)。 CUDA体系由3部分构成: 1、指令集架构:CUDA定义了一种针对GPU特性的指令集,允许程序员直接编写针对GPU硬件的代码。这些指令专为大规模并行处理而设计,能够高效地驱动GPU上的数千个并行处理单元(如CUDA核心或流处理器)同时工作。 2、硬件:即英伟达GPU内部的CUDA Core,这种高度并行的硬件设计使得GPU在处理大量数据时能显著提高计算效率,尤其适合于处理诸如矩阵运算、图像处理、物理仿真、机器学习等需要大规模并行