AI智能总结
投资要点 推荐逻辑:1)大模型和生成式] AI带动数据中心AI芯片需求快速增长,英伟达 数据中心GPU市占率超80%,超强算力&通信性能+CUDA生态+DGX Cloud AI云服务构筑公司宽广的护城河;2)游戏业务重回正向增长。随着显卡需求反弹,带动游戏业务回升;3)公司业绩高速增长,未来三年净利润年复合增速137%,估值显著低于同业平均水平。 AI芯片驱动高速增长,超强硬件性能+软件生态构筑强劲护城河。通过对硬件和软件进行集成,英伟达加速计算统一平台提供了端到端的解决方案。借助基于GPU、DPU和CPU新一代架构构建的NVIDIA加速计算平台,或重塑AI时代的数据中心。随着生成式AI和大语言模型需求不断增长,众多厂商竞相部署AI算力,带动公司数据中心芯片大幅增长。公司A100、H100、H200、L40S等明星产品线供不应求,订单能见度已至2024年;加速网络平台Spectrum-X旨在提高AI云的性能和效率,基于DGX Cloud的AI超级计算服务及AI代工厂服务为长尾市场提供定制大模型和生成式AI的服务。英伟达数据中心GPU市占率超80%,超强算力&通信性能+CUDA生态+DGX Cloud AI云服务构筑公司宽广的护城河,预计未来三年收入CAGR高达88%。 游戏业务重回增长轨道,Avatar云引擎为游戏AI赋能。游戏业务在经历四个季度的下跌调整之后,近两个季度业绩加速回暖,同比增速达到21.7%和81.5%。公司为游戏推出定制化的AI模型铸造服务Avatar云引擎,使用人工智能驱动的自然语言交互,通过给NPC赋予AI来改变游戏。随着显卡需求反弹,公司游戏业务有望持续回升。 智驾渗透率提升,汽车业务体量站上新台阶。随着智能驾驶渗透率提升,公司汽车业务体量从2023财年开始呈现上升趋势,近五个季度单季收入超过2.5亿美元。公司与联发科在智能座舱领域开展合作,该系统集成了用于AI和图形的新GPU chiplet IP,预计2026~2027年投入量产。 盈利预测与评级:公司是全球AI芯片龙头企业,预计未来三年归母净利润年复合增速为137%。结合业绩增速,给予公司2025财年35xPE,目标价667.1美元,对应市值1.65万亿美元。首次覆盖,给予“买入”评级。 风险提示:AI芯片需求或不及预期;游戏业务复苏或不及预期;产能扩产或不及预期;竞争加剧的风险;高端产品对华禁运政策加码的风险。 指标/年度 1智能计算引领者,GPGPU开创者 英伟达成立于1993年,是全球GPU龙头企业。英伟达早期借助CUDA库的构建和完善,显著降低了GPU编程门槛,并将GPU推向通用计算市场,引领了GPGPU的进化之路。英伟达借助软件业务形成的AI、Omnivers e、Drive Hyperion等平台,不断壮大其计算生态,进一步夯实了公司的业务护城河,数据中心、智能驾驶、AI、元宇宙等业务将打开公司新的成长空间。 图1:英伟达重大发展历程 英伟达的产品分为硬件和软件。硬件产品分为游戏和娱乐、笔记本电脑和工作站、云和数据中心、网络、GPU和嵌入式系统六大板块;软件产品有应用框架、应用和工具、游戏和创作、基础架构和云服务板块五大板块。 图2:英伟达硬件产品线 图3:英伟达软件产品线 截止2023年9月30日,英伟达前五大股东持股合计6.83亿股,占比27.6%。其中,Vanguard、贝莱德集团、FMR LLC(富达投资集团)、道富四家机构持股占比分别为8.25%、7.28%、4.97%和3.59%。创始人黄仁勋持股近8668万股,占比3.51%。 表1:英伟达重要股东持股 今年以来AI大模型和生成式AI迎来爆发,对GPU的需求大幅提升,英伟达2024财年呈现快速增长态势。FY24Q2营收135亿美元,同比增长101%,环比增长88%,大超市场预期;FY24Q3收入181亿美元,同比增长206%,实现了近五年来最大单季度同比涨幅。 FY24Q3GAPP净利润92.4亿美元,同比增长1259%,环比增长49.4%;non-GAPP净利润100.2亿美元,同比增长588%,环比增长48.7%。净利润的增长也超市场预期,实现近五年来单季度最大涨幅。 图4:英伟达营收(亿美元)及增速 图5:英伟达GAAP/non-GAAP净利润(亿美元)及增速 英伟达业务结构可分为数据中心、游戏、专业视觉、汽车、OEM&IP五大板块。其中,数据中心和游戏为公司主要收入来源。FY24Q3数据中心业务营收145亿美元,同比增长278.7%,环比增长40.6%,收入占比超过80%,成为英伟达收入和利润增长的最主要贡献。 对生成式AI和大语言模型的需求不断增长,众多云公司竞相部署AI芯片,带动了公司的数据中心芯片大幅增长。 图6:英伟达各业务收入(亿美元) 图7:英伟达各业务收入占比 2AI芯片驱动高速增长,超强硬件性能+软件生态构筑强劲护城河 人工智能发展离不开算力的支撑,随着模型的参数量和复杂程度不断增长,算力基础设施的供给水平将直接影响应用落地及其迭代的进程。目前全球AI服务器占AI基础设施市场的八成以上,是AI基础设施的主体。IDC预计2025年全球AI服务器市场规模达266亿美元。2020-2025年CAGR为18.9%,远超全球通用服务器市场增速。 GPU是目前主流的AI算力芯片。根据Verified Market Research,2021年全球GPU市场规模334.7亿美元,预计到2030年约4773. 7亿美元,CAGR达33.3%;2020年中国GPU市场规模47.39亿美元,预计到2027年市场规模达345.6亿美元,CAGR为32.8%,国内外GPU市场前景广阔。 图8:全球GPU市场规模(亿美元) 图9:中国GPU市场规模(亿美元) 英伟达的数据中心解决方案整体提供了NVIDIA加速计算统一平台,从AI、数据分析,到高性能计算(HPC),再到渲染,数据中心都是攻克某些重要挑战的关键。端到端的NVIDIA加速计算平台对硬件和软件进行了集成,可为企业构建强大而安全的基础设施蓝图,支持在现代化工作负载中实施从开发到部署的操作。 借助基于GPU、DPU和CPU三种新一代架构构建的NVIDIA加速计算平台,英伟达或重塑AI时代的数据中心。NVIDIA加速计算平台可提供支持从用于改善业务预测的数据分析、到自动驾驶汽车使用的AI、再到用于医疗诊断的高级可视化等多种应用的基础架构。采用NVIDIA加速系统的每个服务器和工作站都将配备计算加速器,为当今使用的现代应用(包括AI、可视化和自主机器等)提供支持。其中许多系统还会配备DPU,可加速对云原生和云计算框架至关重要的网络、存储和安全服务。 图10:NVIDIA加速计算平台 图11:NVIDIA加速系统与传统系统的对比 数据中心GPU方面,公司产品线涵盖了A100、H100、L40、L40S、GH200等产品。 A100采用NVIDIA Ampere架构,是NVIDIA数据中心平台的引擎。A100性能比上一代Volta提升了20倍,并可划分为7个GPU实例。A100提供40GB和80GB显存两种版本,A100 80GB将GPU显存增加了一倍,并提供超快速的显存带宽(超过2 TB/s),可处理超大型模型和数据集。2048个A100可在一分钟内成规模地处理BERT(某自然语言处理模型)之类的训练工作负载,A100的推理吞吐量是Intel Xeon Gold 6240 CPU的249倍。 图12:NVIDIA DGX A100组件配置 H100配备第四代Hopper架构和Trans former引擎,与A100相比,H100的综合技术创新可将大型语言模型速度最大提高30倍。对比A100 GPU,训练方面,H100可为多专家(MoE)模型提供高9倍的训练速度;推理方面,H100可将推理速度提高30倍,并提供超低的延迟;而在HPC应用方面的性能则提升高达7倍。H100 CNX将H100的强大功能与NVIDIA Connect X-7智能网卡的先进网络功能相结合,加速GPU驱动的I/O密集型工作负载。 表2:英伟达GPU性能指标:A100&H100 英伟达L40系列由Ada Lovelace架构提供支持,为GPU加速数据中心工作负载提供神经网络、可视化、计算和AI功能。最新一代的L40S,其Tensor性能为1466 TFLOPS,RT Core性能为212 TFLOPS,单精度浮点运算性能91.6 TFLOPS。NVIDIA Ada Lovelace架构提供第四代TensorCore、第三代RT Core、CUDA Core核心、Transformer引擎、DLSS 3的支持。 表3:NVIDIA L40S GPU规格 DGX GH200是将256个NVIDIA Grace Hopper核心完全连接到单个GPU中的新型AI超级计算机。NVIDIA DGX GH200支持万亿参数AI大模型训练,能处理大规模推荐系统、生成式人工智能和图形分析处理TB级模型,并为大型AI模型提供144 TB的共享内存和线性可扩展性。H200在显存上做了大幅升级,是市面上第一款带HBM3e显存的GPU,其显存容量达到141GB,显存带宽高达4.8 TB/s。 图13:DGX GH200连接NVLink交换机系统的拓扑结构 图14:NVIDIA DGX GH200性能指标 CPU方面,英伟达宣布推出首款面向AI基础设施和高性能计算的数据中心专属CPU——NVIDIA Grace,由两个CPU芯片通过最新一代NVLink-C2C技术互联组成。Grace基于最新的ARM v9架构,单个socket拥有144个CPU核心,可提供1TB/s的内存带宽,利用纠错码(ECC)等机制提供当今领先服务器芯片两倍的内存带宽和能效,兼容性亦十分突出,可运行NVIDIA所有软件堆栈和平台,包括NVIDIA RTX、HPC、Omniverse等。 图15:数据中心专属CPU GRACE DPU方面,英伟达截止目前已经推出了三代DPU,目前广泛应用的主要是BlueField-2和BlueField-3 DPU。BlueField-2 DPU将NVIDIA Mellanox Connect X-6 Dx网络适配器与ARM核心阵列相结合,可提供具有完整软件可编程性的专用硬件加速引擎,速度可达200 Gb/s。BlueField-2可针对从边缘到核心数据中心和云的云网络、存储、网络安全性、数据分析、HPC和人工智能提供灵活且高性能的解决方案,同时降低总体拥有成本。 BlueField-3 DPU是英伟达首款以线速处理软件定义网络、存储和网络安全的DPU,速度可达400 Gb/s。BlueField-3支持客户组织从云到核心数据中心再到边缘计算,构建软件定义硬件加速的IT基础设施。 表4:BlueField-2 DPU&BlueField-3 DPU性能指标 CUDA是由英伟达开发的用于GPU上的通用计算的并行计算平台和编程模型。借助CUDA,开发人员能够利用GPU的强大性能,显著加速计算应用程序。在GPU加速的应用程序中,工作负载的顺序部分在优化了单线程性能的CPU上运行,而应用程序的计算密集部分则在成千上万个GPU核心上并行运行。使用CUDA时,开发人员使用当下主流的编程语言,如C、C++、Fortran、Python和MATLAB等,并通过一些基本的关键字的扩展来表达并行性。英伟达的CUDA提供了开发GPU加速应用程序所需的Toolkit,CUDA Toolkit包括GPU加速库、编译器、开发工具和CUDA运行时库等。 自2006年诞生以来,CUDA生态系统迅速发展。使用CUDA开发的成千上万个应用程序已经部署到嵌入式系统、工作站、数据中心和云中的GPU上,合作伙伴包括了微软、Adobe等全球头部科技企业。CUDA在包括图像处理、深度学习、数值分析和计算科学等广