您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国泰君安证券]:英伟达首次覆盖报告:重塑计算,世界AI的引擎 - 发现报告

英伟达首次覆盖报告:重塑计算,世界AI的引擎

2023-06-05 李奇,梁昭晋 国泰君安证券 野的像风.
报告封面

首次覆盖,给予“增持”评级。英伟达作为行业龙头当仁不让,考虑到其1QFY2024营收的出色表现,包括数据中心收入创下42.8亿美元的纪录,以及英伟达自身对于2QFY2024的收入展望达110.0亿美元的乐观预期,我们预计公司FY2024E/FY2025E/FY2026E营业收入分别为400.0/516.26/620.0亿美元,同增48.29%/29.07%/20.09%,FY2024E/FY2025E/FY2026E经调整净利润分别为151.96/223.07/285.79亿美元,同增247.89%/46.80%/28.12%。 英伟达以超异构创新构建面向大规模AI计算的系统性竞争优势。英伟达面向AI时代大规模并行计算,进行了全栈系统的优化。英伟达芯片互联通信技术NVLink性能快速迭代,GPU +Bluefield DPU+Grace CPU的结合开创性地实现了芯片系统间的高速通信互联。同时CUDA充当通用平台,引入英伟达软件服务和全生态系统。我们认为,芯片和系统耦合的实现使得英伟达真正实现了超异构创新。 GH200超级芯片是英伟达产品与技术的集大成者。我们认为,GH200集合了最先进的Grace Hopper架构,并应用第四代Tensor Core提升计算性能、进行模型优化,NVLink实现了高速的传输,尤其是NVLink改变了传统PCIe复杂的传输过程,满足了在每个GPU之间实现无缝高速通信的需求,构建起了芯片间的高速互联系统,将进一步形成英伟达的竞争壁垒。 英伟达作为龙头企业将大比例享受AI芯片行业整体需求高增带来的红利。IDTechEx预测2033年全球AI芯片市场将增长至2576亿美元;JPR预测2022-2026年全球GPU销量复合增速将保持在6.3%水平。英伟达作为业内有目共睹的头部公司,产品生态具备显著的稀缺性,将在算力领域充分受益,享受市场爆发带来的客户需求高增。 风险提示:AI应用发展不及预期;公司研发进度不及预期;地缘政治冲突影响产品销售。 1.一台不断学习进化的机器,三十年打造生态帝国 1.1.图形芯片时代开端,帝国之路就此开启 英伟达成立于1993年,怀揣打造图形芯片时代愿景。英伟达(NVIDIA)总部位于美国加利福尼亚州圣克拉拉市,依托硅谷作为全球电子工业基地的地缘优势 ,1993年 , 黄仁勋 、克里斯 (Chris A.Malachowsky)与普雷艾姆(Curtis Priem)怀着PC有朝一日会成为畅享游戏和多媒体的消费级设备的信念,共同创立了英伟达。 图1英伟达初代商标 1.2.多方求索重塑行业,重新定义现代图形 1.2.1.1993年-1998年:萌芽期 图形芯片市场竞争日益激烈,英伟达多方探索寻求突破。英伟达成立之初,市场上仅有20余家图形芯片公司。1994年,英伟达与SGS-THOMPSON首次开展战略合作;1995年,英伟达推出其首款显卡产品NV1,配备了基于正交纹理映射的2D/3D图形核心,支持2D、3D处理能力的同时还拥有音频处理能力;1996年,英伟达推出首款支持Direct3D的Microsoft DirectX驱动程序;1997年,英伟达发布全球首款128位3D处理器RIVA128,发布后四个月内销量超100万台,但此时,图形芯片这一市场的竞争者已飙升至70家,英伟达深陷财务泥淖,最终决定将研发和生产重心放在2D/3D的PC专用融合显卡领域;1998年,英伟达与台积电签订多年战略合作伙伴关系,台积电开始协助制造英伟达产品。 图2英伟达首款显卡产品NV1 图3英伟达首款驱动MICROSOFT DIRECTX 1.2.2.1999年-2005年:成长期 1999年发明GPU,行业重塑之路就此开启。GeForce 256是由英伟达发布的全球首款GPU,英伟达将GPU定义为“具有集成变换、照明、三角设置/裁剪和渲染引擎的单芯片处理器,每秒可处理至少1000万个多边形”。同年,英伟达推出适用于专业图形的Quadro GPU,并宣布以每股12美元的价格首次公开募股。2000年,显卡先驱3dfx因先前拒绝使用微软Direct3D通用API标准而导致其显卡通用性降低,并因其市场战略的失误,最终被英伟达低价收购;2003年,英伟达收购无线领域图形和多媒体技术领导者MEDIAQ,2004年,NVIDIASLI问世,大大提升了单台PC的图形处理能力。 图4英伟达GeForce256 DDR 图5显卡先驱3dfx 1.2.3.2006年-2014年:成熟期 CUDA打造GPU计算的开发环境,硬件+软件生态帝国初现。2006年,英伟达推出基于通用GPU计算的CUDA架构,借助CUDA和GPU的并行处理能力,英伟达收获了开发者庞大的用户群;2007年,英伟达推出TeslaGPU,让此前只能在超级计算机中提供的计算能力被更广泛的应用;2008年,Tegra移动处理器问世,其能耗约为一般的PC笔记本的三十分之一;2013年,四核移动处理器Tegra4发布;2014年,英伟达推出192核超级芯片TegraK1和平板电脑SHIELDtablet。至此,英伟达的几大产线均逐步成熟,应用行业逐步扩张,产品生态逐步健全。 图6CUDA的生态系统 图7平板电脑SHIELDtablet 1.2.4.2015年至今:转型期 深度学习需求催化英伟达产品转型,为AI革命注入强劲动力。2015年,搭载256核移动超级芯片的TegraX1的NVIDIADRIVE问世,其可用于驾驶辅助系统,为自动驾驶汽车技术发展铺平了道路,也标志着英伟达正式投身深度学习领域;2016年,英伟达推出第11代GPU架构PASCAL、首款一体化深度学习超级计算机DGX-1和人工智能车辆计算平台DRIVE PX 2,相较CPU而言,DGX-1可将深度学习训练速度提高96倍;2017年,更适合超算的Volta架构发布;在随后的几年里,Turing、Ampere等架构陆续发布,持续助力AI革命。 图8 DRIVE SDK平台 图9DGX-1可大幅提升深度学习训练速度 1.3.组织架构明晰,管理团队专业 组织架构服务产品业务条线,管理团队权责清晰。据theofficialboard,英伟达的组织架构清晰,技术和运营部门较为庞大,各大核心业务条线均有团队专门负责。英伟达官网招聘信息显示,英伟达定义的其核心业务部门包括AI、研究和硬件三大类。我们认为,公司组织架构设置平行于产品业务,有助于发挥研究者的专项技术才能,并强调研究的前瞻性和突破性。同时,以黄仁勋为首的管理团队具有专业的业务背景与管理才能,公司管理层与董事会均由经验丰富的人士担任。 图10英伟达主要管理团队 图11英伟达主要组织架构 1.4.黄仁勋:不止是CEO,更是精神领袖 作为创始人、CEO与精神领袖,黄仁勋带领英伟达创造AI龙头奇迹。黄仁勋,1963年出生于中国台北,美籍华人。作为公司创始人,黄仁勋历经30载依旧任英伟达的总裁兼首席执行官。他曾被《哈佛商业评论》和Glassdoor评为全球最佳CEO和受雇员评价最高的CEO。2021年9月,黄仁勋登上《时代》杂志封面,成为《时代》杂志2021年世界最具影响力的百位人物之一。 兼具技术与业务背景,葆有实干与远见特质。黄仁勋1984年于俄勒冈州立大学取得学士学位,1990年获得斯坦福大学硕士学位,1983-1985年间,其担任AMD芯片工程师,而后跳槽至LSI Logic继续从事芯片设计,在LSI Logic任职期间,黄仁勋转岗销售部门,因其出色的表现很快晋升为部门经理,从此踏上管理岗位。在1993年英伟达筹建之初,因其出色的技术和业务背景,克里斯与普雷艾姆推举黄仁勋担任英伟达总裁兼CEO。2020年,黄仁勋获颁台湾大学名誉博士学位,以表彰其在人工智能与高效能计算领域的伟大贡献。 图12英伟达CEO黄仁勋 图13黄仁勋获台湾大学名誉博士学位 2.技术与产品高筑壁垒,让AI照进现实 细分英伟达的产品线,我们可将其划分为硬件产品、软件平台、应用框架三个维度。同时英伟达基于“硬件+软件”的技术优势,同时依托面向行业打造的应用框架,提供了对于细分行业定制的行业解决方案。 图14英伟达产品架构图 2.1.硬件产品始于GPU,但不止GPU 英伟达首创GPU产品,推动处理器中逻辑运算单元数量增长。CPU是电脑的中央处理器,同时也是电脑的控制和运算核心,能够解释计算机发出的指令。而GPU是电脑的图形处理器,最初主要用于进行图像运算工作。英伟达研发世界上首款GPUGeForce 256,开GPU之先河,令GPU逐渐演化为普遍使用的并行处理器。整体而言,GPU和CPU同为基于芯片的微处理器,是重要的计算引擎。CPU拥有更大的逻辑运算单元和控制单元,同时拥有更大的缓存空间,但GPU却拥有更多的逻辑运算单元数量。 图15CPU与GPU的结构区别 需求激增催化GPU市场规模爆发式增长。IC Insights数据显示,2015年至2021年间,全球GPU芯片市场规模年均增速超20%,2021年,全球GPU芯片市场规模已超过220亿美元,全年出货总量超过4.6亿片。我们认为,目前GPU仍占全球AI芯片的主导地位。 图162015-2021年全球GPU芯片行业市场规模(亿美元) 英伟达深耕GPU业务,主要显卡产品更迭迅速。英伟达主要显卡产品以GeForce为前缀命名,自2000年发布GeForce 2 GTS起,GeForce系列划分出多种型号,直至目前,英伟达在售的主要显卡产品包括GeForce16、GeForce20、GeForce30、GeForce40等。从GPU架构角度,自2008年发布Tesla架构后,英伟达依次发布了Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere、Hopper、AdaLovelace等GPU微架构,近年来GPU架构的更新速度显著加快。 图17英伟达主要显卡和架构发展史 表12010年至今英伟达GPU架构发展 Ada Lovelace架构为英伟达GeForce RTX40系列显卡提供动力支持。Ada Lovelace架构主要用于游戏显卡的生产,其采用的第四代Tensor Core使用首次推出的全新FP8 Transformer引擎,能够提升四倍吞吐量; 其中的第三代RT Core配备全新Opacity Micromap和DisplacedMicro-Mesh引擎,可大幅提升进行光线追踪的速度,所占用的显存只有之前的二十分之一;并且,AdaLovelace架构可使用DLSS 3(深度学习超采样)算法,可对多个分辨率较低的图像进行采样,并使用先前帧的运动数据和反馈来重建原生质量图像,从而创建更多高质量帧,显著提升FPS(Frames per second),目前已应用于200多款游戏和应用。 图18英伟达第三代RT Core实现实时光线追踪 图19DLSS利用AI实现FPS性能的成倍提升 Hopper架构为加速计算实现新的巨大飞跃。与Ada Lovelace架构不同 ,Hopper架构主要用以打造加速计算平台 。Hopper架构以Transformer为加速引擎,其中的Hopper Tensor Core能够大幅加速Transformer模型的AI计算。Hopper架构同时搭载NVLink Switch系统,NVLink作为一种纵向扩展互联技术,与新的外部NVLink交换机结合使用时,系统可以跨多个服务器以每个GPU 900 GB/s的双向带宽扩展多GPU IO,能够满足每个在GPU之间实现无缝高速通信的多节点、多GPU系统的需求。同时,Hopper架构还采用了具有机密计算功能的加速计算平台CCX,以保障数据处理期间的GPU使用安全。 图20NVLink技术可提升系统吞吐量 图21CCX在AI模型和应用的各阶段保障数据安全 GeForce RTX40显卡基于Ada Lovelace架构打造