您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[万联证券]:电子行业跟踪报告:英伟达推出新一代计算架构,关注AI算力及应用部署 - 发现报告

电子行业跟踪报告:英伟达推出新一代计算架构,关注AI算力及应用部署

电子设备2024-03-22夏清莹、陈达万联证券L***
电子行业跟踪报告:英伟达推出新一代计算架构,关注AI算力及应用部署

强于大市(维持) ——电子行业跟踪报告 北京时间3月19日凌晨,英伟达创始人黄仁勋在2024年英伟达GTC大会现场发表演讲,发布了新一代计算架构Blackwell及系列芯片产品,并展示部分领域应用的进展。基于Blackwell架构的AI芯片及相关硬件设备的算力性能提升明显,同时围绕CUDA GPU生态,英伟达积极推进AI应用端部署,推动AI算力及应用产业链的发展。 投资要点: ⚫英伟达发布Blackwell系列GPU,多方面升级提高算力:英伟达发布了新一代计算架构Blackwell,以及采用Blackwell架构的GPU B200及GB200,在FP4精度下,Blackwell架构的AI计算性能达到Hopper架构的5倍。Blackwell系列GPU采用台积电4NP工艺,集成了2080亿颗晶体管,且升级了Transformer引擎、NVLink等以提升算力。相对上一代Hopper架构,Blackwell架构的集群化计算降低了能源消耗及所需的GPU数量,有望降低计算成本。过去,在90天内训练一个1.8万亿参数的MoE架构GPT模型,需要8000个Hopper架构GPU,15兆瓦功率;如今,在Blackwell架构下进行训练,同样90天时间的情况下只需要2000个GPU,以及1/4的能源消耗。 台积电继续扩大先进封装产能,关注本周英伟达GTC大会行业巨头持续加码AIPC,存储产业营收有望保持增长加快发展新质生产力,推动高水平科技自立自强 ⚫围绕CUDA GPU生态,英伟达积极推动AI应用部署:1)大模型领域,在CUDA GPU基础上推出企业级生成式AI服务,进一步推动模型本地部署;英伟达NIM是英伟达推理微服务的代表产品,在英伟达大型CUDA安装基础上工作,企业可使用这些微服务在自己的平台上创建和部署自定义应用程序,使开发人员能够将部署时间从几周缩短到几分钟;2)芯片制造领域,光刻计算库cuLitho通过生成式AI算法将工作流速度提升2倍,并已投入使用,随着EDA巨头新思科技将该技术集成到其软件工具中,cuLitho也可能会渗透到其他芯片设计厂商;3)MR领域,英伟达与苹果强强联合,将Omniverse平台引入Vision Pro,让开发者在工业元宇宙里利用空间计算进行作业。 ⚫投资建议:英伟达发布新一代计算架构及芯片产品,积极推动AI应用部署,建议关注AI算力及应用产业链的投资机遇。1)AI算力领域,英伟达引领AI芯片技术创新,算力产业链上下游厂商充分受益,建议关注上游HBM、先进封装等细分优质赛道;同时国内政策引导及AI产业浪潮有望加速国内AI算力自主可控进程,建议关注国产算力产业链的龙头公司;2)AI应用部署方面,英伟达展示大模型、芯片制造及MR等领域的应用,积极推动AI赋能千行百业,AI应用的部署有望提升企业生产力,建议关注前瞻布局AI应用领域的优质公司。 研究助理:陈达电话:13122771895邮箱:chenda@wlzq.com.cn ⚫风险因素:AI应用发展不及预期;AI需求不及预期;算力建设进程不及预期;市场竞争加剧。 正文目录 1英伟达发布Blackwell系列GPU,多方面升级提高算力...........................................32围绕CUDA GPU生态,英伟达积极推动AI应用部署..............................................43投资建议...........................................................................................................................64风险因素...........................................................................................................................6 图表1:GB200同过去架构的AI芯片性能对比...........................................................3图表2:Blackwell系列GPU与H100对比....................................................................4图表3:Blackwell系列用于大模型推理的速度是Hopper的30倍.............................4图表4:英伟达展示在CUDA上部署生成式AI服务...................................................5图表5:英伟达展示与EDA巨头新思科技的合作........................................................5图表6:英伟达展示Omniverse Cloud服务....................................................................6 1英伟达发布Blackwell系列GPU,多方面升级提高算力 英伟达2024 GTC大会发布新一代计算架构及芯片产品,算力达到上一代产品的5倍。北京时间3月19日凌晨,英伟达创始人黄仁勋在2024年英伟达GTC大会现场发表演讲,并发布了新一代计算架构Blackwell,以及采用Blackwell架构的GPU,分为B200和GB200产品系列,后者集成了1个Grace CPU和2个B200 GPU;其中B200 GPU拥有2080亿个晶体管,并以10TBps的互联速度将两块小芯片合在一起,大幅提高处理能力,提供高达20petaflops的FP4吞吐量;而GB200 GPU通过900GB/秒的超低功耗芯片连接方式,将两个B200 GPU连接到1个Grace CPU上。在FP4精度下,Blackwell架构的AI计算性能达到Hopper架构的5倍,经过8年时间的发展,英伟达AI算力实现了1000倍的增长。 资料来源:机器之心,万联证券研究所 BlackwellGPU在晶体管数量、Transformer引擎、NVLink方面均有所提升。1)晶体管承载方面,Blackwell GPU采用的台积电定制工艺从上一代4N升级至4NP,采用统一内存架构及双芯配置,将2个受光刻模板(reticle)限制的GPU die通过10TB/s芯片间接口连成一个统一GPU,集成了2080亿颗晶体管,共有192GB HBM3e内存、8TB/s显存带宽;2)Transformer引擎方面,Blackwell GPU搭载第二代Transformer引擎,采用新的微张量扩展支持和集成到英伟达TensorRT-LLM和NeMo Megatron框架中的先进动态范围管理算法,使Blackwell具备在FP4精度的AI推理能力,可支持2倍的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度;3)互联方面,Blackwell GPU采用第五代NVLink,新一代NVLink为每个GPU提供1.8TB/s双向带宽,支持多达576个GPU间的无缝高速通信,适用于复杂大语言模型;4)其次,还有RAS引擎、安全AI、解压缩引擎等方面的优势。 Blackwell架构的集群化计算相对降低了能源消耗及所需的GPU数量,有望降低计算成本。1)超级计算机的配置方面,36颗NVIDIA Grace CPU和72块Blackwell GPU通过第五代NVLink连接成一台超级计算机DGXGB200,而8个或以上的DGX GB200系统将构建成DGX SuperPOD,这些系统通过NVIDIA Quantum InfiniBand进行网络连接,可扩展到数万个GB200超级芯片。DGX GB200 SuperPod采用新型高效液冷机架规模架构,标准配置可在FP4精度下提供11.5 Exaflops算力和240TB高速内存,还支持增加额外的机架扩展性能。2)实践测试方面,在具有1750亿个参数的GPT-3 LLM基准测试中,GB200的性能是H100的7倍,并且训练速度是H100的4倍,用于大模型推理的速度是上代的30倍。过去,在90天内训练一个1.8万亿参数的MoE架构GPT模型,需要8000个Hopper架构GPU,15兆瓦功率;如今,在Blackwell架构下进行训练,同样90天时间的情况下只需要2000个GPU,以及1/4的能源消耗。 资料来源:机器之心,万联证券研究所 2围绕CUDA GPU生态,英伟达积极推动AI应用部署 在CUDA GPU基础上推出企业级生成式AI服务,进一步推动模型本地部署。英伟达继续扩大凭借CUDA和生成式AI生态积累的优势,推出数十个企业级生成式AI微服务,以 便开发者在英伟达CUDA GPU安装基础上创建和部署生成式AI Copilots。英伟达NIM是英伟达推理微服务的代表产品,是由英伟达的加速计算库和生成式AI模型构建的。微服务支持行业标准的API,在英伟达大型CUDA安装基础上工作,并针对新的GPU进行优化。企业可使用这些微服务在自己的平台上创建和部署自定义应用程序,同时保留对其知识产权的完全所有权和控制权。NIM微服务提供由英伟达推理软件支持的预构建生产AI容器,使开发人员能够将部署时间从几周缩短到几分钟。NIM微服务可用于部署来自英伟达、AI21、Adept、Cohere、Getty Images、Shutterstock的模型,以及来自谷歌、Hugging Face、Meta、微软、Mistral AI、Stability AI的开放模型。 资料来源:智东西,万联证券研究所 芯片制造领域,光刻计算库cuLitho通过生成式AI算法将工作流速度提升2倍,并已投入使用。英伟达在2023年GTC大会上发布了cuLitho,今年的更新是在cuLitho加速流程的基础上,通过生成式AI算法将工作流的速度又提升了2倍。在芯片制造过程中,计算光刻是计算最密集的工作负载,每年在CPU上消耗数百亿小时。相比基于CPU的方法,基于GPU加速计算光刻的库cuLitho能够改进芯片制造工艺,通过加速计算,350个英伟达H100系统可取代40,000个CPU系统,大幅提高了吞吐量,加快生产,降低成本、空间和功耗。随着EDA巨头新思科技将该技术集成到其软件工具中,cuLitho也可能会渗透到其他芯片设计厂商。 资料来源:智东西,万联证券研究所 MR领域,英伟达与苹果强强联合,将Omniverse平台引入Vision Pro。本次大会中,英伟达特别宣布了与苹果在Vision Pro方面的合作,让开发者在工业元宇宙里利用空间计算进行作业。面向工业数字孪生应用,英伟达将以API形式提供OmniverseCloud,开发人员可借助该API将交互式工业数字孪生流传输到VR头显中。通过使用API,开发者能轻松地将Omniverse的核心技术直接集成到现有的数字孪生设计与自动化软件应用中,或是集成到用于测试和验证机器人或自动驾驶汽车等自主机器的仿真工作流中。 资料来源:智东西,万联证券研究所 3投资建议 英伟达发布新一代计算架构及芯片产品,积极推动AI应用部署,建议关注AI算力及应用产业链的投资机遇。 1)AI算力领域,英伟达引领AI芯片技术创新,算力产业链上下游厂商充分受益,建议关注上游HBM、先进封装等细分优质赛道;同时国内政策引导及AI产业浪潮有望加速国内AI算力自主可控进程,建议关注国产算力产业链的龙头公司。 2)AI应用部署方面,英伟达展示大模型、芯片制造及MR等领域的应用,积极推动AI赋能千行百业,AI应用的部署有望提升企业生产力,建议关注前瞻布局AI应用领域的优质公司。 4风险