
国泰君安证券 GUOTAIJUNANSECURITIES 产业深度 2024.08.1901期 算力时代,关注芯片、软件、网络——算力 产业研究系列(一) 摘要:以英伟达为例,理解算力时代三大技术优势 大模型时代来临,廉价的算力永远是稀缺品 √大模型时代来临,加速计算需求突破式增长。大模型是一个新时代的摩尔定律。算力缺口越来越大,目前算力的基建不够。 √世界需要更多算力,廉价的算力永远是稀缺品。我们仍然处于scalinglaw的早期,模型的能力会随着模型参数的增加而提高。0penAI、微软与Anthropic等头部公司的产品仍在你追我赶的过程中。未来市场前景广阔。芯片、软件、网络共同构筑算力 产品研究中心 C 登记编号 6 登记编号 李嘉琪(分析师) 010-83939821 lijiaqi026904@gtjas.comS0880524040001 王浩(分析师) 0755-23976068 wanghao013539@gtjas.comS0880513090004 时代竞争优势 芯片、软件、网络共同构筑算力时代竞争优势 √以英伟达为例理解算力时代NPU厂商三大技术优势 √壁垒1:GPU/芯片优势明显:从架构上,英伟达打造综合GPU。此外,英伟达在范式 往期回顾 低空经济系列(三):全球适航认证的路线差异和三个共识 2024.07.22 铍,可控核聚变的“锂矿” 2024.07.21 架构上的积累领先行业。从硬件生态上,GPU性能受供应链影响很大。从芯片设计上,全新生产工具:通用AI将引发的变革与产投机遇 NVIDIA的方案效率更好。思考 √壁垒2:CUDA生态建立巨大迁移成本:CUDA生态建立巨大迁移成本(时间成本+ 2024.06.24 开发成本+使用习惯成本)。科技树上低垂的果实都被摘光了,只有在正确的道路上不断积累才能有长坡厚雪的实力。 √壁垒3:网络架构与互联结构更符合现阶段需求:英伟达NVLink+NVSwitch实现低延迟+高带宽+高内存。同时实现7倍带宽+3倍内存。 未来软件能力与硬件加速迭代 √TensorCore的优势在于混合精度计算、简化指令集架构、数据并行处理,打破了内存限制,多元化了数据处理格式。 【生物基材料三】代糖是生物合成应用的好赛道 2024.06.11 低空经济系列(二):产业发展的基础、趋势和催化剂 2024.06.10 √TransfromerEngine采用混合精度训练,使用低精度数据时需要动态调整设置scalingfactor。Embedding使高维原始数据映射到低维流形后可分,self-attention确保查询不超前于其自身时间的信息,FFN对多头注意力的输出进行进一步处理,Transfromer 使用Target-Attention捕获Encoder编码的信息,多种技术对确保模型的稳健性和泛化能力至关重要。 风险提示 √算力场景落地不及预期,政策变动,产品研发不及预期等。 请务必阅读正文之后的免责条款部分 产业深度 目录 1.大模型时代来临,廉价的算力永远是稀缺品3 1.1.大模型时代来临,加速计算需求突破式增长3 1.2.世界需要更多算力,廉价的算力永远是稀缺品3 2.芯片、软件、网络共同构筑算力时代竞争优势4 2.1.GPU从图形加速器逐渐成长为通用加速器4 2.2.壁垒1:GPU/芯片优势明显5 2.3.壁垒2:CUDA生态建立巨大迁移成本7 2.4.壁垒3:网络架构与互联结构更符合现阶段需求8 2.4.1.网络拓扑设计需考虑并行化方案9 2.4.2.网络架构中InfiniBand性能最好11 2.4.2.1.InfiniBand11 2.4.3.网络架构中Spectrum-X与Tomahawk5性能相近12 2.4.3.1.Spectrum-X12 2.4.3.2.Tomahawk512 2.4.4.博通的以太网方案更具性价比13 3.未来软件能力与硬件加速迭代14 3.1.TensorCore的工作原理基于混合精度计算14 3.2.TensorCore打破内存限制15 3.3.TensorCore多元化了数据处理格式15 3.4.TransfromerEngine采用混合精度训练16 3.5.Embedding使高维原始数据映射到低维流形后可分17 3.6.self-attention确保输入token嵌入当前语境17 3.7.TransfromerFFN对多头注意力的输出进行进一步处理19 3.8.Transfromer多种技术对确保模型的稳健性和泛化能力至关重要…20 4.风险提示2 请务必阅读正文之后的免责条款部分2of23 产业深度 1..大模型时代来临,廉价的算力永远是稀缺品 1.1.大模型时代来临,加速计算需求突破式增长 大模型是一个新时代的摩尔定律。我们认为,一方面智能能力的进化,每1-2年模型水平就会提升一代;另一方面是模型的成本会非常快地下降,每18个月就会下降10倍以上。Transformer对算力需求快速上升,算力缺口持续扩大。GPT和Sora等基于Transformer架构的生成式模型遵循规模效应(ScalingLaw)。ScalingLaw由OpenAI于2020年提出,他们认为基于Transformer的自然语言和其他模态的模型,其模型性能与模型参数量存在幂律关系。而模型参数量也与实施大模型训练及部署硬件的计算存储能力直接相关。 算力缺口越来越大。OpenAI公司在2018年对AI计算的趋势与硬件发展趋势做了分析,基于Transformer的AI模型的算力需求增速远大于传统的CNN模型,并远超依据摩尔定律的演进速度,硬件算力的增长速度与大模型所需的算力水平之间的差距越来越大。 目前算力的基建不够,算法和数据一直在等算力基建。我们认为,目前还处于AGI大基建的早期阶段,而AI是一个供给驱动型的市场。 图1:Transformer对算力需求快速上升 数据来源:NVIDIA,摩崖芯公众号 1.2.世界需要更多算力,廉价的算力永远是稀缺品 我们仍然处于scalinglaw的早期,模型的能力会随着模型参数的增加而提高。OpenAI、微软与Anthropic等头部公司的产品仍在你追我赶的过程中 未来市场前景广阔。当前每年大厂capex超千亿美元,全球国防开支约为24000亿美元。多模态模型,会进一步解锁更多应用场景,期待GPT-5的发布。多模态模型也可以进一步地替代人工成本较高的职位,例如医生出诊、律师咨询、销售等,这些职位以后都将有可能被AI所取代,这样AI所带来的经济价值也会越来越高。 大基建需投入大量资金,行业军备竞赛。以GPT-4的训练举例,现在训练出一个GPT-4最少也要8000张H100的有效算力,接近万卡集群。万卡集群是一个标配,如果自己买卡,每张H100的售价接近3万美金,加上周边设备,仅硬件成本就需要3亿美金。如果租H100一年,需1.5亿美金。 图2:北美四大云厂商Capex支出增长(百万美元) 70,000 70.0% 谷歌Facebook=亚马进微环比 60.0% 60,000 50.0% 50,000 13,873 40.0% 40,000 21.2% 10,952 30.0% 20.2% 16.1% 16.1% 30,000 12.5%12.3% 19,2% 17620145%20.0% 10.6% 14,925 20,000 A6%65.9%3.6 5.6% 4.396.1% 0.6% o% 10.0% -1.6% 0.0% 10,000 12 -10.0% 186 -20.0% 产业深度 数据来源:NVIDIA,bloomberg 2.芯片、软件、网络共同构筑算力时代竞争优势 2.1.GPU从图形加速器逐渐成长为通用加速器 1996年,GPU将纹理单元及光栅化从CPU中Offload:低价大带宽的内存使得图形处理Offload成为可能,而纹理单元和光栅化这些需要大量访问内存。通俗理解下,CPU是大学教授,GPU小学生,画面瞬息万变,每个像素点在每个时间的颜色亮度,需实时计算,像十万道小学算术题,cpu做需要大量时间,gpu则很合适,计算量越大能拆解成小任务并行计算都可以用gpu做。 2001年,GPU初步实现可编程、实现通用计算:2001年NVIDIA发布首款支持VertexShader可编程的GPUGeForce3。GPU性能的快速增加,对图形API的需求大量增多,需要多种计算的组合,因此GeForce的可配置能力要求爆发式增长,API对可编程硬件的需求爆发式增加。通俗理解下,c语言让gpu里面一万个小学生干各种活,编程让英伟达的gpu能干更通用的活,不止图像渲染。 2006年,CUDA应运而生:CUDA开发平台将GPU变成可变成的硬件。基于新的架构与灵活的可编程能力,CUDA(ComputeUnifiedDeviceArchitecture)的编程框架与G8x一起发布,CUDA采用Grid、BLock、 Thread的方式组织并行计算任务,使得它们和硬件的处理核心完全解耦。通俗理解下,CUDA让程序员更简单的命令gpu干各种活,不用细说每个任务的细节。指挥一万个小学生干活协作方法很多,cuda平台提供了很多现成的算法和工具使GPU从图形加速器变通用加速器,因此GPU适用的赛道也更多了,很多行业适合拆分,如药物筛选,天气预报,加密货币挖矿,元宇宙等,预训练大模型的出现让GPU需求极速增加。 图3:CUDA平台架构示意图 产业深度 vxThroada CegThteadIa x1Throadia 数据来源:NVIDIA 以英伟达产品为例,我们认为算力时代硬件厂商有三大优势:2.2.壁垒1:GPU/芯片优势明显 三矩阵计算omnor 计算架构 NVIDIA 3倍内存 NVLink 传块计算ICUO cornlGEMM Tronulorme 芯片 网络低延迟 nfninan R114液染光锥 图像处理 架构 壁 7信带宽 反向扩大市场份 性价比 G合性丽游先 性 图4:芯片、软件、网络三大技术壁垒构筑英伟达竞争优势 垒CUDA 从学界到 硬件算子 软件的后代粘 业界 库更新 住、容性 不同代皮用 生志进一 步整合 推先占博各领项先装优房 数据来源:国泰君安证券研究 从架构理解:我们认为,英伟达打造综合GPU,适用各种等级芯片,计算机构的每个部分都有自己的优势。此外,英伟达在范式架构上的积累领先行业,现有计算范式没有太大颠覆的情况下,英伟达的领先地位很难被颠覆,虽然计算范式在短期内可能不会发生颠覆性的变化,但这并不意味着未来的计算技术无法被颠覆。随着科技的不断发展,新的计算范式和计算模式的出现仍然是可能的,只是需要时间和技术积累才能实现。当前的计算范式虽然稳定,但并不意味着它无法被未来的技术创 新所颠覆。 √Transformer引擎远远领先于其他NPU厂商,NVIDIA2018年开始将transformer做近GPU底层架构,AMD2021年才开始 ●CUDA单年下载3200万次,单天9万次下载 ●github上对CUDA的贡献者超4万人,AMDrocm仅500人左右,贡献者人数差40-50倍,迭代起来差异将变的更大 √现有计算范式下英伟达对行业影响深刻 ●英伟达垂直整合行业生态 ●英伟达影响全产业链生产设计 本 产业深度从硬件生态理解:我们认为,GPU性能受供应链影响很大,特别是高带宽内存(HBM)的供应情况。HBM因其高带宽、高容量、低延时和低功耗的优势,已成为AI服务器中GPU的搭载标配。最好的HBM供货商海力士和美光的HBM基本都被英伟达预定了。特别是HBM3e,它大大增强了数据吞吐能力。目前,SK海力士是唯一提供HBM3e的公司,其产品被英伟达采用在Blackwell芯片上,该芯片封装有192GB高速HBM3e显存。此外,美光也在HBM产业领域占据一席之地,其HBM3E和HBM4路线图能够支持未来AI的显