AI智能总结
股票研究/2024.08.15 算力需求高增,AIASIC突围在即海外科技 评级:增持 股票研 究 海外专题研究 (美国 ) 证券研究报 告 秦和平(分析师) 0755-23976666 qinheping027734@gtjas.com 登记编号S0880523110003 本报告导读: AI算力需求高增,AIASIC具备性价比、功耗等优势,且软硬件生态体系日趋成熟,未来有望实现高速增长。 投资要点: 投资建议:ASIC针对特定场景设计,有配套的通信互联和软件生态,虽然目前单颗ASIC算力相比最先进的GPU仍有差距,但整个ASIC集群的算力利用效率可能会优于可比的GPU,同时还具备明 显的价格、功耗优势,有望更广泛地应用于AI推理与训练。我们看好ASIC的大规模应用带来云厂商ROI提升,同时也建议关注定制芯片产业链相关标的。 AIASIC具备功耗、成本优势,目前仍处于发展初期,市场规模有望高速增长。目前ASIC在AI加速计算芯片市场占有率较低,预计 增速快于通用加速芯片。据Marvell预测,2023年,定制芯片仅占 数据中心加速计算芯片的16%,其规模约66亿美元,预计2028年 数据中心定制加速计算芯片规模有望超400亿美元。 ASIC单卡算力与GPU仍有差距,但单卡性价比和集群算力效率优秀。ASIC中算力相对较高的谷歌TPUv6和微软Maia100算力约为H100非稀疏算力的90%、80%,同时ASIC的单价显著低于GPU 故而在推理场景呈现更高的性价比;ASIC的芯片互联以PCIe协议为主,处于追赶状态,NVLink协议更具优势;在服务器互联方面ASIC主要采用以太网,正追平英伟达的IB网络,目前H100集群可以做到10万卡规模,ASIC中谷歌TPU相对更为领先,TPUv5p单个Pod可达8960颗芯片,借助软件能力,TPUv5e可拓展至5万卡集群,且保持线性加速。由于ASIC专为特定场景设计,且云厂商对软件生态掌握程度也较高,ASIC集群的算力利用率实际可能高于GPU(如TPU、MTIA等)。 软件生态也是影响AI计算能力的重要因素,当前CUDA生态占据主导,ASIC软件生态有望逐步完善。云厂商普遍具备较强的研发能力,均为AIASIC研发了配套的全栈软件生态,开发了一系列的 编译器、底层中间件等,提升ASIC在特定场景下的计算效率。此外,一些商用芯片厂商也推出了开源平台,如ROCm和oneAPI,未来ASIC的软件生态将会愈发成熟、开放。 风险提示:AI算法技术风险、生态系统建设不及预期、芯片研发不 及预期、AI产业发展不及预期 交易数据 迈威尔科技55,442 英伟达2,857,044 行业主要上市公司市值(百万美元)博通726,907 市值合计3,639,393 相关报告 目录 1.投资建议3 2.AIASIC市场处于发展初期,有望保持高速增长4 2.1.ASIC是提性能、降功耗成本、增强供应多元化的重要选择4 2.2.AIASIC处于发展初期,2028年市场规模有望超400亿美元6 2.3.IP和产业链整合是芯片自研主要挑战,需借助外部厂商支持7 3.云厂商积极布局ASIC,打造软硬件全栈生态9 3.1.谷歌TPU9 3.1.1.TPU已进化至第六代,覆盖推理和训练场景9 3.1.2.TPU擅长处理大量矩阵运算9 3.1.3.创新引入3Dtorus架构和光交换机,增强拓展性与互联效率11 3.1.4.提供MulisliceTraining全栈服务,支持大模型高效训练13 3.2.MetaMTIA14 3.2.1.MTIA快速迭代,目前主要用于AI推理14 3.2.2.MTIA旨在寻求计算、内存带宽的平衡15 3.2.3.MTIAv2单机架容纳72颗芯片,机架间采用以太网通信16 3.2.4.MTIA具备完整软件生态,与PyTorch完全集成17 3.3.微软Maia18 3.3.1.微软AI芯片起步较慢,但有多年的技术积累18 3.3.2.Maia100算力性能领先,片内外内存存在一定不平衡19 3.3.3.Ares机架由32颗Maia100组成,配置液冷系统19 3.3.4.Maia芯片内置RMDA以太网IO,集群配置25.6T交换机20 3.3.5.微软软件生态开发成熟度高,构建Triton开源平台20 3.4.亚马逊Trainium20 3.4.1.亚马逊在公有云市场布局广阔,自研芯片涉猎较早20 3.4.2.Trainium系列主要用于训练场景,已进化至第二代21 3.4.3.16片Trainium芯片构成Trn实例,可拓展至万片集群22 3.4.4.AWS构建三层人工智能堆栈结构,提供SDK等开发工具24 3.5.特斯拉Dojo25 3.5.1.特斯拉自研Dojo计算平台,用于训练自动驾驶AI模型25 3.5.2.采用近存计算架构,单训练板功耗高达15kw26 3.5.3.自研TTP通信协议,提供高带宽低时延连接28 3.5.4.特斯拉为Dojo创建全栈软件生态29 3.6.百度昆仑芯30 3.7.阿里含光80032 3.8.腾讯紫霄芯片33 3.9.字节跳动34 4.CUDA在AI计算领域占据主导,软件生态长期有望走向多元化35 4.1.英伟达CUDA生态成熟,与GPU密切绑定36 4.2.ROCm、oneAPI是CUDA主要竞争者38 4.3.云厂商助力软件生态走向多元与开放39 5.风险提示40 1.投资建议 单颗ASIC算力相比目前最先进的GPU存在劣势,但考虑其往往针对特定业务场景设计,还有配套的通信互联和软件生态,整个ASIC集群的算力利用效率可能会优于可比的GPU。此外ASIC还有明显的价格、功耗优势,我们认为针对特定场景的ASIC规模部署有望提升云厂商的ROI,也建议关注定制芯片产业链相关标的。具体分析如下: 规格 H100 B100 TPUv5p Trainium2 MTIAv2 Maia100 Trillium 厂商 英伟达 英伟达 谷歌 谷歌 亚马逊 Meta 微软 FP16/BF16(TFLOPS) 1000/2000* 1750/3500* 459 926 431 177/354* 800 INT8/FP8(TFLOPS) 2000/4000* 3500/7000* 918 1852 861 354/708* 1600 片上内存容量(MB) 50 - 48 - - 256 448 片上内存带宽(TB/s) 3.8 - - - - 2.7 片外内存容量(GB) 80(HBM3) 192(HBM3e) 95(HBM3) 32 96 128(LPDDR5) 64(HBM3) 片外内存带宽(TB/s) 3 8 2.7 1.6 4 0.2 1.6 NVLink: NVLink: 900GB/s; 1.8TB/s;PCIe5.0: 互连带宽(双向) 1200GB/s 800GB/s - PCIe5.0:64GB/s PCIe5.0: PCIe6.0:256 64GB/s 128GB/s GB/s 最高TDP 700W 700W - - - 90w 860w 制程 4nm 3nm 5nm 4nm 4nm 5nm 5nm 表1:AIASIC与GPU芯片性能梳理 TPUv6 注:红色字体表示该未经官方确认,为预测值;*表示采用稀疏技术下的算力;Maia100第三行为MxInt8性能数据来源:英伟达,谷歌,nextplatform,IT之家,theregister,亚马逊,芝能智芯,meta,投资界,电子工程世界 图1:ASIC在INT8/FP8精度下性价比显著高于GPU图2:ASIC在FP16/BF16精度下性价比高于GPU 数据来源:国泰君安证券研究 注:MTIAv2/A100/H100/B100/MI300均采用非稀疏算力口径 数据来源:国泰君安证券研究 注:MTIAv2/A100/H100/B100/MI300均采用非稀疏算力口径 从单卡算力来看,北美云厂商的AIASIC芯片算力普遍低于H100芯片,但由于其成本较低,在推理常用精度下,ASIC展现出了更高的性价比 (TFLOPS/$)。谷歌TPUv6和微软Maia100的算力在ASIC中较高, FP16/BF16精度下运算能力分别为926TFLOPS、800TFLOPS,INT8/FP8算 力分别为918TFLOPS、1600TFLOPS,分别达H100非稀疏算力的90%、80%以上。同时ASIC相比GPU有显著的价格优势,因此ASIC在推理场景有更高的性价比。而中国厂商AIASIC仍处于相对早期的发展阶段,百度昆仑芯在智能驾驶领域有一定规模的应用,字节跳动目前尚在招募研发人员,阿里含光800、腾讯紫霄芯片相对发布时间较早,与全球目前最先进的AI 芯片比有代际差异。 芯片间互联(ICI)来说,GPU的NVLink具有显著的优势,定制芯片多采用PCIe协议,升级迭代速度相对较慢。ASIC中,谷歌的ICI带宽相对较高,TPUv5p可以实现600GB/s的芯片互联带宽,这主要是由于它采用了 3D环形拓扑结构,保障了芯片间的高速互联。 服务器互联来看,云厂商ASIC多采用以太网为主,或是自研交换机或交换协议(如谷歌OCS、特斯拉TTPoe),传输带宽能够较好满足连接需求。以太网存在通用性高、生态开放,成本较低的优势。以太网生态的合作伙伴 包括博通、思科、Marvell等,目前都已推出或量产800G端口的51.2T交换机,博通预计2025年推出102.4T的TH6交换芯片。随着高速率以太网交换机进入量产,同时AI应用场景多元化,推理需求持续增长,预计以太网将更广泛地应用在AI集群中。对于云厂商来说,这也有助于降低网络成本,提升ROI。 ASIC集群拓展能力有所分化,与GPU集群有一定差距。在AISC芯片中,TPU和亚马逊的Trainium系列拓展能力较强。TPUv5p单Pod可以实现8960张芯片互联,借助软件服务,TPUv5e可以突破Pod边界实现5万卡 互联;AWS宣称客户可以在EC2UltraCluster扩展多达10万个Trainium2芯片。而英伟达GPU的集群规模目前已经可达10万张,xAI建成了10万张H100GPU的智算集群,Information报道称,OpenAI的下一个超算集群,将由10万块GB200组成。 图3:AI集群规模不断上涨,向10万卡规模迈进 数据来源:InfoQ 内存角度看,根据芯片设计理念的差别,ASIC片上和片外内存的带宽容量指标有所不同。AIASIC主要采用HBM作为片外内存,容量及带宽持平略滞后于H100、B100采用的HBM3、HBM3e。MTIAv2的片外内存采用 LPDD5,内存容量高达128GB,但带宽相对较低(205GB/s)。片上内存来看,AIASIC普遍设计了较大的片上内存,尤其是微软的Maia100和特斯拉的DOJOD1芯片,片上内存容量高达448MB、440MB。较高的片上内存容量有助于降低时延,提高计算效率。 除了硬件设施,软件生态也是影响算力系统性能的重要因素。云厂商普遍具备较强的研发能力,均为AIASIC研发了配套的全栈软件生态,提升ASIC在特定场景下的计算效率。此外,一些商用芯片厂商也推出了开源平台,如ROCm和oneAPI,未来ASIC的软件生态将会愈发成熟、开放。 随着AI产业发展驱动算力需求高增,同时ASIC的软硬件持续迭代,我们认为ASIC对提升特定场景的计算性能和性价比将愈发重要,未来市场规模 有望高速增长。我们看好ASIC的大规模应用带来云厂商ROI提升,同时也建议关注定制芯片设计环节、以太网产业链相关标的。 2.AIASIC市场处于发展初期,有望保持高速增长 2.1.ASIC是提性能、降功耗成本、增强供应多元化的重要选择 由于制造工艺接近物理极限,芯片性能提升速度放缓,同时,功耗散热问题越来越严重,成为性能提升的瓶颈。以GPU为例,近年来,GPU的单位面积计算性