科技前瞻专题 AIASIC:算力芯片的下一篇章 西南证券研究发展中心海外研究团队2024年12月 投资逻辑 ASIC可以适应不同的业务场景和商业模式的需求,可以满足大型CSP客户的诸多需求:1)内部工作负载的架构优化;2)更低的功耗,更低的成本;3)为AI工作负载定制的内存和IO架构。随着AI应用的发展和生态逐步完善,AI算力集群特别是推理集群对加速计算芯片需求巨大,驱动ASIC快速成长。预计2028年数据中心ASIC市场规模将提升至429亿美元,CAGR为454。 ASIC针对特定算法和应用进行优化设计,在特定任务上的计算能力强大,通常具有较高的能效比。目前ASIC以推理场景应用为主,并开始切入到部分训练环节。对照北美四大CSP的自研产品路线:Google的TPU出货目前以v5产品为主,2025年将量产TPUv6;亚马逊的ASIC产品包括Trainium和Inferentia,分别用于训练和推理环节;微软和Meta也推出了各自的ASIC产品Maia100和MTIA 。由于大型CSP的业务模型、应用场景等多通过自身云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎 、社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等,自研ASIC可适应自身不同的业务场景和商业模式的需求。 相关标的:1)博通:全球AIASIC龙头,目前已向多家头部CSP客户批量供应ASIC产品,其在计算,存储,网络IO,封装等领域广泛的IP储备可为其XPU产品线赋能。2)Marvell:全球一线ASIC厂商,其定制计算产品包括AI加速芯片,针对安全、NICDPU、ARM计算、存储、视频和CXL功能的ASIC等,客户包括北美头部云厂商。 风险提示:AI产业发展不及预期的风险;大型科技企业资本支出不及预期的风险;GPU竞争的风险。 1 目录 1ASIC芯片市场前景 2ASIC与GPU的对比 3北美四大CSP自研AIASIC 4相关标的 2 11大型CSP加速资本支出 大型CSP在资本支出方面投入巨大,支出的同比增速在加快。北美四大CSP的Capex规模今年来增幅显著提升,2024年前三季度整体规模达到1708亿美元,同比增长56,且yoy逐季加快(Q1Q3yoy分别为347、646、68)。其中,微软530亿美元,yoy 785;亚马逊5517亿美元,yoy446;谷歌3826亿美元,yoy79;Meta2439亿美元,yoy207。 资本支出大幅提升的背后,是各家巨头在AI赛道上的竞赛、AI算力的稀缺、AI云赋能和AI生态的拓展等多方面驱动。 北美四大CSP资本支出规模(亿美元) 数据来源:各公司公告,西南证券整理3 12ASIC可适应不同的业务场景和商业模式的需求 大型CSP的业务模型、应用场景等很多通过自身的云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎、社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等。ASIC可以适应不同的业务场景和商业模式的需求。 ASIC可以满足客户的需求:1)内部工作负载的架构优化;2)更低的功耗,更低的成本;3)为AI工作负载定制的内存和IO架构。 ASIC需要满足不同业务应用的加速计算需求 数据来源:Marvell,西南证券整理4 13训练和推理集群对加速计算芯片的需求 训练和推理对AI算力集群的需求差异 目前在训练阶段,训练集群对加速计算芯片的需求已提升到万卡级别。随着AI模型对训练需求的提升,未来10万卡级别指日可待。 而在推理阶段,由于计算量与业务和应用密切相关,单个推理集群对加速计算芯片的需求低于训练集群,但推理集群的部署数量要远多于训练集群 ,推理集群的数量预计会达到百万级 别。 AI算力集群特别是推理集群对加速计算芯片的庞大需求,是ASIC快速成长的核心驱动力。 数据来源:Broadcom,Marvell,西南证券整理5 14ASIC市场规模预测 据Marvell预测,2023年ASIC占数据中心加速计算芯片的16,规模约为66亿美元;随着AI计算需求的增长,ASIC占比有望提升至25,预计2028年数据中心ASIC市场规模将提升至429亿美元,CAGR为454。 数据中心定制加速计算市场规模 数据来源:650GroupCignalAIDell’OroLightCountingMarvell西南证券整理6 目录 1ASIC芯片市场前景 2ASIC与GPU的对比 3北美四大CSP自研AIASIC 4相关标的 7 21ASIC硬件性能:针对特定算法和应用优化设计,具有较高能效比 ASIC针对特定算法和应用进行优化设计,在特定任务上的计算能力强大,例如在某些AI深度学习算法中实现高效的矩阵运算和数据处理。GPU具有强大的并行计算能力,拥有众多计算核心,可同时处理多个任务,在通用计算和图形处理方面表现出色,适用于大规模的数据并行计算,如科学计算、图形渲染、视频处理等;但GPU在特定任务上的计算效率可能不如ASIC。 ASIC通常具有较高的能效比,因其硬件结构是为特定任务定制的,能最大限度减少不必要的功耗。GPU由于其通用的设计架构,在执行特定任务时可能存在一些功耗浪费;但随着技术的进步,新一代GPU也在不断提高能效比。 ASIC在处理特定任务时,能实现高吞吐量,数据处理速度快,可快速完成大量的数据处理工作。GPU具有较高的带宽和并行处理能力,在图形处理和通用计算中能实现较高吞吐量,但在处理一些复杂、非图形相关的特定任务时,其吞吐量可能会受到一定限制。 ASIC在绝对算力和片间互联方面普遍低于AIGPU,但ASIC的服务器间互联由于采用以太网为主,具有通用性强、生态开放、低成本等优势。 市面主流GPU与ASIC规格对比 数据来源:各公司官网,西南证券整理8 22ASIC的单位算力成本更低,满足一定的降本需求 ASIC的单位算力成本更低,满足一定的降本需求。ASIC因其硬件结构是为特定任务定制的,减少了很多针对通用加速计算的不必要的硬件设计,其单位算力成本相比GPU或更低。谷歌TPUv5、亚马逊Trainium2的单位算力成本分别为英伟达H100的70、60 市面主流GPU与ASIC算力成本对比 数据来源:各公司官网,西南证券整理9 23ASIC与GPU软件生态对比 ASIC在软件生态上的优势:云厂商普遍具备较强的研发能力,为ASIC研发了配套的全栈软件生态,开发了一系列编译器、底层中间件等,提升ASIC在特定场景下的计算效率。部分第三方芯片厂商推出了开源平台,未来ASIC的软件生态将会愈发成熟和开放。 ASIC在软件生态上的劣势:软件生态相对较为单一,主要针对特定的应用场景和算法进行优化。与GPU相比,ASIC的编程难度较大,需要专业的知识和技能,开发工具和软件库相对较少。这使得开发者在使用ASIC时需要花费更多时间和精力进行开发调试。 GPU软件生态的优势:软件生态丰富成熟,拥有广泛的开发工具、编程语言和软件库支持,如英伟达的CUDA和AMD的ROCm等 。开发者可使用熟悉的编程语言如C、C、Python等进行开发,且有大量的开源项目和社区支持,方便开发者学习和交流。这使得GPU在各种应用场景中都能快速地进行开发和部署。 GPU软件生态的劣势:软件生态在特定任务上的优化程度可能不如ASIC。在一些对性能和功耗要求极高的特定场景中,需要进行大量的优化工作才能发挥出GPU的最佳性能。 数据来源:各公司官网,西南证券整理10 24ASIC以推理场景为主,并开始切入到部分训练环节 ASIC在执行特定AI算法时的高性能和高能效的优势,对于大规模数据中心等对能耗敏感的场景非常重要。由于ASIC不需要集成通用的功能模块,从而减少不必要的硬件资源浪费,如果AI应用场景明确且需求量大,ASIC在大规模生产后其单位成本可显著降低。但ASIC也有开发周期长且灵活性差的劣势,由于ASIC的设计和制造是针对特定算法和应用场景进行的,一旦设计完成其功能就固化下来,难以对芯片的功能和性能进行修改和升级,如果AI算法发生较大变化,ASIC可能无法快速适应这种变化。此外,ASIC的生态系统还不够完善,开发者在使用ASIC时可能需要花费更多时间和精力去搭建开发环境、编写底层代码等,开发难度较大。 ASIC更适用于推理:在推理阶段,AI模型已训练完成,需要对输入的数据进行快速的预测和分类。此时对芯片的计算精度要求相对较低,但对计算速度、能效和成本等要求较高。ASIC正好满足这些需求,其高度定制化的设计能针对推理任务进行优化,以较低的功耗实现快速的推理计算。且在大规模部署的场景下,ASIC的成本优势更加明显,可以降低企业的运营成本。 GPU更适用于训练:AI训练过程需要处理大量的数据和复杂的计算,对芯片的计算能力、内存带宽和并行处理能力要求非常高。GPU拥有众多的计算核心和高带宽内存,可以同时处理大量的数据样本和复杂的计算任务,能够加速AI模型的训练过程。且在训练过程中,需要不断地调整模型的参数和结构,GPU的灵活性使其更适合这种频繁的调试和迭代。 数据来源:西南证券整理11 目录 1ASIC芯片市场前景 2ASIC与GPU的对比 3北美四大CSP自研AIASIC 4相关标的 12 31谷歌TPU:谷歌专为AI定制设计的ASIC TPU(TensorProcessingUnits,张量处理单元)是谷歌专为AI定制设计的ASIC,其针对大模型的训练和推理进行了优化。TPU适合各种使用场景,例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等。 截至2024年,谷歌TPU已迭代6代产品。TPUv5p单个Pod可达8960颗芯片的集群规模,借助Multislice训练技术,TPUv5p可实现5万卡线性加速。最新一代TPUv6Trillium预计2024H2推出,TPUv6FP16BF16精度非稀疏算力可达926TFLOPS,约为H100、B100的93、53。相比TPUv5e,TPUv6能效高出67,峰值性能高出37倍。 谷歌TPU历代产品性能 数据来源:谷歌,西南证券整理13 311谷歌TPU算力集群能力 TPUv4和TPUv5p算力集群采用3Dtorus3D环面架构和OCS,提供高速的网络连接,增强拓展性与互联效率。在TPUv4的架构中 ,每64颗TPUv4芯片组成4x4x4的立方体,每个CPU配备4颗TPUv4,64颗TPUv4和16颗CPU放入一个机架,形成一个模块。 一个模块有6个面的光路链接,每个面有16个链接,单模块共有96个光路连接到OCS。为了提供3D环面的环绕链接,对面的链接必 须连接到同一个OCS。每个模块连接48个OCS(6162),最终实现所需的4096个TPUv4芯片互联。 TPU立方体与3个OCS的连接 TPUv4算力集群的物理架构:一个PCB包含4个TPUv4,通过ICI链路连接到其他托盘(tray),16个托盘共同放入一个机架,形成4x4x4的3D模块结构。64个机柜共同组成4096颗芯片规模的算力集群。 TPUv4封装和算力集群 数据来源:谷歌,《TPUv4AnOpticallyReconfigurableSupercomputerforMachineLearningwithHardwareSupportforEmbeddings》,14 西南证券整理 312谷歌TPU基准测试性能对比 TPUv4与英伟达A100在MLPerf基准测试中的性能对比:TPUv4在BERT上比A100快115倍,比IPU快约43倍;在ResNet上,TPUv4分别比A100和IPU快167倍和约45倍;运行MLPerf基准测试时,A100的平均功耗比TPUv4高1319倍。虽然TPUv4单芯片算力为A100的88,但在性能和功耗表现上