您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [德勤]:人工智能的动力:数据中心基础的半导体生态系统 - 发现报告

人工智能的动力:数据中心基础的半导体生态系统

信息技术 2026-06-01 德勤 飞鹤萘酚
报告封面

目录 3执行摘要4人工智能核心的众多芯片 I.II.四项芯片创新推动人工智能发展半导体人工智能芯片分类:9拆解人工智能硬件栈 人工智能数据服务器中的芯片计算托盘1112计算板12 AI加速器13高带宽内存(HBM)15中央处理器15系统内存/随机存取存储器 17非易失性存储器 express存储 17数据处理单元18网卡19电源分配单元21 加速器互连托盘22切换ASICs 22电源分配块22活动铜电缆芯片22背板连接器23号托盘24电源管理模块(PSMM)24电源供应器 (diàn yuán gōng yìng qì)25网络和智能平台管理界面托盘25基板管理卡 (BMC) 26现场可更换单元26带外交换机27带内交换机27可信平台模块 (TPM)冷却液分配单元托盘2930III. 芯片如何协同执行人工智能训练工作流 1:人工智能增长曲线 市场观点33:半导体高消费内容价值分析36价值集中 vs. 成本动态37:从设计到数据中心 了解人工智能数据中心的全球供应链 38人工智能基础设施新前沿 40第八章 结论 执行摘要 半导体是人工智能(AI)的基础,这项技术正在改变我们的经济和社会,使整个产业更具生产力和创新性,并推动重大科学突破。 当今的AI系统建立在整个半导体生态系统数十年的创新基础之上。随着芯片技术的持续进步,AI将变得更加强大、节能和高效。而更强大的AI反过来将有助于改进芯片设计、优化半导体制造,并推动对实现AI所需的各种芯片的更大需求。 关键要点: 3. 我是一个驱动整个芯片需求的主要因素。半导体行业。在一个正向反馈循环中,人工智能的进步驱动了对更优异的半导体性能和效率的需求,而半导体技术的改进则使得更强大和先进的人工智能系统成为可能。 1. 功效半导体是基础赋能技术。 人工智能技术芯片为现代人工智能系统提供了基础硬件层,并在现代人工智能服务器中占据了相当大的价值份额: •单个AI服务器机架包含超过4,500块封装芯片,这些芯片由大约20,000个独立的晶圆——即独特的集成电路——组成。 •为满足全球对新型人工智能应用的需求,政府和产业将投资超过40万亿元到2028年,在新的数据中心基础设施中,其中最多2.8万亿美元将用于半导体。 •半导体占领先人工智能服务器机架内容价值的95%以上,并占建设及运营人工智能数据中心所需总资本支出的50%以上。 •人工智能数据中心部署的半导体年收入可能达到超过1.2万亿美元到2028年,四年内将增长近十倍。 2. 我需要半导体A的完整系列。 技术为了运行复杂的 AI 训练和推理工作负载,当今的 AI 数据中心需要大量的计算能力、存储、内存带宽、电力分配和网络能力——所有这些都由芯片技术的全栈提供。这些芯片技术的每一项都对推动美国的 AI 基础设施建设至关重要,而任何一个领域的关键依赖性都可能导致阻碍这一建设。AI 数据中心中的芯片包括: •人工智能数据中心市场正经历前所未有的增长,预计在2022年至2028年间将以88.8%的复合年均增长率(CAGR)发展。虽然初期动力源于生成式人工智能的快速采用,但持续需求依然强劲,预计在2025年至2028年间将以56.3%的CAGR增长。 整个半导体供应链支撑着人工智能基础设施的建设。没有半导体,就没有人工智能。要在这一变革性技术领域保持领先,政府和产业必须携手合作,推进政策,以加速芯片技术的全面发展与创新,并密切与全球伙伴合作,共同构建强大且富有韧性的供应链。 • 高级逻辑芯片例如人工智能加速器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、中央处理器(CPU)、数据处理器(DPU)和网络芯片。 • 记忆例如高带宽内存(HBM)、动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM),以及非易失性闪存(NAND)。 • 模拟及基础芯片例如功率芯片、收发器、控制器和传感器。 I. 人工智能核心的众多芯片 近年来,人工智能(AI)经历了爆发式增长,吸引了大量关注那些进行训练和1 那些仅停留在系统级性能或市场规模层面的分析,本报告则深入探究服务器各子系统中半导体内容的本身——绘制出驱动当今数据中心的各种芯片、晶圆及支撑组件。 多种多样的半导体充当部署人工智能模型。芯片技术是人工智能硬件堆栈的核心骨干和使能技术,其进步推动着人工智能应用的处理能力、计算效率以及整体性能的提升。半导体支撑着嵌入日常数字体验中的人工智能系统。 我们进一步通过聚焦这些服务器系统中价值集中的领域以及关键技术来补充此分析,这些技术涵盖了尖端逻辑(基于领先工艺节点构建)以及成熟节点组件——例如电源管理集成电路(PMIC)、电可擦除可编程只读存储器(EEPROM)、化合物半导体和微控制器——所有这些对于人工智能系统的功能及其基础设施都至关重要。 本报告通过虚拟拆解一台最先进的AI数据服务器——现代AI基础设施的基础单元——提供了一种独特、由内而外的视角,审视构成AI基础设施核心的各种芯片。这与传统方式不同。 芯片创新驱动人工智能发展 尽管人工智能看似是现代发展,但其基础贯穿了数十年来尖端计算能力的开发历程。但功能最终受限于当时可用的硬件限制。 中心服务器机架集成了复杂的先进半导体器件组合,旨在支持并行化、数据邻近性和可扩展性。单个AI服务器机架由约20,000个独立的半导体芯片组成,整合成超过4,500个封装芯片。这些芯片包括提供高吞吐量计算的逻辑处理器、超低延迟内存子系统、电源管理单元和网络组件。 近年来,逻辑、内存、网络、电源和散热等方面的持续改进,为高性能AI系统的广泛应用奠定了基础。 这些进步催生了人工智能数据中心的兴起。虽然传统数据中心已经存在了几十年,用于管理企业IT运营、网页托管和存储,但现代人工智能数据中心代表的是一种根本性的能力专业化,而不仅仅是渐进式的发展。每个人工智能数据中心 半导体约占95%领先AI服务器机柜的内容价值。AI数据中心中的每个 服务器机柜都包含超过4,500薯片,而其本身则由大约...组成20,000单个半导体晶粒。一个领先的数据中心可容纳超过45,000,000薯片* * 注意:领先的AI数据中心预计拥有10,000个AI计算机架 为满足人工智能工作负载对性能飞跃的需求,制造技术需不断升级。这些工作负载正将先前硬件的极限推向极致,暴露出架构优化、散热以及跨大规模系统数据传输等方面的关键问题。为此,芯片制造商正进行软硬件协同设计,并致力于内存与计算更紧密的集成,由此推动了创新型封装技术的开发,实现了高密度、高带宽的配置。 随着各行业组织争相部署人工智能解决方案,对人工智能数据中心容量的需求日益增长,进而也带来了...先进半导体价格已飙升。3 芯片设计者正承受着缩短创新周期的压力,需要更频繁地推出新一代尖端设备。与此同时,制造商必须交付重大的 日益增长的AI生态系统需求及其复杂化,推动了对新型半导体技术的需求。 半导体技术的进步使得更强大且可扩展的人工智能生态系统得以发展。 这是半导体与人工智能之间相互强化的创新循环:半导体技术和人工智能系统的进步催生了一个日益复杂的开发者生态系统,而该生态系统反过来又要求更强大的人工智能系统和半导体技术。随着开发者生态系统的日益复杂化,人工智能模型进行扩展,需要更多数据、更快的处理速度、跨系统的更紧密协调以及更多的计算能力,从而将现有芯片的极限推向更远。 系统可以支持。这导致了向高度专业化半导体设计的转变,包括更高效、性能更强的处理器,更专业的内存堆栈,以及能够支持跨整个数据中心分布式AI工作负载的高速互连。事实上,半导体设计和制造商正越来越多地利用AI方法来推进其下一代产品。 AI工作负载:训练是作业,推理是考试 可能会展示给它成千上万张猫和非猫的图片。通过反复接触,模型学会识别区分猫和其他物体的模式,例如耳朵、胡须或身体形状。 •推理是将训练好的模型应用于新的、未见过的数据。继续以猫为例,一旦模型训练完成,它就能生成一张新猫的图片。 在本报告中,我们频繁提及两种主要的AI工作负载,即训练和推理,它们代表了AI计算的 distinct 阶段,并塑造了芯片的设计方式。让我们通过一个简单的例子来更清晰地理解这两种工作负载: 简而言之,训练是模型学习的方式,而推理则是模型将其所学应用于现实情况的方式,例如生成对查询的回答、做出预测或识别模式。 •训练是通过让模型接触海量数据来教授模型的过程。例如,要构建一个猫识别模型,一个神经网络 半导体人工智能芯片分类 AI服务器机架依赖于多种半导体技术协同工作,每种技术都针对现代AI工作负载的严苛要求进行了定制(见图3)。5 请注意: 每台服务器内部都包含许多专用芯片,其中包括AI加速器,它们执行并行处理,以运行复杂的AI训练和推理模型。这些芯片能够同时执行数十亿次的操作,从而高效地处理大量信息。 人工智能任务在下一代人工智能系统设计中日益核心。6 大量电源和网络半导体器件能够实现AI服务器内部以及跨系统的有效能源传输和无缝互连。AI服务器同时使用众多芯片,每个芯片都与其它芯片紧密协同,这使得对电源、数据和计算资源进行快速可靠的管理至关重要。与此同时,分布式AI工作负载依赖于节点间的高速低延迟通信,这使得网络半导体器件对于协调互联服务器集群间的计算任务至关重要。 支持这一计算层,存储半导体对于性能至关重要,它能够实现快速可靠的数据访问。随着AI模型的扩展,系统数据量急剧增加。高性能内存有助于确保处理器持续加载数据,避免瓶颈,并保持系统响应能力。内存和逻辑的专门化与 II. 拆解人工智能硬件栈:人工智能数据服务器中的芯片 正如下文将说明的,拆解AI服务器机架硬件会揭示一个高度模块化、垂直整合的系统。它由数万个相互依存的半导体组件构成,遍布于其中的每个子系统。 服务器,从CPU和加速器一直到信号调理芯片、电源调节器、内存芯片以及控制逻辑。 CDU托盘 服务器机架包含一套协调的托盘,每个托盘都设计用于实现特定功能。每个托盘(或子系统)都包含半导体和支持电子设备的组合——装载有半导体内容物——这些组件协同工作,以提供人工智能工作负载所需的吞吐量、能源效率和可靠性。理解这种分层架构是理解其支撑的半导体供应链战略重要性的关键。随着人工智能的持续扩展,获取、设计和集成这些组件的能力,与计算能力本身一样至关重要。 通常,现代数据中心中的人工智能数据服务器机架由五种类型的托盘组成,分别是:1)计算托盘、2)电源托盘、3)网络和智能平台管理接口(IPMI)托盘、4)人工智能加速器互连托盘,以及5)冷却分配单元(CDU)托盘。每个托盘都容纳着具有关键作用的差异化半导体组件。服务器机架中托盘的精确组成会因数据中心而异,这种差异由原始设备制造商(OEM)的选择、尺寸、布局、供电方式以及数据中心的建设方和/或运营方决定。 本报告逐托盘地分析了通用人工智能数据服务器内部的半导体内容。 系统中的每个组件,从人工智能加速器到各个电压调节器,都在确保大规模下的性能、效率和可靠性方面发挥着至关重要的作用。 计算托盘 计算托盘是AI服务器机架的大脑,为AI工作负载提供主要处理逻辑。每个计算托盘通常包含一个或多个计算板、用于存储的非易失性内存 express(NVMe)固态硬盘(SSDs)、用于连接的网络接口卡(NICs)以及数据处理功能。 用于将数据组织成离散处理单元的单元(DPU),以及电源分配单元(PDU)。该托盘承载着服务器机架中最昂贵、最先进且最集中的半导体组件,因为它直接负责每瓦性能和人工智能工作负载吞吐量。 计算板 每个计算托盘容纳一到两块计算板,其中人工智能计算得到协调和执行。每块计算板是计算托盘内的高密度处理模块。它通常结合一个或多个高性能 通用CPU、通过高速互连紧密耦合并由本地随机存取存储器(RAM)支持的AI加速器。计算板旨在实现并行性、热效率及信号完整性。 A. 人工智能加速器 人工智能加速器,一个涵盖图形处理单元(GP