半导体 创成式AI:半导体行业的下一个S曲线? 对生成人工智能的兴趣和使用的激增转化为对半导体的更高需求,推动行业更快地创新,生产更强大和更高效的芯片。 本文是Ondrej Burkacky,Mark Patel,Klaus Pototzky,Diana Tang,Rutger Vrijen和Wendy Zhu的共同努力,代表了麦肯锡《半导体实践》的观点。 GeneralAI计算需求的组成部分 作为生成式AI (gen AI)应用例如ChatGPT和Sora席卷全球,对计算能力的需求正在飞涨。半导体行业发现自己正在接近 对AI和ge AI应用程序的需求激增伴随着计算需求的成比例增长。然而,对于半导体领导者来说,了解这种需求的起源以及如何应用Ge AI至关重要。我们希望看到Ge AI的两种不同类型的应用程序:B2C和B2B用例。在B2C和B2B市场中,对Geeral AI的需求可以分为两个主要阶段:训练和推理。 一条新的S曲线— —高管面临的紧迫问题是该行业是否能够跟上。 领导者正在通过承诺大量资本支出来扩展数据中心和半导体制造工厂(fabs),同时探索芯片设计,材料和架构的进步,以满足下一代AI驱动的业务格局不断变化的需求。 训练运行通常需要大量的数据,并且是计算密集型的。相反,推理通常对用例的每次运行需要的计算要低得多。 为了引导半导体领导者完成这一转型阶段,我们已经开发了几种方案,用于Gen AI在B2B和B2C市场。每个场景都涉及计算和晶圆需求的大量增加。这些场景关注数据中心,同时承认对智能手机等边缘设备的影响存在,但规模要小得多。 为了使半导体领导者能够驾驭这些市场的复杂性和需求,我们概述了B2B计算需求的六个用例原型及其相应的计算成本,以服务和并发级别的General AI价值创造。 针对General AI应用程序和工作负载的六个B2B用例原型 根据麦肯锡分析得出的需求情景是基于半导体行业可能提供的晶圆产量,考虑到资本和设备等限制因素。尽管即使是更雄心勃勃的情景也是合理的,但对晶圆厂所需数量和数据中心所需的能源供应的影响将使它们不太可能。 麦肯锡的分析估计,B2C应用程序将占下一代AI计算需求的70%,因为它们包括来自基本消费者交互(例如,起草电子邮件)和高级用户交互(例如,从文本创建视觉效果)的工作负载。B2B用例预计将占其他约30%的需求。这些包括用例,例如为企业创建高级内容(例如,Gee AI辅助的代码创建),解决客户查询或生成标准财务报告。 本文将讨论高性能组件的估计晶圆需求,包括逻辑,存储器,数据存储芯片,以及提供它们所需的相应数量的晶圆厂。有了这些信息,行业利益相关者可以战略性地规划和分配资源,以满足对计算能力的日益增长的需求,确保其运营在未来几年的可扩展性和可持续性。 跨行业垂直行业和功能的B2B应用程序属于六种用例原型之一: —解释和生成代码的编码和软件开发应用程序 —编写文档和通信的创意内容生成应用程序(例如,生成营销材料) 数据集(例如,合成MRI或CT扫描等临床图像中的发现) —客户参与应用程序,涵盖用于外展、查询和数据收集的自动化客户服务(例如,通过聊天机器人解决客户查询) 麦肯锡根据其计算成本来组织这六个多样化和复杂的B2B用例,以服务和并发一代AI价值创造(图表1)。通过定义服务成本和价值创造,决策者可以更熟练地浏览B2B用例的细节,并在采用它们时做出明智的选择。在其核心,对服务的计算成本的分析包括培训,微调和推断成本。该分析还包括超大规模程序的基础设施即服务(IaaS)余量,其中包括计算硬件,服务器。组件、IT基础架构、功耗和估计的人才成本。Gen AI价值创造通过生产率提高和人工成本节约等指标来衡量。 —为研发过程生成产品和材料的创新应用程序(例如,设计候选药物分子) —使用结构化数据集汇总和提取见解的简单简明应用程序(例如,生成标准财务报告) —复杂的简明应用程序,使用非结构化或大型 麦肯锡公司 GenAI需求场景 进步和快速采用,由涵盖gen AI培训和推理的资本和运营成本的业务模型支持。保守和加速采用方案分别代表采用的上行和下行。 随着组织驾驭采用gener AI的复杂性,这些原型的战略利用变得势在必行。诸如gener AI采用的经济性,算法等因素 麦肯锡分析估计,到2030年,在基本情景下,一代人工智能计算总需求可能达到25x1030FLOP (浮动点操作),其中大约70%来自B2C应用程序,30%来自B2B应用程序(图表2)。 组件和系统级别的效率以及持续的硬件进步进一步影响了Gen AI的采用和技术进步。 三种需求情景-基础,保守和加速-代表了可能的结果B2B和B2C应用程序的传统AI需求。基本场景由一组必需的假设提供信息,例如一致的技术 附件2 B2C和B2B应用程序的年度总需求,在QFLOP² 麦肯锡公司 麦肯锡分析估计,到2030年,交互的数量大约是预测的每日在线搜索查询数量(约280亿)的两倍。支持基本B2C场景的基本假设是稳定的技术进步,有利的监管发展以及不断增长的用户接受度。 B2C计算需求场景 B2C计算需求是由参与Gene AI的消费者数量,他们的参与度及其计算含义驱动的。 具体而言,B2C推理工作负载由每个用户的ge AI交互数量、ge AI用户数量以及每个基本和高级用户交互的FLOP决定。培训工作负载由每年的培训运行次数、Geeral AI模型提供商的数量以及由不同Geeral AI模型运行的每次培训的FLOP决定(例如,2023年的GPT - 4等最先进的模型以及更小或上一代的模型)。对于所有情况,公司都必须开发可持续的商业模式。 保守的采用。这种情况可能涉及消费者的谨慎采用,原因是持续关注数据隐私、监管发展,以及技术的逐步改进,这将导致基本案例的交互数量的一半。 加速采用。这种情况表明对技术的高度信任和广泛 的用户接受度。这方面的驱动因素 基本采用。到2030年,每个智能手机用户的预期平均每日交互次数(一次交互是一系列提示) 场景可能是有吸引力的新业务模型、实质性的技术进步和引人注目的用户体验。这些驱动因素可能导致在基本情况下消费者应用程序的交互数量的更高采用率(150%)。 对于基本消费者应用程序,例如创建电子邮件草稿,则为10。另一个预期的平均数字是用于高级消费者应用程序,例如创建较长的文本或合成复杂的输入文档。通过使用来自在线和基于应用程序的当前数字 对于所有情况,公司都必须开发可持续的商业模式。 相当于总创造价值的大约20%。 B2B需求场景 在B2B领域采用gen AI用例受到半导体芯片供应的充足性和成本的显著影响。企业必须能够合理地投资于计算基础设施,确保服务成本低于公司的支付意愿。对于这些B2B需求情景,麦肯锡分析假设支付意愿 In the context of B2B use cases, McKinsey analysis indicatedthat of the six use cases archetypes, only five areeconomically viable for a broad adoption (Exhibit 3). The sixarchetype, complex concision, is not expected to be adoptedbroadly due to the lim 每个B2B原型的经济学 麦肯锡公司 软件验证可能会显著提高gen AI解决方案的效率。这些因素可能会加快采用曲线,并导致到2030年半导体行业的gen AI实施显着上升。 节省了行政劳动力成本,再加上在分析复杂和非结构化的数据输入。 基本采用率。基本场景假设中间采用率跨越8到28年,这表明B2B用例在18年内实现了90%的采用率。1此外,麦肯锡分析认为,从2024年开始,企业将实现价值。 新一代AI数据中心基础设施和硬件趋势 除了考虑新一代AI计算需求的场景外,半导体领导者还需要适应底层硬件和基础设施的变化,主要是数据中心基础设施、服务器和半导体芯片。 provisioning compute capacity, and training people to usenew services all take time. As such, we assume a lead time ofapproximately two years in the manufacturing of waferbefore value can be captured. This business realization isexpected 数据中心基础架构 Gen AI应用程序通常在专用服务器和数据中心上运行。乍一看,AI数据中心可能看起来与传统数据相似中心,但存在相当大的差异(请参阅侧栏“AI服务器的组件”)。 到2030年,为经济上可行的用例创造大约25%的价值。在这种情况下,我们假设所有小规模的劳动生产率改进带来的额外价值遵循与六个用例原型计算出的潜在价值相同的总体比率。 机架密度— —即服务器机柜所消耗的功率— —显示出最大的 保守的采用率。这种情况假设在28年内采用率约为90%,到2030年仅产生约15%的价值捕获。这种减速可能归因于多种因素的融合,包括但不限于监管限制,数据隐私问题和数据处理挑战。 传统数据中心和AI数据中心之间的区别。通用数据中心的机架功率密度为5到15千瓦,而AI培训工作负载可能消耗100千瓦,或者在今天的某些情况下,高达150千瓦。这个数字预计会增加,一些专家估计未来几年的功率密度高达250千瓦甚至300千瓦。2 加速采用。这种情况假设在大约13年内采用率约为90%。这种加速取决于催化剂,例如有吸引力的商业模式,快速的技术进步或有利的法规。例如,破坏性硬件体系结构将大大降低服务成本。此外,流程的增强 此外,随着机架功率密度的提高,机架冷却将从基于空气的冷却切换到液体冷却。直接到芯片的液体冷却和全浸入式冷却也需要新的服务器和机架设计来适应额外的重量。 AI服务器的组件 - GPU(图形处理单元)GPU是一种专门的处理器,旨在处理 AI数据中心和服务器与传统模型不同。AI服务器有九个组件与半导体领导者(exhibit)最相关。 复杂的数学计算并行,使其成为加速训练和推理计算的AI数据中心的重要组成部分。 -CPU(中央处理单元)。CPU管理系统级功能,协调数据流并执行需要的任务更通用的计算方法。CPU和专用处理器之间的协作确保了平衡和高效的操作,优化了AI服务器中每个组件优势的利用。 - AI加速器。这是一种专门的半导体组件,旨在通过执行高速计算并优化数据中心中AI算法的成本和性能来加速AI工作负载。 Exhibit AI服务器由许多集成组件组成。 服务器机房机架内一台AI服务器的说明性细分 麦肯锡公司 计算组件之间的通信,确保高效的数据交换。 —DDR存储器(双倍数据速率存储器)。动态随机存取存储器(DRAM)的变体, DDR存储器提供高速、易失性存储器,促进快速数据访问以增强整体系统性能。 -主板.主板作为中央集线器,协调各种组件的协作,所有这些组件都由可靠的电源单元供电,并通过冷却风扇保持在最佳状态。这些组件封装在结构良好的机箱中,共同形成了复杂的架构,对于在专用数据中心环境中满足生成AI的计算需求至关重要。 —HBM(高带宽内存)。HBM是DRAM的一种变体,专为非常高带宽的用例而构建,例如AI训练和推理,其速度是标准DRAM的十倍以上。 -电源单元。AI服务器配备了多个具有冗余的电源单元,以降低故障风险。 —NAND(“not - and ”)存储。这用于存储操作系统,模型,用户输入和其他组件。 —互连。配备光收发器,互连实现无缝 在B2B领域采用GeneAI用例受到半导体芯片供应的充足性和成本的重大影响。 到