人工智能如何变革计算和基础设施
引言
人工智能代表着计算领域的一次代际转变,它不仅仅是更好的芯片,更是更好的系统。传统半导体公司越来越多地将目光投向堆栈更高层次,通过设计和架构的垂直整合,将计算的核心单元从芯片转移到更广泛的计算系统中。这种系统级别的方法为英伟达等芯片供应商创造了一个比我们在半导体行业过去的周期中习惯看到的技术护城河更为显著和可持续。
计算简史
人工智能的兴起标志着数据中心从串行计算(以及CPU)的优先地位转向并行计算(以及GPU/AI加速器)。这种转变是由训练和运行基于海量数据集的模型所需的高数量级处理能力推动的。支撑Transformer和深度学习模型的向量/张量数学需要并行化,即可以将任务分解成更小的块进行处理。随着并行优势的日益明显,GPU在数据中心中的份额不断增加。预计在未来几年,数据中心的新芯片中有约30%是GPU,我们预计这一比例将迅速超过50%,尤其是在人工智能应用在总体应用领域中所占比重不断增大的情况下。
垂直整合使摩尔定律保持活力
计算机系统比仅芯片获得的利润更高。并行计算将成为大多数应用的基础。定制芯片需求凸显垂直化趋势。随着半导体公司的核心IP从芯片设计扩展到系统工程和软件开发,这些公司能够比以往任何时候更多地获取技术栈中的价值。然而,allelization受到系统序列部分(即并行部分)的限制,这促使半导体行业关注Amdahl定律,该定律强调了仅通过创建更大的GPU(即更高并行的益处)来简单地创造更大GPU的局限性。
设计全栈系统是一项艰巨的任务
对于那些缺乏资源或专业技术以直接与半导体供应链合作并从头开始构建自己系统的多数组织来说,这仍然遥不可及。尽管垂直方法对从大规模战争中获益的最大科技公司有效,例如那些能够与半导体供应链直接合作并从头开始构建自己系统的公司,即使是像AWS、Meta和Google这样的超大规模企业,建立自己的芯片和数据中心系统也是一个挑战性的提议。
半导体领导者拥抱垂直整合
今天,我们看到有三家厂商处于这一转变的前沿:在我们看来,从这场AI浪潮中受益最多的半导体公司是那些英伟达、ARM和博通。其他被关注的厂商包括在并行处理中追赶的CPU领导者(如英特尔、AMD),这些更广泛的计算系统的主要组件供应商(如-提高了处理器/芯片系统设计的定制化(新思科技、楷登)),以及能促进电子设计自动化(EDA)的厂商。
计算机简史
20世纪50年代初,半导体公司越来越多地采用了垂直整合。先锋公司——如德州仪器、Fairchild和摩托罗拉——主要服务于原始设备制造商(OEMs,例如航空、电信、国防),设计、制造并包装他们的半导体芯片。集成器件制造商(IDMs)开发了他们自己的工艺技术,并在内部生产芯片,保持对其整个价值链的控制。这种方法最小化了双重边际化的价值损失并保护了他们的知识产权。集成商业模式需要大量投资于尖端制造设施。公司通过生产大量芯片并获取高额利润率来合理化这些绑定。
iPhone现象与移动计算的兴起
随着移动技术的进步,对更强大的架构的需求日益增长,这成为了移动计算的基础。ARM的设计以低功耗和高效的处理器为特点。这导致了ARM(高级精简指令集机器)架构的创建。功耗和高效性能使其非常适合移动设备。然而,不可否认的是,随着苹果iPhone的推出,移动设备的关键转折点出现了,这也导致了智能手机时代的崛起。
云计算数据中心与新兴人工智能浪潮
云计算数据中心的发展改变了企业和个人访问和使用计算资源的方式。在过去十年中,由于对可扩展、灵活且成本效益高的IT解决方案的需求,像亚马逊网络服务(AWS)、微软Azure和谷歌云平台等主要云服务提供商已显著扩大其基础设施,提供从基本存储和计算能力到复杂的机器学习软件等一系列服务。并且AI工具。这些数据中心的发展特征从传统的本地服务器房间转向分布式、全球连接的设施,利用虚拟化、容器化和自动化为全球用户提供无缝服务。
我们需要更多的处理!
串行处理与并行处理张量处理代表了进一步的飞跃,使多维度数组(张量)上的操作成为可能,这对于现代人工智能应用至关重要,特别是在深度学习领域。张量处理单元(TPU)和其他专用硬件加速器被设计用来处理深度神经网络中训练和推理的巨大计算需求。张量处理的首要好处是在复杂的模型训练时间上的显著减少。张量处理的优势还在于其能高效地执行大规模、并行计算,在人工智能的进步中扮演重要角色,促成了自然语言处理、计算机视觉、大数据分析等领域的关键突破。
大型语言模型推动计算需求呈指数级增长
因为串行处理的可扩展性和延迟只能通过处理核心的根本性改进来提升,所以行业通过转向并行处理来规避这一限制。虽然CPU可以执行包括整数、数学计算在内的各种操作,这些都可以分解为更小的并行化函数。在其他控制、浮点数和I/O操作中,GPU被优化用于浮点数操作和单词,CPU擅长通用计算,能计算我们编程中的任何内容。首先在规模方面,人工智能需要处理和加工大量数据集。这些数据集用于通过复杂的算法来训练模型,这些算法可以调整和优化数百万或数十亿个参数。相比之下,传统的计算任务很少涉及如此广泛的数据操作和参数调整。人工智能工作负载的规模对核心处理能力(以FLOPs计算)的需求增加,更广泛地讲,对内存/存储、网络和电力需求也增加。
训练与推理
相比之下,推理是将训练好的模型应用于新数据以进行预测的过程,这需要较少的计算。然而,推理通常要求实时或接近实时地进行分类。与训练不同,推理只涉及模型的前向传递。处理,尤其是在自动驾驶汽车、在线推荐或交互式人工智能系统等应用中。因此,在推理阶段,重点在于降低延迟并提高吞吐量,以高效地处理每秒大量预测。推理通常推理加速器,这些优化了速度和低功耗。技术可以在更专业和节能的硬件上运行,包括边缘设备或专用设备。
代理人工智能工作流程
智能代理系统通常需要许多人工智能聊天机器人和大型语言模型在复杂代理任务中的成功率只有大约15%,不同的大型语言模型各自专注于不同的任务或工作流程的各个部分。当前来自斯坦福人类中心化人工智能(HAI)研究所的2024年报告。为了克服这一挑战以及大型语言模型(LLMs)在规划、推理和协调方面的固有差距,一个有代理的人工智能系统中每个LLM都需要手动调整和优化。代理式AI系统需要一个专门的语义层,以确保大型语言模型不仅理解数据的上下文,而且还能在代理式AI系统中的不同模型之间保持共享的上下文。代理式AI系统还需要在基础设施和硬件层进行优化。这需要根据具体用例,在诸如令牌、成本、批量大小、并发性等因素之间做出一系列高度复杂的权衡。
摩尔定律的终结?
摩尔定律是英特尔联合创始人戈登·摩尔在1965年提出的一个原则。最初,摩尔观察到晶体管在微芯片上的数量大约每年翻一番,这导致计算能力的相应增加和相对成本的降低。1975年,他将这一观察修订为预测这种倍增将大约每两年发生一次。这个预测,虽然最初是对趋势的观察,却成为了半导体行业的一个指导原则,导致了计算能力的指数级增长和技术创新的快速步伐。摩尔定律的“终结”归因于多个技术和经济挑战。随着晶体管缩小到原子尺度,量子隧穿、散热和功率泄漏等物理限制已成为显著障碍,使得进一步微型化变得更加困难且代价高昂。同时,随着技术的飞速发展,投资回报率逐渐降低。
摆动从水平整合到垂直整合
许多半导体企业选择在早期将重点放在横向整合,将其作为主要的增长催化剂,以快速扩大核心能力并剥离非核心资产。价值链中各种过程的标准化,包括用于芯片设计的模块化IP块、标准晶圆厂PDK(工艺设计套件)和封装标准,有助于简化公司间的整合挑战,使无晶圆厂/晶圆厂模式最终成为事实上的和主导的商业模式。无晶圆厂模式在20世纪80年代和90年代真正获得了普及,当时芯片设计公司可以通过专注于更具创新性的设计和更短的交货时间来寻求在市场上占据主导地位。
转向销售解决方案
晶体管科学的创新步伐不再是主要驱动力——现在主要的驱动力是培养从销售设备转向销售半导体发展驱动者的转变。随着摩尔定律的失效,特定的用例是解决方案。同样,消费者画像也已经发生了变化。半导体公司不再仅仅针对直接下游客户的工程和采购部门进行目标定位,而必须与更广泛的生态系统合作伙伴协调其活动——同时明确考虑到最终客户的使用场景。成本、性能和能源效率。层级。这让人想起半导体行业的早期,当时有AT&T/Bell Labs和IBM。与整个系统和软件一起协同设计芯片变得越来越有益。他们的1960年代至1970年代黄金时代。如今,在无厂生产模式的支撑下,系统集成商和软件公司开始投资于特定工作负载的芯片设计和系统架构。
超大规模企业拥抱DIY
一个客户群体在推动这一回归垂直化的转变中发挥了领导作用,那就是超大规模企业本身。超大规模企业通过为他们的消费或企业级产品设计自己的芯片,进一步优化了他们的堆栈。得益于其对数据的无与伦比访问、强大的生态系统合作伙伴关系以及对市场稳健的理解,像苹果、谷歌、AWS和Meta这样的超大规模企业通过内部芯片设计进一步获益,因为:关于终端客户的使用案例。对供应链和制造过程的更大控制导致成本降低和规模经济。因为这些系统的优化可以解锁处理能力的巨大改进,垂直设计方法可以产生巨大的经济影响——例如,在一个价值10亿美元的数据中心(即15,000至20,000个H100 GPU)上实现10%的性能提升,可以对成本效益产生显著影响。
竞争策略
除了苹果之外,几家领先的云公司已经开始设计他们自己的定制芯片。注意:标志旨在具有代表性,但并非详尽无遗列表
人工智能加速器制造商
目标用例张量处理单元(TPUs)谷歌高性能云计算推理TensorRT 和 Jetson 平台NVIDIA高性能推理和边缘人工智能莫维迪亚斯·迈亚德X英特尔边缘设备与人工智能应用神经网络引擎(ANE)苹果在苹果设备上的设备端人工智能处理Inferentia/Trainium亚马逊可扩展的云推理Versal AI Core SeriesAMD (Xilinx)数据中心和边缘设备Groq LPUGroq高性能人工智能推理华为 ascend AI 处理器华为数据中心和边缘人工智能应用百度昆仑百度云端和边缘AI处理SambaNova Systems RDUSambaNova数据中心和人工智能模型训练/推理Cerebras Wafer-Scale EngineCerebras大规模人工智能工作负载赛灵思(Cambricon)的ASICs寒武纪通用人工智能在各个应用领域的推理高通人工智能引擎高通移动和嵌入式AI推理三星 Exynos NPU三星在智能手机中的设备端人工智能MediaTek APUMediaTek移动和物联网人工智能应用
Amdahl定律和系统级改进
Amdahl定律处理的是计算系统的性能限制,特别是在并行处理方面。由Gene Amdahl于1967年提出(原IBM主机机的创造者之一),Amdahl定律表明,使用多个处理器完成任务的速度提升受到不能并行化任务部分的限制。即使处理器如摩尔定律预测的那样变得更加强大,Amdahl定律解释说,如果任务的部分仍然序列化,增加处理器数量时性能提升的回报是递减的。这突显了系统性能的关键限制,强调有效并行化对于充分利用硬件进步至关重要。
软件的重要性
软件和开发者生态系统已成为半导体公司的关注焦点,认识到优化应用在芯片上运行的能力将有助于推动更多GPU资源的采用。NVIDIA的CUDA是构建软件生态系统的力量的最佳例证。硬件特定功能的优势。在向并行计算转型的前沿,一直是英伟达。例如,英伟达不再仅仅制造芯片,而是整个计算系统。其DGX服务器集成了超过35000个部件,重达70磅。这类系统级解决方案及其相关供应链的复杂性,为任何传统离散芯片公司跨越设下了极其宽广的护城河。在人工智能时代,随着计算重点从芯片转移到综合系统,我们预计系统公司将获得大部分半导体收入,很大程度上掩盖了离散芯片制造商。
摩尔定律平方
我们坚定地坚信这一转向AI和积极效益的长期影响;然而,对GPU和AI基础设施的快速支出可能会对那些越来越多采用系统方法解决其问题的公司产生一些短期效应。结果波动。在这场人工智能竞赛中,供需可能无法完全匹配,这会在某些时候增加过度供应和产能过剩的风险。相反的情况也可能发生——(嗯)看起来也是如此,特别是那些花费数千亿美元的投资的回报率(ROI)也是这样,但直到我们获得对最终需求(企业/消费者)的更明确看法之前,这一点仍然是正确的。在过去一年中,AI基础设施,对于供应商来说,可能难以维持投资者在过去一年中已经习惯了的表现速度。正如每一次技术浪潮都对计算产生了深远的影响(从大型机到PC,再到智能手机,以及云计算),我们预期人工智能也将遵循类似的轨迹。人工智能正在重新聚焦,并开始一场为了成为人工智能领导者而展开的军备竞赛。因此,独立的芯片制造商将整个半导体生态系统置于数据中心系统级效率的考量之中,作为公司......不得不向上移动到更高的层次并拥抱垂直整合,以保持竞争力。AMD于2024年8月宣布,将以近50亿美元收购服务器建造公司ZT Systems,这是又一强有力的证据表明,半导体公司需要向上移动到更高的层次,否则将会落后。摩尔定律平方指的是人工智能模型性能改善加速的步伐,这得益于硬件和软件的进步。传统上,摩尔定律观察到微芯片上晶体管的数量大约每两年翻一番,导致计算能力的指数级增长和成本的降低。摩尔定律平方在此基础上进一步发展,提出由于算法创新和软件增强与硬件改进相结合,人工智能系统的性能甚至可以更加迅速地提高。该术语概括了专门的AI硬件(如TPUs和GPU)如何通过超越仅凭传统CPU改进所能实现的能力来提升计算能力。同时,算法的进步,如变压器架构和技术的开发,以及在AI框架和库中的软件优化,通过最大化模型剪枝和量化等技术,进一步增强了性能,有助于更高效的AI训练和推理。
从芯片到系统:人工智能如何变革计算和基础设施
+1 212 245 6508Sebastien Najisnaji@williamblair.com
+1 617 235 7519杰森·艾德,CFAjader@williamblair.com
请参阅第38页和第39页的重要披露。分析师认证在第38页。威廉布莱尔公司或其关联公司与其研究报告中的公司进行并寻求进行业务往来。因此,投资者应意识到,该公司可能存在可能影响本报告客观性的利益冲突。本报告的目的不是提供个人投资建议。此处表达的观点和建议并未考虑个别客户的情况、目标或需求,且无意作为针对特定客户的特定证券、金融工具或策略的推荐。本报告的接收者必须就本报告中提到的任何证券或金融工具做出其自身的独立决策。
.......................................................................................................................3...................................................................................................................3............................................................................................6..............................................................................................11......................................................................................18.......................................................................................................27..............................35结论........................................................................................................................36引言关键要点计算机简史我们需要更多的处理!它不仅仅是一块芯片,而是一套系统。设计人工智能集群GPU、软件以及半导体领导者结构性的更高利润率
指出人工智能,特别是通用人工智能(GenAI),是计算领域的下一代变革,这一点并不具有争议性。类似于之前那些从大型机到个人电脑、再到移动电话、再到云数据中心的发展浪潮,每一次转变都要求我们对计算架构、处理器设计和系统工程进行重新思考。在我们看来,人工智能也不例外,它吸取了个人电脑和移动时代的许多经验教训,并将这些经验教训转移到数据中心。像并行计算这样的技术能力已成为一种新的、大规模的工作负载,可以利用所有这些能力。片上系统(SoC)、软件定义的基础设施和系统科学并不新颖,但人工智能
在过去的报告中,威廉布莱尔科技团队曾讨论了由投资增加和新基础设施(网络、存储)需求、数据服务以及安全性的提升所引起的转变。自2022年11月ChatGPT发布以来,通用人工智能(GenAI)的兴起,以及这一新技术是如何重新洗牌的。查看我们的GenAI入门指南(生成式AI:自动化领域的新前沿括号和 企业 人工智能 报告生成式AI工具链:企业如何将炒作转化为现实在此次报告中,我们深入挖掘一层,从根本上来理解AI的兴起如何影响计算层,以及随之而来的数据中心基础设施技术的整体影响。
它不仅仅是更好的芯片,更是更好的系统。传统半导体公司越来越多地将目光投向堆栈更高层次,通过设计和架构的垂直整合,将计算的
核心单元从芯片转移到更广泛的计算系统中。像英伟达这样的公司并不将自己视为芯片提供商,而是视为整个计算机的建造者,其中芯片、存储、网络和软件的集成在推动性能提升中扮演关键角色。在我们看来,这种系统级别的方法为英伟达等芯片供应商创造了一个比我们在半导体行业过去的周期中习惯看到的技术护城河更为显著和可持续。例如,英伟达提供的DGX系统是一个复杂的计算机系统,包含35000个不同的组件,这些组件被设计成协同工作,为AI架构(CUDA软件)提供更好的性能,允许开发者在英伟达GPU上编写程序。与所有英伟达的解决方案一样,DGX运行的是长期建立的计算统一设备AI基础设施的成本——由于所需的系统规模和复杂性——成为推动半导体和IT堆栈价值链垂直整合更多部分进入针对特定用例优化的系统级解决方案的催化剂。由于这些系统的规模,在AI时代,随着计算重点从芯片转向综合系统,我们预计性能或能效方面的改进将对成本产生显著影响。系统公司将在半导体收入中占据大部分份额,在很大程度上掩盖了离散芯片制造商。
人工智能代表着计算领域的一次代际转变。
在ChatGPT发布近两年后,越来越明显的是,人工智能是解决日益增长的应用场景和工作负载的关键钥匙。人工智能跟随先前一代的技术变革,为计算世界带来了新的范式,这需要重新设计、架构和供应链的调整。在计算机领域,包括20世纪80年代从大型机到个人电脑的转变以及在2000年代末从个人电脑到移动设备的转变。鉴于人工智能仍处于幼年期,我们预计在未来十年内,随着人工智能技术几乎融入几乎所有现有流程和解决方案(以提高生产力和降低成本),以及被用于构建新的工具和应用程序(例如,人工智能驱动应用程序、全宇宙、数字孪生、机器人、自动驾驶汽车),它将创造一个规模庞大的数十万亿美元的市场机遇。
并行计算将成为大多数应用的基础。人工智能的兴起标志着数据中心从串行计算(以及CPU)的优先地位转向并行计算(以及GP
U/AI加速器)。这种转变是由训练和运行基于海量数据集的模型所需的高数量级处理能力推动的。支撑Transformer和深度学习模型的向量/张量数学需要并行化,即可以将任务分解成更小的块进行处理。随着并行优势的日益明显,GPU在数据中心中的份额不断增加。随着在应用程序和工作流程中集成AI模型的好处变得更加明显,数据中心环境——2023年,数据中心的新芯片中有约30%是GPU,我们预计在未来几年这一比例将迅速超过50%,尤其是在人工智能应用在总体应用领域中所占比重不断增大的情况下。
垂直整合使摩尔定律保持活力尽管由摩尔定律所决定的传统性能提升已经放缓——随着你达到原子级别的物理极限,减小晶
体管变得更加困难——半导体公司已开发出应急措施,以继续推动其芯片性能稳步提升。半导体行业不得不将其关注点和范围从处理器设计扩展到芯片系统再到超芯片,而现在则是构建垂直集成的计算系统,该系统结合了计算、存储、网络和软件的专长。通用人工智能(GenAI)的迅速崛起使得这一垂直化转变更为重要,从而启动了一款全新的芯片至数据中心全栈。微软CEO萨蒂亚·纳德拉在3月关于加速性能和能效提升的竞争中强调了这一点,这些提升超越了2024年在微软Build大会上的主旨演讲,提出我们可能正在进入IT系统中的一段“黄金时代”。
计算机系统比仅芯片获得的利润更高。随着半导体公司的核心IP从芯片设计扩展到系统工程和软件开发,这些公司能够比以往任何时
候更多地获取技术栈中的价值。然而,allelization受到系统序列部分(即并行部分)的限制,这促使半导体行业关注Amdahl定律,该定律强调了仅通过创建更大的GPU(即更高并行的益处)来简单地创造更大GPU的局限性。公司向上层拓展。随着越来越多的IP由有价值的软件能力和系统架构驱动,半导体公司能够推动更好的毛利率;英伟达就是这一点的典型例子,其流行的CUDA堆栈帮助它实现了行业中最高的毛利率之一(在70%中段)。虽然其中一部分是由定价能力驱动的,但我们预计这些更高的毛利率在短期内将是可持续的,因为半导体公司自身发展更多专有技能,并且越来越不依赖于提高晶圆厂能力作为性能提升的核心驱动力。
定制芯片需求凸显垂直化趋势。近年来一个关键趋势是,越来越多的科技公司开始设计自己的芯片,而不是从传统半导体公司
(如英特尔、AMD、高通)购买现成的计算机芯片。例如,苹果现在设计自己的芯片(A系列用于iPhone,M系列用于电脑),以优化其产品的性能以适应自身的软件生态系统。像Meta(MTIA)、AWS(Graviton CPU,Inferentia/Trainium GPU)、微软(Maia GPU,CobaltCPU)、谷歌(TPU)以及字节跳动/开放AI等超大规模科技公司最近都在投入大量资源,从芯片一直到运行在顶部的应用程序,构建自己的技术栈。这突出了向垂直化转型的结构转变。同时,这也突显了,对于他们的最大潜在客户来说,芯片供应商将越来越多地被视为竞争对手。- 最大的利益在于,设计整个系统以最大化特定用例的性能/成本。
设计全栈系统是一项艰巨的任务
胸,对于那些缺乏资源或专业技术以直接与半导体供应链合作并从头开始构建自己系统的多数组织来说,这仍然遥不可及。尽管垂直方法对从大规模战争中获益的最大科技公司有效,例如那些能够与半导体供应链直接合作并从头开始构建自己系统的公司,即使是像AWS、Meta和Google这样的超大规模企业,建立自己的芯片和数据中心系统也是一个挑战性的提议。我们与行业专家的对话强调了这样一个事实:构建内部解决方案是一个挑战。例如,尽管AWS在自家的基于Arm的CPU(Graviton)方面取得了一些成功,但其在GPU产品(Trainium、Inferentia)方面的表现却难以引起广泛关注。这是因为AWS不仅在技术领先性上落后于Nvidia,而且缺乏一个能够有效竞争CUDA的替代软件生态系统。结果是,Trainium/Inferentia作为某些用例的低成本替代品是有用的,但仍然需要一个兼容层来运行基于CUDA的库和程序。Nvidia对并行处理标准软件层的控制使其在竞争对手中占据巨大的领先优势,这也意味着今天的超大规模企业仍然在与Nvidia的竞争中追赶,而不是建立起自己的竞争优势。
半导体领导者拥抱垂直整合- 调查报告:Nvidia的业务不仅仅是制造芯片。我们构建的是一台完整的超级计算机。在GTC
2024财务分析师会议上,Nvidia首席执行官黄仁勋提出了以下观点:芯片到系统,再到互连,NVLinks(服务器互连),网络,但最重要的是软件。”这一断言不仅完美地概括了Nvidia对系统设计的高度专注,以及垂直化堆栈以构建整个计算系统的理念,而且突出了软件作为该解决方案中宝贵层的重要性。那些采纳了这种系统方法的厂商。今天,我们看到有三家厂商处于这一转变的前沿:在我们看来,从这场AI浪潮中受益最多的半导体公司是那些英伟达、ARM和博通。其他被关注的厂商包括在并行处理中追赶的CPU领导者(如英特尔、AMD),这些更广泛的计算系统的主要组件供应商(如-提高了处理器/芯片系统设计的定制化(新思科技、楷登)),以及能促进电子设计自动化(EDA)的厂商。
半导体产业诞生于1947年,当时贝尔实验室/AT&T的一组研究人员成功演示了第一个晶体管。他们的开创性工作在1948年发表,最终使他们于1956年获得了诺贝尔物理学奖。该产业开始成形。20世纪50年代初,特别是在1952年,当时有34家公司获得了AT&T原始半导体专利的许可。
从1950年到1970年,半导体公司越来越多地采用了垂直整合。先锋公司——如德州仪器、Fairchild和摩托罗拉——主要服务于原始设备制造商(OEMs,例如航空、电信、国防),设计、制造并包装他们的半导体芯片。集成器件制造商(IDMs)开发了他们自己的工艺技术,并在内部生产