💡美国半导体公司 🤖瑞银芯片聊天:超高速且模块化推理技术 📝总结 🗣️在过去的这一周,我们与一位前META / INTC的硬件工程师进行了专家电话会议,讨论了用于人工智能推理的新兴系统架构。 🔍我们探讨了超快速推理以及SRAM架构、内存层次结构以及不同系统中的延迟限制等方面的权衡问题。 🏗️我们还研究了像NVDA和AWS这样的公司所采用的分散式推理方法,以及这种新的异构模型所面临的挑战。 ⚠️推理的解码阶段具有独特性,因为它不同于训练或预填充,其结构上是内存受限而非计算受限的,这为非HBM架构解决内存限制问题创造了机会。 💾基于静态随机存储器的架构:为低延迟推理进行优化 ⚡基于静态随机存储器(SRAM)的架构将计算与存储紧密耦合,并为推理解码工作负载提供了结构上的优势,在这类工作负载中,性能主要取决于内存带宽和延迟,而非计算/浮点运算次数。 🔗通过将高速SRAM直接与计算单元紧密集成,这些系统消除了对关键路径外部高带宽内存(HBM)的依赖,从而显著减少了数据移动和控制延迟。 🚀其结果是更长的不间断执行序列以及用户交互性显著提高。 📉然而,SRAM的密度明显低于HBM/DDR,这限制了每个芯片的内存容量。 🐘因此,运行大型模型变得尤为困难,因为这些模型本身就需要更大的键值(KV)缓存。 📏专家估计,CS系统的最佳应用范围是参数量不超过1T的模型和10万个以下的上下文长度。 🌐对于更大的模型,CS系统通常需要分布式执行(例如,流水线或张量并行),将不同的模型层分布在多个CS系统上,这会引入通信开销并增加架构的复杂性。 📦同时,采用大量静态随机存取存储器(SRAM)的设计会将更多的芯片面积分配给内存,从而减少了可用于计算的“可用空间”,最终导致相对于基于GPU的系统,其吞吐量和多租户能力受到限制。 🎯从系统角度来看,因此我们认为CS系统更适合于具有更严格内存要求的特定且对延迟敏感的工作负载,而非通用的大规模部署。 🧩分解式推理与异构系统:优势与权衡 🚧单体架构的局限性促使人们转向分布式推理模式,即将工作负载分散到不同的硬件平台上。 🤝在这种模式下,GPU通常用于预填充和注意力工作负载(这类工作负载对计算能力和容量要求较高),而基于SRAM的加速器则处理解码或专家混合(MoE)组件,这类组件对延迟更为敏感。 📈这种方法通过将每个工作负载与最适合执行它的硬件相匹配,提高了整个系统的效率。 💰因此,系统能够实现更高的吞吐量、更好的GPU硬件利用率,并在成本性能曲线方面具有更大的灵活性。 🛑与此同时,这种架构也带来了有意义的挑战——尤其是在协调方面。 📡分布式系统需要异构组件之间频繁、低延迟的通信,而当前的实现方式在协调、协议转换和软件栈复杂性方面遇到了困难。 🔒这些瓶颈正成为扩展异构推理系统的主要限制因素。 🔄在NVDA / Groq系统集成的情况下,NVDA通过将解码阶段细分为注意力机制和全连接神经网络(FFN)来增加更多的灵活性,并在这些阶段之间进行协调。 🔀这使得较小的键值缓存模型和工作负载能够在基于SRAM的硬件上运行,而高带宽内存(HBM)则用于处理更依赖键值缓存的工作负载。 🏢不过,一个单个LPX机架包含128GB的SRAM内存,这意味着在分布式架构上的扩展性仍然是一个需要解决的工程难题。