行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

瑞银说了一件事 AI 推理系统以后会越来越分化不会是一套架构打天下

2026-07-02 未知机构金栩生

总结

核心观点与新兴系统架构探讨

研究者通过专家电话会议探讨了人工智能推理的新兴系统架构，重点关注超快速推理技术及SRAM架构、内存层次结构等关键权衡问题。
分析了NVDA和AWS等公司采用的分散式推理方法及其面临的挑战。

基于静态随机存储器（SRAM）的架构

SRAM架构通过将计算与存储紧密耦合，为低延迟推理解码工作负载提供结构优势，主要依赖内存带宽和延迟而非计算量。
优势：消除对高带宽内存（HBM）的依赖，减少数据移动和控制延迟，延长不间断执行序列，提升用户交互性。
局限性：SRAM密度低于HBM/DDR，限制单个芯片内存容量，导致运行大型模型（如参数量超1T、上下文长度超10万）困难。
应用范围：专家估计CS系统最佳适用于参数量不超过1T的模型和10万以下的上下文长度。
分布式执行需求：对于更大模型，需采用流水线或张量并行等分布式执行方式，但会引入通信开销和架构复杂性。
系统效率影响：大量SRAM设计减少计算空间，导致吞吐量和多租户能力受限，更适合特定且对延迟敏感的工作负载。

分解式推理与异构系统

单体架构局限性推动分布式推理模式发展，将工作负载分散到不同硬件平台。
硬件分配：GPU处理预填充和注意力工作负载，基于SRAM的加速器处理解码或专家混合（MoE）组件。
优势：通过匹配硬件与工作负载提高系统效率，实现更高吞吐量、更好GPU利用率及成本性能灵活性。
挑战：分布式系统需异构组件间频繁低延迟通信，当前实现存在协调、协议转换和软件栈复杂性瓶颈，限制扩展性。
典型案例：NVDA/Groq系统集成通过将解码阶段细分为注意力机制和FFN，增加灵活性，使小型模型能在SRAM硬件上运行，HBM处理依赖KV缓存的工作负载。
扩展性挑战：单个LPX机架含128GB SRAM，分布式架构上的扩展性仍需解决。

💡美国半导体公司 🤖瑞银芯片聊天：超高速且模块化推理技术 📝总结 🗣️在过去的这一周，我们与一位前META / INTC的硬件工程师进行了专家电话会议，讨论了用于人工智能推理的新兴系统架构。 🔍我们探讨了超快速推理以及SRAM架构、内存层次结构以及不同系统中的延迟限制等方面的权衡问题。 🏗️我们还研究了像NVDA和AWS这样的公司所采用的分散式推理方法，以及这种新的异构模型所面临的挑战。 ⚠️推理的解码阶段具有独特性，因为它不同于训练或预填充，其结构上是内存受限而非计算受限的，这为非HBM架构解决内存限制问题创造了机会。 💾基于静态随机存储器的架构：为低延迟推理进行优化 ⚡基于静态随机存储器（SRAM）的架构将计算与存储紧密耦合，并为推理解码工作负载提供了结构上的优势，在这类工作负载中，性能主要取决于内存带宽和延迟，而非计算/浮点运算次数。 🔗通过将高速SRAM直接与计算单元紧密集成，这些系统消除了对关键路径外部高带宽内存（HBM）的依赖，从而显著减少了数据移动和控制延迟。 🚀其结果是更长的不间断执行序列以及用户交互性显著提高。 📉然而，SRAM的密度明显低于HBM/DDR，这限制了每个芯片的内存容量。 🐘因此，运行大型模型变得尤为困难，因为这些模型本身就需要更大的键值（KV）缓存。 📏专家估计，CS系统的最佳应用范围是参数量不超过1T的模型和10万个以下的上下文长度。 🌐对于更大的模型，CS系统通常需要分布式执行（例如，流水线或张量并行），将不同的模型层分布在多个CS系统上，这会引入通信开销并增加架构的复杂性。 📦同时，采用大量静态随机存取存储器（SRAM）的设计会将更多的芯片面积分配给内存，从而减少了可用于计算的“可用空间”，最终导致相对于基于GPU的系统，其吞吐量和多租户能力受到限制。 🎯从系统角度来看，因此我们认为CS系统更适合于具有更严格内存要求的特定且对延迟敏感的工作负载，而非通用的大规模部署。 🧩分解式推理与异构系统：优势与权衡 🚧单体架构的局限性促使人们转向分布式推理模式，即将工作负载分散到不同的硬件平台上。 🤝在这种模式下，GPU通常用于预填充和注意力工作负载（这类工作负载对计算能力和容量要求较高），而基于SRAM的加速器则处理解码或专家混合（MoE）组件，这类组件对延迟更为敏感。 📈这种方法通过将每个工作负载与最适合执行它的硬件相匹配，提高了整个系统的效率。 💰因此，系统能够实现更高的吞吐量、更好的GPU硬件利用率，并在成本性能曲线方面具有更大的灵活性。 🛑与此同时，这种架构也带来了有意义的挑战——尤其是在协调方面。 📡分布式系统需要异构组件之间频繁、低延迟的通信，而当前的实现方式在协调、协议转换和软件栈复杂性方面遇到了困难。 🔒这些瓶颈正成为扩展异构推理系统的主要限制因素。 🔄在NVDA / Groq系统集成的情况下，NVDA通过将解码阶段细分为注意力机制和全连接神经网络（FFN）来增加更多的灵活性，并在这些阶段之间进行协调。 🔀这使得较小的键值缓存模型和工作负载能够在基于SRAM的硬件上运行，而高带宽内存（HBM）则用于处理更依赖键值缓存的工作负载。 🏢不过，一个单个LPX机架包含128GB的SRAM内存，这意味着在分布式架构上的扩展性仍然是一个需要解决的工程难题。

点击免费查看完整报告

瑞银说了一件事 AI 推理系统以后会越来越分化不会是一套架构打天下

总结

你可能感兴趣

长文本大模型推理实践——以KVCache为中心的分离式推理架构

通信行业周报：英伟达DGXH 100 AI服务器系统以及NVLink架构大幅提升数据速率，空芯反谐振光纤或将成为新一代AI算力集群通信传输技术

以创新驱动价值链出海：利用AI与混合云架构应对全球化落地挑战

浙江大学：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

浙江大学DeepSeek系列专题线上公开课(第二季) 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

【狙击龙虎榜】新能源炒作从1-10的业绩兑现，AI延续分化短线热钱扔以机器人为过渡

瑞银说了一件事 AI 推理系统以后会越来越分化 不会是一套架构打天下

你可能感兴趣

长文本大模型推理实践——以KVCache为中心的分离式推理架构

通信行业周报：英伟达DGXH 100 AI服务器系统以及NVLink架构大幅提升数据速率，空芯反谐振光纤或将成为新一代AI算力集群通信传输技术

以创新驱动价值链出海：利用AI与混合云架构应对全球化落地挑战

浙江大学：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

浙江大学DeepSeek系列专题线上公开课(第二季) 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

【狙击龙虎榜】新能源炒作从1-10的业绩兑现，AI延续分化短线热钱扔以机器人为过渡

瑞银说了一件事 AI 推理系统以后会越来越分化不会是一套架构打天下