时间:5月17日 参会人:无 全文摘要 当前人工智能发展迅速,对算力需求持续增长,促使硬件架构不断优化以适应大型模型推理的需要。一家新兴公司Server致力于开发低延迟加速器(LPU),以解决高内存带宽和低延迟的问题。其最新产品WSE3采用了晶圆级集成技术和台积电5纳米制程,拥有44GB SRAM和显著算力提升。 会议信息 时间:5月17日 参会人:无 全文摘要 当前人工智能发展迅速,对算力需求持续增长,促使硬件架构不断优化以适应大型模型推理的需要。一家新兴公司Server致力于开发低延迟加速器(LPU),以解决高内存带宽和低延迟的问题。其最新产品WSE3采用了晶圆级集成技术和台积电5纳米制程,拥有44GB SRAM和显著算力提升。Server公司与欧派(OpenI)等大客户建立了合作关系,显示出其在云计算和数据中心市场中的潜力。然而,其商业成功还取决于未来的交付能力和市场接受度。随着AI应用对低延迟和高效率计算的需求增加,Server的解决方案在特定场景下展现出明显优势。 章节速览 00:00大模型推理时延挑战与LPU算力卡解决方案 对话讨论了大模型推理过程中低扣阶段对时延的新要求,指出内存和显存带宽是关键因素。为解决这一问题,LPU和异构集成算力卡应运而生,通过提升显存带宽加速推理过程,满足及时交互性需求。 01:39 Server公司IPO与创始人背景分析 上周,Server公司IPO开始交易,首日涨幅超100%,最高达380美元,募资56亿美元,投资者认购热情高涨。公司估值半年内翻六倍,最大跃迁因与OPI签订200亿美元长约。创始人有深厚算力领域背景,曾创立C Micro,后被MD收购,专注于高性能CPU架构,延续至避险加速计算领域。 04:17算力卡技术解析:WSE3芯片性能对比与优势 讨论了WSE3芯片在算力卡产品线中的位置,包括其第三代CS3机架的性能特点,如采用5纳米制程、44GB片上SM内存等。与市场上其他主流算力卡(如GB300、LPU3)对比,WSE3在显存容量、算力方面表现突出,但片外互联拓展能力是其主要短板。 08:39 WSE3芯片架构与热设计挑战 对话介绍了WSE3芯片的架构特点,包括3D集成晶圆设计、计算与存储均衡布局、以及通过软件冗余解决良率问题的策略。同时,讨论了其在热设计方面的挑战,如高功耗和热流密度,以及通过液冷技术应对这些挑战的必要性。 12:13高性能计算架构与冷却技术探讨 对话深入探讨了高性能计算架构中冷却技术的重要性,特别是针对高散热量需求的GPU,冷水冷却方案成为必要选择以避免芯片失效。同时,讨论了Memory X架构方案,通过外置模型状态至DDR5存储,结合专用互联协议,实现高效数据传输与计算并行,有效缓解存储压力。此外,提到了Google的C叉O交换机及C叉L协议在处理大规模模型解码时的应用,以及韵达与GDO在架构上的相似思路。 15:31服务器性能瓶颈与未来技术方向探讨 讨论了服务器性能的几个主要瓶颈,包括制程提升对stream贡献有限、片间互联带宽受限及天外带宽制约运行策略。提出未来可能的解决方向,如Z轴纵向连接和光互联技术,但工程实现难度大。总结服务器产品适用于特定场景,需通过模型优化实现效果,未来技术进展需克服物理和工程挑战。 20:05模型策略与通信经济学在集群计算中的应用 对话深入探讨了在集群环境下运行相同模型时的不同策略选择,以及通信经济学中的吞吐量与时延平衡问题。通过分析批处理大小对性能的影响,揭示了在不同场景下优化资源分配的重要性。此外,还讨论了特定卡型在小批处理场景下的优越表现,以及未来商业化节奏中可能采取的异构优化策略,尤其是在中东客户集中的背景下。 25:10欧派与OKI大额合作项目详情解析 讨论了欧派与OKI于1月签订的750兆瓦总规模合同,涉及超200亿美元金额,首期预付款10亿美元。合同包含循环投资合作,欧派向OKI提供贷款,利率6%,可通过产品交付抵偿,顺利交付则利率免除。合作分阶段实施,26-28年分别部署250兆瓦,后续通过租赁或销售硬件,拓展容量上限至2G瓦。OKI可获赠价值近3000万股股票,但交付不成功则协议失效。目前项目总规模达246亿美元,仅15%预计在26年交付,大部分收入将在28年后实现。 28:05异构算力合作与估值分析 讨论了与AWS等云厂商合作引入异构算力的情况,分析了基于英伟达收购案的估值对标,强调了低延迟加速技术的交付节奏对当前估值的重要性,并指出巨头们正布局异构架构以适应不同场景需求。 思维导图 问答回顾 发言人问:在A型趋势下,大模型推理的时延要求如何变化,以及LPU在其中的作用是什么? 发言人答:在A型趋势下,由于需要多步交互,每一步的大模型推理时延提出了新的要求。对于低扣阶段的实验要求更高,其中内存带宽成为影响推理速率和延迟的最大因素。因此,LPU和server等新的异构集成算力卡应运而生,通过提升显存带宽来解决抵扣阶段的存储问题,从而实现低扣阶段的快速推理。 发言人问:Series IPO的发行情况如何? 发言人答:Series IPO上周开始交易,发行价格为185美元,上市首日涨幅超过100%,最高达到380美元以上,并触发熔断机制。本次募资3000万股,募资规模约为56亿美元。其投资者认购热情较高,且该公司估值在半年内翻了六倍,最大催化来自于与OPI签订的200亿美元长约。 发言人问:创始人背景及公司产品线是什么? 发言人答:公司的重要创始人曾是Cn Mro的CTO,该公司被MD收购后,他继续在高性能计算领域积累了深厚经验。目前的产品线主要包括三代迭代的算力卡,最新一代CS3搭载了WSE3芯片,采用台积电5纳米制程,片上内存达到44GB,并且公司还有软件和云服务产品。 发言人问:服务当前主流卡与其他主流算力卡在显存、算力和显示带宽方面的对比如何? 发言人答:服务的WSE3芯片相较于英伟达的GB300、y ruin以及TPU等主流算力卡,在显存方面拥有显著优势,其片上内存达到了44GB,远超其他卡的HBM3配置。尽管算力上WSE3在稀疏架构下宣称125P flops,但还原成稠密架构后的算力为单卡15.6P,相较于GB300仍有差距。然而,WSE3的最大优势在于显示带宽,这是其主要短板所在,其芯片间的互联总带宽为150GB每秒,但在跨晶圆的互联拓展能力上相对较弱。 发言人问:WSE3单卡的架构具体是什么样的? 发言人答:WSE3单卡采用了3D卡的形式,将整个晶圆做成一个硅片,其中50%的面积用于存储(stream),50%用于计算。单卡由84个带构成,包含90万个计算核心。 发言人问:机架架构中如何连接各个组件以及处理模型加载问题?在如此大规模模型下,如何进行模型状态管理和加载? 发言人答:机架架构使用以太网和PCIE两种方式连接,CPU和L带作为外部连接接口。此外,考虑到内存需求,还配备了6TB DDR5外部存储(q case存储或K VSS),通过CPU管理,并帮助卸载模型权重和参数加载。为了解决模型状态管理和加载问题,提出了Memory X架构方案。该方案将外部模型状态和优化器解耦出来放在外部DDR5内存上,通过专用互联协议进行高速传输和计算,以降低调度复杂度。同时,也提到了类似Google即将推出的CxO交换机和CxL协议可能带来的挑战及解决方案。 发言人问:如何解决大规模芯片良率问题及散热挑战? 发言人答:为了解决良率问题,WSE3设计了一整片卡内包含97万个物理核心,实际激活90万个,预留了7%的冗余。通过软件锁定并绕开不可用区域以保证整体运行。同时,针对如此大的芯片面积(四万多平方毫米)带来的散热难题,采用了定制化的液冷解决方案,要求高流量和特定的冷却方式,确保同步搭配冷水站进行散热。 发言人问:WSE3上stream的瓶颈在哪里,以及未来的发展方向? 发言人答:WSE3上stream的瓶颈在于其总容量仅从40G提升至44G,增幅不大,这与制程进步有关。随着制程从7纳米提升到5纳米,单纯依靠制程迁移对stream的贡献有限。未来可能需要权衡调整,增加给stream而不是计算核心的空间,以解决这个瓶颈问题。 发言人问:在服务器架构中,为什么会出现卡间互联带宽限制的问题?面对卡间互联带宽的限制,服务器目前采取了什么应对策略? 发言人答:由于晶圆面积巨大,若要进行内部互联,只能在边缘部分布置L带进行外部互连,这受到几何物理限制,导致内部卡无法与外部卡区完全通信,从而造成最大的性能限制。此外,由于卡间互联带宽较低(如150GB每秒),无法满足某些高并行范式(如专家并行)对卡间通信的需求。服务器被迫采用流水线并行的方式,即将模型的各个部分加载到不同的计算节点上以解决延迟和跨卡间延迟的问题。不过,这种方式会带来Q占用等新问题。 发言人问:如何解决卡间互联带宽限制的未来发展方向有哪些? 发言人答:未来发展方向包括尝试在Z轴上增加连接,通过光互联技术解决现有互联带宽瓶颈。但这需要硅芯片上的混合封装技术,目前该技术尚未完全成熟,工程实现难度较高。 发言人问:对于不同模型在集群上的运行策略有何差异? 发言人答:对于相同模型,在集群上运行时,有不同的批处理大小(BH)选择,这会影响吞吐量和时延。通过通信经济学图可以找到最优解,即在批处理大小与模型之间取得平衡,以实现最大吞吐量或最低时延。 发言人问:server相比于主流卡有哪些特点及优势? 发言人答:server在小批量处理场景下,受限于显存带宽,而主流卡在大批次处理时主要受限于算力和互联带宽。server针对小批量推理优化,能实现最高的穿透生成速率,在特定场景下,通过合理的批处理大小选择,server可以提供比主流卡更优的性能表现。 发言人问:在小best的情况下,serf卡的表现如何?serf卡商业化节奏及集群是否会采取异构方式优化? 发言人答:在小best的情况下,serf卡表现最佳,超越了包括B300在内的主流卡产品,展现了在特定场景下更大的性能空间。目前尚未明确集群是否会采取异构方式,但提到最大客户OKI,其订单细节涉及750兆瓦总规模和超过200亿美元合同金额,并且存在与OKI之间的合作与交付安排。 发言人问:与OKI的具体合作细节是什么? 发言人答:与OKI的合约要求在26年部署250兆瓦,产品通过云平台交付给open I使用,后续逐年按计划继续部署,并通过租赁或直接销售硬件的方式交付剩余容量,同时有可拓展至两G瓦的上限。此外,OFI将获得server公司三千多万股股票作为合作条款的一部分。 发言人问:当前的市场估值情况如何? 发言人答:目前总规模达到246亿美元,但大部分收入预计会在28年前后兑现,因此虽然已上市,但后续财务估算和利润释放需要更长时间验证。若今年对欧派的交付顺利,结合低延迟加速的趋势,当前估值有一定支撑力。 发言人问:除了与欧派的合作,还有哪些其他合作情况? 发言人答:除与欧派的合作外,服务器还与AWS达成合作,被纳入其整体机型作为异构算力部署的一部分,目前尚未公布具体规模。此外,其他运营厂商可能也会有更多合作机会。 发言人问:对于服务器的市场空间和估值参考有哪些看法? 发言人答:如果简单对标英伟达收购groot的估值,服务器当前估值较高,但在美股市场中,算力卡的估值并不算高。相较于其他公司如优达和高通,服务器的价格明显更高。后续关键在于跟踪今年给欧派的交付情况,如果交付节奏顺利,结合低延迟需求的市场趋势,当前估值仍有合理性。同时,服务器正与其他巨头合作布局异构架构,未来有望在不同场景中占据重要地位。