您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:AI算力周会ScaleupScaleoutScaleacross技术趋势Deepseek新模型更新20260104 - 发现报告

AI算力周会ScaleupScaleoutScaleacross技术趋势Deepseek新模型更新20260104

2026-01-04 未知机构 徐雨泽
报告封面

无参会人信息关于AI算力基础设施,特别是通信与连接技术发展的讨论纪要,核心观点与内容梳理如下:1.核心议题与背景* 讨论围绕CPU观点、DeepSeek新模型的“hyper connection”技术、AI算力的算法与硬件瓶颈展开。*重点分析了英伟达、亚马逊、谷歌在数据中心内部芯片连接方案上的最新变化与市场预期。 这是一种在AI模型推理过程中,允许特征跨越2. DeepSeek的“Hyper Connection”技术*多层进行连接的技术,通过添加约束条件和提前运算,简化了计算过程并提升了性能。 AI算力周会:Scale-up、Scale-out、Scale-across技术趋势;Deepseek新模型更新20260104 无参会人信息关于AI算力基础设施,特别是通信与连接技术发展的讨论纪要,核心观点与内容梳理如下:1.核心议题与背景* 讨论围绕CPU观点、DeepSeek新模型的“hyper connection”技术、AI算力的算法与硬件瓶颈展开。*重点分析了英伟达、亚马逊、谷歌在数据中心内部芯片连接方案上的最新变化与市场预期。 这是一种在AI模型推理过程中,允许特征跨越2. DeepSeek的“Hyper Connection”技术*多层进行连接的技术,通过添加约束条件和提前运算,简化了计算过程并提升了性能。*该技术被视为算法持续演进的一个例子,虽然其直接的投资应用价值有限,但体现了AI底层优化的方向。 3. AI算力的根本瓶颈:存储与通信*文章指出,从算法角度看,AI发展的核心瓶颈始终在于内存(存储)和通信带宽。这直接映射到硬件端,驱动着HBM、SRAM、缓存等存储层 级以及各种高速互联技术的创新。*方式应对存储瓶颈。 4.核心公司连接方案演进与分析* 英伟达等公司通过在芯片中集成HBM、增加缓存等 英伟达:其方案是“全互联”(All-to-All)的典范。趋 势是扩大“Scale Up”(机柜内/集群内高速互联)的规模(如从72卡到288卡集群),并将连接方式从铜缆转向正交背板。未来在更大规模集群中,第二层互联将必然引入光连接(光 模块),具体形式(CPO、可插拔等)仍在探讨中。*亚马逊:正在发生关键转变,从过 去类似“3D Torus”的点对点互联架构,向英伟达式的“全互联”架构靠拢。其自研芯片集群开始引入Switch,以实现柜内芯片的直连,这提升了底层互联效率和对高带宽的需求。*谷歌:方案呈现“双轨制”。对内(自用TPU),预计在现有64卡集群内仍维持3D Torus架构和OCS(光电路交换机);对外(售卖TPU)及未来新一代产品(如27年),将引入Switch。同时,在64卡集群之间的“Scale Out”连接中,一定会增加光模块的使用。其芯片迭代(V5/V6向V7/V8过渡)将伴随液冷的普及。 5.三大互联层级(Scale Up/Out/Cross)的预期与市场影响*Scale Up(机柜内/集群内):连接载体将从PCB/铜缆向光演进(无论是否通过CPO形式),对PCB(要求更高)和光器件是增量。*Scale Out(数据中心内集群间):存在巨大预期差。随着AI算力集群规模指数级增长,网络带宽必须同步提升,否则增加芯片无效。这将直接驱动光模块的速率(从 800G向1.6T/3.2T升级)和用量提升。*Scale Cross(数据中心间):这是一个新增量市场,不同于传统的电信DCI,它专门用于连接地理上临近的多个数据中心建筑,以构建超大规模AI集群。其需求与芯片速率直接相关,是纯粹的增量空间。 6.关于CPO(共封装光学)与光模块的辩证关系*CPO的核心是解决高速电信号传输距离问题(将光引擎移至芯片附近),而非替代光模块。它只是光互连的一种实现形式。*在 英伟达的备选方案中,CPO、可插拔CPO、NQ、传统光模块并存,且都有主流光模块厂商参与。因此,光互连市场的整体增长是确定的,CPO的发展与光模块市场的扩张并非对立,而是共同受益于带宽需求的爆发。 7.市场预期与结论*需求量:市场对亚马逊、谷歌等公司的自研芯片出货量存在分歧和 预期差,但基于台积电CoWoS产能扩张等迹象,整体需求量大概率会上修。*技术趋势: 行业连接架构正从各种专用互联(如Torus)向全互联(All-to-All)统一,这将持续推高对互联带宽和规模的要求。*投资方向:光模块和PCB是明确受益于上述趋势的核心硬件赛道,其空间和增量已被验证。存储是另一大瓶颈和需求方向。后续需关注如英伟达GDC大会等关键催化节点。*总体来看,AI算力基础设施在通信(Scale Up/Out/Cross)和存储两大方向的需求是全面且长期的,市场认知的预期差将带来投资机会。 今天虽然是假期,但仍有较多更新。内容当然也包括CPU相关的一些动态。今天可能先简短谈谈CPU的观点,明天会有更详细的展开。关于第四个更新(指DeepSeek的hyper connection),虽然从投资角度看没有很多直接的帮助,但其理论还是具有线性外推的价值。另外,原本打算跨年后首次分享的,是关于当前通信领域的一些预期差。之前可能或多或少 讲过,但结合最近包括TPU的一些传言(例如关于是否使用Switch的探讨,以及其量的分歧),整体仍有很多值得更新的关注点。 DeepSeek这边其实比较简单。其在2025年3月发表了一篇文章,提出了一个叫做“hyper connection”的东西。这次发布的是一个名为“many for constraint”的hyper connection。简单来说,这个hyper connection(可参考相关图示)是在AI推理过程中,模型有很多层,需要寻找特征。采用这种方式后,可以跨过很多层,从而简化过程。但在跨越过程中,之前的 模型有一个问题,就是没有约束。因为矩阵运算中,如果向量乘积为一,结果不会放大,但 之前没有太多处理。现在DPC(可能指DeepSeek)做了改进,在跨越几层时加入了提前运算。从论文数据看,其结果比普通connection要好一些,这带来了一些额外的应用价值。不过,这个点本身相对较小。 从这个点往后看,首先需要考虑其后续更新会有哪些需求,以及整个AI算力未来更新有哪些值得关注的点。主要有以下几块:首先,能看到底层函数会继续优化,或者说从AI自身能力看,算法方面的演进一直有大规模提升,但这块容易被忽略。另外,从整个算法角度看, 瓶颈始终卡在内存和通信(存储与通信)上。映射到硬件端,这两个点将一直是瓶颈。例如, 之前提到的英伟达在芯片中配置HBM,后续做了CTX的辅助运算,与Group合作,未来也可能引入SRAM。从这些角度看,在不同层级的存储上,都会增加使用。这是一个方向。未来模型的演进,预计会有特别大的量级。我们需要看到未来模型的需求,再看硬件端需要 做到什么程度。这会是一个变化的点。 今天主要谈的还是通信环节。后续肯定会从存储、电力或其他方向展开,陆续讲完对2026年的一些策略。感觉一天内很难简要阐述明白,因为行业更新很快。所以今天主要聚焦于近 期几家公司的更新,包括英伟达、亚马逊和谷歌,最后落脚到谷歌。 从英伟达角度看,目前对GDC有一些预期。其从72卡的集群到288卡的单柜连接,从通缆变成了正交背板。未来无论是推理端还是训练端集群,都需要在数据中心内部进行任务协调, 因此需要很高的并发。这种高并发对其scale up连接的规模提出了较大要求。原本的想法是做成一个288卡芯片连接的柜子,现在可能会做成几个柜子,互相连接到第二层。这对英伟达本身是一个比较好的预期。 这里的争议点主要有两个方向:一是只要连接到第二层,且第二层用光(模块),这是毫无 争议的;二是连接到第二层后,第一层的规模(无论是288卡、72卡还是8卡服务器)都是可以的。第二块是关于连接到第二层的光的形式。最近因为CPU有一些更新(更新了交换机日志,结合AMD有相关文章阐述),CPU的关注度又起来了。 从基本面看,CPU一直保持稳定的延展。市场预期时高时低,显得CPU一会儿快一会儿慢,但这并非基本面问题。从这个角度看,第二层用光的话,从英伟达内部方案看,包括CPU、进封装(NNQ)、甚至可插拔,都在其可探讨的方案内。因此,从最初大家认为scale up一定会用CPU,到现在整体连接方式可能会有一些变化,这是一个值得关注的点。 另一块是亚马逊和谷歌,它们都在自建集群,连接方式可见一些变化。最初亚马逊的连接也 采用torus架构(无论是2D、2.5D还是3D),简而言之不是两两互联。其一个集群(如一个Rack柜子)内,一个Compute节点有两张芯片,并非所有芯片都通过一个Switch跳到另一个Switch。英伟达则是任何两个芯片都可通过Switch跳转连接。但亚马逊和谷歌不同,它们可能需要跳到不同芯片上,再跳到目标芯片,并非通过交换机直接转换。 亚马逊现在有一个变化:其64卡集群是左右两个柜子,原来柜子内部上下也不是直连。但 现在亚马逊的柜子变了,上下也通过中间的Switch做一层跳跃。因此,在其底层连接上,亚马逊开始向英伟达的全互联方向改变。而且可以看到,亚马逊在12月份的大会上提到了与英伟达的Fusion合作。 这个合作意味着未来其可能接受英伟达的全互联方案。这并非涉及生态绑定等问题,纯粹是 看效果。如果效果好,它完全可以用自己的芯片叠加博通的Switch去做两两互联。其变化在于连接上会有很高的scale up带宽要求。这是亚马逊自身方案的变化。 亚马逊这边看起来,其本身的链接可以做成一个很大的Compute节点,从两个Compute变成四个Compute。其核心点在于增加两两互联或提升底层效率,因为之前自研芯片有一些延迟。但关键在于,之前的方案是点对点互联,现在则没有那种全互联状态,这是一个区别。 另一个点是量的预期。这点与谷歌的量的预期一起提。之前谷歌有一个变化,即可能在柜内 增加类似亚马逊的Switch,这肯定利好交换机和交换机的PCB。 现在基本有一个结论:谷歌对外售卖的TPU可能会用这种方式,但对内可能还会用3D torus。但这不一定会这样划分,实际上会从一种方案变成两种方案。 从谷歌内部架构看,其现有的64卡架构内还没有Switch存在。另外,这种架构与OCS(光电路交换机)有较强的绑定关系,OCS只有在3D torus架构下才能发挥更好效果。如果用了Switch,就没有OCS了。 从这个结论看,其内部连接(将64张卡看成一个立方体)是一个4×4的连接,每个芯片有X、Y、Z三个方向。其中X轴的四张芯片是一个树状结构的四个芯片,连接用PCB,Y轴和Z轴都用铜缆。因此,其连接方式没有任何变化。 另外,因为谷歌提到其CR频率要做得很高,所以在64卡连接之外,每个芯片还需要与外部柜子连接,这就需要用到光。如果对应交换机用OCS,则一边用光模块,一边用晨光交换机;如果不用OCS,也可以两边都用光模块。这会是一个变化点。 总结谷歌的方案:在64卡以内的柜内连接,还是3D torus,没有Switch;在27年那代产品中才会用到。64卡以外的连接,一定会增加光的引入。核心点在于,如果使用3D torus,其与OCS的绑定仍然较深,这是一个变化。 另一个是关于量的假设。目前对于亚马逊和谷歌的量级,预期上仍有一些变化。包括其给台 积电的CoWoS需求,不同口径的数据差距不小。如果看到台积电确认的数字,确实比一些数字要低。 之前谷歌想上调数字,但从博通那边看,它还想继续加。最终可能确认的是350到400万,但博通还想加。预期是,假设台积电明年下半年顺利扩产,博通可能在接下来一段时间确定 这个数字。 亚马逊这边,代表了Meta加上L7,但其核心会转向第三代芯片。其第二代芯片比较确定,但非主流;第三代是新芯片。市场对这块预期较低,因为英伟达在上修,博通在上修,假设 抢了亚马逊份额,但实际上亚马逊对自身量的预期也不低。总体需求都蛮高,仍处于供需博 弈