您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:庆祝 美团LongCat-2.0 全国芯训练万亿参数量模型 同步实现架构创新 - 发现报告

庆祝 美团LongCat-2.0 全国芯训练万亿参数量模型 同步实现架构创新

2026-07-01 未知机构 曾阿牛
报告封面

太阳事件:6月30日,美团发布并宣布开源LongCat-2.0。模型采用LSA+MoE架构,总参数1.6T,平均激活参数48B,预训练数据超过35万亿tokens;支持百万上下文,未披露多模态输入能力。 太阳模型能力 【提升:coding能力比肩国产主流大模型】 LongCat-2.0在Terminal-Bench 2.1、SWE-bench Pro分别得70.8、59.5。GLM-5.2为81.0、62.1;Qwen3.7-Max为69.7(Terminal-Bench 2.0)、60.6;Kimi K2.6为66.7(Terminal-Bench 2.0)、58.6;M3为66.0、59.0。#仅从测试集角度看,#LongCat 2.0的Coding能力达到了比肩其他主流国产模型的水平,#稍落后于GLM-5.2(注:到各厂商使用的Benchmark版本有差异,且仅看测试集评价体系较为单一)。 【提升2:LSA+Embedding模型架构创新】 -LSA:#延续主流国模Attention层稀疏化降低计算开销的思路,LongCat稀疏注意力LSA在DSA基础上引入流感知索引,优化了索引器打分的执行方式,采用跨层索引,推理时单次索引计算可由多个连续的注意力层复用,并扩展至三步MTP投机解码采用。 -Embedding:引入N=5的N-gram Embedding条件记忆模块,将embedding空间扩展超过100倍,以更充分地建模局部上下文信息,LongCat报告认为,在高稀疏MoE已经超过“甜点区间”后,增加同等参数量的N-gram Embedding所带来的收益远超标准MoE。#Embedding模块提出后第一家在旗舰模型应用此技术的厂商。 太阳模型具备高性价比 标准价为输入/缓存命中/输出分别0.75/0.015/2.95美元/百万tokens,限时优惠价0.30/0.006/1.20美元。 太阳验证全国产芯片能训练万亿参数量大模型 #重大意义在于验证了全国产芯片能训练出万亿参数的MoE模型。美团自2023年开始探索国产卡应用在大模型训练端,从3千卡逐步拓展到本次的5万卡,LongCat-2.0训练运行在物理超节点上,每个超节点最多48台机器,节点内全互联高带宽、节点间走RoCE网络。超节点把高带宽通信域扩展到数百张卡,相比同规模下超节点额外带来约30%的预训练吞吐提升。