行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

庆祝美团LongCat-2.0 全国芯训练万亿参数量模型同步实现架构创新

2026-07-01 未知机构曾阿牛

核心观点：美团发布并开源了【LongCat-2.0】大模型，实现架构创新和性能提升，同时验证了全国产芯片训练万亿参数量模型的可行性。
模型参数与架构：
- 采用LSA+MoE架构，总参数量1.6万亿，平均激活参数48B，预训练数据超过35万亿tokens。
- 支持百万上下文，未披露多模态输入能力。
- 架构创新：
  - LSA：在DSA基础上引入流感知索引，优化索引器打分执行，采用跨层索引，推理时单次索引计算可复用多个连续注意力层，并扩展至三步MTP投机解码。
  - Embedding：引入N=5的N-gram Embedding条件记忆模块，将embedding空间扩展超过100倍，更充分地建模局部上下文信息，提出后首家在旗舰模型应用此技术的厂商。
性能表现：
- Coding能力：Terminal-Bench 2.1、SWE-bench Pro得分分别为70.8、59.5，与GLM-5.2（81.0、62.1）相当，略落后于Qwen3.7-Max、Kimi K2.6、M3，达到国内主流大模型水平。
- 性价比：标准价输入/缓存命中/输出分别为0.75/0.015/2.95美元/百万tokens，限时优惠价0.30/0.006/1.20美元。
技术验证：
- LongCat-2.0训练运行在物理超节点上，每个超节点最多48台机器，节点内全互联高带宽、节点间走RoCE网络，高带宽通信域扩展至数百张卡，预训练吞吐提升约30%。
- 重大意义：验证全国产芯片能训练出万亿参数的MoE模型，从3000卡逐步拓展至5万卡。

太阳事件：6月30日，美团发布并宣布开源LongCat-2.0。模型采用LSA+MoE架构，总参数1.6T，平均激活参数48B，预训练数据超过35万亿tokens；支持百万上下文，未披露多模态输入能力。太阳模型能力【提升：coding能力比肩国产主流大模型】 LongCat-2.0在Terminal-Bench 2.1、SWE-bench Pro分别得70.8、59.5。GLM-5.2为81.0、62.1；Qwen3.7-Max为69.7（Terminal-Bench 2.0）、60.6；Kimi K2.6为66.7（Terminal-Bench 2.0）、58.6；M3为66.0、59.0。#仅从测试集角度看，#LongCat 2.0的Coding能力达到了比肩其他主流国产模型的水平，#稍落后于GLM-5.2（注：到各厂商使用的Benchmark版本有差异，且仅看测试集评价体系较为单一）。【提升2：LSA+Embedding模型架构创新】 -LSA：#延续主流国模Attention层稀疏化降低计算开销的思路，LongCat稀疏注意力LSA在DSA基础上引入流感知索引，优化了索引器打分的执行方式，采用跨层索引，推理时单次索引计算可由多个连续的注意力层复用，并扩展至三步MTP投机解码采用。 -Embedding：引入N=5的N-gram Embedding条件记忆模块，将embedding空间扩展超过100倍，以更充分地建模局部上下文信息，LongCat报告认为，在高稀疏MoE已经超过“甜点区间”后，增加同等参数量的N-gram Embedding所带来的收益远超标准MoE。#Embedding模块提出后第一家在旗舰模型应用此技术的厂商。太阳模型具备高性价比标准价为输入/缓存命中/输出分别0.75/0.015/2.95美元/百万tokens，限时优惠价0.30/0.006/1.20美元。太阳验证全国产芯片能训练万亿参数量大模型 #重大意义在于验证了全国产芯片能训练出万亿参数的MoE模型。美团自2023年开始探索国产卡应用在大模型训练端，从3千卡逐步拓展到本次的5万卡，LongCat-2.0训练运行在物理超节点上，每个超节点最多48台机器，节点内全互联高带宽、节点间走RoCE网络。超节点把高带宽通信域扩展到数百张卡，相比同规模下超节点额外带来约30%的预训练吞吐提升。

点击免费查看完整报告

庆祝美团LongCat-2.0 全国芯训练万亿参数量模型同步实现架构创新

你可能感兴趣

电子行业跟踪周报：架构级创新，华为UBMesh直击大模型训练的“通信墙”与成本痛点

【风口研报·公司】获四机构席位买入超2亿元，分析师看好这家视频显控龙头基于深度学习训练模型、已实现了AI图像色彩重建技术，有望受益于技术变革带来的行业集中度进一步提升

AI产业跟踪：智源BGE向量模型全面登顶SOTA，谷歌Veo 3首次实现音画同步

数据技术嘉年华：智能·云原生·一体化——DB与AI协同创新，模型与架构融合发展

主体数量全国首位，以转型城投为主，区县主体、专项品种占比高，资金用途灵活——浙江省实现新增发债企业观察

商贸零售行业周报：24H1全国新开业的商业项目数量达131个，关注购物中心业态创新趋势

创新机制与架构，引领长期价值实现

场内基金与创新产品周报：opAI推出最新AI模型GPT-4Turbo，并实现用户定制化

庆祝 美团LongCat-2.0 全国芯训练万亿参数量模型 同步实现架构创新

你可能感兴趣

电子行业跟踪周报：架构级创新，华为UBMesh直击大模型训练的“通信墙”与成本痛点

【风口研报·公司】获四机构席位买入超2亿元，分析师看好这家视频显控龙头基于深度学习训练模型、已实现了AI图像色彩重建技术，有望受益于技术变革带来的行业集中度进一步提升

AI产业跟踪：智源BGE向量模型全面登顶SOTA，谷歌Veo 3首次实现音画同步

数据技术嘉年华：智能·云原生·一体化——DB与AI协同创新，模型与架构融合发展

主体数量全国首位，以转型城投为主，区县主体、专项品种占比高，资金用途灵活——浙江省实现新增发债企业观察

商贸零售行业周报：24H1全国新开业的商业项目数量达131个，关注购物中心业态创新趋势

创新机制与架构，引领长期价值实现

场内基金与创新产品周报：opAI推出最新AI模型GPT-4Turbo，并实现用户定制化

庆祝美团LongCat-2.0 全国芯训练万亿参数量模型同步实现架构创新