您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:中信科技小米MiMoV25ProUltraSpeed极速推理模式 - 发现报告

中信科技小米MiMoV25ProUltraSpeed极速推理模式

2026-06-12 未知机构 尊敬冯
报告封面

小米大模型团队近日同步推出MiMo-V2.5-Pro-UltraSpeed极速推理版本与MiMo Code V0.1.0开源编程助手。 旗舰MiMo-V2.5-Pro为1T参数MoE架构,UltraSpeed模式输出速度首破1000 tokens/s, ☀【中信科技】小米MiMo-V2.5-Pro-UltraSpeed极速推理模式及MiMo Code V0.1.0编程助手正式发布,AI进程进一步加速 小米大模型团队近日同步推出MiMo-V2.5-Pro-UltraSpeed极速推理版本与MiMo Code V0.1.0开源编程助手。 旗舰MiMo-V2.5-Pro为1T参数MoE架构,UltraSpeed模式输出速度首破1000 tokens/s,依托1个标准8卡通用GPU节点实现,发布后12小时内收到逾3000家企业试用申请。 MiMo Code以MIT协议完全开源,个人与企业均可自由使用及二次开发。 推理端核心技术:UltraSpeed模式以标准版约3倍定价换取约10倍输出速度,底层依赖MXFP4量化、DFlash投机解码及TileRT系统优化协同实现。 Coding场景token接受率达6-7/8,支持Best-of-N与Tree Search等高并发推理策略。 对于需要在固定延迟预算内大批量调用模型推理的应用场景(如在线内容审核、实时风控评分、Agent任务拆解),推理吞吐量的数量级提升直接降低单位调用成本,有助于加速相关场景的商业落地。 编程助手端:MiMo Code在同等MiMo-V2.5底模加持下,Agent系统层面SWE-Bench Pro得分62%,超出ClaudeCode的57%,Terminal Bench 2同样领先5个百分点,差异来源于Agent编排机制而非底模本身。 产品引入三重持久记忆机制(项目记忆+会话检查点+任务进度)与/dream自动记忆压缩命令,解决长程编码任务中上下文丢失问题。 完全开源策略有利于扩大开发者生态,并形成对小米云服务及MiMo API调用的正向导流。