您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:1官方将M27定位为首个模型深度参与自身迭代的版本 - 发现报告

1官方将M27定位为首个模型深度参与自身迭代的版本

2026-03-20未知机构小***
1官方将M27定位为首个模型深度参与自身迭代的版本

其核心变化在于,模型开始自主构建Agent Harness,驱动强化学习循环,并完成100+轮迭代,带动内部评测集效果提升30%。 软件工程方面,SWE-Pro为56.22%,已接近Opus 4.6;VIBE-Pro为55.6%,SWE Multilingual为76.5%,GDPval-AAElo达到149 1)官方将M2.7定位为“首个模型深度参与自身迭代的版本”。 其核心变化在于,模型开始自主构建Agent Harness,驱动强化学习循环,并完成100+轮迭代,带动内部评测集效果提升30%。 软件工程方面,SWE-Pro为56.22%,已接近Opus 4.6;VIBE-Pro为55.6%,SWE Multilingual为76.5%,GDPval-AAElo达到1495,为当前开源阵营最高。 同时,生产环境故障恢复时间已缩短至3分钟以内。 Agent能力方面,在40个复杂skills场景下,指令遵循率达到97%,OpenClaw评测表现也已接近Sonnet 4.6 2)基础参数方面,M2.7的上下文窗口为200K token;定价为$0.30 / $1.20每百万输入/输出token,与M2.5持平;当前仅支持MiniMax官方API;模态上仍为纯文本输入/输出,暂不支持多模态;开源方面,权重暂未公布,而M2.5此前采用的是MIT协议。 3)从Artificial Analysis的评测结果看,M2.7的核心特点是Agent能力强、幻觉明显下降,但部分单项稳定性仍有分化。 其中,GDPval-AA Elo得分1494,高于MiMo-V2-Pro(1426)、GLM-5(1406)和Kimi K2.5(1283),但仍落后于GPT-5.4(1667)和Claude Opus 4.6(1606)。 幻觉控制方面,AA-Omniscience指数升至+1,而M2.5为-40;幻觉率降至34%,低于Claude Sonnet 4.6(46%)和Gemini 3.1 Pro Preview(50%)。 分项能力上,HLE提升9pct、TerminalBench Hard提升5pct、SciCode / IFBench各提升4pct、GPQA / LCR各提升3pct,但τ²-Bench下滑11pct,说明模型在部分复杂任务上的收益并不均衡。 4)效率与成本方面,M2.7的输出token用量约为8700万,相比M2.5的约5600万增长55%。 不过,其整体效率仍优于GLM-5(约1.1亿),与Kimi K2.5(约8900万)大体接近。 从成本看,按$0.30 / $1.20的价格运行全套评测仅需$176,明显低于GLM-5的$547、Kimi K2.5的$371和Gemini3 Flash Preview的$278,因此性价比依然具备竞争力。 5)一些实测反馈认为M2.7本质上是一次小版本升级,综合性能整体与M2.5持平。 改进主要体现在三点:一是指令遵循能力提升,但稳定性略有下降;二是长上下文场景下的幻觉减少,信息提取能力首次做到满分;三是编程工程掌控力增强,更频繁地产出类似SPEC_md / README_md的结构化文件。 不足之处则在于,硬推理能力小幅退步,复杂问题下的token消耗增加50%-100%,也更容易触及MaxToken上限;与此同时,推理速度仍维持在65 tps左右,并未明显提升。