行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

1官方将M27定位为首个模型深度参与自身迭代的版本

2026-03-20 未知机构小烨

核心观点与关键数据

模型自主迭代与性能提升
- M2.7核心变化在于模型自主构建Agent Harness，驱动强化学习完成100+轮迭代，带动内部评测集效果提升30%。
- 软件工程能力：SWE-Pro达56.22%（近Opus 4.6），VIBE-Pro 55.6%，SWE Multilingual 76.5%，GDPval-AAElo 1495（开源最高）。
- 生产环境故障恢复时间缩短至3分钟以内。
Agent能力与评测表现
- 复杂skills场景指令遵循率97%，OpenClaw接近Sonnet 4.6。
- GDPval-AA Elo 1494（超MiMo-V2-Pro、GLM-5、Kimi K2.5，但落后GPT-5.4、Claude Opus 4.6）。
- 幻觉明显下降（AA-Omniscience +1，幻觉率34%，优于Claude Sonnet 4.6、Gemini 3.1 Pro）。
- 分项能力：HLE、TerminalBench Hard等提升，τ²-Bench下滑11pct（收益不均衡）。
基础参数与开源策略
- 上下文窗口200K token，定价$0.30/$1.20（持平M2.5），仅支持MiniMax API，暂无多模态。
- 开源权重未公布，M2.5采用MIT协议。
效率与成本分析
- 输出token用量增55%（约8700万，高于M2.5的5600万），但优于GLM-5（1.1亿），与Kimi K2.5（8900万）接近。
- 成本优势显著：运行全套评测仅需$176（远低于GLM-5、Kimi K2.5、Gemini3 Flash）。
实测反馈与综合评价
- 实质为小版本升级，整体性能与M2.5持平，改进点：
  - 指令遵循能力提升（稳定性略降）。
  - 长上下文幻觉减少，信息提取满分。
  - 编程工程能力增强（频繁输出结构化文件）。
- 不足：硬推理能力退步，复杂问题token消耗增50%-100%，推理速度65 tps未提升。

其核心变化在于，模型开始自主构建Agent Harness，驱动强化学习循环，并完成100+轮迭代，带动内部评测集效果提升30%。软件工程方面，SWE-Pro为56.22%，已接近Opus 4.6；VIBE-Pro为55.6%，SWE Multilingual为76.5%，GDPval-AAElo达到149 1）官方将M2.7定位为“首个模型深度参与自身迭代的版本”。其核心变化在于，模型开始自主构建Agent Harness，驱动强化学习循环，并完成100+轮迭代，带动内部评测集效果提升30%。软件工程方面，SWE-Pro为56.22%，已接近Opus 4.6；VIBE-Pro为55.6%，SWE Multilingual为76.5%，GDPval-AAElo达到1495，为当前开源阵营最高。同时，生产环境故障恢复时间已缩短至3分钟以内。 Agent能力方面，在40个复杂skills场景下，指令遵循率达到97%，OpenClaw评测表现也已接近Sonnet 4.6 2）基础参数方面，M2.7的上下文窗口为200K token；定价为$0.30 / $1.20每百万输入/输出token，与M2.5持平；当前仅支持MiniMax官方API；模态上仍为纯文本输入/输出，暂不支持多模态；开源方面，权重暂未公布，而M2.5此前采用的是MIT协议。 3）从Artificial Analysis的评测结果看，M2.7的核心特点是Agent能力强、幻觉明显下降，但部分单项稳定性仍有分化。其中，GDPval-AA Elo得分1494，高于MiMo-V2-Pro（1426）、GLM-5（1406）和Kimi K2.5（1283），但仍落后于GPT-5.4（1667）和Claude Opus 4.6（1606）。幻觉控制方面，AA-Omniscience指数升至+1，而M2.5为-40；幻觉率降至34%，低于Claude Sonnet 4.6（46%）和Gemini 3.1 Pro Preview（50%）。分项能力上，HLE提升9pct、TerminalBench Hard提升5pct、SciCode / IFBench各提升4pct、GPQA / LCR各提升3pct，但τ²-Bench下滑11pct，说明模型在部分复杂任务上的收益并不均衡。 4）效率与成本方面，M2.7的输出token用量约为8700万，相比M2.5的约5600万增长55%。不过，其整体效率仍优于GLM-5（约1.1亿），与Kimi K2.5（约8900万）大体接近。从成本看，按$0.30 / $1.20的价格运行全套评测仅需$176，明显低于GLM-5的$547、Kimi K2.5的$371和Gemini3 Flash Preview的$278，因此性价比依然具备竞争力。 5）一些实测反馈认为M2.7本质上是一次小版本升级，综合性能整体与M2.5持平。改进主要体现在三点：一是指令遵循能力提升，但稳定性略有下降；二是长上下文场景下的幻觉减少，信息提取能力首次做到满分；三是编程工程掌控力增强，更频繁地产出类似SPEC_md / README_md的结构化文件。不足之处则在于，硬推理能力小幅退步，复杂问题下的token消耗增加50%-100%，也更容易触及MaxToken上限；与此同时，推理速度仍维持在65 tps左右，并未明显提升。

点击免费查看完整报告

你可能感兴趣

1官方将M27定位为首个模型深度参与自身迭代的版本

核心观点与关键数据

你可能感兴趣

【电报解读】数字人民币App迎来2.0版本！数字人民币定位由M0向M1转变下，使用频率和广度将发生根本改变，有望给三个细分领域带来投资机会，这家公司是早期参与国有大行数字人民币钱包开发的厂商之一

【研选】我国首个专门就终端设备直连卫星的规范性文件发布，卫星应用有望提速；公司定位为“汽车+机器人Tier1”，新订单持续突破，加速拓展至具-身智能机器人..

1当前版本为V3三星做的designservicealphawave提供

转发1当前版本为V3三星做的designserv

【财联社早知道】刷屏! OpenAI发布首个文生视频模型这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219

1官方将M27定位为首个模型深度参与自身迭代的版本

你可能感兴趣

【电报解读】数字人民币App迎来2.0版本！数字人民币定位由M0向M1转变下，使用频率和广度将发生根本改变，有望给三个细分领域带来投资机会，这家公司是早期参与国有大行数字人民币钱包开发的厂商之一

【研选】我国首个专门就终端设备直连卫星的规范性文件发布，卫星应用有望提速；公司定位为“汽车+机器人Tier1”，新订单持续突破，加速拓展至具-身智能机器人..

1当前版本为V3三星做的designservicealphawave提供

转发1当前版本为V3三星做的designserv

【财联社早知道】刷屏! OpenAI发布首个文生视频模型 这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219

【财联社早知道】刷屏! OpenAI发布首个文生视频模型这家公司拥有以视频创意类AI技术为核心的多模态大模型;这家公司拟收购英伟达中国区精英级合作伙伴 ··-20240219