AI智能总结
精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 一、2025上半年度关键进展及趋势1. 2025年上半年大模型关键进展2. 2025年最值得关注的中文大模型全景图3. 2025年国内外大模型差距二、5月通用测评介绍1. SuperCLUE基准介绍2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式4.各维度测评说明及示例5.测评模型列表三、总体测评结果与分析1. SuperCLUE模型象限2. SuperCLUE通用能力测评榜单3. SuperCLUE-Agent:智能体测评分析4.SuperCLUE性价比区间分布5. SuperCLUE大模型综合效能区间分布6.国内大模型成熟度-SC成熟度指数7.评测与人类一致性验证8.开源模型榜单9. 10B级别小模型榜单10.端侧5B级别小模型榜单 报告摘要(一)•o4-mini(high)总分稳居第一,综合能力全面领先o4-mini(high)在本次5月测评中表现优异,总分达到70.51分,超过国内最好模型7.35分。该模型在推理、代码生成、智能体、指令遵循等多个方面表现出卓越的综合能力,特别是在代码生成(91.52)、指令遵循(68.07)方面得分较高。•国内推理模型崭露头角,部分领域优势突出Doubao-1. 5-t hi nki ng-pro- 2 0 5 4 1 5、S e n s e N o v a V 6 R e a s o n e r等 国 内 模 型 表现 亮 眼 。 其 中 ,D o u b a o - 1 . 5 - t h i n k i n g - p r o - 2 0 5 4 1 5在 文 本 创 作 与 理 解任 务 以81.04的高分领先其他模型。•国内大模型在指令遵循方面普遍低于海外模型Hunyuan-T1-20250403在国内模型中指令遵循得分第一,为36.97分,但是与海外模型指令遵循得分第一的o4-mini(high)相比,差距达到了31.1分,国内模型在指令遵循方面表现较弱,还有较大的提升空间。•小参数模型表现超出预期多款开源小参数量模型展现出惊人潜力。尤其是Qwen3系列,其中4B、8B和14B版本在推理任务上的分数均超过50分,超越了众多闭源大模型。 报告摘要(二)大 模 型 性 价 比区 间分 布数 据 来 源 :S u p e r C L U E,2 0 2 5年5月2 8日 ; 推 理 任 务 得 分 为 推 理 任 务 总 分:数 学 推 理、科 学 推 理 和 代 码 的 平 均分。开 源 模 型 如Q w e n 3 - 3 2 B ( T h i n k i n g )使 用 方 式 为A P I,价 格 信 息 均 来 自 官 方 信 息。注 : 部 分 模 型A P I的 价 格 是 分 别 基 于 输 入 和 输 出 的t o k e n s数 量 确 定 的 。 这 里 我 们 依 照 输 入t o k e n s与 输 出t o k e n s 3 : 1的 比 例 来 估 算 其 整 体 价 格 。 价 格 信 息 取 自 官 方 在5月 的 标 准 价 格 ( 非 优 惠 价 格 ) 。 第一部分2025上半年度关键进展及趋势1.2025年上半年大模型关键进展2.2025年最值得关注的中文大模型全景图3.2025年国内外大模型差距 关键进展跃进期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年半有了实质性的突破。具体可分为:准备期、跃进期、繁荣期、深化期和融合期。2025上半年大模型关键进展2022.122023.06SuperCLUE:AI大模型2025上半年关键进展准备期•C h a t G P T发 布 ,全 球 范 围 内 迅速 形 成 大 模 型 共 识 。•G P T 4发 布,进 一 步 掀 起 大 模 型研 发 热 潮 。•国 内 快 速 跟 进 大 模 型 研 发 。文 心一 言1 . 0、 通 义 千 问 、讯 飞 星 火 、3 6 0智 脑 、C h a t G L M等 首 批 模型 相 继 发 布 。•G P T - 4T u r b o、G e m i n i等 海外 大 模 型 发 布 , 继 续 提 升 模 型性 能 。•国 内 闭 源 大 模 型 快 速 发 展 。豆包 、 混 元 、商 量3 . 0、 盘 古3 . 0、A n d e s G P T、B l u e L M、星 火3 . 0等 陆 续 发 布 。•L l a m a 2开 源,极 大 助 力 全 球 大模 型 开 发 者 生 态 。•国 内 开 源 生 态 爆 发 。B a i c h u a n、Q w e n、I n t e r n L M、C h a t G L M 3、Y i - 3 4 B等 系 列 模型 引 领 开 源 热 潮 。 2024.062024.122023.12深化期繁荣期•G P T - 4 o、C l a u d e 3 . 5、G e m i n i 1 . 5、L l a m a 3发 布 , 海外 进 入“一 超 多 强”的 竞 争 格 局 。•国 内 多 模 态 领 域 进 展 迅 速 , 在 部分 领 域 领 先 海 外 。视 频 生 成 模 型可 灵A I、 海 螺 视 频 、v i d u、P i x V e r s e等 模 型 陆 续 发 布 , 并在 海 外 取 得 较 大 应 用 进 展 。•国 内 通 用 模 型 持 续 提 升 。Q w e n 2 . 5、 文 心4 . 0、G L M 4、商 量5 . 5等 通 用 模 型 陆 续 更 新 。•O p e n A I发 布S o r a,极 大 拓 展了A I在 视 频 领 域 的 想 象 力 。•G o o g l e发 布G e m i n i 2 . 0系 列模型 , 推 出D e e p R e s e a r c h深 度 研究 功 能 以 及 众 多 海 外 推 理 模 型 的发 布 引 发 热 潮 , 推 理 性 能 大 幅 度提 升 。•国 内 推 理 模 型 持 续 跟 进 。K 0 -m a t h、D e e p S e e k - R 1 - L i t e、Q w Q - 3 2 B - P r e v i e w、G L M -Z e r o - P r e v i e w等 推 理 模 型 陆 续发 布 , 继 续 突 破 推 理 能 力 的 上 限 。•O p e n A I发 布o 1系 列 模 型、o 3系列 模 型 和G P T - 4 . 5, 前 者 推 动 成本 效 益 推 理 , 后 者 展 现 出 较 高 的情 感 智 能 。2025.06融合期•顶 级 大 模 型 能 力 边 界 持 续 突 破 。o 3、o 4 - m i n i、G e m i n i 2 . 5系列、C l a u d e 4系 列 模 型 相 继推出 。•国 内 外 大 模 型 差 距 显 著 缩 小 , 国内模型实现弯道超车。D e e o S e e k - R 1通 过 开 源 与 性 价比 优 势 推 动 普 惠A I时 代 到 来 。•国 内 厂 商 普 遍 加 速 迭 代 , 开 源 成为 主 流 策 略 。在D e e p S e e k - R 1、Q w e n系 列 模 型 开 源 后 , 国 内 众多 厂 商 加 入 开 源行 列 。•A I智 能 体 潜 力 被 深 度 挖 掘 , 向 通用 人 工 智 能 (A G I) 愿 景 迈 进 。M a n u s、A u t o G L M沉 思 、G e n s p a r k、F e l l o u、 扣 子 空 间 、天 工 超 级 智 能 体 等A g e n t产 品 纷纷 涌 现 , 加 速A G I进 程 。 2025年国内外大模型差距模型23年5月23年6月23年7月23年8月23年9月GPT最新模型(GPT3.5、4、4-Turbo、4o、o1、o3-mini、GPT-4.5、o3、o4-mini)76.6778.7670.8981.0383.20国内TOP153.5863.5362.0060.0262.75国内TOP249.5262.5859.3555.7062.61国内TOP346.4559.8058.0253.4362.12•总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在缩小。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1、o3-mini、GPT-4.5、o3、o4-mini的多个版本的迭代升级。国内模型也经历了波澜壮阔的25个月的迭代周期。但随着o4-mini的发布,差距从7.46%增加至10.42%。国内外Top1模型差距分数国内外Top1模型差距比例SuperCLUE基准:过去25个月国内外TOP大模型对比趋势来 源 :S u p e r C L U E , 2 0 2 3年5月 ~2 0 2 5年5月 , 期 间 发 布 的1 6次 大 模 型 基 准 测 评 报 告 。 23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月25年3月25年5月87.0889.7990.6392.7179.1381.0079.6775.8580.476.0170.5170.7474.0279.0287.7573.3277.0078.6469.6468.370.3463.1670.4272.8876.5486.7772.5876.0076.2469.0068.366.3862.9669.5771.8775.0485.7072.4576.0074.6368.9167.464.6961.94 第二部分5月通用测评介绍1. SuperCLUE基准介绍2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式4.各维度测评说明及示例5.测评模型列表 SuperCLUE是大模型时代背景下CLUE基准的发展和延续,是 独 立 、 领 先 的 通 用 大 模 型 的 综 合 性 测 评 基 准 。中 文 语 言 理 解 测 评 基 准C L U E(T h e C h i n e s eLanguage Under standing Evaluatio n)发起于2019年,陆续推出过CLUE、Few CLUE、Zero CLUE等广为引用的测评基准。0数据污染每2个月题库100%替换传统测评SuperCLUE易数据污染学术视角与应用侧较大偏差维度固定陈旧无法与时俱进VSSuperCLUE与传统测评的区别维度Live更新题目固定过拟合风险高SuperCLUE基准介绍2019CLUE基准发布2020发布多篇顶会论文,并承办了NLPCC2020开放测评任务2021发布FewCLUE、DataCLUE、ZeroCLUE等多个知名测评基准 题目100%原创SuperCLUE三大特征产业+用户视角010203“Live”更新,0数据污染测评方式与用户交互一致独立第三方,无自家模型测 评 题 库 每2个 月1 0 0 %替 换 且 全 部 原 创,杜 绝 过拟 合 风 险 。 体 系 维 度 根 据 大 模 型 进 展L iv e更 新 。测 评 方 法 与 用 户 交 互 方 式 保 持 一 致, 测 评 任 务 贴 近真 实 落 地 场 景