AI智能总结
中文大模型基准测评2025年上半年报告 ——2025年中文大模型阶段性进展半年度评估 2 0 2 5 . 0 8 . 0 4SuperCLUE团队 精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图 AccuratelyQuantifying theProgress of AGI,Defining theRoadmap forHumanity'sJourney towards AGI. 三、总体测评结果与分析 一、2025年上半年关键进展及趋势 1. SuperCLUE模型象限(202507)2. SuperCLUE通用能力测评榜单3. SuperCLUE性价比区间分布4. SuperCLUE大模型综合效能区间分布5.代表性模型分析6.国内大模型成熟度-SC成熟度指数7.评测与人类一致性验证 1. 2025年上半年大模型关键进展2. 2025年最值得关注的中文大模型及智能体全景图3. 2025年国内外大模型差距4.近一年SuperCLUE通用基准测评开闭源模型最好成绩对比 四、专项测评基准介绍 二、七月通用测评介绍 1. Agent系列基准介绍2.多模态系列基准介绍3.文本系列基准介绍4.推理系列基准介绍5.性能系列基准介绍 1. SuperCLUE基准介绍2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式4.各维度测评说明及示例5.测评模型列表 SuperCLUE全球大模型中文综合能力排行榜(2025年7月) 本次测评包括六大任务:数学推理、科学推理、代码生成(含we b开发)、智能体A g e n t(多轮工具调用)、幻觉控制、精确指令遵循。题目量为1288道新题,最终得分取各任务平均分。 •o3以73.78的总分取得总榜第一,领跑全球。 海外头部模型o3、o4-mini(high)和Gemini-2.5-Pro在本次七月通用基准测评中取得了73.78分、73.32分和68.98分的总成绩,分别位于榜单前三。Doubao-Seed-1.6-thinking-250715以68.04的总分取得国内第一、全球第四的成绩。 •国内外头部模型之间的差异较大,海外模型在推理任务上的优势尤其明显。 海外模型在推理任务上的优势尤其显著,o3和o4-mini(high)在推理任务上分别取得了75.02和72.68的分数,领跑推理任务榜单。国内推理任务成绩最好的模型分别是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715,均有超过65分的表现,但与海外头部模型依旧相差近10分。 •国内开源模型相较于海外开源模型优势显著。 DeepSeek-R1-0528、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分别以66.15分、64.34分和63.25分取得了开源榜单的前三名,海外开源模型最好成绩仅有46.37分,与国内开源模型最好成绩相差近20分,国内开源模型的优势显著。 •国内大模型在智能体Agent和幻觉控制任务上的表现良好。 在智能体Agent任务上,Doubao-Seed-1.6-thinking-250715以90.67分领跑全球,GLM-4.5和SenseNova V6 Reasoner以83.58分并列国内第二。在幻觉控制任务上,Doubao-Seed-1.6-thinking-250715、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分别位于国内前三。 •Qwen3系列的开源小参数量模型表现亮眼。 Qwen3系列的多款开源小参数量模型展现出惊人潜力。其中8B、4B和1.7B版本分别在10B级别和端侧5B级别的榜单中遥遥领先。 第一部分 2025年上半年关键进展及趋势 1.2025年上半年大模型关键进展2.2025年最值得关注的中文大模型及智能体全景图3.2025年国内外大模型差距4.近一年SuperCLUE通用基准测评开闭源模型最好成绩对比 2025年上半年大模型关键进展 自2 0 2 2年1 1月3 0日C h a t G P T发 布 以 来 ,A I大 模 型 在 全 球 范 围 内 掀 起 了 有 史 以 来 规 模 最 大 的 人 工 智 能 浪 潮 。 国 内 外A I机 构 在 过 去2年 半 有 了 实 质 性 的突破。具体可分为:技术引爆与生态构建期、多模态与深度推理拓展期、智能体崛起与AGI探索期。 关键进展 智能体崛起与AGI探索期 多模态与深度推理拓展期 ·顶级大模型能力持续突破,性能与效率并进。o3、o4系列、Gemini 2.5系列、Claude 4系列、Grok 4等顶级模型发布,进一步提升了推理的深度、准确性和可靠性,模型的工具调用能力也提升明显;·Monica.im发布全球首款通用型AI Agent:Manus爆火出圈,成为AI领域的重大突破;·国内AI智能体潜力被深度挖掘,大量AI Agent产品涌现。比如AutoGLM、OpenManus、扣子空间、纳米AI超级搜索智能体、心流AI助手、天工超级智能体、MiniMax Agent、心响等;·国内模型加速迭代与开源,国内外差距动态变化。DeepSeek-R1以开源、高性价比以及媲美同期顶级闭源模型的特点引爆全球;Kimi-k2、MiniMax-M1、GLM-4.5等厂商继续开源新模型,缩小国内外差距。 技术引爆与生态构建期 ·OpenAI发布Sora,实现高质量时序连贯视频生成,引发全球视频AIGC创业潮;·OpenAIo1系列引入“慢思考”机制,AI大模型的发展重心进一步深化,开始攻克更复杂的推理和逻辑思考难题;·国内多模态领域快速跟进与创新,并在部分领域领先海外。可灵AI、Vidu、Pixverse、海螺视频等视频生成模型陆续发布,并在海外取得较大的应用进展;·国内推理模型集中涌现。k0-math、DeepSeek-R1-Lite、QwQ-32B-Preview、GLM-Zero-Preview等,力求在这些高价值场景取得突破。 ·OpenAI发布ChatGPT及GPT-4,迅速点燃全球对大模型的关注并成为现象级应用;·Meta开源Llama2,激活开发者生态,降低技术门槛,推动全球长尾创新;·中国首批大模型集中亮相。百度文心一言1.0、阿里通义千问、讯飞星火V1.0、360智脑、ChatGLM系列等快速响应,标志着中国进入核心竞争梯队;·中国开源模型爆发。百川Baichuan-7B、智谱ChatGLM2、通义千问Qwen等形成“模型矩阵”,加速技术民主化。 2025年国内外大模型差距 总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在缩小。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o到o1系列、o3系列以及o4系列多个版本的迭代升级。国内模型也经历了波澜壮阔的25个月的迭代周期。本次测评我们可以发现国内外第一梯队的大模型从2025年5月通用基准测评10.42%的差距缩小到7.78%。 近一年SuperCLUE通用基准测评开闭源模型最好成绩对比 在近一年的七次SuperCLUE通用基准测评中,闭源模型与开源模型的TOP1性能差距呈现出动态变化趋势。2024年下半年,随着o1系列闭源模型的推出,两者性能差距呈现扩大态势。这一趋势在2025年初迎来转折,DeepSeek-R1开源模型的发布显著缩小了开闭源模型之间的性能差距。接着OpenAI相继推出o3、o4系列闭源模型,将开闭源模型之间的差距再次拉大。DeepSeek-R1-0528的发布又将开闭源模型之间的差距缩小。 第二部分七月通用测评介绍 1. SuperCLUE基准介绍2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式4.各维度测评说明及示例5.测评模型列表 SuperCLUE基准介绍 中文通用大模型评测基准——SuperCLUE是大模型时代背景下CLUE(The Chinese Language Understanding Evaluation)基准的发展和延续,是独立、领先的通用大模型的综合性测评基准。中文语言理解测评基准CLUE发起于2019年,陆续推出过CLUE、Few CLUE、Zero CLUE等广为引用的测评基准。 SuperCLUE大模型综合测评体系 基 于 大 模 型 技 术 和 应 用 发 展 趋 势 以 及 基 准 测 评 专 业 经 验 ,S u p e r C L U E构 建 出多领域、多层次的 大 模 型 综 合 性 测 评 基 准 框 架 。 从 基 础 到 应 用 覆 盖 : 通 用 基 准体 系 、 文 本 系 列 基 准 、 多 模 态 系 列 基 准 、 推 理 系 列 基 准 、A g e n t系 列 基 准 、A I应 用系 列 基 准、性 能 系 列 基 准 。为 产 业、学 术 和 研 究 机 构 的 大 模型 研 发 提 供重要参考。所有基准将在本报告的第四部分进行详细介绍。 SuperCLUE通用测评基准数据集及评价方式 本次2025年上半年度报告聚焦通用能力测评,由六大维度构成。题目均为原创新题,总量为1288道简答题。 SuperCLUE-7月通用基准数据集及评价方式 3.代码生成 2.科学推理 1.数学推理 介绍:主要考察模型运用数学概念和逻辑进行多步推理和问题解答的能力。包括但不限于几何学、代数学、概率论与数理统计等竞赛级别数据集。评价方式:基于人工校验参考答案的评估(0-1得分) 介绍:该任务分为两大类型:一是独立功能函数生成,生成覆盖数据结构、算法等领域的独立函数。二是Web应用生成,要求模型构建旅游订票、电商、社交媒体等完整的交互式网站。评价方式:通过单元测试进行0/1评分(独立功能函数生成);通过模拟用户交互的功能测试进行0/1评分(Web应用生成) 介绍:主要考察模型在跨学科背景下理解和推导因果关系的能力。包括物理、化学、生物等在内的研究生级别科学数据集。 评价方式:基于人工校验参考答案的评估(0-1得分) 5.精确指令遵循 6.幻觉控制 4.智能体Agent 介绍:主要考察模型的指令遵循能力,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。涉及的中文场景包括但不限于结构约束、量化约束、语义约束、复合约束等不少于4个场景。 介绍:主要考察模型在执行中文生成任务时应对忠实性幻觉的能力。包括但不限于文本摘要、阅读理解、多文本问答和对话补全等基础语义理解与生成创作数据集。 介绍:主要考察在中文场景下基于可执行的环境,LLM作为执行代理在对话中调用工具完成任务的能力。包括单轮对话和多轮对话。涉及的中文场景包括但不限于汽车控制、股票交易、智能家居、旅行规划等10余个场景。 评价方式:基于人工校验参考答案的、对每个句子进行二元判定的评估 评价方式:基于规则脚本的评估(0-1得分) 评价方式:结合任务完成与否、系统状态比对的评估(0-1得分) 各维度测评说明及示例——数学推理测评说明 示例—数学推理 SuperCLUE—数学推理评测数据集 问题: 数学推理 主 要 考 察 模 型 运 用 数 学 概 念 和 逻 辑 进 行 多 步 推 理 和 问 题 解 答 的 能 力 。 包 括 但 不 限 于几 何 学 、 代 数 学 、 概 率 论 与 数 理 统 计 等 竞 赛 级 别 数 据 集 。 模型回答: 测评方法 评 测 流 程 : 我们采用模型评价的方式来评估大模型在【数学推理】任务上的表现,使用高级模型(如gpt4o)判断其回答中的最终答案和参考答案是否相符,以确认大模型在一道问题上的正确率(正确或错误,