AI智能总结
——2026开年特别版:含1月底重磅模型动态评测 2 0 2 6 . 0 2 . 0 4SuperCLUE团队 精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图 AccuratelyQuantifyingtheProgressofAGI,DefiningtheRoadmapforHumanity'sJourneytowardsAGI. 一、2025年关键进展 三、SuperCLUE中文竞技场介绍 1. 2025年最值得关注的中文大模型全景图2. 2025年最值得关注的智能体产品全景图3. 2025年年度大模型关键进展4. 2025年全年SuperCLUE通用基准测评海内外大模型Top3 1. SuperCLUE大模型中文竞技场介绍2.板块一:编程竞技场3.板块二:图像竞技场4.板块三:视频竞技场5.板块四:音频竞技场 四、SuperCLUE专项测评基准介绍 二、2025年年度测评结果与分析 1. Agent系列基准介绍2.Coding系列基准介绍3.多模态系列基准介绍4.文本系列基准介绍5.推理系列基准介绍6.性能系列基准介绍 1. 2025年年度中文大模型基准测评介绍2. 2025年全球大模型中文智能指数排行榜3. 2025年SuperCLUE模型象限4. 2025年SuperCLUE模型能力格局5. SuperCLUE2025年年度测评六大任务国内Top36. SuperCLUE2025年年度测评六大任务国内外Top20热力图7. 2025年年度中文大模型基准测评——总榜8. 2025年年度中文大模型基准测评——开源模型9.海内外大模型对比分析10.开闭源大模型对比分析11.大模型性价比区间分布12.大模型推理效能区间分布13.代表性模型分析:Kimi-K2.5-Thinking&Qwen3-Max-Thinking14.评测与人类一致性验证:对比LMArena 第一部分2025年关键进展 1.2025年最值得关注的中文大模型全景图2.2025年最值得关注的智能体产品全景图3.2025年年度大模型关键进展4. 2025年全年SuperCLUE通用基准测评海内外大模型Top3 2025年年度大模型关键进展 自2 0 2 2年1 1月3 0日C h a t G P T发 布 以 来 ,A I大 模 型 在 全 球 范 围 内 掀 起 了 有 史 以 来 规 模 最 大 的 人 工 智 能 浪 潮 。 国 内 外A I机 构 在 过 去3年 里 有 了 实 质 性 的突破。具体可分为三个时期:百模大战与多模态萌芽、多模态爆发与推理突破、智能体崛起与生态重构。 关键进展 一、低成本颠覆与开源生态崛起 ·2025年1月20日深度求索发布DeepSeek-R1开源推理大模型,首次跻身全球前五,超高性价比引爆全球;·中国开源模型(Qwen3、DeepSeek、GLM、MiniMax、Kimi等)在全球开源社区占据半壁江山,中国大模型主导开源生态。二、架构创新与智能体落地·混合专家(MoE)架构成为2025年大模型的主流架构选择;·多模态融合技术取得突破,模型通过处理文本、图像、视频、语音等多种形式的数据,实现更自然全面的交互;·Manus爆火出圈,国内大量AI Agent产品涌现:AutoGLM、扣子空间、天工Agent、MiniMax Agent、KimiOK Computer等;·AI Agent从概念走向实用,特别是在编程领域。Claude Code、Codex等工具的出现标志着AI Agent在实际应用中的重大突破。 ·OpenAI发布Sora,实现高质量时序连贯视频生成,引发全球视频AIGC创业潮;·GPT-4o发布,首次实现文本+图像+语音的实时交互,模型开始真正“感知”世界;·OpenAIo1系列引入“CoT”机制,AI大模型的发展重心进一步深化,开始攻克更复杂的推理和逻辑思考难题;·国内多模态领域快速跟进与创新,并在部分领域领先海外。可灵AI、Vidu、Pixverse、海螺视频等视频生成模型陆续发布,并在海外取得较大的应用进展;·国内推理模型集中涌现。k0-math、DeepSeek-R1-Lite、QwQ-32B-Preview、GLM-Zero-Preview等在推理场景取得突破。 ·OpenAI发布ChatGPT及GPT-4,迅速点燃全球对大模型的关注并成为现象级应用;·Meta开源Llama2,激活开发者生态,降低技术门槛,推动全球长尾创新;·GPT-4V支持图像理解,Google发布多模态大模型Gemini,国内开始探索文生图、文生视频能力;·中国首批大模型集中亮相。百度、阿里、讯飞、360等快速响应,标志着中国进入核心竞争梯队;·中国开源模型爆发。百川Baichuan-7B、智谱ChatGLM2、通义千问Qwen等形成“模型矩阵”,加速技术民主化。 第二部分 2025年年度测评结果与分析 1. 2025年年度中文大模型基准测评介绍2. 2025年全球大模型中文智能指数排行榜3. 2025年SuperCLUE模型象限4. 2025年SuperCLUE模型能力格局5.SuperCLUE2025年年度测评六大任务国内Top36.SuperCLUE2025年年度测评六大任务国内外Top20热力图7. 2025年年度中文大模型基准测评——总榜 8.2025年年度中文大模型基准测评——开源模型9.海内外大模型对比分析10.开闭源大模型对比分析11.大模型性价比区间分布12.大模型推理效能区间分布13.代表性模型分析:Kimi-K2.5-Thinking&Qwen3-Max-Thinking14.评测与人类一致性验证:对比LMArena 1.海外闭源模型仍占据榜单头部位置。 在本次2025年年度中文大模型基准测评中,A nthropic旗下的Clau d e - O p u s - 4 . 5 -Reasoning以68.25分的总分位居榜首,Google的Gemini-3-Pro-Preview(65.59分)和OpenAI的GPT-5.2(high)(64.32分)紧随其后。国内开源最佳模型Kimi-K2.5-Thinking(61.50分)和闭源最佳模型Qwen3-Max-Thinking(60.61分)分列全球第四和第六。 2.国产大模型正从"跟跑"向"并跑"阶段加速演进。 从2025年年初DeepSeek-R1发布,以对标OpenAI o1的性能极大地缩小了海内外模型的差距,到Kimi-K2.5-Thinking和Qwen3-Max-Thinking的发布分别在代码生成任务和数学推理任务上领跑全球,越来越多的国产大模型开始加速追赶上国际顶尖大模型的步伐,甚至在部分领域有所超越。 3.海内外开闭源模型结构性差异显著。 闭源阵营呈现出"海外领先、国产追赶"的格局。海外闭源模型以Claude、Gemini、GPT为代表,构成了海外闭源大模型的第一梯队。国产闭源模型以Qwen3-Max-Thinking、Doubao-Seed-1.8-251228(Thinking)、ERNIE-5.0为代表,虽然与海外头部仍有差距,但已形成有效的竞争态势。开源阵营则呈现出"国产主导、海外式微"的格局。国产开源模型以Kimi-K2.5-Thinking、DeepSeek-V3.2-Thinking、GLM-4.7为代表,构成了国产开源模型的第一梯队,媲美海外顶尖闭源模型。海外开源模型的表现相对平淡,gpt-oss-120b、Mistral等被国产开源模型大幅超越。 2025年年度中文大模型基准测评介绍 中文语言理解测评基准CLUE(The Chi nese La ngu a ge Under st a ndi ng Eva l u a t i on)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。Su per CLUE是大模型时代CLUE基准的发展和延续,聚焦于通用大模型的综合性测评。本次2025年年度中文大模型基准 SuperCLUE-2025年年度通用基准数据集及评价方式 3.代码生成 2.科学推理 1.数学推理 介绍:该任务分为两大类型:一是独立功能函数生成,生成覆盖数据结构、算法等领域的独立函数。二是Web应用生成,要求模型构建旅游订票、电商、社交媒体等完整的交互式网站。 介绍:主要考察模型运用数学概念和逻辑进行多步推理和问题解答的能力。包括但不限于几何学、代数学、概率论与数理统计等竞赛级别数据集。 评价方式:通过单元测试进行0/1评分(独立功能函数生成);通过模拟用户交互的功能测试进行0/1评分(Web应用生成)。 介绍:主要考察模型在跨学科背景下理解和推导因果关系的能力。包括物理、化学、生物等在内的研究生级别科学数据集。 评价方式:基于参考答案的0/1评估,模型答案与参考答案一致得1分,反之得0分,不对回答过程进行评价。 评价方式:基于参考答案的0/1评估,模型答案与参考答案一致得1分,反之得0分,不对回答过程进行评价。 5.精确指令遵循 4.智能体(任务规划) 6.幻觉控制 介绍:主要考察模型在复杂任务场景中制定结构化行动方案的能力,包括且不限于生活服务、工作协作、学习成长、健康医疗等。要求模型基于给定目标和约束条件,生成逻辑连贯、步骤清晰、可执行的行动计划。 介绍:主要考察模型的指令遵循能力,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。涉及的中文场景包括但不限于结构约束、量化约束、语义约束、复合约束等不少于4个场景。 介绍:主要考察模型在执行中文生成任务时应对忠实性幻觉的能力。包括但不限于文本摘要、阅读理解、多文本问答和对话补全等基础语义理解与生成创作数据集。 评价方式:基于人工校验参考答案的、对每个句子是否存在幻觉进行0/1评估。 评价方式:利用裁判模型根据行动方案对预设检查点的完成情况进行离散判定(0/1),或对方案整体质量进行连续评分(0-100)。 2025年年度中文大模型基准测评——开源模型 测评分析 2 .机 构 竞 争 格 局 呈 现 多 元 态 势。国内开源模型全面领先海外开源模型。开源模型榜单Top5均为国内模型,其中Kimi-K2.5-Thinking以61.50分取得开源第一,领先第二名近4分。DeepSeek-V3.2-Thinking和GLM-4.7跻身开源Top3,大幅领先海外最佳开源模型gpt-oss-120b(high)。 海内外大模型对比分析 测评分析 1.推理能力整体已高度对齐。 2.国内模型在代码和智能体任务上整体表现更佳。在代码生成和智能体(任务规划)两大任务上,国内模型平均超过海外 3.精确指令遵循和幻觉控制是国内模型的短板。 海内外大模型对比分析——数学推理任务 介绍:主要考察模型运用数学概念和逻辑进行多步推理和问题解答的能力。包括但不限于几何学、代数学、概率论与数理统计等竞赛级别数据集。评价方式:基于参考答案的0/1评估,模型答案与参考答案一致得1分,反之得0分,不对回答过程进行评价。 测评分析 1.国内头部模型追平。国内Qwen3-Ma x-Thinking在数学推理任务上与Gemini-3-Pro-Preview均取 得8 0 . 8 7分 , 并 列 全 球 第 一 。Kimi-K2.5-Thinking也以77.39分位居全球第四,体现了国内模型在数 海内外大模型对比分析——科学推理任务 介绍:主要考察模型在跨学科背景下理解和推导因果关系的能力。包括物理、化学、生物等在内的研究生级别科学数据集。评价方式:基于参考答案的0/1评估,模型答案与参考答案一致得1分,反之得0分,不对回答过程进行评价。 测评分析 1.海外头部垄断。 了前四席,分别是GPT-5.2(hi gh)(75.21分)、Gemini-3-Fla sh-Preview( 7 4 . 1 7分)、C