您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SuperCLUE团队]:中文大模型基准测评2025年3月报告 - 发现报告

中文大模型基准测评2025年3月报告

金融2025-03-20SuperCLUE团队林***
AI智能总结
查看更多
中文大模型基准测评2025年3月报告

中文大模型基准测评2025年3月报告 —2025中文大模型阶段性进展3月评估 2 0 2 5 . 0 3 . 1 8SuperCLUE团队 精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图 Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 报告目录 一、2025年度关键进展及趋势 二、年度通用测评介绍 •SuperCLUE基准介绍•SuperCLUE大模型综合测评体系•SuperCLUE通用测评基准数据集及评价方式•各维度测评说明及示例•测评模型列表 •2025年大模型关键进展•2025年值得关注的中文大模型全景图•2025年国内外大模型差距 三、总体测评结果与分析 四、DeepSeek系列模型深度分析 •DeepSeek-R1及其蒸馏模型对比•DeepSeek-R1和国内外头部推理模型对比•DeepSeek-R1第三方平台联网搜索能力测试(网页端)•DeepSeek-R1第三方平台稳定性测试(网页端、App端、API端) •SuperCLUE通用能力测评总榜•SuperCLUE模型象限•SuperCLUE推理模型总榜•SuperCLUE推理任务总榜•SuperCLUE基础模型总榜•性价比区间分布•综合效能区间分布•国内大模型成熟度-SC成熟度指数•评测与人类一致性验证•开源模型榜单•10B级别小模型榜单•端侧5B级别小模型榜单 报告摘要(一) •o3-mini(high)稳居第一,推理能力全面领先 o3-mini(high)在SuperCLUE-3月评测中表现卓越,以76.01分和84.51分稳居总榜和推理任务总榜第一,双榜均领先国内第一近5分,展现出强大的通用推理能力。 •推理模型较基础模型优势明显,且国内较海外头部推理模型略有领先 国内模型推理DeepSeek-R1在总榜上领先Claude 3.7 Sonnet近2.32分,QwQ-32B在推理任务榜单上领先Gemini-2.0-Flash-Thinking-Exp-01-21近7.65分。 •大模型在推理速度和性价比的两级分化逐渐明显 国内推理模型DeepSeek-R1和Q wQ - 3 2 B虽 然 推 理 任 务 上表现出色,但推理时间也随之变长;在性价比方面,D e e p S ee k、Q w e n系 列 模 型具有极高的性价比优势,但Claude 3.7 Sonnet由于高性能仍保持较高的API价格。 •小参数模型表现超出预期 多款开源小参数量模型展现出惊人潜力。尤其是DeepSeek-R1-Distill系列,其中7B和14B版本在数学推理任务上分别取得了77.23分和79.46分的高分,超越了众多闭源大模型。 报告摘要(二) 第1部分 2025年度关键进展及趋势 1.2025年大模型关键进展2.2025年值得关注的中文大模型全景图3.2025年国内外大模型差距 2025年大模型关键进展 自2 0 2 2年1 1月3 0日C h a t G P T发 布 以 来 ,A I大 模 型 在 全 球 范 围 内 掀 起 了 有 史 以 来 规 模 最 大 的 人 工 智 能 浪 潮 。 国 内 外A I机 构 在 过 去2年 有 了 实 质 性 的 突 破 。具体可分为:准备期、跃进期、繁荣期和深化期。 深化期 繁荣期 •G e m i n i2 . 0 F l a s h T h i n k i n g、C l a u d e - 3 . 7 - S o n n e t、G r o k 3发布 ,海 外 推 理 模 型 引 发 热 潮,推 理 性能 大 幅 度 提 升。•国 内 推 理 模 型 持 续 跟 进。D e e p S e e k -R 1、Q w Q - 3 2 B、K i m i k 1 . 5、 讯 飞星 火X 1等 推 理 模 型 陆 续 发 布 , 继 续 突破 推 理 能 力 的 上 限 。•国 内 开 源 生 态 持 续 引 领 模 型 普 惠 化。D e e p S e e k - R 1通 过 开 源 与 性 价 比 优势持 续 推 动 行 业 技 术 普 惠 化 进 程 。•O p e n A I发 布o 3 - m i n i、G P T - 4 . 5,前 者推 动 成 本 效 益 推 理 , 后 者 展 现 出较 高 的 情 感 智 能。 跃进期 •G P T - 4 T u r b o、G e m i n i等 海 外 大 模型 发 布 , 继 续 提 升 模 型 性 能 。•国 内 闭 源 大 模 型 快 速 发 展 。豆 包 、 混元 、商 量3 . 0、 盘 古3 . 0、A n d e s G P T、B l u e L M、星 火3 . 0等 陆 续 发 布 。•L l a m a 2开 源,极 大 助 力 全 球 大 模 型开 发 者 生 态 。•国 内 开 源 生 态 爆 发 。B a i c h u a n、Q w e n、I n t e r n L M、C h a t G L M 3、Y i - 3 4 B等 系 列 模 型 引 领 开 源 热 潮 。 准备期 •C h a t G P T发 布 ,全 球 范 围 内 迅 速 形成 大 模 型 共 识 。•G P T 4发 布,进 一 步 掀 起 大 模 型 研 发热 潮 。•国 内 快 速 跟 进 大 模 型 研 发 。文 心 一 言1 . 0、 通 义 千 问 、讯 飞 星 火 、3 6 0智脑 、C h a t G L M等 首 批 模 型 相 继 发 布 。 2025年国内外大模型差距 •总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在缩小。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1、o3-mini、GPT-4.5的多个版本的迭代升级。国内模型也经历了波澜壮阔的23个月的迭代周期。但随着DeepSeek-R1的发布,差距从15.05%缩小至7.46%。 第2部分年度通用测评介绍 1. SuperCLUE基准介绍2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式4.各维度测评说明及示例5.测评模型列表 SuperCLUE基准介绍 SuperCLUE是大模型时代背景下CLUE基准的发展和延续,是 独 立 、 领 先 的 通 用 大 模 型 的 综 合 性 测 评 基 准 。中 文 语 言 理 解 测 评 基 准C L U E(T h e C h i n e s eLanguage Under standing Evaluatio n)发起于2019年,陆续推出过CLUE、Few CLUE、Zero CLUE等广为引用的测评基准。 SuperCLUE大模型综合测评体系 SuperCLUE大模型综合测评基准框架基于大模型技术和应用发展趋势、以及基准测评专业经验,SuperCLUE构建出多领域、多层次的大模型综合性测评基准框架。从基础到应用覆盖:通用基准体系、文本专项系列基准、多模态系列基准、推理系列基准、Agent系列基准、AI应用基准、性能系列基准。为产业、学术和研究机构的大模型研发提供重要参考。 SuperCLUE通用测评基准数据集及评价方式 本次2025年3月报告聚焦通用能力测评,由六大维度构成。题目均为原创新题,总量为1509道多轮简答题。 【SuperCLUE评价方式】分为基于人工校验参考答案的评估(0-1得分)、基于代码单元测试的评估(0-1得分)、结合任务完成与否、系统状态比对的评估(0-1得分)、基于规则脚本的评估(0-1得分)、人工校验参考答案的、多维度评价标准的评估。 SuperCLUE通用基准数据集及评价方式 1.数学推理 3.代码生成 2.科学推理 介绍:主要考察模型在处理编程任务时理解和生成代码的能力。HumanEval的中文升级版,涵盖数据结构、基础算法、数学问题、数据科学等多种类型的代码数据集。 介绍:主要考察模型在跨学科背景下理解和推导因果关系的能力。包括物理、化学、生物等在内的研究生级别科学数据集。 介绍:主要考察模型运用数学概念和逻辑进行多步推理和问题解答的能力。包括但不限于平面几何、代数、初等数论、组合问题等竞赛级的数学推理数据集。 评价方式:基于人工校验参考答案的评估(0-1得分) 评价方式:基于人工校验参考答案的评估(0-1得分) 评价方式:基于代码单元测试的评估(0-1得分) 6.文本理解与创作 5.精确指令遵循 4.智能体Agent 介绍:主要考察在中文场景下基于可执行的环境,LLM作为执行代理,在多轮对话中调用工具完成任务的能力。包括两大任务类型:常规单轮对话和常规多轮对话。 介绍:主要考察模型在处理文本相关任务时的理解和创作能力。包括但不限于文本摘要、阅读理解、指代消解、长文本等基础语义理解和生成创作数据集。 介绍:主要考察模型的指令遵循能力,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。评价方式:基于规则脚本的评估(0-1得分) 评价方式:人工校验参考答案的、多维度评价标准的评估 评价方式:结合任务完成与否、系统状态比对的评估(0-1得分) 数学推理测评说明 示例-数学推理 SuperCLUE-数学推理评测数据集 问题: 数学推理 模型回答: 主 要 考 察 模 型 运 用 数 学 概 念 和 逻 辑 进 行 多 步 推 理 和 问 题 解 答 的 能 力 。 包 括 但 不 限 于几 何 学 、 代 数 学 、 初 等 数 论 、 概 率 与 统 计 、 三 角 学 、 数 列 与 极 限 数 据 集 。 <篇 幅 有 限 省 略> 测评方法 评 测 流 程 : 我们采用模型评价的方式来评估大模型在【数学推理】任务上的表现,使用高级模型(如gpt4o)判断其回答中的最终答案和参考答案是否相符,以确认大模型在一道问题上的正确率(正确或错误,即0或1)。 评价打分: 以【代数学】任务为例,假设在一个具体的题目中,模型A的最终答案与参考答案等价,则该题目的具体得分为1分;反之,假设在另一个具体的题目中,模型A的最终答案与参考答案不等价,则该题目的具体得分为0分。 问题及改进的反馈意见:模型的回答逻辑清晰,步骤详尽,且最终结论与参考答案一致。唯一的改进建议是可以进一步简化部分推导过程,以提高可读性。 打分与评价开始:1.基于标准1的<结论准确性>:模型的最终结论为\(\boxed{[-2, 2]}\),与参考答案\([-2, 2]\)一致。模型的推导过程正确,结论准确。基于标准1的得分:1分。综合以上,AI助手的回答的综合得分(平均分)为[[1.00]] 最后,将所有题目的得分进行归一化处理,以确保满分为100分。这样最终的得分可以清晰地反映模型在【数学推理】任务中的表现。这一方法实现了完全的客观评估性。 示例-科学推理 SuperCLUE-科学推理评测数据集 问题: 科学推理 主 要 考 察 模 型 在 跨 学 科 背 景 下 理 解 和 推 导 因 果 关 系 的 能 力 。 包 括 物 理 、 化 学 、 生 物等 在 内 的 研 究 生 级 别 科 学 数 据 集 。 模型回答: 测评方法 评 测 流 程 : <篇 幅 有 限 省 略> 我们采用模型评价的方式来评估大模型在【科学推理】任务上的表现,使用高级模型(如gpt4o)判断其回答中的最终答案和参考答案是否相符,以确认大模型在一道问题上的正确率(正确或错误,即0或1)。 评价打分: 以【物理】任务