行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

中文大模型基准测评2025年5月报告

2025-05-28 SuperCLUE团队 💤 👏

2025年5月中文大模型进展

关键进展：自ChatGPT发布以来，AI大模型领域在过去两年半取得了实质性突破，经历了准备期、跃进期、繁荣期、深化期和融合期。2025年上半年，国内外大模型研发加速，国内模型在多模态领域取得进展，并在部分领域领先海外。

国内外差距：总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距正在缩小。2023年5月至今，GPT系列模型等海外模型能力持续发展，国内模型也经历了多次迭代。但随着o4-mini的发布，国内外Top1模型差距分数从7.46%增加至10.42%。

中文大模型全景图： 2025年最值得关注的中文大模型包括文心一言、通义千问、讯飞星火、360智脑、ChatGLM等闭源模型，以及Baichuan、Qwen、InternLM、ChatGLM3、Yi-34B等开源模型。多模态领域，视频生成模型可灵AI、海螺视频、vidu、PixVerse等模型取得进展。

SuperCLUE基准测评： SuperCLUE是大模型时代背景下CLUE基准的发展和延续，是独立、领先的通用大模型的综合性测评基准。测评体系覆盖通用基准体系、文本专项系列基准、多模态系列基准、推理系列基准、Agent系列基准、AI应用基准、性能系列基准。

总体测评结果与分析：

模型象限：根据推理能力和应用能力，模型被分为潜力探索者、技术领跑者、实用主义者和卓越领导者四个象限。
通用能力测评榜单： o4-mini(high)总分稳居第一，Doubao-1.5-thinking-pro-205415在文本创作与理解任务上领先。国内推理模型如NebulaCoder-V6、Doubao-1.5-thinking-pro-250415和360zhinao2-o1.5表现亮眼。
开源模型榜单： DeepSeek系列开源模型、Qwen系列开源模型表现优异，引领全球开源生态。
推理模型榜单： Qwen3-235B-A22B(Thinking)在代码生成任务中位居国内榜首，国内模型在数学推理、科学推理、代码生成三大任务上相互竞争。
智能体测评分析：各应用场景上成熟度差异显著，票证系统和文件系统场景成熟度较高，智能购物和旅游出行场景成熟度较低。推理模型领先于基础模型，海外模型领先，国内最好模型与海外顶尖水平仍有一定差距。
性价比区间分布：国产推理模型和基础模型凭借较低的价格实现高质量输出，展现出显著的性价比优势。
综合效能区间分布： 360zhinao2-o1.5和Gemini系列模型综合效能表现领先，国内推理模型大部分处于中低效能区间，国内基础模型大部分处于中低效能区间。
国内大模型成熟度：国内大模型成熟度较高的能力是文本理解与创作，中成熟度的能力是代码生成、智能体Agent，低成熟度的能力是精确指令遵循、数学推理和科学推理。
评测与人类一致性验证： SuperCLUE得分与Chatbot Arena得分具有高度一致性，皮尔逊相关系数为0.86，斯皮尔曼相关系数为0.89。
10B级别小模型榜单： DeepSeek-R1-Distill-Qwen-7B和Gemma-2-9b-it分列国内外榜首，Qwen3系列模型在10B以内模型中表现优异。
端侧5B级别小模型榜单： Qwen3-4B(Thinking)表现惊艳，取得总分46.04分的优异成绩，MiniCPM3-4B小模型同样表现不俗。

精准量化通用人工智能（AGI）进展，定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 一、2025上半年度关键进展及趋势1. 2025年上半年大模型关键进展2. 2025年最值得关注的中文大模型全景图3. 2025年国内外大模型差距二、5月通用测评介绍1. SuperCLUE基准介绍2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式4.各维度测评说明及示例5.测评模型列表三、总体测评结果与分析1. SuperCLUE模型象限2. SuperCLUE通用能力测评榜单3. SuperCLUE-Agent：智能体测评分析4.SuperCLUE性价比区间分布5. SuperCLUE大模型综合效能区间分布6.国内大模型成熟度-SC成熟度指数7.评测与人类一致性验证8.开源模型榜单9. 10B级别小模型榜单10.端侧5B级别小模型榜单报告摘要（一）•o4-mini(high)总分稳居第一，综合能力全面领先o4-mini(high)在本次5月测评中表现优异，总分达到70.51分，超过国内最好模型7.35分。该模型在推理、代码生成、智能体、指令遵循等多个方面表现出卓越的综合能力，特别是在代码生成（91.52）、指令遵循（68.07）方面得分较高。•国内推理模型崭露头角，部分领域优势突出Doubao-1. 5-t hi nki ng-pro- 2 0 5 4 1 5、S e n s e N o v a V 6 R e a s o n e r等国内模型表现亮眼。其中，D o u b a o - 1 . 5 - t h i n k i n g - p r o - 2 0 5 4 1 5在文本创作与理解任务以81.04的高分领先其他模型。•国内大模型在指令遵循方面普遍低于海外模型Hunyuan-T1-20250403在国内模型中指令遵循得分第一，为36.97分，但是与海外模型指令遵循得分第一的o4-mini(high)相比，差距达到了31.1分，国内模型在指令遵循方面表现较弱，还有较大的提升空间。•小参数模型表现超出预期多款开源小参数量模型展现出惊人潜力。尤其是Qwen3系列，其中4B、8B和14B版本在推理任务上的分数均超过50分，超越了众多闭源大模型。报告摘要（二）大模型性价比区间分布数据来源：S u p e r C L U E，2 0 2 5年5月2 8日；推理任务得分为推理任务总分：数学推理、科学推理和代码的平均分。开源模型如Q w e n 3 - 3 2 B ( T h i n k i n g )使用方式为A P I，价格信息均来自官方信息。注：部分模型A P I的价格是分别基于输入和输出的t o k e n s数量确定的。这里我们依照输入t o k e n s与输出t o k e n s 3 : 1的比例来估算其整体价格。价格信息取自官方在5月的标准价格（非优惠价格）。第一部分2025上半年度关键进展及趋势1.2025年上半年大模型关键进展2.2025年最值得关注的中文大模型全景图3.2025年国内外大模型差距关键进展跃进期自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年半有了实质性的突破。具体可分为：准备期、跃进期、繁荣期、深化期和融合期。2025上半年大模型关键进展2022.122023.06SuperCLUE：AI大模型2025上半年关键进展准备期•C h a t G P T发布，全球范围内迅速形成大模型共识。•G P T 4发布，进一步掀起大模型研发热潮。•国内快速跟进大模型研发。文心一言1 . 0、通义千问、讯飞星火、3 6 0智脑、C h a t G L M等首批模型相继发布。•G P T - 4T u r b o、G e m i n i等海外大模型发布，继续提升模型性能。•国内闭源大模型快速发展。豆包、混元、商量3 . 0、盘古3 . 0、A n d e s G P T、B l u e L M、星火3 . 0等陆续发布。•L l a m a 2开源，极大助力全球大模型开发者生态。•国内开源生态爆发。B a i c h u a n、Q w e n、I n t e r n L M、C h a t G L M 3、Y i - 3 4 B等系列模型引领开源热潮。 2024.062024.122023.12深化期繁荣期•G P T - 4 o、C l a u d e 3 . 5、G e m i n i 1 . 5、L l a m a 3发布，海外进入“一超多强”的竞争格局。•国内多模态领域进展迅速，在部分领域领先海外。视频生成模型可灵A I、海螺视频、v i d u、P i x V e r s e等模型陆续发布，并在海外取得较大应用进展。•国内通用模型持续提升。Q w e n 2 . 5、文心4 . 0、G L M 4、商量5 . 5等通用模型陆续更新。•O p e n A I发布S o r a，极大拓展了A I在视频领域的想象力。•G o o g l e发布G e m i n i 2 . 0系列模型，推出D e e p R e s e a r c h深度研究功能以及众多海外推理模型的发布引发热潮，推理性能大幅度提升。•国内推理模型持续跟进。K 0 -m a t h、D e e p S e e k - R 1 - L i t e、Q w Q - 3 2 B - P r e v i e w、G L M -Z e r o - P r e v i e w等推理模型陆续发布，继续突破推理能力的上限。•O p e n A I发布o 1系列模型、o 3系列模型和G P T - 4 . 5，前者推动成本效益推理，后者展现出较高的情感智能。2025.06融合期•顶级大模型能力边界持续突破。o 3、o 4 - m i n i、G e m i n i 2 . 5系列、C l a u d e 4系列模型相继推出。•国内外大模型差距显著缩小，国内模型实现弯道超车。D e e o S e e k - R 1通过开源与性价比优势推动普惠A I时代到来。•国内厂商普遍加速迭代，开源成为主流策略。在D e e p S e e k - R 1、Q w e n系列模型开源后，国内众多厂商加入开源行列。•A I智能体潜力被深度挖掘，向通用人工智能（A G I）愿景迈进。M a n u s、A u t o G L M沉思、G e n s p a r k、F e l l o u、扣子空间、天工超级智能体等A g e n t产品纷纷涌现，加速A G I进程。 2025年国内外大模型差距模型23年5月23年6月23年7月23年8月23年9月GPT最新模型（GPT3.5、4、4-Turbo、4o、o1、o3-mini、GPT-4.5、o3、o4-mini）76.6778.7670.8981.0383.20国内TOP153.5863.5362.0060.0262.75国内TOP249.5262.5859.3555.7062.61国内TOP346.4559.8058.0253.4362.12•总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距正在缩小。2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1、o3-mini、GPT-4.5、o3、o4-mini的多个版本的迭代升级。国内模型也经历了波澜壮阔的25个月的迭代周期。但随着o4-mini的发布，差距从7.46%增加至10.42%。国内外Top1模型差距分数国内外Top1模型差距比例SuperCLUE基准：过去25个月国内外TOP大模型对比趋势来源：S u p e r C L U E , 2 0 2 3年5月～2 0 2 5年5月，期间发布的1 6次大模型基准测评报告。 23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月25年3月25年5月87.0889.7990.6392.7179.1381.0079.6775.8580.476.0170.5170.7474.0279.0287.7573.3277.0078.6469.6468.370.3463.1670.4272.8876.5486.7772.5876.0076.2469.0068.366.3862.9669.5771.8775.0485.7072.4576.0074.6368.9167.464.6961.94 第二部分5月通用测评介绍1. SuperCLUE基准介绍2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集及评价方式4.各维度测评说明及示例5.测评模型列表 SuperCLUE是大模型时代背景下CLUE基准的发展和延续，是独立、领先的通用大模型的综合性测评基准。中文语言理解测评基准C L U E（T h e C h i n e s eLanguage Under standing Evaluatio n）发起于2019年，陆续推出过CLUE、Few CLUE、Zero CLUE等广为引用的测评基准。0数据污染每2个月题库100%替换传统测评SuperCLUE易数据污染学术视角与应用侧较大偏差维度固定陈旧无法与时俱进VSSuperCLUE与传统测评的区别维度Live更新题目固定过拟合风险高SuperCLUE基准介绍2019CLUE基准发布2020发布多篇顶会论文，并承办了NLPCC2020开放测评任务2021发布FewCLUE、DataCLUE、ZeroCLUE等多个知名测评基准题目100%原创SuperCLUE三大特征产业+用户视角010203“Live”更新，0数据污染测评方式与用户交互一致独立第三方，无自家模型测评题库每2个月1 0 0 %替换且全部原创，杜绝过拟合风险。体系维度根据大模型进展L iv e更新。测评方法与用户交互方式保持一致，测评任务贴近真实落地场景

点击免费查看完整报告

中文大模型基准测评2025年5月报告

2025年5月中文大模型进展

你可能感兴趣

中文大模型基准测评2025年9月报告

中文大模型基准测评2025年上半年报告

中文大模型基准测评2025年3月报告

中文大模型基准测评2025年年度报告：2026开年特别版：含1月底重磅模型动态评测

中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估

中文大模型基准测评报告：ChatGPT发布一周年报告

中文大模型基准测评2024年4月报告

中文大模型基准测评2024年上半年报告— 2024年度中文大模型阶段性进展评估

中文大模型基准测评报告2023-ChatGPT发布一周年特别报告

2024中文大模型阶段性进展年度评估：中文大模型基准测评2024年度报告