您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SuperCLUE团队]:2024中文大模型阶段性进展年度评估:中文大模型基准测评2024年度报告 - 发现报告

2024中文大模型阶段性进展年度评估:中文大模型基准测评2024年度报告

AI智能总结
查看更多
2024中文大模型阶段性进展年度评估:中文大模型基准测评2024年度报告

中文大模型基准测评2024年度报告 —2024中文大模型阶段性进展年度评估 2 0 2 5 . 0 1 . 0 8SuperCLUE团队 精准量化通用人工智能(AGI)进展,定义人类迈向AGI的路线图 Accurately quantifying the progress of AGI,defining the roadmap for humanity's journey towards AGI. 报告摘要(一) •OpenAI发布o1正式版,大幅领跑全球 o1正式版的推出进一步拉大了与其他模型的差距。经12月测评,o1以80.4分大幅领跑全球,较ChatGPT-4o-latest高10.2分,较国内最好模型高12.1分。 •国内顶尖大模型进展迅速,较为接近ChatGPT-4o-latest 国内顶尖大模型进展迅速,其中DeepSeek-V3和SenseChat 5.5-latest取得68.3分表现出色,超过Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp,较为接近ChatGPT-4o-latest(仅相差1.9分)。 •国内模型在推理速度和性价比方面很有竞争力 国内模型DeepSeek-V3和Qwen2.5-32B-Instruct在推理效能方面表现出色,在高水平能力的基础上,保持极快的推理速度。在性价比方面,D e e p S ee k - V 3、Q w e n 2 . 5 -72B-Instruct(阿里云)在高水平能力的基础上,保持低成本的API价格。 •端侧小模型表现惊艳 国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如Qwen2.5-3B-Instruct、MiniCPM3-4B,均展现出很高的性价比和落地可行性。 报告摘要(二) 报告目录 四、开源模型进展评估 一、2024年度关键进展及趋势 •开源模型榜单•10B级别小模型榜单•端侧5B级别小模型榜单 •2024年大模型关键进展•2024年值得关注的中文大模型全景图•2024年国内外大模型差距•2024年国内外大模型能力趋势 五、智能体Agent基准 二、年度通用测评介绍 •SuperCLUE介绍•SuperCLUE大模型综合测评体系及数据集•SuperCLUE通用测评基准数据集及评价方式•各维度测评说明•各维度测评示例•测评模型列表 七、多模态基准 八、AI产品基准 三、总体测评结果与分析 •SuperCLUE通用能力测评总分•SuperCLUE模型象限(2024)•历月SuperCLUE大模型Top3•一、二级维度表现•九大任务年度Top5•综合效能区间分布•性价比区间分布•国内外推理模型能力对比•Hard、理科、文科成绩及示例•国内大模型成熟度-SC成熟度指数•评测与人类一致性验证 九、行业测评基准 十、重点文本专项基准 十一、优秀模型案例 第1部分 2024年度关键进展及趋势 1.2024年大模型关键进展2.2024年值得关注的中文大模型全景图3.2024年国内外大模型差距4. 2024年国内外大模型能力趋势 2024年大模型关键进展 自2 0 2 2年1 1月3 0日C h a t G P T发 布 以 来 ,A I大 模 型 在 全 球 范 围 内 掀 起 了 有 史 以 来 规 模 最 大 的 人 工 智 能 浪 潮 。 国 内 外A I机 构 在 过 去2年 有 了 实 质 性 的 突 破 。具体可分为:准备期、跃进期、繁荣期和深化期。 深化期 繁荣期 跃进期 准备期 •C h a t G P T发 布 ,全 球 范 围 内 迅 速 形成 大 模 型 共 识 。•G P T 4发 布,进 一 步 掀 起 大 模 型 研 发热 潮 。•国 内 快 速 跟 进 大 模 型 研 发 。文 心 一 言1 . 0、 通 义 千 问 、讯 飞 星 火 、3 6 0智脑 、C h a t G L M等 首 批 模 型 相 继 发 布 。 2024年国内外大模型差距 •总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好 模 型 经 过 了 从G P T 3 . 5、G P T 4、G P T 4 - T u r b o、G P T 4 o、o 1的 多 个 版 本 的 迭 代 升 级 。 国 内 模 型 也 经 历 了 波 澜 壮 阔 的1 8个 月 的 迭代 周 期 ,从2 0 2 3年5月 的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。 2024年国内外大模型能力趋势 趋势分析 1.以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest 在过去2年中,国产代表性模型持续迭代多个版本,D e e p S e e k - V 3、D o u b a o - p r o、G L M - 4 - P l u s、Qwen2.5在中文任务上已经接近GPT-4o。 其 中D e e p S e e k - V 3表 现 出 色 , 在1 2月 测 评 中 有 超 过Claude 3.5 Sonnet的表现。 2.o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距 在1 2月S u p e r C L U E测 评 中 ,国 内 外 主 要 头 部 大 模 型在SuperCLUE基准得分集中在60-70分。 o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。 第2部分年度通用测评介绍 1. SuperCLUE基准介绍2. SuperCLUE大模型综合测评体系3. SuperCLUE通用测评基准数据集4.各维度测评说明5.各维度测评示例6.测评模型列表 SuperCLUE基准介绍 SuperCLUE是大模型时代背景下CLUE基准的发展和延续,是 独 立 、 领 先 的 通 用 大 模 型 的 综 合 性 测 评 基 准 。中 文 语 言 理 解 测 评 基 准C L U E(T h e C h i n e s eLanguage Under standing Evaluatio n)发起于2019年,陆续推出过CLUE、Few CLUE、Zero CLUE等广为引用的测评基准。 SuperCLUE大模型综合测评体系 基 于 大 模 型 技 术 和 应 用 发 展 趋 势 、 以 及 基 准 测 评 专 业 经 验 ,S u p e r C L U E构 建 出 多 领 域 、 多 层 次 的 大 模 型 综 合 性 测 评 基 准 框 架 。 从 基 础 到 应 用 覆 盖 : 通 用 基准体系、文本专项系列基准、多模态系列基准、推理系列基准、Agent系列基准、AI应用基准。为产业、学术和研究机构的大模型研发提供重要参考。 SuperCLUE通用测评基准数据集及评价方式 本次12月报告聚焦通用能力测评,由理科、文科和Hard三大维度构成。题目均为原创新题,总量为1325道多轮简答题。 【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为语言理解、生成创作、安全测评集;【Hard任务】分为指令遵循、深度推理、Agent测评集。 SuperCLUE通用基准数据集及评价方式 1.计算 2.逻辑推理 3.代码 理科 介绍:包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。评价方式:人工校验参考答案的、多维度评价标准的评估。 介绍:包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。评价方式:人工校验参考答案的、多维度评价标准的评估。 介绍:HumanEval的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。评价方式:基于代码单元测试的评估(0-1得分) 4.语言理解 5.生成与创作 6.传统安全 文科 介绍:基础语言理解数据集,包括但不限于信息抽取、意图识别、摘要、百科知识。评价方式:多维度评价标准的评估。 7.指令遵循 Hard 理科测评说明1(计算、逻辑推理) 示例-计算 SuperCLUE-理科评测数据集 问题: 计算 逻辑推理 模型回答: 包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。 包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。 测评方法 <篇 幅 有 限 省 略> 评 测 流 程 : 我们采用高级AI模型(例如GPT-4o)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。 以【计算】任务为例,设定的评价标准包括:符合基本要求、推理准确性、结论合理性。 假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均得分: 评价打分: 1.基于标准1的<符合基本要求>:AI助手的回答完全符合用户的要求,详细地解释了级数的收敛性并计算了级数的和。基于标准1的得分:5分; 2.基于标准2的<推理准确性>:AI助手的推理过程准确,逻辑清晰,应用了正确的数学方法来判断级数的收敛性和计算级数的和。基于标准2的得分:5分; 因此,该题目的具体得分为4分。 3.基于标准3的<结论合理性>:AI助手得出的结论与已知的数学常识和事实一致,验证了级数的收敛性并正确计算了级数的和。基于标准3的得分:5分; 最后,将所有题目的得分进行归一化处理,以确保满分为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。 综合以上,AI助手的回答的综合得分(平均分)为[[5]] 理科测评说明2(代码) SuperCLUE-理科评测数据集 示例-代码 模型回答: 问题: 代码 import mathfrom typing import Tuplefrom collections import deque from typing import Tuple def has_enough_water(jugs: Tuple[int], target: int) -> bool:import math H u m a n E v a l的 中 文 升 级 版 , 分 为 初 级 、 中 级 和 高 级 的8种 常 见 类 型 代 码 数 据 集 。 def task_func(jugs: Tuple[int], target: int) ->bool: 测评方法 给定三个水壶的容量,判断是否可以通过无限的水源和以下操作精确地得到target升水。 评 测 流 程 : 允许的操作包括: 整体测评流程包括:1.获取模型答案;2.提取功能函数;3.测试功能函数;4.计算模型得分。 -装满任意一个水壶 -清空任意一个水壶 1.获取模型答案: -将水从一个水壶倒入另一个水壶,直到倒水壶为空,或接水壶已满 使用特定的prompt要求模型按照特定格式回答,以方便后续提取。对于一个代码补全问题,每个模型获取一次答案。 参数: - jugs: Tuple[int, int, int] -三个水壶的容量,按升为单位。- target: int -目标水量,单位为升。 2.提取功能函数: 获取到模型回复之后,结合prompt要求和模型回答设定规则提取函数代码。 3.测试功能函数: 返回:- bool -是否可以达到目标水量。""" 对于一个代码补全问题,将提取得到的代码和该问题对应的N个测试用例组装成N个可独立运行的单元测试程序,在沙箱环境运行(沙箱环境python版本设置为3.10)。 4.计算模型得分: 测试功能函数: 对于一个代码补全问题和1个测试用例,构成一个单元测