您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SuperCLUE团队]:中文大模型基准测评2023年度报告:AI跃迁的2023,中文大模型进展评估 - 发现报告

中文大模型基准测评2023年度报告:AI跃迁的2023,中文大模型进展评估

2023-12-28-SuperCLUE团队L***
中文大模型基准测评2023年度报告:AI跃迁的2023,中文大模型进展评估

中文大模型基准测评2023年度报告 —AI跃迁的2023,中文大模型进展评估 2 0 2 3 . 1 2 . 2 8SuperCLUE团队 01国内大模型关键进展 •2023年大模型关键进展与中文大模型全景图•2023年国内大模型发展趋势 02测评体系、方法说明 •中文大模型基准SuperCLUE介绍•测评体系、层次、方法说明 03大模型综合测评结果 •SuperCLUE模型象限•国内外大模型总体表现及竞争格局•大模型对战胜率分布图 04SuperCLUE2.0升级 •行业及专项测评基准 四大维度测评分析及示例介绍 •四大维度测评结果及示例 06优秀模型案例介绍 •优秀模型案例介绍 第1部分2023全年国内大模型关键进展 2023大模型关键进展 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。 2023年值得关注的中文大模型全景图 国内外大模型发展趋势 趋势说明 过 去 半 年 , 国 内 领 军 大 模 型 企 业 实 现 了 大 模 型代 际 追 赶 的 奇 迹 , 从7月 份 与G P T 3 . 5的2 0分 差距 , 每 个 月 都 有 稳 定 且 巨 大 的 提 升 , 到1 1月 份测评时已经完成总分上对GPT3.5的超越。 我 们 可 以 看 到G P T 3 . 5和G P T 4在 中 文 上 的 表 现情况基本一致,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可 以 看 到 , 国 内 第 一 梯 队 模 型 与G P T 4的 差 距 在缩小。但仍有较大的距离需要追赶。 说明: 趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通 义 千 问 、C h a t G L M。 原 因 是 综 合 考 虑 了 过 去半 年S u p e r C L U E测 评 结 果 、 长 期 稳 定 迭 代 及 对国 内 大 模 型 生 态 的 贡 献 ;G P T 4成 绩 , 由G P T 4 -A P I ( 7 - 9月)与G P T 4 - T u r b o ( 1 0 - 1 2月)组 成 , 用以表现国外最好模型发展。 第2部分测评体系、方法说明 1.SuperCLUE介绍2.测评层级3.测评体系4.测评方法及示例 SuperCLUE介绍 SuperCLUE三大特征 中 文 语 言 理 解 测 评 基 准C L U E(T h e C h i n e s e L a n g u a g eUnderstan d i n g Eval u ati o n)是致力于科学、客观、中立的语言模型评 测 基 准,发 起 于2 0 1 9年 。陆 续 推 出C L U E、F e w C L U E、K g C L U E、DataCLUE等广为引用的测评基准。 第三方测评,不与模型厂商竞争 SuperCLUE始终秉持中立、客观的第三方测评理念,不会预设立场或偏向特定的模型方。同时,SuperCLUE采用自动化方式的客观评估,大大降低评测过程中的人为评估的不确定性。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综 合 性 测 评 。 传 统 语 言 模 型 测 评 往 往 局 限 于 学 术 范 围 的 单 轮 选 择 题 ,S u p e r C L U E根 据 多 年 的 测 评 经 验 , 基 于 通 用 大 模 型 在 学 术 、 产 业 与 用 户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 测评方式与真实用户体验目标一致 不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,真实模拟大模型的应用场景,真实有效的考察模型生成能力。 同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。 不限于学术领域的测评,更为了服务产业界 不同于传统学术领域的评测,SuperCLUE从通用基准维度的选择、安全和智能体专项测评的设计,到行业大模型测评基准的推出,所有评测的目的都是为产业和应用服务。真实反应通用大模型与产业应用之间的差距,引导大模型提升技术落地效果,在通用能力的基础上更好的进行垂直领域的应用。 测评体系 测评方法 为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题S uperCLUE-OP EN和三大能力客观题S uperCLUE-OP T两部分测评结果组成。评 测 集 共4273题 , 其 中1060道多轮简答题(OPEN),3213道客观选择题(OP T),以下为评测集与测评方法简述。 OPEN 在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与一个基准模型进行对比,让超级模型选出A模型好,B模型好,或平局。进而计算胜和率作为OPEN得分。 SuperCLUE总分 0.7*OP EN分+0.3*OP T分 O P E N分=胜 和 率 注 : 多 轮 简 答 题O P E N更 能 反 应 模 型真 实 能 力 , 故 权 重 设 置提 高 。 OPT主要测评选择题,包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用,要求模型选取ABCD中唯一的选项。 测评方法-示例1(生成与创作) A:文心一言4.0 B: gpt3.5-turbo 模型A的回答创造性地扩展了原有的文案,加入了家庭安全方面的应用,如老人摔倒检测和入侵检测,并维持了主题一致的“魔法”元素,这样的文案能够有效吸引用户的注意,并且关注点转移到家庭安全这一增加的功能上。 模型B在回答中也有效地扩充了关于家庭安全功能的描述,保持了与原文案相似的格式,成功地整合了入侵检测和摔倒监测的新信息,让用户了解到产品的新应用场景。 两个模型都做到了准确地回答了问题并且保持了高度的相关性,同时也都扩展了文案来包括新的家庭安全特性,提供了实用性的信息。在这个基础上,模型A的创意元素—用“魔法”寓意来打动用户,和模型B的实用性—强调产品带来的平安感,都各有卖点。 综上所述,两个模型的回答在满足准确性和相关性的同时,从实用性和创造性的角度来看,两者提供的内容是相当的,因此我的最终评判结果是:平局 测评方法-示例2(逻辑与推理) 超级模型(裁判) 问题及模型回答 A: GPT4-Turbo B: gpt3.5-turbo 第一个问题:首先对于准确性,模型A回答是正确的。他列举了所有相关人物的计算过程,逐一解释了每个人的年龄如何计算,并正确得出Frank和Dave之间的年龄差是68岁。 模型B直接给出了一个答案22岁,这是错误的。模型B似乎没有理解问题的含义,也没有提供如何得出这个答案的过程。问题是问Frank和Dave之间的年龄差,模型B的计算过程不清不楚,似乎错误地将Bob和Frank的年龄差解释为Frank和Dave的年龄差。 在相关性方面,模型A的回答与问题完全相关,它正确地解答了用户的问题,并给出了合适的计算过程。模型B的回答虽然与问题的主题(即年龄差)相关,但却没有正确回答问题,因此相关性不足。由于准确性和相关性是首要的判断标准,模型A在这两方面都表现出更好的质量,因此应该被评为更好的回答。模型B因为错误且未给出推理过程,所以被评为较差的模型。最终判决:[[A]]" 关于第二个问题:模型B的解释出现了错误,它错误地假设了“Dave的父亲是Bob”,这实际上没有给出在给定信息中。从而推理出Frank的外公的父亲的孙女是Frank自己,这是不正确的。模型A的解释则是准确的,它正确地根据给定的家族关系逐步分析出了Frank自己是“Frank的外公的父亲的孙女的儿子”。模型A同时保持了答案的相关性。 根据我们的评估标准,准确性和相关性是主要的评判标准。因为模型B在准确性上存在错误,模型A就以准确和相关的答案胜出。因此,基于准确性和相关性的评估,最终判决:[[A]]" 第3部分大模型综合测评结果 1.SuperCLUE模型象限2.国内外大模型总体表现3.国内大模型竞争格局4.大模型对战胜率分布图 测评模型列表 注 :1 .两 个 维 度 的 组 成 。 基 础 能 力 , 包 含 : 专 业 与 技 能 、 语 言 与 知 识 ( 不 包 括 角 色 扮 演 ) 、 传 统 安 全 ; 应 用 能 力 , 包 括 : 工 具 使 用 、 角 色 扮 演 。2 .四 个 象 限 的 含 义 。 它 们 代 表 大 模 型 所 处 的 不 同 阶 段 与 定 位 , 其 中 【 潜 力 探 索 者 】 代 表 模 型 正 在 技 术 探 索 阶 段 拥 有 较 大 潜 力 ; 【 技 术 领 跑 者 】 代 表 模 型 聚 焦 基 础 技 术 研 究 ;【 实 用 主 义 者 】 代 表 模 型 在 场 景 应 用 上 处 于 领 先 定 位 ; 【 卓 越 领 导 者 】 代 表 模 型 在 基 础 和 场 景 应 用 上 处 于 领 先 位 置 , 引 领 国 内 大 模 型 发 展 。 国内外大模型总体表现 国内对外差距情况说明 国 内 外 差 距 依 然 明 显 。G P T 4 - T u r b o总 分9 0 . 6 3分 遥 遥 领 先 ,高 于其 他 国 内 大 模 型 及 国外 大 模 型 。 其 中 国 内 最 好 模 型 文 心 一 言4 . 0 ( A P I )总 分7 9 . 0 2分 , 距 离G P T 4 - T u r b o有11.61分,距离GPT4(网页)有4.9分的差距。 必 须 看 到 的 是 ,过 去1年 国 内 大 模 型 已 经 有 了长 足 的 进 步。 综 合 能 力 超 过G P T 3 . 5和G e m i n i - P r o的 模 型 有1 1个 , 比 如 百 度 的 文 心一 言4 . 0、 阿 里 云 的 通 义 千 问2 . 0和Q w e n -72B-Chat、OPPO的AndesGPT、清华&智谱A I的 智 谱 清 言 、字 节 跳 动 的 云 雀 大 模 型 等 都 有比较好的表现。 •在S u p e r C L U E测 评 中 ,国 外 模 型 的 平均 成 绩 为6 9 . 4 2分 , 国 内 模 型 平 均 成 绩为65.95分,差距在4分左右。 •可 以 看 出 , 国 内 外 的 平 均 水 平 差 距 在 缩小,11月差距在10分左右。 另外国 内 开 源 模 型 在 中 文 上 表 现 要 好 于 国 外 开源模型,如百川智能的Baichuan2-13B-Chat、阿 里 云 的Q w e n - 7 2 B、Y i - 3 4 B - C h a t均优 于Llama2-13B-Chat。 国内大模型竞争格局 国内大模型综合表现-SuperCLUE 通 过S u p e r C L U E测 评 结 果 发 现 , 国 内 大 模 型 的 第 一 梯 队 有 了 更 多 新 的 模 型 加 入 。 头 部 模 型如文心一言4.0、通义千问2.0引领国内大模型的研发进度,部分高质量大模型紧追不舍,分别在闭源应用和开源生态中形成自己独特的优势。 •从国内TO