您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[SuperCLUE团队]:中文大模型基准测评报告2023-ChatGPT发布一周年特别报告 - 发现报告

中文大模型基准测评报告2023-ChatGPT发布一周年特别报告

金融2023-12-17SuperCLUE团队起***
AI智能总结
查看更多
中文大模型基准测评报告2023-ChatGPT发布一周年特别报告

中文大模型基准测评报告,2023 —ChatGPT发布一周年,中文大模型进展评估 2023.11.28 01国内大模型关键进展 •2023年大模型关键进展•2023年值得关注的中文大模型全景图 测评体系、方法说明02 •中文大模型基准SuperCLUE介绍•测评体系、层次、方法说明 大模型测评结果03 •SuperCLUE模型象限•国内外大模型差距•国内大模型竞争格局•大模型对战胜率分布图•四大维度测评结果及示例 优秀模型案例介绍04 •优秀模型案例介绍 第1部分国内大模型关键进展 2023大模型关键进展 自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。 2023年值得关注的中文大模型全景图 第2部分测评体系、方法说明 SuperCLUE介绍 SuperCLUE五大特征 中 文 语 言 理 解 测 评 基 准C L U E(T h e C h i n e s e L a n g u a g eUnderstan d i n g Eval u ati o n)是致力于科学、客观、中立的语言模型评 测 基 准,发 起 于2 0 1 9年 。陆 续 推 出C L U E、F e w C L U E、K g C L U E、DataCLUE等广为引用的测评基准。 多维度 不同于传统测评针对于学术能力的测评,SuperCLUE考察通用大模型在语言理解与生成、专业技能与知识、安全性和工具使用的四大能力、十大维度的上百个任务上的效果。多维度多层次的反应大模型通用能力。 SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综 合 性 测 评 。 传 统 语 言 模 型 测 评 往 往 局 限 于 学 术 范 围 的 单 轮 选 择 题 ,S u p e r C L U E根 据 多 年 的 测 评 经 验 , 基 于 通 用 大 模 型 在 学 术 、 产 业 与 用 户侧的广泛应用,构建了多层次、多维度的综合性测评基准。 多视角 不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过对话的形式真实模拟大模型的应用场景,真实有效的考察模型生成能力。 多轮测评 不同于传统测评的单轮形式的测评,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。 月度跟踪 为 实 时 跟 踪 国 内 大 模 型 的 迭 代 情 况 , 及 时 反 应 国 内 外 大 模 型 发 展 现 状 。SuperCLUE按照月度测评形式及实时热点模型测评的模式快速跟进大模型发展情况。 高保密性 为应对大模型广泛学习互联网知识的情况,减少训练集混入评测集的风险,SuperCLUE采用高保密性的测评方式,且月度测评采用完全原创且全新的评测集进行测评,保证真实、客观反应大模型能力。 测评体系 SuperCLUE多层次基准 测评方法 为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评 测 集 共4 2 6 5题 , 其 中1052道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。 OPEN 在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与一个基准模型进行对比,让超级模型选出A模型好,B模型好,或平局。进而计算胜和率作为OPEN得分。 SuperCLUE总分 0.6*OP EN分+0.4*OP T分 O P E N分=胜 和 率 注 : 多 轮 简 答 题O P E N更 能 反 应 模 型真 实 能 力 , 故 权 重 设 置提 高 。 OPT主要测评选择题,包括基础能力、中文特性、专业与学术能力。构造了统一的prompt供模型使用,要求模型选取ABCD中唯一的选项。 测评方法-示例1 超级模型(裁判): 模型A和模型B都成功地完成了任务,创作了符合要求、引人注目且针对目标受众的广告文案。现在根据用户的指示,我们将评估两个模型在为研发新型治疗老年痴呆症药物的广告文案中的表现。 模型A的回答在修改后的广告文案中,将新药物的功能嵌入到既有的文案结构中,融合了抗癌和痴呆症药物的信息。其文案展示了同样富有希望和温暖的语调,保持了一致的主题,并且在添加记忆改善药物的特性上作了适当的阐述。 模型B的回答也创造性地修订了文案,同样融合了对两种药物的描述。在添加老年痴呆症药物后,模型B提到了药物对记忆和认知功能改善的潜力,其语言保持了文案的一贯风格,同时成功地将新加入药物的销售点融入并突出了其特性。 两者在创作和细节方面都有细致的考虑,模型A和B都延续了初始广告文案的风格和语气,并且明确提及了新药物的特性和功能。 在决定哪个模型的答案更好时,我们考虑以下因素:将新药物特性融入现有文案的流畅性、新药物特性的突出以及与原来文案的整合程度。在这个任务上,模型A和B的表现都相当优秀,没有显著差异。他们在广告文案的创作中都能达到用户的要求,都能吸引目标受众并有效展现产品的独特价值。 根据这些观察和评判标准,最终评判结果是:平局 测评方法-示例2 超级模型(裁判): 模型A提供了一个结构良好的回答,首先介绍了问题的上下文和所需进行的计算。它遵循了一个逻辑性的步骤来逐一介绍推力向量和位置向量,之后使用正确的点积公式进行了计算,并得出了正确的结果。模型A也在结尾确认了点积为负意味着飞船正朝向星球飞去,这增强了回答的实用性和深度。模型B同样提供了一个准确的点积计算,直接步入计算方法,并明确展示了各个分量相乘的结果。然后逐个分量相加得出最终的点积。模型B的回答更为简洁,但同样包含了所有必要的计算和正确的答案。 两个模型都提供了准确且相关的回答。在实用性方面,两者都解决了用户的问题。在准确性上它们都无可挑剔。 根据这些观察和评判标准,最终评判结果是:平局 第3部分大模型测评结果 1.SuperCLUE模型象限2.国内外大模型差距3.国内大模型竞争格局4.大模型对战胜率分布图5.四大维度测评结果及示例(语言理解与生成、专业技能与知识、工具使用、传统安全) 注 :1 .基 础 能 力 包 含 语 言 理 解 与 生 成 、 专 业 技 能 与 知 识 、 传 统 安 全 的 能 力 考 察 ; 应 用 能 力 主 要 考 察 对 于 通 用 工 具 使 用 和 检 索 调 用 规 划 接 口 的 能 力 ;2 .四 象 限 代 表 大 模 型 所 处 的 不 同阶 段 与 定 位 , 其 中 【 潜 力 探 索 者 】 代 表 模 型 正 在 早 期 探 索 拥 有 较 大 潜 力 ; 【 技 术 领 跑 者 】 代 表 模 型 聚 焦 基 础 技 术 研 究 ; 【 实 用 主 义 者 】 代 表 模 型 在 场 景 应 用 上 处 于 领 先 定 位 ; 【卓越 领 导 者 】 代 表 模 型在 基 础 和 场 景 应 用 上 处 于 领 先 位 置 , 引 领 国 内 大 模 型 发 展 。3 .以 上 数 据 为 截 止2 0 2 3年1 1月2 8日 的 大 模 型 能 力 数 据 。 国内外大模型差距 国内对外差距情况说明 国 内 外 差 距 依 然 明 显 。G P T 4 - T u r b o总 分89.79分遥遥领 先 。高于国内所有大模型及国 外 代 表 性 大 模 型 。 其 中 国 内 最 好 模 型 文心一言4.0总分74.02分,距离GPT4-T u r b o有15.77分。 必须看到的是,过去1年国内大模型已经有了 长 足 的 进 步。 综 合 能 力 超 过G P T 3 . 5的 模型 有8个 , 分 别 为 百 度 的 文 心 一 言4 . 0、 零一 万 物 的Y i - 3 4 B - C h a t、 月 之 暗 面 的M o o n s h o t、v i v o的B l u e L M、 腾 讯 的 混 元 、阿 里 云 的 通 义 千 问2 . 0、 清 华&智 谱A I的ChatGLM3、字节跳动的云雀。 •在S u p e r C L U E测 评 中 ,国 外 代 表 性模 型 的 平 均 成 绩 为7 1 . 2 3分 , 国 内 代表性模型平均成绩为6 0 . 4 8分 , 差 距在10分左右。 另 外国 内 开 源 模 型 在 中 文 上 表 现 要 好 于 国外 开 源 模 型, 如 百 川 智 能 的B a i c h u a n 2 -1 3 B - C h a t、 元 象 科 技 的X V E R S E - 1 3 B -C h a t - 2、 阿 里 云 的Q w e n - 1 4 B、C h a t G L M 3 - 6 B的 成 绩 均 大 幅 优 于L l a m a 2 -13B-Chat。 •可以看出,国内外的平均水平差距不是特别明显,要弱于头部模型的差距。 国内大模型竞争格局 国内大模型综合表现-SuperCLUE 通 过S u p e r C L U E测 评 结 果 发 现 , 国 内 大 模 型 的 第 一 梯 队 有 了 更 多 新 的 模 型加 入 。 如 零一 万 物 的Y i - 3 4 B - C h a t、 腾 讯 的 混 元 、 阿 里 云 的 通 义 千 问2 . 0。你 方 唱 罢 我 登 场 , 已 有模型的新版本或出现的新模型,可能会进一步加剧第一梯队大模型的竞争。 在新的大模型竞争中,创业公司和大厂都有一定的优势。大厂有多年积累和大量用户的优势,可以大量获得用户数据和反馈。但一线创业公司同样存在快速技术迭代的优势。 •从国内TOP15大模型的数量来看,创业公司和大厂的占比几乎持平。 •从大厂和创业公司的平均成绩来看,大厂与创业公司差值约1分,几乎持平。这说明大模型研发不会仅仅因为公司规模的大小而受到影响。 大模型对战胜率分布图 结果分析 多轮开放式问题基准SuperCLUE-OPEN,是使用超级模型作为评判官,用一个待评估模型与一个基准模型(GPT3.5)进行对比,从而得出胜平负的得分。 从胜率来看,全球领跑者GPT4-Turbo胜率为49.34%,和率为48.19%,大 幅 领 先 于 其 他 模 型 , 而 败 率 仅 为2 . 4 %, 足 以 说 明G P T 4 - T u r b o对GPT3.5在各项能力上的全面压倒性优势。 而 国 内 模 型 中 , 零 一 万 物 的Y i - 3 4 B - C h a t和 百 度 的 文 心 一 言4 . 0不 相 上下,胜率的趋势基本相同,并且表现均好于GP T4。胜率超过20%的还有Moonshot、BlueLM、ChatGLM3-Turbo、腾讯混元、通义千问2.0和云雀大模型。 在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位,展 现 出 不 俗 的 对 战 能 力 。 排 在2至3位 的 是Q w e n - 1 4 B - C h a t和XVERSE-13B-Chat-2,同样表现可圈可点。 SuperCLUE基准-语言理解与生成能力 测评分析 语言理解与生 成 主 要 考 察 模 型 在 生 成 与 创 作 、 语 言 理 解 与 抽 取 、 上 下文对话、角色扮演方面的能力。 在语言理解与生成维度的