您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:SuperBench大模型综合能力评测报告(2024年3月) - 发现报告

SuperBench大模型综合能力评测报告(2024年3月)

信息技术2024-04-27陈雯、黄民烈清华大学邵***
AI智能总结
查看更多
SuperBench大模型综合能力评测报告(2024年3月)

SuperBench团队 大模型能力重点迁移历程 2023年-2024年 2021年-2023年 随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。 基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。 大模型评测原则标准 大模型评测的必要性 开放性 在整个评测过程中,都应保证公开透明,避免暗箱操作;评测数据集也应开放与封闭相结合,这样既有利于后续的模型优化,也可以防止模型刷题 Channel:premiumatmosphericSys大模型在2023年经历了“百模大战”,实践者们纷纷推出了自己原创的、或经开源模型微调、改进的各种通用模型、行业或领域模型,在此背景下,如何评价大模型的能力变成一个非常重大的研究和实践问题。 动态性 要不断丰富评测数据,避免静态考题,进行数据集的持续优化,力求更专业。如果榜单的评测数据集长时间保持不变,会有被参与评测者刷题的风险,导致榜单失真 优质大模型评测的标准 科学性 目前国内外均有测试大模型能力的榜单,但质量良莠不齐,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,我们认为好的评测方法应该满足开放性、动态性、科学性以及权威性等。 大模型的评测体系更全面,评测方法确保科学严谨,评测方式力求多元化。这不仅需要专业的数据集构建,也需要科学研究的支撑 权威性 评测任务具有公信力,评测结果公正严谨,社会认可度高,避免成为一家之言,同时杜绝商业利益对评测结果的干扰 SuperBench评测模型列表 本次我们选择海内外具有代表性的14个模型进行评测,对于闭源模型我们选择API和网页两种调用模式中得分较高的一种进行评测。具体模型列表如下: SuperBench介绍 SuperBench简介 优势 开放性 SuperBench由清华大学基础模型研究中心联合中关村实验室共同发布,致力于为大模型领域提供客观、科学的评测标准,促进大模型技术、应用和生态的健康发展。 SuperBench评测数据集结合开源数据集与闭源数据集,后续版本将推出公开的验证集与封闭的测试集,既有助于模型优化,又防止刷题。 动态性 SuperBench将定期发布评测结果与报告,每个周期刷新评测数据集的题目与类型,以避免静态考题导致的过拟合现象,可以有效防止作弊。 SuperBench团队具有多年的大模型研究经验,在大模型核心技术研发中处于领先位置。基于公正、公平、公开的原则,设计了大模型评测框架,推出了多个测试基准数据集,并开发了多个评测工具。 科学性 SuperBench团队基于公平、公正、公开的原则,专门设计了一整套评测体系,包含五大原生评测基准、并在此基础上构建了SuperBench检测平台,研发了裁判模型CritiqueLLM等在内的自研评测算法,确保评测结果科学可靠。 权威性 SuperBench由清华大学和中关村实验室联合发布,为独立的第三方非盈利性评测机构,评测体系公开透明,评测过程可追溯。 SuperBench评测体系-评测数据集 SuperBench评测数据集涵盖语义、对齐、代码、智能体和安全五大类,28个子类包含ExtremeGLUE(语义)、NaturalCodeBench(代码)、AlignBench(对齐)、AgentBench(智能体)和SafetyBench(安全)五个基准数据集。 SuperBench评测体系-语义理解能力 大语言模型评测数据集 评测方法示例 语义 评测方法&流程 •评测方式:收集了72个中英双语传统数据集,提取其中高难度的题目组成4个维度的评测数据集,采取零样本cot评测方式,各维度得分计算方式为回答正确的题目数所占百分比,最终总分取各维度的平均值•评测流程:根据不同题目的形式和要求,对于模型的零样本cot生成的结果进行评分 ExtremeGLUE是一个包含72个中英双语传统数据集的高难度集合,旨在为语言模型提供更严格的评测标准,采用零样本cot评测方式,并根据特定要求对模型输出进行评分。我们首先使用了超过20种语言模型进行初步测试,包括了gpt4、claude、vicuna、wizardlm和chatGLM等。我们基于所有模型的综合表现,决定了每个分类中挑选出难度最大的10%~20%数据,将它们组合为"高难度传统数据集"。 知识掌握:科学类 阅读理解 •问题: 阅读理解任务测试模型对文本的理解。英文数据来自“race”(中学阅读理解)和“super_gluemultirc”(句子级多选,强调推理)。中文数据则包括“cail”(法律问题与答案)、“dcrd”(定义性问题)和“webqa”(基于网页的问题-答案对)。 科学类知识任务评估模型在科学领域的理解与应用。英文数据涵盖自然科学至医学,如ARC、openbookqa等。中文部分采用这些英文数据集的翻译版。 小花妈妈打算将20000元定期存入银行3年,如果按年利率3.69%计算,到期时小花妈妈实际的本息共有多少元?(另记利息税10%) •回答: 21992.6 知识掌握:常识类 数学计算 •打分原则: 数学计算能力评估语言模型解数学题的表现。中文数据如gsm8k、aqua-rat和numglue的翻译版,以及大规模的ape-210k和高难度的agieval中的sat-math和MATH。英文数据包括aqua_rat、math_qa、sat-math以及针对通用问题的gsm8k、numglue和大规模的ape_210k。 常识类知识任务测试模型对日常常识的应用。英文数据如BBH的因果、日期理解和电影推荐,以及SWAG的情境理解。中文则使用BBH三个数据集的翻译和特修改版的CMRC2018,直接依靠常识回答问题。 与答案数值绝对误差小于0.001则得分,否则不得分 SuperBench评测结果-语义理解能力 整体表现:在语义理解能力评测中,各模型形成了三个梯队,70分档为第一梯队,包括Claude-3、GLM-4、文心一言4.0以及GPT-4系列模型;其中Claude-3得分为76.7,位居第一;国内模型GLM-4和文心一言4.0则超过GPT-4系列模型位居第二和第三位,但是和Claude-3有3分差距。 •知识-常识:Claude-3以79.8分领跑,国内模型GLM-4表现亮眼,超过GPT-4网页版位居第二;文心一言4.0表现不佳,距离榜首Claude-3有12.7分差距。分类表现: •知识-科学:Claude-3依然领先,并且是唯一一个80分以上模型;文心一言4.0、GPT-4系列模型以及GLM-4模型均在75分以上,为第一梯队模型。•数学:Claude-3和文心一言4.0并列第一,得65.5分,GLM-4领先GPT-4系列模型位列第三,其他模型得分在55分附近较为集中,当前大模型在数学能力上仍有较大提升空间。•阅读理解:各分数段分布相对较为平均,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。 SuperBench评测结果示例-语义理解能力 问题: 请解决以下数学问题请使用"答案是"表示最终结果。问题:2.94/1.4-0.46*2.5回答: 为了解决这个问题,我们需要按照正确的运算顺序来计算。乘除的优先级高于加减,同级运算从左到右进行。 答案是1.4。 第一步,计算乘法:0.46*2.5 = 1.15 第二步,计算除法:2.94 / 1.4 = 2.1 第三步,将第一步和第二步的结果相减:2.1 - 1.15 = 0.95 因此,答案是0.95。 SuperBench评测体系-代码编写能力 评测方法示例 大语言模型评测数据集 评测方法&流程 •评测方式:运行模型生成的函数,将输出结果与准备好的测例结果进行比对进行打分。将输出结果与准备好的测例结果进行比对进行打分,最终计算生成代码的一次通过率pass@1。•评测流程:给定问题、单元测试代码、以及测例,模型首先根据问题生成目标函数;运行生成的目标函数,以测例中的输入作为参数得到函数运行输出,与测例中的标准输出进行比对,输出匹配得分,输出不匹配或函数运行错误均不得分。 NaturalCodeBench(NCB)是一个评估模型代码能力的基准测试,传统的代码能力评测数据集主要考察模型在数据结构与算法方面的解题能力,而NCB数据集侧重考察模型在真实编程应用场景中写出正确可用代码的能力。 Natural Code Bench 本类别旨在自动化考察真实场景下模型根据用户需求生成代码的能力。所有问题都从用户在线上服务中的提问筛选得来,问题的风格和格式更加多样,涵盖数据库、前端开发、算法、数据科学、操作系统、人工智能、软件工程等七个领域的问题,可以简单分为算法类和功能需求类两类。题目包含java和python两类编程语言,以及中文、英文两种问题语言。每个问题都对应10个人类撰写矫正的测试样例,9个用于测试生成代码的功能正确性,剩下1个用于代码对齐。 示例问题 python (user) java (user) Natural Code Bench的python数据集。共201条数据,每个问题都含有9个测试样例。以功能需求类为主,功能需求和算法类大概比例为7:3 Natural Code Bench的java数据集。共201条数据,每个问题都含有9个测试样例。以算法类为主,功能需求和算法类大概比例为3:7 示例单元测试代码 SuperBench评测结果-代码编写能力 整体表现:在代码编写能力评测中,国内模型与国际一流模型之间仍有明显差距,GPT-4系列模型、Claude-3模型在代码通过率上明显领先,国内模型中GLM-4,文心一言4.0与讯飞星火3.5表现突出,综合得分达到40分以上;然而,即使是表现最好的模型在代码的一次通过率上仍只有50%左右,代码生成任务对目前的大模型来说仍是一大挑战; •英文代码指令:GPT-4Turbo比Claude-3在Python和Java问题上分别高出6.8分和1.5分,比GLM-4在Python和Java问题上分别高出14.2分和5.1分,国内模型与国际模型在英文代码指令上差距比较明显;•中文代码指令:GPT-4Turbo比Claude-3在Python上高出3.9分,在Java上低2.3分,差距不大。GPT-4Turbo比GLM-4在Python和Java问题上分别高出5.4分和2.8分,国内模型在中文编码能力上与国际一流模型仍存在一定差距;分类表现:在Python、Java、中文、英文四个维度的数据集中GPT-4系列模型包揽头名,体现出强大而全面的代码能力,除Claude-3外其余模型差距明显; SuperBench评测结果示例-代码编写能力: 问题 你的任务是生成python代码来解决以下问题,生成的代码必须位于代码块```python和```之间,最多只允许有一个代码块:Python代码,计算给定两个Pytorch张量的距离,其维度为batchsize x n x 3,n是点数,3是x,y,z。沿着最后一个维度计算点对点的距离,例如只计算a[0,1]和b[0,1]之间的距离,而不是a[0,1]和b[0,2]之间的距离。生成代码时你需要遵循以下测试用例中测试函数体中的函数名或类名,但生成的代码中不允许包含测例: class Testcalculate_distance:def test_case_1(self):tensor_a = torch.tensor([[[1,