您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:【清华大学】SuperBench大模型综合能力评测报告(2024年3月) - 发现报告
当前位置:首页/行业研究/报告详情/

【清华大学】SuperBench大模型综合能力评测报告(2024年3月)

信息技术2024-04-27陈雯、黄民烈清华大学邵***
【清华大学】SuperBench大模型综合能力评测报告(2024年3月)

SuperBench大模型综合能力评测报告(2024年3月)SuperBench团队 大模型能力重点迁移历程语义2023年-future随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI 可持续发展”的关键问题。2023年-2024年基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。2022年-2023年随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。2018年-2021年早期的语言模型主要关注自然语言的理解任务 (e.g. 分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、 GPT、T5等。2021年-2023年随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。代码对齐智能体安全 大模型评测原则标准Channel: premium atmospheric Sys开放性在整个评测过程中,都应保证公开透明,避免暗箱操作;评测数据集也应开放与封闭相结合,这样既有利于后续的模型优化,也可以防止模型刷题动态性 要不断丰富评测数据,避免静态考题,进行数据集的持续优化,力求更专业。如果榜单的评测数据集长时间保持不变,会有被参与评测者刷题的风险,导致榜单失真科学性 大模型的评测体系更全面,评测方法确保科学严谨,评测方式力求多元化。这不仅需要专业的数据集构建,也需要科学研究的支撑权威性 评测任务具有公信力,评测结果公正严谨,社会认可度高,避免成为一家之言,同时杜绝商业利益对评测结果的干扰大模型在2023年经历了“百模大战”,实践者们纷纷推出了自己原创的、或经开源模型微调、改进的各种通用模型、行业或领域模型,在此背景下,如何评价大模型的能力变成一个非常重大的研究和实践问题。目前国内外均有测试大模型能力的榜单,但质量良莠不齐,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,我们认为好的评测方法应该满足开放性、动态性、科学性以及权威性等。大模型评测的必要性优质大模型评测的标准 SuperBench评测模型列表模型所属机构调用方式说明GPT-4 TurboOpenAIAPIgpt-4-0125-previewGPT-4 网页版OpenAI网页GPT-4官方网页Claude-3AnthropicAPIAnthropic Claude-3-opus-20240229 APIGLM-4智谱华章APIGLM-4开放平台APIBaichuan3 网页版百川智能网页Baichuan3官方网页KimiChat 网页版月之暗面网页KimiChat官方网页Abab6稀宇科技APIMiniMax开放平台Abab6 API文心一言4.0百度API百度千帆平台Ernie-bot-4 API通义千问2.1阿里巴巴API通义千问qwen-max-longcontext APIqwen1.5-72b-chat阿里巴巴API通义千问开源qwen1.5-72b-chatqwen1.5-14b-chat阿里巴巴API通义千问开源qwen1.5-14b-chat讯飞星火3.5科大讯飞API讯飞SparkDesk-v3.5 API云雀大模型字节跳动API火山引擎skylark2-pro-4k v1.2 APIYi-34b-chat零一万物APIYi开源Yi-34b-chat模型本次我们选择海内外具有代表性的14个模型进行评测,对于闭源模型我们选择API和网页两种调用模式中得分较高的一种进行评测。具体模型列表如下:*注:评测过程中我们发现部分网页版模型性能高于官方API SuperBench介绍开放性SuperBench评测数据集结合开源数据集与闭源数据集,后续版本将推出公开的验证集与封闭的测试集,既有助于模型优化,又防止刷题。 优势 评测框架大模型评测评测工具ExtremeGLUENaturalCodeBenchAlignBenchAgentBenchSafetyBench裁判模型检测算法SuperBench能力评测报告动态性SuperBench将定期发布评测结果与报告,每个周期刷新评测数据集的题目与类型,以避免静态考题导致的过拟合现象,可以有效防止作弊。科学性SuperBench团队基于公平、公正、公开的原则,专门设计了一整套评测体系,包含五大原生评测基准、并在此基础上构建了SuperBench检测平台,研发了裁判模型 CritiqueLLM等在内的自研评测算法,确保评测结果科学可靠。权威性SuperBench由清华大学和中关村实验室联合发布,为独立的第三方非盈利性评测机构,评测体系公开透明,评测过程可追溯。基准数据集评测平台评测数据评测规则 / 评测模型 评测流程待评测模型评测获取回复提问评测结果SuperBench简介SuperBench由清华大学基础模型研究中心联合中关村实验室共同发布,致力于为大模型领域提供客观、科学的评测标准,促进大模型技术、应用和生态的健康发展。SuperBench团队具有多年的大模型研究经验,在大模型核心技术研发中处于领先位置。基于公正、公平、公开的原则,设计了大模型评测框架,推出了多个测试基准数据集,并开发了多个评测工具。 SuperBench评测体系-评测数据集SuperBench评测数据集涵盖语义、对齐、代码、智能体和安全五大类,28个子类包含ExtremeGLUE(语义)、NaturalCodeBench(代码)、AlignBench(对齐)、AgentBench(智能体)和SafetyBench(安全)五个基准数据集。对模型的代码能力进行多方面的评估,包括基础编程、算法逻辑和多语言代码生成与翻译python(user)java(user)在多个环境下,测试大模型作为智能体的能力操作系统数据库知识图谱情景猜谜 具身智能网上购物 网页浏览攻击冒犯偏见歧视隐私财产身体健康 心理健康违法活动 伦理道德全面评测大模型在中文领域与人类意图的对齐度,衡量模型的指令遵循和有用性逻辑推理数学计算基本任务 中文理解综合问答 文本写作角色扮演 专业能力对大模型语义理解维度进行多方面的评估阅读理解数学计算知识掌握:科学类知识掌握:常识类语义评估大模型的安全性、隐私保护和向善性等对齐代码智能体安全 SuperBench评测体系-语义理解能力大语言模型评测数据集语义ExtremeGLUE是一个包含72个中英双语传统数据集的高难度集合,旨在为语言模型提供更严格的评测标准,采用零样本cot评测方式,并根据特定要求对模型输出进行评分。我们首先使用了超过20种语言模型进行初步测试,包括了gpt4、claude、vicuna、wizardlm和chatGLM等。我们基于所有模型的综合表现,决定了每个分类中挑选出难度最大的10%~20%数据,将它们组合为"高难度传统数据集"。阅读理解阅读理解任务测试模型对文本的理解。英文数据来自“race”(中学阅读理解)和“super_gluemultirc”(句子级多选,强调推理)。中文数据则包括“cail”(法律问题与答案)、“dcrd”(定义性问题)和“webqa”(基于网页的问题-答案对)。知识掌握:科学类科学类知识任务评估模型在科学领域的理解与应用。英文数据涵盖自然科学至医学,如ARC、openbookqa等。中文部分采用这些英文数据集的翻译版。知识掌握:常识类常识类知识任务测试模型对日常常识的应用。英文数据如BBH的因果、日期理解和电影推荐,以及SWAG的情境理解。中文则使用BBH三个数据集的翻译和特修改版的CMRC2018,直接依靠常识回答问题。数学计算数学计算能力评估语言模型解数学题的表现。中文数据如gsm8k、aqua-rat和numglue的翻译版,以及大规模的ape-210k和高难度的agieval中的sat-math和MATH。英文数据包括aqua_rat、math_qa、sat-math以及针对通用问题的gsm8k、numglue和大规模的ape_210k。评测方法示例评测方法&流程•评测方式:收集了72个中英双语传统数据集,提取其中高难度的题目组成4个维度的评测数据集,采取零样本cot评测方式,各维度得分计算方式为回答正确的题目数所占百分比,最终总分取各维度的平均值•评测流程:根据不同题目的形式和要求,对于模型的零样本cot生成的结果进行评分•问题:小花妈妈打算将20000元定期存入银行3年,如果按年利率3.69%计算,到期时小花妈妈实际的本息共有多少元?(另记利息税10%)•回答:21992.6•打分原则:与答案数值绝对误差小于0.001则得分,否则不得分对齐代码安全智能体 各大模型语义理解能力分类表现53.455.060.260.260.560.863.264.167.670.472.073.073.776.7讯飞星火3.5Yi-34b-chat云雀大模型qwen1.5-14b-chat通义千问2.1Baichuan3 网页版Abab6KimiChat 网页版qwen1.5-72b-chatGPT-4 TurboGPT-4 网页版文心一言4.0GLM-4Claude-3各大模型语义理解能力表现knowledge-commonknowledge-sciencemathreading-comprehensionClaude-379.880.665.580.8GLM-477.375.261.680.8文心一言4.067.177.365.582.2GPT-4 网页版76.577.354.979.4GPT-4 Turbo66.975.257.781.9qwen1.5-72b-chat70.870.254.175.4KimiChat 网页版63.970.248.174.0Abab663.862.053.873.3Baichuan3 网页版62.458.750.771.5通义千问2.153.373.138.277.2qwen1.5-14b-chat54.362.050.074.4云雀大模型59.364.554.163.0Yi-34b-chat61.457.436.764.4讯飞星火3.550.747.952.262.6注:各维度得分计算方式为回答正确的题目数所占百分比,最终总分取各维度的平均值SuperBench评测结果-语义理解能力整体表现:在语义理解能力评测中,各模型形成了三个梯队,70分档为第一梯队,包括Claude-3、GLM-4、文心一言4.0以及GPT-4系列模型;其中Claude-3得分为76.7,位居第一;国内模型GLM-4和文心一言4.0则超过GPT-4系列模型位居第二和第三位,但是和Claude-3有3分差距。•知识-常识:Claude-3以79.8分领跑,国内模型GLM-4表现亮眼,超过GPT-4网页版位居第二;文心一言4.0表现不佳,距离榜首Claude-3有12.7分差距。•知识-科学:Claude-3依然领先,并且是唯一一个80分以上模型;文心一言4.0、GPT-4系列模型以及GLM-4模型均在75分以上,为第一梯队模型。•数学:Claude-3和文心一言4.0并列第一,得65.5分,GLM-4领先GPT-4系列模型位列第三,其他模型得分在55分附近较为集中,当前大模型在数学能力上仍

你可能感兴趣

hot

大语言模型综合评测报告2023

文化传媒
InfoQ2023-05-31
hot

大模型赋能智慧办公评测报告-PPT生成

信息技术
工信安全2024-02-16
hot

2023人工智能大模型在工业领域知识问答稳定性评测报告

信息技术
中国工业互联网研究院2023-09-18