您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[InfoQ研究中心]:大语言模型能力测评报告 - 发现报告

大语言模型能力测评报告

AI智能总结
查看更多
大语言模型能力测评报告

测评报告2024 ⼤模型市场发展洞察 2023年,全球⼤模型市场进⼊爆发阶段 ⼤模型诞⽣阶段2017-2018年 ⼤模型爆发阶段 ⼤模型探索阶段 2022-2023年 2019-2021年 在 探 索 期,基 于 ⼈ 类 反 馈 的 强 化 学 习(RHLF)、代码预训练、指令微调等开始出现,被⽤于进⼀步提⾼推理能⼒和任务泛化。 在诞⽣阶段,以Transformer为代表的全新神经⽹络架构,奠定了⼤模型的算法架构基础,使⼤模型技术的性能得到了显著提升。 在爆发期,⼤数据、⼤算⼒和⼤算法完美结合,具备了多模态理解与多类型内容⽣成能⼒。 2022 2019 2017 •11.30 OpenAI推出ChatGPT •3.16百度推出可以准确理解语义的ERNIE1.0•8.21 OpenAI发布GPT-2并部分开源•10.11⾕歌推出BERT模型的两个新版本RoBERTa和XLNet •6.12⾕歌推出⽤于处理⾃然语⾔任务的Transformer神经⽹络架构 2023 •4.11阿⾥云发布通义千问•5⽉百度发布⽂⼼⼤模型3.5•5.6科⼤讯⻜发布认知⼤模型•5.11⾕歌更新Bard并推出PaLM2模型•5.24微软宣布Windows系统全⽅位集成Copilot •2.7⾕歌发布Bard以应对ChatGPT•2.20复旦团队发布MOSS•2.23微软基于ChatGPT发布New Bing•2.25 FaceBook发布LLaMA-13B•3.14 OpenAI发布GPT-4并实现图像识别•3.16百度发布⽂⼼⼀⾔•3.17微软宣布将GPT-4接⼊Office全家桶•4.10昆仑万维发布天⼯3.5 2018 •6.11 OpenAI发布GPT-1•11.22⾕歌推出BERT 2021 •1.16 OpenAI推出能实现⽂本⽣成图像的DALL-E模型•4.25华为正式发布盘古⼤模型•8.10 OpenAI推出Codex 2023年中央及地⽅政府积极制定政策⿎励和规范⼤模型产业发展 2023年,中央及地⽅围绕基础设施、算法、算⼒、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治理相结合的原则,⿎励和规范作为硬科技的AI⼤模型产业发展。 2023年下半年,中国百模⼤战掀开序幕 2 0 2 3年8⽉ ⾄2 0 2 3年1 0⽉ 2 0 2 3年1 0⽉ ⾄2 0 2 3年1 2⽉ 2 0 2 3年6⽉ ⾄2 0 2 3年8⽉ •8.3阿 ⾥ 云 推 出 开 源Q w e n-7B•8.7元 象 科 技 发 布 开 源X V E R S E-1 3B•8.1 1⼩ ⽶ 发 布 ⼤ 模 型M i L M•8.1 7字 节 跳 动 公 测 ⼤ 模 型 产 品 ⾖ 包•8.2 1云 从 科 技 发 布 从 容 ⼤ 模 型1.5•9.5商 汤 科 技 发 布 商 量3.0•9.6百 川 智 能 发 布 开 源B a i c h u a n2•9.7腾 讯 发 布 混 元 助 ⼿•9.2 0上 海 ⼈ ⼯ 智 能 实 验 室 发 布 开 源I n t e r n L M-2 0B•9.2 5 O p e n A l发 布 多 模 态G P T-4V •6.1 4 3 6 0发 布 智 脑 ⼤ 模 型4.0•6.1 5百 川 智 能 发 布 开 源B a i c h u a n-7B•6.2 5清 华&智 谱A I发 布 开 源C h a t G L M2•7.7华 为 发 布 盘 古3.0•7.7商 汤 科 技 发 布 商 量2.0•7.9⻄ 湖 ⼼ ⾠ 发 布 ⻄ 湖 ⼤ 模 型•7.1 9 M e t a发 布 开 源L l a m a2 •1 0.9⽉ 之 暗 ⾯ 发 布K i m i C h a t•1 0.1 7百 度 发 布 ⽂ ⼼ ⼤ 模 型4.0•1 0.2 4科 ⼤ 讯 ⻜ 发 布 星 ⽕ ⼤ 模 型3.0•1 0.2 7智 谱A I开 源了C h a t G L M3等 模 型•1 0.3 0百 川 智 能 发 布B a i c h u a n2-1 9 2K•1 0.3 1阿 ⾥ 云 发 布 通 义 千 问2.0•1 1.7 O p e n A I发 布GP T-4 T u r b o•1 1.1 6 O P P O发 布A n d e s G P T•1 1.2 4零 ⼀ 万 物 发 布 开 源Y i-3 4B•1 2.2 2腾 讯 发 布 混 元 ⼤ 模 型 标 准 版 多模态、⻓⽂本、逻辑能⼒加强 从头部企业到百模家族,⼤模型井喷式爆发增⻓ 在法规的指导下,部分产品开始持证上岗 百度、阿⾥、腾讯、智谱AI、百川智能等多家企业和机构,按照《互联⽹信息服务算法推荐管理规定》履⾏算法备案和变更、注销备案⼿续,获得备案批准,对公众全⾯开放,标志着⼤模型发展进⼊新阶段,加速推动⼤模型产业化应⽤。 截⽌到2023年12⽉31⽇,已有两批超过20个⼤模型获得备案,⾯向公众开放。应⽤范围涵盖⾃然语⾔处理、图像识别、语⾳识别等多个领域,可应⽤于⾦融、医疗、教育等各个领域。 2023年,中国⼤模型产品从通⽤产品向多⾏业拓展 •2023年公布的中国⼤模型产品中,84.57%的⼤模型产品为⾮通⽤⾏业模型。其中⼯商业经济、教育医疗占⽐均⾼于通⽤模型占⽐。•数据结果统计显示中国⼤模型产品发布时间集中于Q2和Q3,占⽐达全年的80.32%。 2023年,模型层百花⻬放,并逐渐开始应⽤探索 从通⽤⼤模型到⼤模型产品,⼤模型细分应⽤赛道不断涌现 2023年国内主要科技公司在推出通⽤⼤模型的同时,也正在根据企业资源特征、⽤户使⽤场景、⽣态圈层需求等将通⽤⼤模型产品逐渐扩展成为覆盖多个应⽤场景的产品家族。⼤模型头部⼚商逐渐形成。 通⽤⼤模型:通义⼤模型 ⼤模型产品:通义千问⾏业产品家族:⾦融、法律、医疗等⾏业9款产品 通⽤⼤模型:⽂⼼⼤模型⼤模型产品:⽂⼼⼀⾔、⽂⼼⼀格⾏业产品家族:媒体、能源、⾦融等⾏业的13款产品 通⽤⼤模型:讯⻜星⽕认知⼤模型⼤模型产品:讯⻜星⽕⾏业产品家族:教育、办公、汽⻋等⾏业的4款产品 通⽤⼤模型:混元⼤模型通⽤⼤模型产品:腾讯混元⾏业产品家族:⾦融、⽂旅等⾏业的5款产品 2023年⼤模型从极客世界⾛向⼤众 从定邀⼩众⽤户到APP端⼤众可以直接下载,⼤模型产品正在从极客世界⾛向更多⼤众。 常⽤应⽤中嵌套功能 通义千问⼊驻钉钉号,百度⽂库也接⼊了⽂⼼⼀⾔,上线了智能⼩助⼿功能。办公场景中,⼤模型开始更直接地与⽤户互动,性能⽔平直线提升。 向公众开放测试 2023年8⽉31⽇起,⽂⼼⼀⾔、通义千问、讯⻜星⽕等产品逐步完全向公众开放,9⽉APP应⽤商店的下载冠军多次由⼤模型产品获得。 产品发布邀请测试 2023年上半年只有少数⼏款产品可以直接申请使⽤。⼤部分产品需要获得开发的企业定向邀请,才能注册使⽤。 2023年下半年,中国⼤模型⽤户开始真正使⽤产品 •2023年9⽉起,中国⼤模型产品开始陆续开放公众注册和使⽤功能。•以开发者为例,⽤户⼤模型产品开始使⽤时间67.17%集中在2023年下半年。 2023年,中国⼤模型正在进⼊更多⽤户的认知⼼智中 开发者认知⼼智梯队基本形成 第⼀梯队 GPT系列⼤模型、百度⽂⼼⼤模型•近半数受访开发者了解或使⽤过上述模型。 第⼆梯队 阿⾥通义⼤模型、LLaMA2、讯⻜星⽕⼤模型、华为盘古⼤模型、智谱ChatGLM 3⼤模型 •超过1/5的受访开发者了解或使⽤过第⼆梯队模型。 第三梯队 百川⼤模型、StableVideo、Diffusion、昆仑万维天⼯⼤模型、360智脑⼤模型、MOSS⼤模型、智源悟道⼤模型、商汤科技商量SenseChat•⼤模型认知度为4%-11.5%。 ⼤模型产品测评⽅法和综合结果 本次测评选取的⼤模型产品及使⽤版本 ⼤模型综合测评题库说明 部分进阶能⼒板块获得⾼得分率,⼤模型能⼒整体提升 核⼼发现——⼤模型“进阶能⼒”⼤幅提升 23.39% 与2023年5⽉测试结果相⽐,整体得分率平均提升23.39%(除多模态题)。 35.77% 与2023年5⽉测试结果相⽐,进阶能⼒平均得分率提升了35.77%。 30%+ 与2023年5⽉测试结果相⽐,近半数能⼒得分率提升了超过30%。 核⼼发现——编程能⼒得到开发者认可,付费率达63.5% •⼤模型产品因在开发者中⼴泛使⽤,编程能⼒提升迅速,编程题平均得分87%,较上次测试得分率提升49.45%。 •作为⾸批使⽤⼤模型产品的⽤户,开发者对⼤模型整体认可程度⾼,付费率⾼达63.5%。付费超过1000元的开发者占⽐12.1%。 核⼼发现——上下⽂能⼒攻坚,⽔平⼤幅提升 上下⽂理解能⼒主要体现为以下能⼒: ⽂⼼⼀⾔ 通义千问 ⽂⼼⼀⾔4.0对于前后乱序、模糊意图、潜台词等复杂提示词的理解能⼒基本形成。另外也具备了输⼊⼀条素材图⽚同时⽣成海报、⽂案和视频的综合能⼒。 相⽐2023年4⽉发布的1.0版本,通义千问2.0参数量全⾯提升⾄千亿级别,据介绍,其在复杂指令理解、⽂学创作、通⽤数学、知识记忆、幻觉抵御等能⼒上均有显著提升。 连贯性测试 上下⽂推理 情景适应 代词混乱 百川智能 KimiChat Kimi Chat的⽂字处理量达到了20万字。2.5倍于Anthropic公司的Claude-100k(实测约8万字)。可以处理公众号⻓⽂、企业财报、学术论⽂等多种超⻓⽂字量内容。 百川智能发布Baichuan2-192K⼤模型,上下⽂窗⼝⾼达192k,能够处理约35万个汉字,是⼤模型Claude2的4.4倍,更是GPT-4的14倍,是⽬前全球最⻓的上下⽂窗⼝之⼀。 隐喻和⽐喻 核⼼发现——多模态能⼒从⽆到有,能⼒搭建进⾏中 •2023年5⽉国内产品只有⽂⼼⼀⾔具有多模态能⼒,到2023年12⽉多家企业产品具有多模态能⼒。 •尽管当前平均得分率依旧不高,但与2023年5月的测试成绩相比,分数实现了20倍的显著增长。 核⼼发现——知识能⼒⽔平趋同 84.68% 知识题平均得分率 •医学常识得分率最⾼,获得98.33%•科学常识得分率较低,仅为66.25% 核⼼发现——知识能⼒⽔平趋同 74.17% 词句理解题平均得分率 •怎么办题得分率最⾼,获得94.5%•关键字提炼得分率较低,仅为51% 精彩知识题⽬回答 东院的花⺟鸡在⻄院的鸡窝⾥下了⼀个蛋,这个蛋的“产权”应归谁呢? 问题1怀孕期间不能吃什么⽔果? 问题2 答案1 答案2 这个问题具有幽默感,涉及到对“产权”的有趣解读。⾸先,让我们从⼏个不同的⻆度进⾏分析: 怀孕期间,以下类型的⽔果应适量⻝⽤或避免: 从字⾯意义上看,蛋是花⺟鸡产⽣的。根据这个逻辑,蛋的“产权”应该属于下蛋的花⺟鸡。 易过敏⽔果:如菠萝,部分孕妇可能对其过敏,出现⽪肤瘙痒、发红、恶⼼呕吐等症状。 从地理位置⻆度看,蛋是在⻄院的鸡窝⾥下的。这意味着⻄院的鸡窝为蛋提供了保护。因此,⻄院或鸡窝的主⼈可能会认为他们拥有这个蛋的“产权”。 难消化⽔果:如桃⼦和杏,含有鞣酸等物质,⼤量⻝⽤可能导致消化不良,特别是对于有消化疾病史的孕妇。 考虑到法律或常规的所有权观念,⼀般来说,动物产⽣的物品(如鸡蛋)通常归该动物的主⼈所有。所以,如果花⺟鸡属于东院,那么蛋的“产权”应该归东院的主⼈。 ⾼热量⽔果:如榴莲,糖分和热量较⾼,过多⻝⽤可能引起体重过重和⾎糖升⾼,甚⾄导致妊娠期糖尿病。 热性⽔果:中医认为荔枝、桂圆等属于热性⻝物,过多⻝⽤可能使孕妇上⽕,出现⼝⼲⾆燥、⼤便⼲燥等症状。 综上所述,这个问题没有明确的答案,因为它取决于我们如何定义和看待“产权”。从⽣物学⻆度看,蛋属于下蛋的花⺟鸡;从地理位置⻆度看,蛋属于⻄院或鸡窝的主⼈;⽽从⼀般的所有权观念来看,蛋可能属于花⺟鸡的主⼈,即东院的主⼈。