行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

大语言模型能力测评报告

文化传媒 2024-01-19 InfoQ研究中心 yuAner

报告摘要

大模型发展历程概览

诞生阶段（2017-2018年）：Transformer架构的提出奠定了大模型的基础，谷歌、百度等相继推出了各自的模型，如BERT、ERNIE等。
探索阶段（2019-2021年）：引入了人类反馈的强化学习、代码预训练和指令微调，提高了模型的推理能力和任务泛化能力。
爆发阶段（2022-2023年）：大数据、大算力和大算法的结合，使得模型具备了多模态理解与多类型内容生成能力。

政策与市场驱动

2023年：中央及地方政府出台多项政策，鼓励和规范AI大模型产业发展，强调发展与安全并重。
技术创新：多个大模型在不同领域展现出强大的能力，如文本理解、逻辑推理、代码生成等。

大模型发展与应用

商业化趋势：大模型开始从极客世界走向大众，通过APP端向公众开放注册和使用功能。
行业应用：大模型正逐渐在医疗、教育、金融、汽车、能源、媒体等多领域应用，形成行业产品家族。

技术能力提升

进阶能力：在逻辑推理、编程、上下文理解等方面取得了显著进步，部分能力得分率提升了35.77%。
多模态能力：从无到有，多模态能力得到了初步构建，平均得分率实现了20倍的增长。
知识能力：不同模型在知识题上的得分率趋同，展示了较为均衡的能力表现。

关键发现

编程能力：开发者对大模型的整体认可度高，付费率达到63.5%。
上下文理解：文心一言4.0在复杂提示词理解方面表现出色，能够处理长文本内容。
多模态能力：大模型的多模态能力从零开始，实现了显著提升，但仍处于起步阶段。
知识能力：大模型在知识题上的表现相对均衡，显示出在不同领域内的通用知识处理能力。

结论

2023年，中国大模型市场进入快速发展阶段，政策支持与技术创新共同推动了大模型技术的广泛应用与能力提升。大模型不仅在技术能力上实现了跨越，还逐渐融入社会各领域，从专业开发人员走向更广泛的用户群体，展现出广阔的应用前景和商业潜力。未来，随着技术的持续迭代与应用场景的不断丰富，大模型有望在更多领域发挥重要作用，推动数字经济和社会创新的发展。

测评报告2024 ⼤模型市场发展洞察 2023年，全球⼤模型市场进⼊爆发阶段⼤模型诞⽣阶段2017-2018年⼤模型爆发阶段⼤模型探索阶段 2022-2023年 2019-2021年在探索期，基于⼈类反馈的强化学习（RHLF）、代码预训练、指令微调等开始出现，被⽤于进⼀步提⾼推理能⼒和任务泛化。在诞⽣阶段，以Transformer为代表的全新神经⽹络架构，奠定了⼤模型的算法架构基础，使⼤模型技术的性能得到了显著提升。在爆发期，⼤数据、⼤算⼒和⼤算法完美结合，具备了多模态理解与多类型内容⽣成能⼒。 2022 2019 2017 •11.30 OpenAI推出ChatGPT •3.16百度推出可以准确理解语义的ERNIE1.0•8.21 OpenAI发布GPT-2并部分开源•10.11⾕歌推出BERT模型的两个新版本RoBERTa和XLNet •6.12⾕歌推出⽤于处理⾃然语⾔任务的Transformer神经⽹络架构 2023 •4.11阿⾥云发布通义千问•5⽉百度发布⽂⼼⼤模型3.5•5.6科⼤讯⻜发布认知⼤模型•5.11⾕歌更新Bard并推出PaLM2模型•5.24微软宣布Windows系统全⽅位集成Copilot •2.7⾕歌发布Bard以应对ChatGPT•2.20复旦团队发布MOSS•2.23微软基于ChatGPT发布New Bing•2.25 FaceBook发布LLaMA-13B•3.14 OpenAI发布GPT-4并实现图像识别•3.16百度发布⽂⼼⼀⾔•3.17微软宣布将GPT-4接⼊Office全家桶•4.10昆仑万维发布天⼯3.5 2018 •6.11 OpenAI发布GPT-1•11.22⾕歌推出BERT 2021 •1.16 OpenAI推出能实现⽂本⽣成图像的DALL-E模型•4.25华为正式发布盘古⼤模型•8.10 OpenAI推出Codex 2023年中央及地⽅政府积极制定政策⿎励和规范⼤模型产业发展 2023年，中央及地⽅围绕基础设施、算法、算⼒、数据等领域出台多项政策，坚持发展和安全并重、促进创新和依法治理相结合的原则，⿎励和规范作为硬科技的AI⼤模型产业发展。 2023年下半年，中国百模⼤战掀开序幕 2 0 2 3年8⽉⾄2 0 2 3年1 0⽉ 2 0 2 3年1 0⽉⾄2 0 2 3年1 2⽉ 2 0 2 3年6⽉⾄2 0 2 3年8⽉ •8.3阿⾥云推出开源Q w e n-7B•8.7元象科技发布开源X V E R S E-1 3B•8.1 1⼩⽶发布⼤模型M i L M•8.1 7字节跳动公测⼤模型产品⾖包•8.2 1云从科技发布从容⼤模型1.5•9.5商汤科技发布商量3.0•9.6百川智能发布开源B a i c h u a n2•9.7腾讯发布混元助⼿•9.2 0上海⼈⼯智能实验室发布开源I n t e r n L M-2 0B•9.2 5 O p e n A l发布多模态G P T-4V •6.1 4 3 6 0发布智脑⼤模型4.0•6.1 5百川智能发布开源B a i c h u a n-7B•6.2 5清华&智谱A I发布开源C h a t G L M2•7.7华为发布盘古3.0•7.7商汤科技发布商量2.0•7.9⻄湖⼼⾠发布⻄湖⼤模型•7.1 9 M e t a发布开源L l a m a2 •1 0.9⽉之暗⾯发布K i m i C h a t•1 0.1 7百度发布⽂⼼⼤模型4.0•1 0.2 4科⼤讯⻜发布星⽕⼤模型3.0•1 0.2 7智谱A I开源了C h a t G L M3等模型•1 0.3 0百川智能发布B a i c h u a n2-1 9 2K•1 0.3 1阿⾥云发布通义千问2.0•1 1.7 O p e n A I发布GP T-4 T u r b o•1 1.1 6 O P P O发布A n d e s G P T•1 1.2 4零⼀万物发布开源Y i-3 4B•1 2.2 2腾讯发布混元⼤模型标准版多模态、⻓⽂本、逻辑能⼒加强从头部企业到百模家族，⼤模型井喷式爆发增⻓在法规的指导下，部分产品开始持证上岗百度、阿⾥、腾讯、智谱AI、百川智能等多家企业和机构，按照《互联⽹信息服务算法推荐管理规定》履⾏算法备案和变更、注销备案⼿续，获得备案批准，对公众全⾯开放，标志着⼤模型发展进⼊新阶段，加速推动⼤模型产业化应⽤。截⽌到2023年12⽉31⽇，已有两批超过20个⼤模型获得备案，⾯向公众开放。应⽤范围涵盖⾃然语⾔处理、图像识别、语⾳识别等多个领域，可应⽤于⾦融、医疗、教育等各个领域。 2023年，中国⼤模型产品从通⽤产品向多⾏业拓展 •2023年公布的中国⼤模型产品中，84.57%的⼤模型产品为⾮通⽤⾏业模型。其中⼯商业经济、教育医疗占⽐均⾼于通⽤模型占⽐。•数据结果统计显示中国⼤模型产品发布时间集中于Q2和Q3，占⽐达全年的80.32%。 2023年，模型层百花⻬放，并逐渐开始应⽤探索从通⽤⼤模型到⼤模型产品，⼤模型细分应⽤赛道不断涌现 2023年国内主要科技公司在推出通⽤⼤模型的同时，也正在根据企业资源特征、⽤户使⽤场景、⽣态圈层需求等将通⽤⼤模型产品逐渐扩展成为覆盖多个应⽤场景的产品家族。⼤模型头部⼚商逐渐形成。通⽤⼤模型：通义⼤模型⼤模型产品：通义千问⾏业产品家族：⾦融、法律、医疗等⾏业9款产品通⽤⼤模型：⽂⼼⼤模型⼤模型产品：⽂⼼⼀⾔、⽂⼼⼀格⾏业产品家族：媒体、能源、⾦融等⾏业的13款产品通⽤⼤模型：讯⻜星⽕认知⼤模型⼤模型产品：讯⻜星⽕⾏业产品家族：教育、办公、汽⻋等⾏业的4款产品通⽤⼤模型：混元⼤模型通⽤⼤模型产品：腾讯混元⾏业产品家族：⾦融、⽂旅等⾏业的5款产品 2023年⼤模型从极客世界⾛向⼤众从定邀⼩众⽤户到APP端⼤众可以直接下载，⼤模型产品正在从极客世界⾛向更多⼤众。常⽤应⽤中嵌套功能通义千问⼊驻钉钉号，百度⽂库也接⼊了⽂⼼⼀⾔，上线了智能⼩助⼿功能。办公场景中，⼤模型开始更直接地与⽤户互动，性能⽔平直线提升。向公众开放测试 2023年8⽉31⽇起，⽂⼼⼀⾔、通义千问、讯⻜星⽕等产品逐步完全向公众开放，9⽉APP应⽤商店的下载冠军多次由⼤模型产品获得。产品发布邀请测试 2023年上半年只有少数⼏款产品可以直接申请使⽤。⼤部分产品需要获得开发的企业定向邀请，才能注册使⽤。 2023年下半年，中国⼤模型⽤户开始真正使⽤产品 •2023年9⽉起，中国⼤模型产品开始陆续开放公众注册和使⽤功能。•以开发者为例，⽤户⼤模型产品开始使⽤时间67.17%集中在2023年下半年。 2023年，中国⼤模型正在进⼊更多⽤户的认知⼼智中开发者认知⼼智梯队基本形成第⼀梯队 GPT系列⼤模型、百度⽂⼼⼤模型•近半数受访开发者了解或使⽤过上述模型。第⼆梯队阿⾥通义⼤模型、LLaMA2、讯⻜星⽕⼤模型、华为盘古⼤模型、智谱ChatGLM 3⼤模型 •超过1/5的受访开发者了解或使⽤过第⼆梯队模型。第三梯队百川⼤模型、StableVideo、Diffusion、昆仑万维天⼯⼤模型、360智脑⼤模型、MOSS⼤模型、智源悟道⼤模型、商汤科技商量SenseChat•⼤模型认知度为4%-11.5%。⼤模型产品测评⽅法和综合结果本次测评选取的⼤模型产品及使⽤版本⼤模型综合测评题库说明部分进阶能⼒板块获得⾼得分率，⼤模型能⼒整体提升核⼼发现——⼤模型“进阶能⼒”⼤幅提升 23.39% 与2023年5⽉测试结果相⽐，整体得分率平均提升23.39%（除多模态题）。 35.77% 与2023年5⽉测试结果相⽐，进阶能⼒平均得分率提升了35.77%。 30%+ 与2023年5⽉测试结果相⽐，近半数能⼒得分率提升了超过30%。核⼼发现——编程能⼒得到开发者认可，付费率达63.5% •⼤模型产品因在开发者中⼴泛使⽤，编程能⼒提升迅速，编程题平均得分87%，较上次测试得分率提升49.45%。 •作为⾸批使⽤⼤模型产品的⽤户，开发者对⼤模型整体认可程度⾼，付费率⾼达63.5%。付费超过1000元的开发者占⽐12.1%。核⼼发现——上下⽂能⼒攻坚，⽔平⼤幅提升上下⽂理解能⼒主要体现为以下能⼒：⽂⼼⼀⾔通义千问⽂⼼⼀⾔4.0对于前后乱序、模糊意图、潜台词等复杂提示词的理解能⼒基本形成。另外也具备了输⼊⼀条素材图⽚同时⽣成海报、⽂案和视频的综合能⼒。相⽐2023年4⽉发布的1.0版本，通义千问2.0参数量全⾯提升⾄千亿级别，据介绍，其在复杂指令理解、⽂学创作、通⽤数学、知识记忆、幻觉抵御等能⼒上均有显著提升。连贯性测试上下⽂推理情景适应代词混乱百川智能 KimiChat Kimi Chat的⽂字处理量达到了20万字。2.5倍于Anthropic公司的Claude-100k（实测约8万字）。可以处理公众号⻓⽂、企业财报、学术论⽂等多种超⻓⽂字量内容。百川智能发布Baichuan2-192K⼤模型，上下⽂窗⼝⾼达192k，能够处理约35万个汉字，是⼤模型Claude2的4.4倍，更是GPT-4的14倍，是⽬前全球最⻓的上下⽂窗⼝之⼀。隐喻和⽐喻核⼼发现——多模态能⼒从⽆到有，能⼒搭建进⾏中 •2023年5⽉国内产品只有⽂⼼⼀⾔具有多模态能⼒，到2023年12⽉多家企业产品具有多模态能⼒。 •尽管当前平均得分率依旧不高，但与2023年5月的测试成绩相比，分数实现了20倍的显著增长。核⼼发现——知识能⼒⽔平趋同 84.68% 知识题平均得分率 •医学常识得分率最⾼，获得98.33%•科学常识得分率较低，仅为66.25% 核⼼发现——知识能⼒⽔平趋同 74.17% 词句理解题平均得分率 •怎么办题得分率最⾼，获得94.5%•关键字提炼得分率较低，仅为51% 精彩知识题⽬回答东院的花⺟鸡在⻄院的鸡窝⾥下了⼀个蛋，这个蛋的“产权”应归谁呢？问题1怀孕期间不能吃什么⽔果？问题2 答案1 答案2 这个问题具有幽默感，涉及到对“产权”的有趣解读。⾸先，让我们从⼏个不同的⻆度进⾏分析：怀孕期间，以下类型的⽔果应适量⻝⽤或避免：从字⾯意义上看，蛋是花⺟鸡产⽣的。根据这个逻辑，蛋的“产权”应该属于下蛋的花⺟鸡。易过敏⽔果：如菠萝，部分孕妇可能对其过敏，出现⽪肤瘙痒、发红、恶⼼呕吐等症状。从地理位置⻆度看，蛋是在⻄院的鸡窝⾥下的。这意味着⻄院的鸡窝为蛋提供了保护。因此，⻄院或鸡窝的主⼈可能会认为他们拥有这个蛋的“产权”。难消化⽔果：如桃⼦和杏，含有鞣酸等物质，⼤量⻝⽤可能导致消化不良，特别是对于有消化疾病史的孕妇。考虑到法律或常规的所有权观念，⼀般来说，动物产⽣的物品（如鸡蛋）通常归该动物的主⼈所有。所以，如果花⺟鸡属于东院，那么蛋的“产权”应该归东院的主⼈。⾼热量⽔果：如榴莲，糖分和热量较⾼，过多⻝⽤可能引起体重过重和⾎糖升⾼，甚⾄导致妊娠期糖尿病。热性⽔果：中医认为荔枝、桂圆等属于热性⻝物，过多⻝⽤可能使孕妇上⽕，出现⼝⼲⾆燥、⼤便⼲燥等症状。综上所述，这个问题没有明确的答案，因为它取决于我们如何定义和看待“产权”。从⽣物学⻆度看，蛋属于下蛋的花⺟鸡；从地理位置⻆度看，蛋属于⻄院或鸡窝的主⼈；⽽从⼀般的所有权观念来看，蛋可能属于花⺟鸡的主⼈，即东院的主⼈。

点击免费查看完整报告

大语言模型能力测评报告

报告摘要

大模型发展历程概览

政策与市场驱动

大模型发展与应用

技术能力提升

关键发现

结论

你可能感兴趣

大语言模型综合能力测评报告（2023）

警惕AI“信口开河”：大语言模型幻觉控制能力深度测评报告

【电报解读】苹果入局生成式Al领域，多模态大模型新一轮浪潮有望开启，这家公司在腾讯优图实验室多模态大语言模型测评中，综合得分排名第一-20240321

这一指标或可直观反应情绪是否回暖；国内首个音视频多媒体大模型万兴“天幕”正式发布，这家公司在腾讯优图实验室开展的多模态大语言模型测评中，综合得分排名第一

2024年大语言模型的能力边界与发展思考报告

2021年区块链安全能力测评与分析报告

大语言模型能力来源与边界

2024年中国大语言模型能力评析（三）：行业应用能力评测结果

动态点评：大语言模型展现中文理解能力和自主学习能力

中文语境下大语言模型推理能力评估