您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[InfoQ]:大语言模型综合评测报告2023 - 发现报告
当前位置:首页/行业研究/报告详情/

大语言模型综合评测报告2023

文化传媒2023-05-31InfoQ苏***
大语言模型综合评测报告2023

1大语言模型综合能力测评报告2023 研究方法说明21桌面研究通过对⾏行行业公开信息进⾏行行桌⾯面研究,资料料包括但不不限于专业机构学术论⽂文、⽂文章资料料、论坛讨论、研究报告、相关⼚厂商产品介绍、相关专家公开演讲内容等。2专家访谈InfoQ研究中⼼心针对本次研究定向邀请了了国内外的相关专家进⾏行行访谈。3InfoQ分析结合桌⾯面研究和专家访谈进⾏行行观点沉淀和交流,并经由报告形式对外展示。 ⼤大模型发展背景⼤大模型产品特征和核⼼心能⼒力力⼤大模型产品测评结果和特征010203⼤大模型产品未来发展展望043目录CONTENTS 4⼤大模型发展背景 ⼤大语⾔言模型发展经过三阶段在2023年年进⼊入爆发阶段•微软基于ChatGPT发布New Bing•FaceBook发布LLaMA-13B•⾕谷歌发布Bard以应对ChatGPT•复旦团队发布MOSS•OpenAI发布GPT-4并实现图像识别•百度⽂文⼼心⼀一⾔言发布•微软宣布将GPT-4接⼊入Office全家桶•通义千问、盘古NLP、天⼯工3.5、星⽕火等国产⼤大模型陆续发布•⾕谷歌更更新Bard并推出PaLM 2模型•微软宣布Windows系统全⽅方位集成Copilot2023•⾕谷歌推出⽤用于处理理⾃自然语⾔言任务的Transformer 神经⽹网络架构20172018•OpenAI 发布GPT-1•OpenAI发布GPT-2并部分开源•⾕谷歌推出BERT模型2019•百度推出可以准确理理解语义的ERNINE2.02020•OpenAI推出能实现⽂文本⽣生成图像的DALL-E模型•FaceBook推出CLIP模型•华为正式发布盘古⼤大模型•OpenAI推出Codex2021•OpenAI 推出ChatGPT-3.52022⼤大语⾔言模型诞⽣生阶段⼤大语⾔言模型探索阶段⼤大语⾔言模型爆发阶段5 国内外⼚厂商⻬齐发⼒力力,⼤大语⾔言模型产业规模可观6雪湖·海海若其他应⽤用⼦子⽈曰MathGPT知海海图AI曹植WPSAI序列列猴⼦子斜杠ChatBotChatJD从容⾃自研⼤大模型⽂文⼼心盘古悟道⽇日⽇日新通义混元⾔言犀星⽕火⽟玉⾔言孟⼦子源1.0⼆二郎神基础模型天河天元⼤大模型基础模型国外国内ClaudeClaudeChatBotBingChatBardChatGPTColabAICedilleAICopilotCopilot其他应⽤用BloomT0BloomZGPT-J 6BGPT-4DALL·E2CodeXLaMDAPaLMPaLM-ET5ImagenFlanLLaMAMMSOPT-175BLIMA-65BStableDiffusionStableLMGopherChinchillaGato基础模型vicuna-13bDolly2.0Jurassic-1 Jumbo ⼤大语⾔言模型研发的关键影响要素7•模型训练的形式•涌现出的思维链•基于⼈人类反馈的学习模型算法和模型•顶级开发者构建的⼤大规模研发团队•昂贵的GPU背后的⼤大规模资⾦金金投⼊入资⾦金金和资源•模型参数规模•训练模型次数•训练使⽤用的数据集数据资源基础要素基础要素核⼼心要素⼤大语⾔言模型产品研发需要同时具备三⼤大要素,分别为数据资源要素、算法和模型要素、资⾦金金和资源要素。InfoQ研究中⼼心分析⽬目前市场中的产品特征,数据资源、资⾦金金和资源两要素为⼤大模型研发的基础要素,即必要不不充分要素。虽然数据、资⾦金金资源为⼤大语⾔言模型研发设置了了⾼高⻔门槛,但对于实⼒力力雄厚的⼤大型企业仍然是挑战较⼩小的。算法和模型是⽬目前区分⼤大语⾔言模型研发能⼒力力的核⼼心要素。算法和模型影响的的模型丰富度、模型准确性、能⼒力力涌现等都成为评价⼤大语⾔言模型优劣的核⼼心指标。 ⼤大语⾔言模型训练之需要⾜足够“⼤大”8•模型在参数规模达到⼀一定程度后,性能⾸首先得到急剧提升,同时涌现许多新的能⼒力力。特别是任务所训练的模型适⽤用于更更多以前未经训练的任务。涌现对⼤大型模型应⽤用的影响⾮非常重要,只有通过这种能⼒力力,我们才能⾼高效地实现模型的泛化,并实现模型的迁移。百亿参数是⼊入场券GPT-3和LaMDA的数据显示,在模型参数规模不不超过100亿-680亿时,⼤大模型的很多能⼒力力(如计算能⼒力力)⼏几乎为零。⼤大量量计算触发炼丹丹机制根据NVIDIA研究论⽂文⾥里里的附录章节显示,⼀一次迭代的计算量量约为4.5ExaFLOPS,⽽而完整训练需要9500次迭代,完整训练的计算量量即为430ZettaFLOPS(相当于单⽚片A100跑43.3年年的计算量量)。常⻅见的数据集包括GSM8k、USSE、MMLU 、HumanEval等。O1. 模型参数规模O2. 模型计算量量O3. 训练使⽤用数据集数据来源:Sparks of Artificial General Intelligence Early experiments with GPT-4 ⼤大模型训练参数规模量量级最⾼高或达5万亿以上9国内未公布参数规模•⾃自研⼤大模型(字节)•1+N认知智能⼤大模型(科⼤大讯⻜飞)•⼆二郎神模型(IDEA研究院)•⾃自研AI⼤大模型(光年年之外)•⾃自研⼤大模型(燧原科技)•超拟⼈人⼤大模型(聆⼼心智能)•⾃自研⼤大模型(⾹香依科技)•魔⼒力力写作(⽵竹间智能)•⾃自研⼤大模型(MiniMax)•蛋⽩白质⼤大模型(浙江⼤大学杭州国际科创中⼼心)国内模型参数规模<100亿•书⽣生3.5(商汤科技)•孟⼦子(澜⾈舟科技)•DriveGPT(毫末智⾏行行)•ChatGLM(清华⼤大学)国内模型参数规模>100亿•ERNIE 3.0 (百度)•盘古(华为)•MOSS(复旦⼤大学)•遵义(阿⾥里里)•⾔言犀(京东)•混元(腾讯)•伏羲(⽹网易易)•源1.0(浪潮信息)•⾏行行业精灵(云从科技)•⼋八卦炉(达摩院)•元语⼤大模型(莫塔社区)•曹植⼤大模型(达观数据)•紫东太初(中科院⾃自动化研究所)•⾃自研⼤大模型(⻄西湖星⾠辰辰)•悟道2.0(智源研究院)•国内⼤大模型出现⼤大量量参数规模⼤大于100亿的模型•百度研发的Ernie和华为研发的盘古⽬目前是有数据的国内⼤大模型参数规模的领先者•国际领先的⼤大模型GPT-4据推测参数规模量量级可达5万亿以上国际模型参数规模•GPT-4(OpenAI)未公开,推测为超过50000亿•PaLM(Google)5400亿•BERT(Google)4810亿•GPT-3.5(OpenAI)1750亿•LaMDA(Google)1370亿•Galatica(Meta)1200亿•LLaMDA(Meta)650亿•Chinchilla(DeepMind)700亿•Claude (Anthropic)520亿•Mineva (Google)5400亿资料料来源:⺠民⽣生证券研究院和wiki百科 算法和训练模型⽔水平主导⼤大语⾔言模型的能⼒力力表现10基础模型训练⽅方式⼯工程化⾃自研闭源元模型:典型代表包括OpenAI的GPT3.5、GPT4等,国内⼚厂商百度的原模型ERNIE3.0、华为的元模型PanGu-Σ等。⾃自研开源元模型:典型代表包括OpenAI的GPT2、Google的BERT等。在开源模型基础上微调的模型:典型代表包括清华⼤大学的ChatGLM-6B、商汤科技和华中科技⼤大学开源中⽂文语⾔言模型骆驼Luotuo等。训练⽅方式直接决定⼤大模型产出的效率,根据已经公开的论⽂文解读,现有优秀模型训练⽅方式呈现⾼高度⼯工程化特征。⼯工程化训练⽅方式主要呈现三个特征:1、详细⽽而严格的规则:对于如何处理理数据和什什么是⾼高质量量数据等给出详细和严格的执⾏行行和判断的⽅方法论;2、明确定义标注意图:如详细说明标注原因,并要求如果标注⼈人员不不能完全理理解,则迅速跳出流程;3、团队培训和考核机制完善:通过李李克特评分等⽅方式,持续保证团队处在⽬目标⽔水准以上。⾃自研闭源元模型⾃自研开源元模型在开源模型基础上微调的模型使⽤用⾃自然语⾔言提示(prompt)的⽅方法,以指导模型⽣生成特定的输出。这种⽅方法的⽬目的是通过对模型进⾏行行定向训练,使其在特定任务上表现出更更好的性能。Prompt-tuningInstruction-tuning通过为模型提供任务相关的指令来指导模型学习的⽅方法。这种⽅方法的⽬目的是使模型更更好地理理解任务的要求,并提⾼高其⽣生成能⼒力力和上下⽂文理理解能⼒力力。Chain of Thought通过分解训练过程为较⼩小的相互关联的任务来训练模型的⽅方法。这种⽅方法的⽬目的是使模型能够理理解和维护⽂文本中的思维链,从⽽而⽣生成连贯的、上下⽂文相关的响应。HumanFeedback通过⼈人类给予反馈对模型形成奖励机制,帮助模型进⾏行行强化学习的训练。这种⽅方法可以在预训练模型和产品投⼊入市场后持续获得反馈,帮助模型增强判断⼒力力。模型训练技术(举例例) 11⾼高密度⼈人才团队⾼高密度资本加持⼈人⼯工智能领域中⾃自然语⾔言处理理、机器器学习等领域⽬目前均为对开发者要求最⾼高的技术领域之⼀一,需要开发者拥有优秀的教育背景和前沿技术背景。另外,对于团队磨合、经验等要求均较为严格。从⽬目前公布的部分⼤大模型研发团队背景可以看出,团队成员均来⾃自国际顶级⾼高校或拥有顶级科研经验。根据⾕谷歌披露露数据,训练参数规模1750 亿的⼤大模型,理理想训练费⽤用超过900 万美元。类似的,计算服务为了了实现覆盖的产品和功能范围的⼴广度,要求云服务提供商持续进⾏行行产品功能更更新和产品矩阵建设来满⾜足⽤用户多元需求,Amazon 和Google 持续进⾏行行⼤大额资本投⼊入以完善产品能⼒力力。2022 年年Amazon 和Google 的资本性⽀支出分别达583 亿美元和315 亿美元,并仍然呈现上涨趋势。⼈人才和资本都对⼤大语⾔言模型提出了了⾼高密度的要求 12⼤大模型产品核⼼心能⼒力力解读 ⼤大语⾔言模型的发展带来了了⼤大规模技术⾰革命的希望13搜索在⼤大语⾔言模型惊艳世⼈人以前,技术及为⼈人类提供的能⼒力力主要集中在信息的检索搜集层⾯面。⽆无论是搜索引擎还是电商娱乐,都在帮助⼈人类在接近零成本的条件下获取⽆无限量量信息。⼤大语⾔言模型将计算机能⼒力力从搜索拓拓展到认知& 学习和⾏行行动& 解决⽅方案层⾯面认知&学习⼤大语⾔言模型推动了了计算机认知和学习能⼒力力的拓拓展。通过海海量量数据的预训练模型,⼤大语⾔言模型拥有了了很多⽅方⾯面接近于⼈人类认知的能⼒力力。⽽而在涌现能⼒力力的加持下,⼤大语⾔言模型也逐渐拥有了了更更为准确的逻辑推理理能⼒力力,这⼀一能⼒力力体现为⼈人类的学习能⼒力力。⾏行行动&解决⽅方案随着⼤大语⾔言模型在涌现能⼒力力中的不不断升级,未来计算机将有极⼤大可能在⾏行行动和解决⽅方案层⾯面拥有⼈人类能⼒力力或者超越⼈人类能⼒力力。 ⼤大语⾔言模型呈现核⼼心能⼒力力⾦金金字塔结构1403进阶能⼒力力更更为进阶的理理解⼒力力02进阶能⼒力力逻辑推理理能⼒力力01核⼼心能⼒力力认知和学习能⼒力力概念抽象⽂文字理理解视觉识别编程能⼒力力数学医学法律律⼈人类情感理理解和识别其他⾼高阶能⼒力力⼤大语⾔言模型 15⼤大模型产品测评结果和特征 ⼤大语⾔言模型综合评价维度16标号权重一级分类二级分类具体任务测试方法题目类型170%语⾔言模型的准确性语义理理解语⾔言理理解能⼒力力-词句句级古诗⽂文识记、中⽂文分词、中⽂文分词和词性标注、命名实体识别、实体关系抽取知识题、历史题、词句句理理解题语⾔言理理解能⼒力力-篇章级阅读理理解、故事情节完形填空、幽默检测知识题、商业写作题、⽂文学题、幽默题、中⽂文特⾊色写作题语⾔言理理解能⼒力力-数据级语⾔言抽象成表格商务制表题语法结构根据给定条件,⽣生成连贯⽂文本摘要⽣生成、数据到⽂文本⽣生成应⽤用写作题、商务写作题、中⽂文特⾊色写作题给出主题,⽣生成连贯⽂文本制作多种类型的⽂文案商业写作题知识问答知识问答知识题、历史题知识误导知识题逻辑推理理抽象给定应⽤用场景,执⾏行