您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国盛证券]:通信:“合成数据+强化学习”:大模型进化的新范式 - 发现报告

通信:“合成数据+强化学习”:大模型进化的新范式

信息技术 2024-09-19 宋嘉吉,孙爽 国盛证券 Michael Wong 香港继承教育
报告封面

通信 “合成数据+强化学习”:大模型进化的新范式 证券研究报告|行业深度 2024年09月19日 当地时间9月12日,OpenAI发布新模型系列o1(代号“草莓”),该模型的特点主要是在给出推理结果前,花更多时间“思考”,产生较长内部思维链,在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元,每百万输出token60美元,o1-mini相对便宜, 增持(维持) 行业走势 每百万token输入3美元,每百万token输出12美元。目前ChatGPTPlus通信沪深300 和Team用户可以在模型选取器中手动选择,o1-preview每周限制30条消息,o1-mini每周限制50条消息。 o1亮点一:或为OpenAI新模型“Orin”生成合成数据。据TheInformation,o1或为OpenAI新模型“Orin”生成合成数据。无独有偶,我们注意到,OpenAI创始团队出走创办的Anthropic——OpenAI的有力 竞争对手,2024年6月发布了大模型Claude3.5Sonnet,该模型使用了合成数据,在多个测试中的表现优于GPT4o。我们发现,在人类生成的数据或将耗尽之际,合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点,尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题,但能通过“诱导幻觉”“加入数据评估机制”“在训练 10% 2% -6% -14% -22% -30% 2023-092024-012024-052024-09 作者 过程中积累数据”等方式尝试解决。 o1亮点二:“合成数据+强化学习”,o1或确认大模型进化新范式。市场认为,ScalingLaw(指大模型随着参数的增大而增强能力)只存在于大模型训练阶段。但我们发现,根据OpenAI工程师JasonWei,o1使用了 强化学习(RL)做思维链(ChainofThought)来训练模型;思维链可以使模型在推理阶段实现能力增强,即ScalingLaw可以不止出现在训练阶段,也出现在推理阶段。这里我们所说的强化学习(RL),指模型A生成推理结果后,由模型B给推理结果打分,帮助模型A不断调整参数、迭代、进化,分成RLAIF(基于AI反馈的强化学习)和RLHF(基于人类反馈的强化学习)多种,后者曾因被用于ChatGPT而名声大噪。我们认为,o1系列的惊艳面世,或许不仅是确认了合成数据的重要性,还意味着大模型对强化学习的倚重,而在强化学习中,我们注意到,RLAIF(基于AI反馈的强化学习)逐渐成为MetaLLama3、英伟达Nemotron-4340B、微软Orca-2等热门大模型的选择,相较于RLHF(基于人类反馈的强化学习),需要的人类标注较少,适合代码、数学等有客观评价标准的领域。我们推测,RLAIF或许也是o1在代码、数学等问题上表现更好的原因。 投资建议:根据OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好,这表明o1“推理时,在响应用户前,思考更多”有助于让o1表现更好,这正是推 理ScalingLaw。我们认为,这有助于打破投资界过往的担忧,即“推理需要的算力比训练少,当大模型的进化转向推理,算力板块承压”;相反,推理ScalingLaw仍将利好算力板块。建议关注:1)光模块产业链:中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等;2)液冷服务商:英维克;3)PCB服务商:沪电股份等;4)AIDC:润泽科技等。 风险提示:大模型算法进展不及预期,大模型应用落地不及预期,全球宏观经济下行风险。 分析师宋嘉吉 执业证书编号:S0680519010002邮箱:songjiaji@gszq.com 分析师孙爽 执业证书编号:S0680521050001邮箱:sunshuang@gszq.com 相关研究 1、《通信:o1新模型对算力需求几何》2024-09-16 2、《通信:26年AI算力应用初窥》2024-09-08 3、《通信:市场对AI算力担心什么?》2024-09-01 请仔细阅读本报告末页声明 内容目录 1OpenAI新模型开出高额订阅费,多领域实现新飞跃3 1.1OpenAI发布新模型o1系列,逻辑推理能力卓越3 1.2o1或为OpenAI新模型猎户座(Orion)生成合成数据4 2合成数据面面观:定义、优点、不足与解决方案6 2.1合成数据的定义6 2.2合成数据的优点6 2.2.1相较于人工生成的数据,性价比或更高6 2.2.2更完整、全面6 2.2.3隐私性更好6 2.3合成数据的不足与解决方案7 2.3.1不足7 2.3.2解决方案一:诱导幻觉7 2.3.3解决方案二:加入数据评估机制8 2.3.4解决方案三:在训练过程中积累数据9 3“合成数据+强化学习”,o1或确认大模型进化新范式11 3.1MetaLlama3:使用合成数据和RLAIF训练11 3.2英伟达Nemotron-4340B:合成数据神器和RLAIF,表现卓越13 3.3微软Orca-3:智能体框架AgentInstruct,生成式教学14 4投资建议:OpenAI揭示的推理ScalingLaw利好算力板块16 图表目录 图表1:OpenAIo1在不同领域的得分情况3 图表2:OpenAIo1相较gpt4o的多维度性能提升3 图表3:OpenAIo1-preview的API定价4 图表4:OpenAIo1-mini的API定价4 图表5:Claude3.5Sonnet在多项测试中的表现优于GPT4o5 图表6:“诱导-对比解码”策略8 图表7:ICD策略应用前后不同模型的TruthfulQA变化8 图表8:Nemotron-4340B模型应用路径9 图表9:数据在模型拟合迭代替换9 图表10:数据在模型拟合迭代积累9 图表11:数据在模型拟合迭代替换的损失变化10 图表12:数据在模型拟合迭代积累的损失变化10 图表13:自我奖励语言模型训练原理12 图表14:Llama3.1405B与其他模型的人工测评结果12 图表15:Llama3.1405B与Nemotron-4340B、GPT-4等模型各任务表现对比13 图表16:Nemotron-4340B与Llama-3-70b等模型在各任务表现对比14 图表17:Nemotron-4340BInstruct与其他知名模型在硬基准测试中的表现对比14 图表18:Orca-3和其他模型在各任务中表现对比15 图表19:阅读理解任务中Orca-3和其他模型的表现对比15 图表20:数学任务中Orca-3和其他模型的表现对比15 图表21:o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好16 图表22:英伟达科学家JimFan图示o1推理ScalingLaw17 1OpenAI新模型开出高额订阅费,多领域实现新飞跃 1.1OpenAI发布新模型o1系列,逻辑推理能力卓越 当地时间9月12日,OpenAI发布新模型系列o1(代号“草莓”,以下除非注明,统称为“o1”),该模型的特点主要是,在给出推理结果前,花更多时间“思考”,产生较长内部思维链,在解决科学、数学、代码等类问题上的表现比之前的模型更好。 OpenAIo1的理科能力强。o1在编程题库Codeforces得到89分,在美国数学竞赛 (AIME)处于全美学生的前500名,在物理、生物和化学题库GPQA的表现上超过了人 类博士水平,其强大的逻辑能力使o1相较于gpt4o有着多维度的性能提升。 图表1:OpenAIo1在不同领域的得分情况 资料来源:OpenAI,国盛证券研究所 图表2:OpenAIo1相较gpt4o的多维度性能提升 资料来源:OpenAI,国盛证券研究所 OpenAIo1的API定价昂贵,且使用次数限制较大。应用程序编程接口(API,ApplicationProgrammingInterface)的价格上,o1-preview每百万token输入15美元,每百万输出token60美元,o1-mini相对便宜,每百万token输入3美元,每百万token输出12 美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择,o1-preview每周限制30条消息,o1-mini每周限制50条消息。对于开发者来说,只对已经付过1000美刀的等级5开发者开放,每分钟限制20次。 图表3:OpenAIo1-preview的API定价图表4:OpenAIo1-mini的API定价 资料来源:OpenAI,国盛证券研究所资料来源:OpenAI,国盛证券研究所 1.2o1或为OpenAI新模型猎户座(Orion)生成合成数据 TheInformation认为,草莓就是之前的Q-Star,曾经被警告“AI重大新突破或危及人类”的神秘模型,其合成数据的方法能够大幅提升大语言模型(LLM)的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。 据TheInformation,OpenAI在推出新模型o1后,将推出模型“猎户座”(Orion),而OpenAIo1,则将在其中扮演关键角色——负责生成猎户座所需的数据,通过高质量的合成数据来降低模型错误率。 智能体创企MinionAI首席执行官AlexGraveley认为,使用OpenAI草莓模型生成更高质量的训练数据可以帮助OpenAI减少其模型产生的错误数量,即所谓的幻觉。该模型之所以能够做到这一点,是因为“训练数据中的歧义较少,所以它猜测的次数较少”。 无独有偶,我们注意到,OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手,2024年6月发布了大模型Claude3.5Sonnet,该模型使用了合成数据,在多个测试中的表现优于GPT4o。 图表5:Claude3.5Sonnet在多项测试中的表现优于GPT4o 资料来源:TechCrunch,国盛证券研究所 2合成数据面面观:定义、优点、不足与解决方案 2.1合成数据的定义 2022年发表在arXiv上的一项研究表明:如果大语言模型(LLM)保持现有训练速度,大约会在2026~2032年间耗尽公开的、人类生成的文本数据。面对当前的“数据荒”局面,合成数据或将成为大模型的未来,也是业界公认的解决之法。 合成数据(SyntheticData)是一种模仿真实世界数据的非人工创建的数据。它是由基于生成式人工智能技术的计算算法和模拟创建而成。合成数据集具有与其所基于的实际数据相同的数学特性,但不包含相同信息。对于语言模型来说,虽然要生成高质量的合成文本存在一定难度,但通过优化现有数据、从多模态数据中学习等策略,或许能够大幅降低对新数据的需求量。 合成数据的使用率逐渐上升,与传统数据相比优势明显。英伟达科学家JimFan曾发文表示,合成数据将提供下一万亿个高质量的训练token;Cohere首席执行官AidenGomez表示,合成数据可以适用于很多训练场景,只是目前尚未全面推广。与传统数据相比,合成数据具有明显的优势。 2.2合成数据的优点 2.2.1相较于人工生成的数据,性价比或更高 数据的成本来自于采集和标注,在这两部分,合成数据都有显著的优势。相对于真实数据低效的收集方式,合成数据可以定向生成场景,让每一个字节的数据都是有价值的。不需要大量的数据采集团队,也不需要大规模的数据回传系统和数据筛选系统,合成数据从生产开始就根据模型训练的需求出发,大部分产出都可以直接使用,也就降低了数据采集成本。 在标注成本方面,合成数据也有较大优势。第一批专门提供合成数据服务的公司之一— —AI.Reverie的联合创始人PaulWalborsky估计,在自动驾驶图像标注上,一张图像的标记成本是6美元,而合成数据的成本只有6美分。 2.2.2更完整、全面 一