行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

通信：“合成数据+强化学习”：大模型进化的新范式

信息技术 2024-09-19 宋嘉吉,孙爽国盛证券 Michael Wong 香港继承教育

OpenAI发布的新模型系列o1（代号“草莓”）在科学、数学、代码等类问题的表现上比之前的模型更好，其特点是在给出推理结果前，花更多时间“思考”，产生较长内部思维链。o1的API定价昂贵，且使用次数限制较大：o1-preview每百万token输入15美元，每百万输出token60美元；o1-mini每百万token输入3美元，每百万token输出12美元。目前只对已经付过1000美刀的等级5开发者开放，每分钟限制20次。

o1或为OpenAI新模型猎户座（Orion）生成合成数据。合成数据是一种模仿真实世界数据的非人工创建的数据，具有性价比可能更高、更完整、全面、隐私性更好等优点，但也存在可能为模型引入噪声、泛化能力不足等问题。合成数据的不足可以通过诱导幻觉、加入数据评估机制、在训练过程中积累数据等方式尝试解决。

“合成数据+强化学习”，o1或确认大模型进化新范式。o1使用了强化学习（RL）做思维链（Chain of Thought）来训练模型，思维链可以使模型在推理阶段实现能力增强，即Scaling Law可以不止出现在训练阶段，也出现在推理阶段。RLAIF（基于AI反馈的强化学习）逐渐成为当前大模型的热门选择，相较于RLHF（基于人类反馈的强化学习），需要的人类标注较少，适合代码、数学等有客观评价标准的领域。Meta Llama 3、英伟达Nemotron-4 340B、微软Orca-3等热门大模型都使用了合成数据和RLAIF。

根据OpenAI，o1模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好，这表明o1“推理时，在响应用户前，思考更多”有助于让o1表现更好，这正是推理Scaling Law。这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型的进化转向推理，算力板块承压”；相反，推理Scaling Law仍然利好算力板块。

建议关注光模块产业链、液冷服务商、PCB服务商、AIDC等领域的投资机会。

风险提示：大模型算法进展不及预期，大模型应用落地不及预期，全球宏观经济下行风险。

通信 “合成数据+强化学习”：大模型进化的新范式证券研究报告|行业深度 2024年09月19日当地时间9月12日，OpenAI发布新模型系列o1（代号“草莓”），该模型的特点主要是在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元，每百万输出token60美元，o1-mini相对便宜，增持（维持）行业走势每百万token输入3美元，每百万token输出12美元。目前ChatGPTPlus通信沪深300 和Team用户可以在模型选取器中手动选择，o1-preview每周限制30条消息，o1-mini每周限制50条消息。 o1亮点一：或为OpenAI新模型“Orin”生成合成数据。据TheInformation，o1或为OpenAI新模型“Orin”生成合成数据。无独有偶，我们注意到，OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手，2024年6月发布了大模型Claude3.5Sonnet，该模型使用了合成数据，在多个测试中的表现优于GPT4o。我们发现，在人类生成的数据或将耗尽之际，合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点，尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题，但能通过“诱导幻觉”“加入数据评估机制”“在训练 10% 2% -6% -14% -22% -30% 2023-092024-012024-052024-09 作者过程中积累数据”等方式尝试解决。 o1亮点二：“合成数据+强化学习”，o1或确认大模型进化新范式。市场认为，ScalingLaw（指大模型随着参数的增大而增强能力）只存在于大模型训练阶段。但我们发现，根据OpenAI工程师JasonWei，o1使用了强化学习（RL）做思维链（ChainofThought）来训练模型；思维链可以使模型在推理阶段实现能力增强，即ScalingLaw可以不止出现在训练阶段，也出现在推理阶段。这里我们所说的强化学习（RL），指模型A生成推理结果后，由模型B给推理结果打分，帮助模型A不断调整参数、迭代、进化，分成RLAIF（基于AI反馈的强化学习）和RLHF（基于人类反馈的强化学习）多种，后者曾因被用于ChatGPT而名声大噪。我们认为，o1系列的惊艳面世，或许不仅是确认了合成数据的重要性，还意味着大模型对强化学习的倚重，而在强化学习中，我们注意到，RLAIF（基于AI反馈的强化学习）逐渐成为MetaLLama3、英伟达Nemotron-4340B、微软Orca-2等热门大模型的选择，相较于RLHF（基于人类反馈的强化学习），需要的人类标注较少，适合代码、数学等有客观评价标准的领域。我们推测，RLAIF或许也是o1在代码、数学等问题上表现更好的原因。投资建议：根据OpenAI，o1模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好，这表明o1“推理时，在响应用户前，思考更多”有助于让o1表现更好，这正是推理ScalingLaw。我们认为，这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型的进化转向推理，算力板块承压”；相反，推理ScalingLaw仍将利好算力板块。建议关注：1）光模块产业链：中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等；2）液冷服务商：英维克；3）PCB服务商：沪电股份等；4）AIDC：润泽科技等。风险提示：大模型算法进展不及预期，大模型应用落地不及预期，全球宏观经济下行风险。分析师宋嘉吉执业证书编号：S0680519010002邮箱：songjiaji@gszq.com 分析师孙爽执业证书编号：S0680521050001邮箱：sunshuang@gszq.com 相关研究 1、《通信：o1新模型对算力需求几何》2024-09-16 2、《通信：26年AI算力应用初窥》2024-09-08 3、《通信：市场对AI算力担心什么？》2024-09-01 请仔细阅读本报告末页声明内容目录 1OpenAI新模型开出高额订阅费，多领域实现新飞跃3 1.1OpenAI发布新模型o1系列，逻辑推理能力卓越3 1.2o1或为OpenAI新模型猎户座（Orion）生成合成数据4 2合成数据面面观：定义、优点、不足与解决方案6 2.1合成数据的定义6 2.2合成数据的优点6 2.2.1相较于人工生成的数据，性价比或更高6 2.2.2更完整、全面6 2.2.3隐私性更好6 2.3合成数据的不足与解决方案7 2.3.1不足7 2.3.2解决方案一：诱导幻觉7 2.3.3解决方案二：加入数据评估机制8 2.3.4解决方案三：在训练过程中积累数据9 3“合成数据+强化学习”，o1或确认大模型进化新范式11 3.1MetaLlama3：使用合成数据和RLAIF训练11 3.2英伟达Nemotron-4340B：合成数据神器和RLAIF，表现卓越13 3.3微软Orca-3：智能体框架AgentInstruct，生成式教学14 4投资建议：OpenAI揭示的推理ScalingLaw利好算力板块16 图表目录图表1：OpenAIo1在不同领域的得分情况3 图表2：OpenAIo1相较gpt4o的多维度性能提升3 图表3：OpenAIo1-preview的API定价4 图表4：OpenAIo1-mini的API定价4 图表5：Claude3.5Sonnet在多项测试中的表现优于GPT4o5 图表6：“诱导-对比解码”策略8 图表7：ICD策略应用前后不同模型的TruthfulQA变化8 图表8：Nemotron-4340B模型应用路径9 图表9：数据在模型拟合迭代替换9 图表10：数据在模型拟合迭代积累9 图表11：数据在模型拟合迭代替换的损失变化10 图表12：数据在模型拟合迭代积累的损失变化10 图表13：自我奖励语言模型训练原理12 图表14：Llama3.1405B与其他模型的人工测评结果12 图表15：Llama3.1405B与Nemotron-4340B、GPT-4等模型各任务表现对比13 图表16：Nemotron-4340B与Llama-3-70b等模型在各任务表现对比14 图表17：Nemotron-4340BInstruct与其他知名模型在硬基准测试中的表现对比14 图表18：Orca-3和其他模型在各任务中表现对比15 图表19：阅读理解任务中Orca-3和其他模型的表现对比15 图表20：数学任务中Orca-3和其他模型的表现对比15 图表21：o1模型训练和测试阶段在美国奥林匹克数学竞赛（AIME）的表现随着训练和测试计算量的增长而变得更好16 图表22：英伟达科学家JimFan图示o1推理ScalingLaw17 1OpenAI新模型开出高额订阅费，多领域实现新飞跃 1.1OpenAI发布新模型o1系列，逻辑推理能力卓越当地时间9月12日，OpenAI发布新模型系列o1（代号“草莓”，以下除非注明，统称为“o1”），该模型的特点主要是，在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题上的表现比之前的模型更好。 OpenAIo1的理科能力强。o1在编程题库Codeforces得到89分，在美国数学竞赛（AIME）处于全美学生的前500名，在物理、生物和化学题库GPQA的表现上超过了人类博士水平，其强大的逻辑能力使o1相较于gpt4o有着多维度的性能提升。图表1：OpenAIo1在不同领域的得分情况资料来源：OpenAI，国盛证券研究所图表2：OpenAIo1相较gpt4o的多维度性能提升资料来源：OpenAI，国盛证券研究所 OpenAIo1的API定价昂贵，且使用次数限制较大。应用程序编程接口（API，ApplicationProgrammingInterface）的价格上，o1-preview每百万token输入15美元，每百万输出token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12 美元。目前ChatGPTPlus和Team用户可以在模型选取器中手动选择，o1-preview每周限制30条消息，o1-mini每周限制50条消息。对于开发者来说，只对已经付过1000美刀的等级5开发者开放，每分钟限制20次。图表3：OpenAIo1-preview的API定价图表4：OpenAIo1-mini的API定价资料来源：OpenAI，国盛证券研究所资料来源：OpenAI，国盛证券研究所 1.2o1或为OpenAI新模型猎户座（Orion）生成合成数据 TheInformation认为，草莓就是之前的Q-Star，曾经被警告“AI重大新突破或危及人类”的神秘模型，其合成数据的方法能够大幅提升大语言模型（LLM）的智能推理能力，尤其体现在数学解题、解字谜、代码生成等复杂推理任务。据TheInformation，OpenAI在推出新模型o1后，将推出模型“猎户座”（Orion），而OpenAIo1，则将在其中扮演关键角色——负责生成猎户座所需的数据，通过高质量的合成数据来降低模型错误率。智能体创企MinionAI首席执行官AlexGraveley认为，使用OpenAI草莓模型生成更高质量的训练数据可以帮助OpenAI减少其模型产生的错误数量，即所谓的幻觉。该模型之所以能够做到这一点，是因为“训练数据中的歧义较少，所以它猜测的次数较少”。无独有偶，我们注意到，OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手，2024年6月发布了大模型Claude3.5Sonnet，该模型使用了合成数据，在多个测试中的表现优于GPT4o。图表5：Claude3.5Sonnet在多项测试中的表现优于GPT4o 资料来源：TechCrunch，国盛证券研究所 2合成数据面面观：定义、优点、不足与解决方案 2.1合成数据的定义 2022年发表在arXiv上的一项研究表明：如果大语言模型（LLM）保持现有训练速度，大约会在2026~2032年间耗尽公开的、人类生成的文本数据。面对当前的“数据荒”局面，合成数据或将成为大模型的未来，也是业界公认的解决之法。合成数据（SyntheticData）是一种模仿真实世界数据的非人工创建的数据。它是由基于生成式人工智能技术的计算算法和模拟创建而成。合成数据集具有与其所基于的实际数据相同的数学特性，但不包含相同信息。对于语言模型来说，虽然要生成高质量的合成文本存在一定难度，但通过优化现有数据、从多模态数据中学习等策略，或许能够大幅降低对新数据的需求量。合成数据的使用率逐渐上升，与传统数据相比优势明显。英伟达科学家JimFan曾发文表示，合成数据将提供下一万亿个高质量的训练token；Cohere首席执行官AidenGomez表示，合成数据可以适用于很多训练场景，只是目前尚未全面推广。与传统数据相比，合成数据具有明显的优势。 2.2合成数据的优点 2.2.1相较于人工生成的数据，性价比或更高数据的成本来自于采集和标注，在这两部分，合成数据都有显著的优势。相对于真实数据低效的收集方式，合成数据可以定向生成场景，让每一个字节的数据都是有价值的。不需要大量的数据采集团队，也不需要大规模的数据回传系统和数据筛选系统，合成数据从生产开始就根据模型训练的需求出发，大部分产出都可以直接使用，也就降低了数据采集成本。在标注成本方面，合成数据也有较大优势。第一批专门提供合成数据服务的公司之一— —AI.Reverie的联合创始人PaulWalborsky估计，在自动驾驶图像标注上，一张图像的标记成本是6美元，而合成数据的成本只有6美分。 2.2.2更完整、全面一

点击免费查看完整报告

通信：“合成数据+强化学习”：大模型进化的新范式

你可能感兴趣

中泰通信行业周报：OpenAI发布o1模型，开启大模型新范式

【借鉴下棋博弈，华大智造新型强化学习算法登Nature子刊，可快速进化功能蛋白】

“十五五”规划建议的学习专题报告三：迈向功能性财政新范式，全面推进金融强国建设

大模型驱动的研发新范式

KIMIK2-最前瞻的研究！OnlineRL新范式，大模型的又一DeekSeek时刻

基于知识增强DeepSeek大模型的医药数字化营销新范式

面向大模型的新编程范式

多智能体合作强化学习中的通信

扩散大语言模型（dLLM）开启并行新范式，大模型领域的重要技术路线试水

大模型技术深度赋能保险行业白皮书（2025）——智能体驱动的保险新范式