s1-32B模型:知识蒸馏技术实现小样本高性价比训练:TechCrunch于2月5日报道,斯坦福大学与华盛顿大学联合研究团队在李飞飞的带领下,成功以低于50美元的训练成本开发出高性能AI推理模型s1-32B。该模型在数学推理和编程能力测试中展现出与OpenAI的o1模型及DeepSeek的R1模型相匹敌的优异表现。李飞飞团队运用“测试时缩放”技术,选择开源预训练模型Qwen2.5-32B-Instruct作为基座模型,并使用包含1000个样本的s1K数据集进行监督微调,最终获得了s1-32B模型。训练过程仅使用了16块英伟达H100 GPU进行26分钟的核心训练。我们认为,高质量数据是模型训练的基石,尽管s1K数据集样本量较小,但其中蕴含的丰富推理信息为Qwen2.5-32B-Instruct语言模型的监督微调提供了有力支持,这也充分表明了训练数据集质量的重要性。同时,未来产业的发展依然离不开基座模型能力的持续迭代,我们在看到s1-32B模型带来高性价比路径的同时,也不可忽视基座模型能力上的前期投入。 LIMO:从“更大即更强”到“少即是多”:2025年2月5日,上海交大团队提出颠覆性观点LIMO“少即是多”,认为大模型的推理能力本质上是“潜伏”的,而非“缺失”的。LIMO认为,推理能力“潜伏”于预训练模型中,关键在于如何通过精确的认知模板来“激活”这些内在能力。这一突破直接挑战了“监督式微调主要导致记忆而非泛化”的传统观点,证明了高质量、小规模的数据,远比低效的海量数据训练更能激发LLM的真正推理能力。 产业启示:高质量数据与强大基座模型,缺一不可:s1-32B与LIMO模型的研究共通之处:利用高质量数据集微调预训练模型,在小样本条件下实现高性能的模型推理能力。两个研究都不仅挑战了“更大即更强”的传统认知,更揭示了大模型推理能力的潜在机制。通过少量高质量的训练样本,成功激活了模型的“潜伏”能力,展示了“少即是多”的惊人效果。这些研究表明AI领域正在经历一场深刻的变革,不仅揭示了高效能、低成本开发路径的可能性,同时也指出了未来AI发展的关键方向——高质量数据集与强大的基座模型。在这一框架下,研究的重点从单纯追求更大规模的数据和计算资源转向优化数据质量和挖掘现有模型的潜在能力。 投资建议:见正文。 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 1s1-32B模型:知识蒸馏技术实现小样本高性价比训练 TechCrunch于2月5日报道,斯坦福大学与华盛顿大学联合研究团队在李飞飞的带领下,成功以低于50美元的训练成本开发出高性能AI推理模型s1-32B。该模型在数学推理和编程能力测试中展现出与OpenAI的o1模型及DeepSeek的R1模型相匹敌的优异表现。当前语言模型(LMs)的性能提升主要依赖于训练阶段的大规模计算资源投入,而测试时缩放(test-timescaling)作为一种新兴范式,通过增加测试阶段的计算量来增强模型性能,已显现出重要的应用潜力。OpenAI的o1模型即为典型案例,但由于其技术细节未公开,学界多次复现尝试均未能准确重现其测试时缩放特性。近日,李飞飞团队发布的论文《s1: Simple test-time scaling》聚焦于探索实现测试时缩放与强化推理性能的最优路径,并发现s1-32B模型的准确率随着平均思考时间(计算量)的增加而提高(如图1所示),促进了该领域研究的开源化与透明度建设。 图1.s1-32B的测试时缩放策略下表现 1.1“预算强制”策略优化“测试时缩放” 此次s1-32B模型训练方法在数据处理和模型微调上均有创新策略。研究团队试图寻求最简单的方法来实现测试时缩放和强大的推理性能。 数据处理: 样本收集,多维度覆盖:初始收集59,029个样本,依据质量、难度和多样性三大原则,从16个来源收集问题。质量方面,检查样本,忽略格式不佳数据集;难度上,选取需要大量推理的问题;多样性上,涵盖不同领域以覆盖不同推理任务。数据具体来源包括:NuminaMATH(30,660个数学问题)、历史AIME问题、OlympicArena(4,250个问题)、OmniMath(4,238个竞赛级数学问题)、AGIEval(2,385个问题)、s1-prob(182个概率问题及手写解决方案)、s1-teasers(23个脑筋急转弯问题)。 生成与处理,获得三元组:利用Google Gemini Flash Thinking API为每个问题生成推理痕迹和解决方案,得到59K个问题、推理痕迹和解决方案的三元组,并对所有样本去重和净化。 样本筛选,兼顾质量、难度和多样性: 质量筛选,剔除错误样本:去除有API错误的问题,数据集减至54,116个样本;再过滤低质量样本,如含格式问题字符串的,得51,581个样本; 从高质量数据集中识别384个样本用于最终1,000个样本。 难度筛选,过滤低难度样本,:用Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct评估问题难度,去除这两个模型都能正确解决的问题,样本数减至24,496个。 多样性筛选,兼顾不同领域:依数学学科分类系统,用Claude3.5Sonnet对问题分类。从所有领域随机均匀选一个领域,再按倾向于选推理痕迹较长样本的分布抽问题,重复至获得1,000个样本,涵盖50个不同领域。 图2.s1K数据集和s1-32B模型 模型微调:李飞飞团队运用“测试时缩放”技术,选择开源预训练模型Qwen2.5-32B-Instruct作为基座模型,并使用包含1000个样本的s1K数据集进行监督微调,最终获得了s1-32B模型。此外,s1模型采用了“预算强制”(budget forcing)技术来控制推理过程的持续时间,有效优化了测试时的计算效率,使其能够在更短时间内完成复杂推理任务,同时保持高准确性。训练过程仅使用了16块英伟达H100 GPU进行26分钟的核心训练。据论文通讯作者Niklas Muennighoff估算,按照当前云计算市场价格计算,复现s1模型所需的算力资源租赁成本仅需约20美元。 图3.s1-32B的预算强制(budget forcing)策略示例 1.2高效推理数据集叠加强大开源基座模型成就s1-32B 构建高效推理数据集s1K:此次s1-32B模型的成功离不开GoogleGeminiFlash ThinkingExperimental模型API提供的高质量蒸馏数据集。研究团队从16个不同来源收集了59,029个问题,并利用GoogleGemini模型为大量初始问题生成推理痕迹和解决方案。在严格遵循质量、难度和多样性三大原则进行筛选后,得到了高质量的s1K数据集。经过多轮筛选,最终选出1,000个高质量、多样化且具有挑战性的问题及其推理痕迹,为s1-32B模型训练提供了严谨且优质的数据支持。 在s1K数据集的加持下,s1-32B模型在竞赛数学问题中表现卓越,超越了o1-preview,并展示了在处理不同领域复杂问题上的强大潜力。我们认为,高质量数据是模型训练的基石,尽管s1K数据集样本量较小,但其中蕴含的丰富推理信息为Qwen2.532B-Instruct语言模型的监督微调提供了有力支持,这也充分表明了训练数据集质量的重要性。 图4.来自OlympicArena天文学子集的s1K样本示例 预算强制(Budget Forcing)策略:为实现测试时缩放,团队提出了预算强制这一创新策略。该策略通过在测试时强制设定模型思考token的最大和最小数量,精确控制模型的思考时间和计算量。当模型生成的思考token数达到或超过设定的最大限制时,自动添加结束思考令牌分隔符,促使模型输出当前最佳答案;若希望模型投入更多计算量深入思考,可抑制结束思考令牌的生成,并添加“Wait”字符串,鼓励模型对当前推理进行反思和改进,从而提高答案的准确性和推理的深度(如图3所示),有效优化了测试时的计算效率,使其能够在更短时间内完成复杂推理任务,同时保持高准确性。最后发现,s1-32B模型在竞赛数学问题(如MATH和AIME24)上的表现比o1-preview高出多达27%,在AIME24测试中,准确率从50%提升到了57%(如图5所示),展现出良好的性能提升效果。 图5.s1-32B模型分别在顺序和并行测试时缩放时表现 强大的基座模型是s1发挥性能的基石:如果没有强大的基座模型,那么s1-32B也是“巧妇难为无米之炊”,我们认为Qwen2.5-32B-Instruct在其中发挥着不可替代的作用。s1-32B模型通过简单的方法即实现测试时的缩放和强推理性能,对基座模型的性能和开源特性提出了较高要求。作为开源基座模型,Qwen2.5-32B-Instruct具备多方面的优势。它在代码能力上表现卓越,在多个代码生成基准测试中成绩突出,甚至超越部分闭源模型,这体现了其强大的学习和推理能力,为s1-32B实现强大推理性能提供了有力的能力支撑。其开源特性更是关键,这意味着研究团队可以对其进行自由的改进和优化。研究人员在其基础上使用高质量s1K数据集进行监督微调和预算强制策略,成功得到s1-32B模型,充分说明了Qwen2.5-32B-Instruct强大基座模型的作用,是实现s1-32B以及类似模型训练的必要条件,未来产业的发展依然离不开基座模型能力的持续迭代,我们在看到s1-32B模型带来高性价比路径的同时,也不可忽视基座模型能力上的前期投入。 2LIMO:从“更大即更强”到“少即是多” 上海交大团队提出LIMO“少即是多”。在人工智能领域,尤其是在数学推理这一终极挑战面前,“更大即更强”似乎已成为共识。海量数据和复杂的强化学习被认为是突破的关键。然而,上海交通大学的研究团队却提出了颠覆性的观点:“少即是多”。2025年2月5日,他们提出的LIMO(Less is More for Reasoning)研究显示,基座模型(Qwen2.5-32B-Instruct)仅需817条精心设计的样本,结合简单的监督微调,就能让模型在数学竞赛级别的题目上超越当前许多最先进模型,包括o1-preview和QwQ等。 图6.LIMO基准测试成绩 验证监督微调的强泛化能力。实验结果显示,在竞赛级别的美国数学竞赛邀请赛(AIME)测试中,相比传统方法(以NuminaMath为例),LIMO的准确率从6.5%飙升至57.1%。更令人惊叹的是LIMO的泛化能力:在10个不同的基准测试上,它实现了40.5%的绝对性能提升,超越了使用100倍数据训练的模型。这一突破直接挑战了“监督式微调主要导致记忆而非泛化”的传统观点,证明了高质量、小规模的数据,远比低效的海量数据训练更能激发LLM的真正推理能力。 图7.LIMO在样本数量较少情况下,相较NuminaMath有显著的提升 2.1从对齐到推理,“少即是多”开拓“激活”推理能力新方向 自2023年LIMA(Less Is More for Alignment)提出以来,“少即是多”被认为适用于对齐(alignment)任务。只需少量高质量数据,大语言模型便能学会如何生成符合人类偏好的对话。而LIMO相关研究则将“少即是多”(Less is More)原则拓展至推理领域,认为大模型的推理能力本质上是“潜伏”的,而非“缺失”的。LIMO的研究揭示了实现这一突破的两个核心前提: 知识基础革命(Knowledge Foundation Revolution)。近年来,大模型在预训练阶段已纳入海量数学知识。例如,比起全领域训练数据只有1.8T的Llama2,Llama3仅在数学推理上的训练数据就高达3.7Ttoken,这意味着现代LLM早已“知道”大量数学知识,关键是如何“唤醒”它们。 推理计算革命(Inference-time Computation Scaling Revolution)。最新研究表明,推理链(Cha