行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

财通计算机李飞飞团队s1模型知识蒸馏技术实现小样本高性价比训练

2025-02-06未知机构f***

AI智能总结

李飞飞团队开发的s1模型，以不到50美元的训练成本实现高性能AI推理，表现与OpenAI的o1模型和DeepSeek的R1模型相当。模型主要得益于以下技术：

“测试时间缩放”与“预算强制”技术：s1模型采用“测试时间缩放”技术，基于包含1000个标注样本的s1K数据集进行微调，这些样本通过知识蒸馏技术从Gemini 2.0 Flash Thinking Experimental模型中提取。通过微调Qwen2.5-32B-Instruct基座模型，s1实现了卓越的推理性能，且表现随测试时间内计算资源的增加而提升。同时，“预算强制”技术有效控制推理过程持续时间，优化计算效率，在短时间内完成复杂任务并保持高准确性。
知识蒸馏技术实现小样本高性价比训练：s1模型的训练过程仅使用16块英伟达H100 GPU进行26分钟的核心训练，后续监督微调基于1000个知识蒸馏样本完成。据估算，复现s1模型所需的算力资源租赁成本仅需约20美元。这一成果突破了传统大规模语言模型对海量数据和算力的依赖，为高效能、低成本的下一代语言模型开发提供了新范式。

风险提示包括技术迭代不及预期、商业化落地不及预期、政策支持不及预期以及全球宏观经济风险。

事件：TechCrunch 2月5日报道，李飞飞带领斯坦福大学和华盛顿大学的AI研究团队成功以不到50美元的训练成本打造了一个高性能AI推理模型——s1。该模型在数学推理和编程能力测试中的表现出色，比肩OpenAI的o1模型和DeepSeek的R1模型。【“测试时间缩放”与“预算强制”技术驱动高【财通计算机】李飞飞团队s1模型：知识蒸馏技术实现小样本高性价比训练事件：TechCrunch 2月5日报道，李飞飞带领斯坦福大学和华盛顿大学的AI研究团队成功以不到50美元的训练成本打造了一个高性能AI推理模型——s1。该模型在数学推理和编程能力测试中的表现出色，比肩OpenAI的o1模型和DeepSeek的R1模型。【“测试时间缩放”与“预算强制”技术驱动高效推理】s1模型运用“测试时间缩放”（test-time scaling）技术，仅基于包含1000个标注样本的s1K数据集进行微调，这些样本是通过从谷歌的Gemini 2.0 Flash Thinking Experimental模型蒸馏所得。通过对Qwen2.5-32B-Instruct基座模型的微调，s1实现了卓越的推理性能，且其表现能够随着测试时间内计算资源的增加而进一步提升。此外，s1采用“预算强制”（budget forcing）技术来控制推理过程的持续时间，有效优化了测试时的计算效率，使其能够在更短时间内完成复杂推理任务，同时保持高准确性。 s1在数据集设计上注重质量、难度和多样性，确保了数据选择的严谨性。该模型不仅在数学竞赛类问题上表现出色，还展现出在处理不同领域复杂问题方面的强大潜力。【知识蒸馏技术实现小样本高性价比训练】s1模型的训练过程仅使用了16块英伟达H100 GPU进行26分钟的核心训练，后续监督微调阶段仅基于1，000个知识蒸馏技术所得标注样本完成。据论文通讯作者Niklas Muennighoff估算，以当前云计算市场价格计算，复现s1模型所需的算力资源租赁成本仅需约20美元。特别值得注意的是，该模型在小规模数据集训练后展现出的超高样本效率，为突破传统大规模语言模型对海量数据和算力的依赖提供了新范式，预示了高效能、低成本的下一代语言模型开发路径。风险提示：技术迭代不及预期的风险；商业化落地不及预期的风险；政策支持不及预期风险；全球宏观经济风险。 ☎欢迎联系：杨烨/陈梦笔内容来源于TechCrunch 2月5日报道《Researchers created an open rival to OpenAI’s o1 ‘reasoning’ model for under $50》以及论文《s1：Simple test-time scaling》。免责声明：内容均来源于公开信息，不构成任何投资建议。

点击免费查看完整报告

你可能感兴趣

财通计算机李飞飞团队s1模型知识蒸馏技术实现小样本高性价比训练

你可能感兴趣

传媒行业通用预训练模型技术拆解：AIGC系列专题，“大模型+小样本”快速适配下游场景，“AI+传媒”的效力取决于适配与迭代

传媒行业通用预训练模型技术拆解-AIGC系列专题：“大模型+小样本”快速适配下游场景，“AI+传媒”的效力取决于适配与迭代

小微盘拥挤度接近高位财通策略李美岑团队近日北证50微盘股再

计算机行业研究：百度发布文心5.0重回第一梯队，李飞飞押注世界模型路线

【风口研报·公司】获四机构席位买入超2亿元，分析师看好这家视频显控龙头基于深度学习训练模型、已实现了AI图像色彩重建技术，有望受益于技术变革带来的行业集中度进一步提升