李飞飞团队开发的s1模型,以不到50美元的训练成本实现高性能AI推理,表现与OpenAI的o1模型和DeepSeek的R1模型相当。模型主要得益于以下技术:
-
“测试时间缩放”与“预算强制”技术:s1模型采用“测试时间缩放”技术,基于包含1000个标注样本的s1K数据集进行微调,这些样本通过知识蒸馏技术从Gemini 2.0 Flash Thinking Experimental模型中提取。通过微调Qwen2.5-32B-Instruct基座模型,s1实现了卓越的推理性能,且表现随测试时间内计算资源的增加而提升。同时,“预算强制”技术有效控制推理过程持续时间,优化计算效率,在短时间内完成复杂任务并保持高准确性。
-
知识蒸馏技术实现小样本高性价比训练:s1模型的训练过程仅使用16块英伟达H100 GPU进行26分钟的核心训练,后续监督微调基于1000个知识蒸馏样本完成。据估算,复现s1模型所需的算力资源租赁成本仅需约20美元。这一成果突破了传统大规模语言模型对海量数据和算力的依赖,为高效能、低成本的下一代语言模型开发提供了新范式。
风险提示包括技术迭代不及预期、商业化落地不及预期、政策支持不及预期以及全球宏观经济风险。