您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [Booz Allen Hamilton]:deepseek技术入门 - 发现报告

deepseek技术入门

信息技术 2025-03-03 Booz Allen Hamilton Mascower
报告封面

目录 深度求索-R1 基于人类反馈的强化学习.........................................7结论。 ............................................................................................................................................16数据窃取指控及整体情况..................................................................15性能...............................................................................................................................................12作者们...................................................................................................................................................16概述..................................................................................................................................................2首秀摘要。 ............................................................................................................................3声明..........................................................................................................................................................4深搜模型................................................................................................................................5建筑。 ...........................................................................................................................................6蒸馏和小模型......................................................................................................9计算。 .........................................................................................................................................11技术主张评估。 .................................................................................................14成本.................................................................................................................................................11 进度安排....................................................................................................................................11 工作组合..............................................................................................................11培训成本.............................................................................................................................14 基准................................................................................................................................14Pipeline............................................................................................................................................7 强化学习。 ...........................................................................................................8 概述 • 深书是中国的一家AI初创公司,领导了一项资金充足的计划,利用一个大型团队(100人以上)的资深开发人员来开发先进的 大型语言模型(LLM)。公众的兴趣源于他们最新发布的模型免费提供,公司声称其性能与OpenAI、Anthropic和Meta LLM相当,但价格和训练时间只是其中的一部分。 • “DeepSeek”与多个同名的算法混淆在一起,但媒体关注的焦点是DeepSeek-R1 LLM——一个671B模型,它通过多阶段流水线(强化学习(RL)、监督微调(SFT)以及可能的知识蒸馏方法)进行训练,以从更大的教师模型中学习。 • 宣传的DeepSeek的培训成本为600万美元,这是基于旧的DeepSeek-V3基础模型得出的。验证成本并不容易,而且表面上来看,这很可能是一个单一、纯净的训练运行快照。他们的论文对此做了明确说明,但在那些未能考虑重大实验、前期开发和基础设施成本的反应中,这一点被忽视了。 • 他们的训练过程应用了多种非DeepSeek发布的关于人工智能(AI)、优化和硬件创新的研究成果,以训练一个计算基础设施较少的大型语言模型。DeepSeek对这些方法的修改、改进和组装是有意义的,但似乎没有出现任何单一的非凡发展。 • 关键细节缺失,尤其是在训练流程、用于微调模型的数据集以及驱动效率的技术实现方面。例如,OpenAI声称DeepSeek可能通过蒸馏不当获取了他们的知识产权,违反了公司的服务条款。与此同时,DeepSeek的透明度远超绝大多数西方实验室,只有少数(主要是非营利组织,如EleutherAI和艾伦人工智能研究所)披露得更多。 首次评测摘要 DeepSeek 通过将训练和推理优化为一个可扩展的 AI 开发管道,代表了 AI 效率的重要进步。通过结合专家混合(MoE)、基于强化学习的微调、先进的蒸馏技术以及图形处理器(GPU)级别的工程,DeepSeek 已经展示出了一种可行的替代方案,以应对其他大型语言模型(LLM)提供者使用的资源密集型训练方法。 在评估DeepSeek的整体性能时,广泛引用的600万美元培训成本仅适用于DeepSeek-V3,而不是更先进的DeepSeek-R1。然而,其效率创新仍然挑战了需要大量资本投资来开发最先进的AI模型的假设。DeepSeek的推理效率主张得到了其基于MoE的选择性激活的支持,与GPT-4这样的密集模型相比,这大大降低了功耗和内存需求。性能基准突出了DeepSeek在推理、数学和编码任务中的优势,在多个结构化问题解决测试中,其结果超过了OpenAI-o1-mini和Claude-3.5。尽管如此,其通用对话能力仍未经验证。然而,DeepSeek在训练数据来源、微调方法和完整基础设施细节方面缺乏透明度,这引发对其效率主张可重复性的质疑。 • MoE:DeepSeek的MoE为每个token选择性地激活专门的“专家”,在保持性能的同时减少计算开销。它优化了GShard稀疏门控和负载均衡技术,以防止低效性,确保在训练期间高效利用专家并处理所有token。 • 强化学习和群体相对策略优化(GRPO):DeepSeek的训练流程用GRPO替换了传统的SFT,GRPO是一种强化学习变体,它消除了对单独的价值模型的需求,减少了内存开销和计算复杂度。这使得DeepSeek能够在不需要大量人工标注的排序数据集的情况下改进推理,这是其他大型语言模型中一个成本高昂的步骤。 • 双管道系统:DeepSeek 引入了一种并行化 GPU 调度和任务管理工作框架,支持在训练期间同时进行前向和后向传递。这项创新减少了闲置计算时间,优化了 GPU 利用率,并加速了训练和推理,使得 DeepSeek 的模型开发管道显著更高效。 总之,DeepSeek的出现并不仅仅关乎一个模型——它关乎重塑人工智能开发的游戏规则。DeepSeek在算法、框架和硬件方面的效率结合至关重要。如果其方法被证明是可持续的,DeepSeek的模型可能会使人工智能开发摆脱对超大规模云的依赖,使高性能人工智能更加经济、去中心化,并在各行各业中更容易获得。无论其方法是否真正可持续,它已经迫使人工智能行业重新思考模型训练、优化和部署的经济性。 • 蒸馏技术:DeepSeek已成功将其大型模型的推理和计算能力蒸馏到更小、高性能的变体中,例如Qwen模型(1.5B到70B参数)。这些蒸馏模型在数学、编程和推理任务中优于OpenAI-o1-mini和Claude-3.5,证明高效率并不一定需要大规模架构。这种方法允许更小、更具成本效益的AI模型,同时保留强大的推理能力。 声明 对那些经过精心设计以启动名为“冷启动”的四阶段过程的监督样本。DeepSeek-R1已经在涵盖英语理解、编程、数学和中文的21个基准上进行了评估。他们将自己的结果与Claude-3.5-Sonnet-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217进行了比较(见表1)。然而,DeepSeek-R1专注于模型推理,用于诸如编程、数学和逻辑推理等任务,其中问题定义明确,解决方案可通过另一台计算机程序进行验证。 深度寻求声称,仅用600万美元的预算,其性能即可与OpenAI等大型专有LLM相媲美,但成本和计算量却少得多。从科学角度来说,它声称深度寻求-R1-Zero LLM是首个公开研究,验证了LLM在预训练后仅通过RL即可训练。这是成本关键的,因为深度寻求-R1-Zero算法可以在无需SFT的情况下匹配某些LLM的性能,而SFT是一个瓶颈。绕过SFT使深度寻求能够在不通过昂贵的手动示例显式教授模型的情况下进行训练。除了其他算法、框架和硬件创新之外,这一点使得深度寻求能够更快地训