AI智能总结
DeepSeek的背景知识 什么是DeepSeek -DeepSeek公司:杭州深度求索人工智能基础技术研究有限公司。-DeepSeek大模型:DeepSeek公司推出的一系列大模型的统称。 DeepSeek的背景知识 DeepSeek公司 -成立时间:2023年7月; -创始人:梁文峰(幻方量化的联合创始人); -所在城市:浙江省杭州市拱墅区; -公司口号:探索未至之境; -公司业务方向:专注于通用人工智能(AGI)技术的研发和应用;-“杭州六小龙”之一; -团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。 DeepSeek的背景知识 梁 文 峰 -出生年份:1985年; -籍贯:广东省湛江市吴川市覃巴镇米历岭村; -学历背景: ·2002年,考入浙江大学电子工程系电子信息工程专业;·2007年,考上浙江大学信息与通信工程专业研究生;2010年,获得硕士学位; -工作背景: ·2008年,开始带领团队使用机器学习等技术探索量化交易;·2015年,创立了幻方科技(杭州幻方科技有限公司);·2019年,其资金管理规模突破百亿元; ·2023年7月,幻方量化宣布成立大模型公司DeepSeek,进入通用人工智能(AGI)领域。 DeepSeek的背景知识 DeepSeek大模型发布时间表 -2024年01月05日,正式发布首个大模型DeepSeekLLM; -2024年01月25日,正式发布DeepSeek-Coder,由一系列代码语言模型组成;-2024年02月05日,正式发布DeepSeek-Math,以DeepSeek-CoderV1.57b为基础;-2024年03月11日,正式发布DeepSeek-VL,是一个开源的视觉-语言(VL)模型;-2024年05月07日,正式发布第二代开源MoE模型DeepSeek-V2;-2024年06月17日,正式发布DeepSeek-Coder-V2,支持的编程语言从86种扩展到338种;-2024年09月06日,合并DeepSeek-Coder-V2和DeepSeek-V2-Chat两个模型,升级推出DeepSeek-V2.5;-2024年11月20日,正式发布DeepSeek-R1-Lite预览版;-2024年12月13日,正式发布DeepSeek-VL2,用于高级多模态理解的专家混合视觉语言模型;-2024年12月26日,正式发布DeepSeek-V3,并同步开源模型权重;-2025年01月20日,正式发布DeepSeek-R1、DeepSeek-R1-Zero,并同步开源模型权重。 掀起本次DeepSeek热潮的,主要是—— DeepSeek-V3DeepSeek-R1DeepSeek-R1-Zero PART02DeepSeek的技术特点 DeepSeek的技术特点 DeepSeek-V3的基本情况 -DeepSeek-V3是一款高性能、低成本的开源通用语言模型。 -适用场景:高性能对话、复杂任务处理和高精度场景,例如长文档分析、多模态推理、科研计算等。-设计目标:进一步提升开源模型的能力,缩小与闭源模型的差距,同时保持训练成本的经济性。-参数规模:共有6710亿个参数。但每次处理一个token时只激活370亿个参数。这种设计降低了计算成本。-训练成本:总计278.8万H800 GPU小时(Meta的Llama3.1需要3080万GPU小时)。假设每小时2美元,费用约557.6万美元(约为GPT-4的二十分之一)。 -价格费用:模型API服务定价为每百万输入tokens0.5元(缓 存 命 中) / 2元(缓 存 未 命 中) ,每 百万 输 出tokens 8元。在性能实现领先的同时,定价大幅低于市面上所有模型,性价比优势明显。 DeepSeek的技术特点 DeepSeek-V3的性能表现 -在数学推理(GSM8K)、代码生成(HumanEval)、常识推理(MMLU)等基准测试中达到领先水平。-在公开评测集(如MMLU、BBH、DROP)中表现优异,尤其在复杂推理任务上接近或超越GPT-4 Turbo等顶尖模型。 -多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405BGPT-40以及Claude-3.5-Sonnet不相上下。等其它开源模型,并在性能上和世界顶尖的闭源模型 上的水平相比前代DeepSeek-V2.5显著提升,接近公 司 于2 0 2 4年1 0月 发 布)。 -在 知 识 类 任 务(MMLU,MMLU-Pro,GPQA,SimpleQA)此前表现最好的模型Claude-3.5-Sonnet-1022(Anthropic -通过算法和工程上的创新,将生成吐字速度从20TPS(Transactions Per Second每秒完成的事务数量)大幅提高至60TPS,相比V2.5模型实现了3倍的提升,可以带来更加流畅的使用体验。 DeepSeek的技术特点 DeepSeek-V3的技术特点 -采用了多头潜在注意力(MLA)和DeepSeekMoE架构,实现高效推理,提升成本效益。 -开创了一种无辅助损失(auxiliary-loss-free)策略用于负载平衡,并设置了多token预测训练目标,以提升性能。-在训练效率上,运用了FP8混合精度训练,让显存得到了优化,极大提升了计算性能与训练稳定性。-支持千卡级训练,满足超大规模集群分布式训练需求。 -采用DualPipe(双向流水线)算法和通信优化,实现计算-通信近乎完全重叠。 -训练分为三个阶段:预训练(Pre-Training)、长上下文扩展(Long Context Extension)和后训练(Post-Training)。 -推理环节通过独特的P/D分离策略和NanoFlow的双流推理模式,提升了系统的资源利用率。 DeepSeek的技术特点 关键技术——FP8精度训练 -DeepSeek-V3将大部分计算密集型操作(如矩阵乘法)使用FP8精度进行,同时保留一些关键操作(如嵌入层、输出头、归一化操作等)的高精度(BF16或FP32),以确保训练的数值稳定性。-在此基础上,进一步叠加细粒度量化、高精度累加、在线量化、低精度存储和通信等技术方法,成功实现了高效的FP8精度训练。 -FP8精度训练不仅显著提高了训练速度和效率,还保持了模型的高性能。 DeepSeek的技术特点 关键技术——双向流水线(DualPipe) -核心思想是将模型的不同层分配到不同的GPU上进行并行训练,并通过双向流水线调度来同时处理正向传播和反向传播。 -具体来说,它允许从流水线的两端同时输入微批次(micro-batches),从而最大化地利用计算资源并减少通信开销,该方法实现了高效的模型训练,为大规模分布式训练提供了强大的支持。 ■DeepSeek的技术特点 关键技术——跨节点通信技术 -通过高效的跨节点全对全通信内核、通信和计算的重叠、定制化通信内核、低精度通信以及对未来硬件设计的建议,显著提高了跨节点通信的效率。 -不仅减少了通信开销,还提高了整体训练效率,为大规模分布式训练提供了强大的支持。 DeepSeek的技术特点 DeepSeek-R1和DeepSeek-R1-Zero的基本情况 -DeepSeek-R1和DeepSeek-R1-Zero都是开源推理大模型。 -两者均基于DeepSeek-V3的混合专家(MoE)架构,总参数量为6710亿,但每个推理请求仅激活约10%的参数以降低计算成本。 -主要区别: ·R1-Zero:完全依赖强化学习(Reinforcement Learning,RL)训练,跳过监督微调(SupervisedFine-Tuning,SFT),通过组相对策略优化(Group Relative Policy Optimization,GRPO)算法和组内竞争机制优化推理能力,主要目的是探索和验证纯RL的可行性和潜力。R1-Zero除了证明纯强化学习的有效性,亦有“顿悟”现象的出现,即在模型自发的推理策略博弈中学习到的新的、更有效的推理策略。·R1:在R1-Zero基础上引入冷启动数据和多阶段优化,结合监督微调(SFT)与强化学习(RL),提升输出的可读性和稳定性,优化输出质量,对性能和实用性进行平衡,适用于实际场景。 DeepSeek的技术特点 DeepSeek-R1和DeepSeek-R1-Zero的基本情况 DeepSeekV3 Base DeepSeekR1 Zero DeepSeekR1 为了解决R1-Zero的“毛病”,DeepSeek团队加了两招:冷 启 动数据:先给DeepSeek V3 Base模型看几千条人工写的高质量推理示例(比如详细的解题步骤),让它“开窍”;多阶段训练:先用冷启动数据微调模型,再用强化学习进一步优化,最后结合其他任务的数据(比如写作、翻译)再训练,让模型既聪明又“会 说 人 话”。 DeepSeek-R1和DeepSeek-R1-Zero的对比 DeepSeek的技术特点 DeepSeek-R1的性能表现 -DeepSeek-R1作为开源模型,在数学、代码、自然语言推理等任务上,性能能够比肩OpenAl01正式版。-在国外大模型排名榜ChatbotArena上,DeepSeek-R1的基准测试排名已经升至全类别大模型第三,与OpenAl的ChatGPT-40最新版并列,并在风格控制类模型(StyleCtrl)分类中与OpenAl的01模型并列第一。 DeepSeek的技术特点 DeepSeek-R1的技术特点 -强化学习:DeepSeek-R1的训练方法是最大亮点。通过重新设计训练流程、以少量SFT数据+多轮RL强化学习的办法(基础模型→RL→微调迭代),既提高了模型准确性,也显著降低了内存占用和计算开销。 -奖励机制设计:DeepSeek-R1采用了准确性奖励、格式奖励、语言一致性奖励等机制,确保了模型在推理任务中的高效性和可 读 性 。 -训练模板与结构化输出:DeepSeek-R1采用“思考-回答”双阶段训练模板,模型需先展示推理过程,再提供最终答案,推理过程可追踪,为奖励计算提供了明确基准。 -蒸馏技术:DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。DeepSeek-R1系列提供1.5B至70B参数蒸馏版本,其中7B模型经INT4量化后仅需2-4GB存储,完美适配终端设备内存限制。DeepSeek在开源R1-Zero和R1两个660B模型的同时,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上可以对标OpenAl01-mini。 -开放思维链(CoT,ChainofThought)输出:DeepSeek-R1的动态思维链,支持数万字级内部推理过程,解决复杂问题时能自主拆解步骤并验证逻辑,输出可解释性更强的结果。DeepSeek-R1通过API对用户开放思维链输出。 DeepSeek的技术特点 总结——DeepSeek大模型的核心特点 高 性 能+低 成 本+开 源+国 产 DeepSeek造成的影响 市 场 反 馈 -1月27日,DeepSeek引发了股票市场的剧烈波动。Al概念股大跌,欧美科技股市值蒸发1.2万亿美元,欧美芯片制造商以及为Al和数据中心供电的全产业链公司齐跌。其中,英伟达收盘暴跌16.97%,市值一个交易日蒸发5926.58亿美元(约合人民币4.3万亿元),规模创美股史上最大。 -截止1月31日,DeepSeekApp上线仅21天,日活跃用户DAU2215万,达ChatGPT日活用户的4 1. 6 % ,超过豆 包( 1695万)。 -截至2月2日,DeepSeekApp迅速攀升至140个国家的苹果App Store下载排行榜首位,并在美国的And