DeepSeek 智能时代的全面到来和人机协作的新常态 孙凌云教授 计算机科学与技术学院2025年2月 一、智能演变 二、人机协作三、产业现状四、教育成长 GPT训练数据规模史无前例 从2018年的GPT1 到2020年的GPT3, 模型预训练数据量从46GB增加到了45TB45TB相当于三千万本《西游记》 主要模型数据集包括: 维基百科数据集(庞大的客观知识) 书籍(故事讲述能力与反应) 杂志期刊(语言生成的严谨) Github代码等其他数据(逻辑推理) 维基百科 书籍 杂志期刊 Reddit链接 CommonCrawl 其他数据 总计 GPT1 46 46 GPT2 40 40 GPT3 114 21 101 50 570 753 ThePilev1 6 118 244 63 227 167 825 Megatron11B 114 46 38 107 161 MTNLG 64 118 77 63 983 127 1374 Gopher 125 2100 1644 3450 4823 10550 表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。CommonCrawl数据集过滤之前为45T 来源:OpenAI团队,LanguageModelsareFewShotLearners,httpsarxivorgabs200514165,2022年7月22日3 对比维度 GPT3 DeepSeekV3 发布时间 2020年6月 2024年12月 训练数据量 3000亿token 148万亿token 参数量 175B(密集架构) 671B(MoE架构) 训练成本 12M 557M 激活参数量 175B(全激活) 37B(55激活率) 主要数据类型 通用互联网文本(含代码数学) 强化代码数学的高质量数据 官方来源 OpenAI技术论文 HuggingFace模型卡 由AI(DeepSeekR1)搜集并整理,经人工检查4 大模型带来大知识 全体人类知识空间 多媒体知识空间 大模型知识空间 个体知识空间 观点来自:北京大学黄铁军教授2023年3月31日 三体人如何学习地球知识? 三体人如何学习地球知识? 电磁波探测器拯救派 三体人如何学习地球知识? 电磁波探测器拯救派 地球文明信息 原始数据、无目标性 探测器搜集数据集精准观察、查漏补缺 人类反馈实现对齐动态反馈、价值博弈 三体人如何学习地球知识? 电磁波探测器拯救派 地球文明信息 原始数据、无目标性 探测器搜集数据集精准观察、查漏补缺 人类反馈实现对齐动态反馈、价值博弈 原始数据基建定向能力强化价值观校准 三体人如何学习地球知识? 电磁波探测器拯救派 预训练 Pretraining 监督微调 SupervisedFineTuningSFT 人类反馈强化学习 ReinforcementlearninghumanfeedbackRLHF 参考GPTAssistantTrainingPipelineAndrejKarpathyHowtotrainyourChatGPTAssistantAnemergingrecipe2023年5月25日 三体人如何学习地球知识? 电磁波探测器拯救派 基础模型 DeepSeekV3Base 强化学习 ReinforcementlearningGRPO DeepSeekR1Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型 httpshuggingfacecopapers2501129482025年1月22日 三体人如何学习地球知识? 电磁波探测器拯救派 基础模型 DeepSeekV3Base 强化学习 ReinforcementlearningGRPO 数学题自动判分编程题实战演练阶梯进化 DeepSeekR1Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型 httpshuggingfacecopapers2501129482025年1月22日 强制输出过程 thinkthink标签内是推理过程 answeranswer是最终内容 为强制思考,模型第一个 输出单词必定为think AconversationbetweenUserandAssistant TheuserasksaquestionandtheAssistantsolvesit Theassistantfirstthinksaboutthereasoningprocessinthemindandthenprovidestheuserwiththeanswer Thereasoningprocessandanswerareenclosedwithin thinkthinkandansweranswertagsrespectivelyiethinkreasoningprocessherethinkansweranswerhereanswer 这是用户和助手之间的对话。用户提出一个问题,助手解决它。 助手首先在脑海中思考推理过程,然后为用户提供答案。 推理过程和答案分别包含在思考思考和回答回答标签中。即: 思考推理过程在这里思考 回答在这里回答回答 httpshuggingfacecopapers2501129482025年1月22日 14 Ahamoment顿悟时刻 人类长期思考后的灵感闪现强化学习中的奖励信号引导 DeepSeekR1Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型 httpshuggingfacecopapers2501129482025年1月22日 Ahamoment顿悟时刻 人类长期思考后的灵感闪现强化学习中的奖励信号引导 DeepSeekR1Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型 httpshuggingfacecopapers2501129482025年1月22日 求是小学组织去距离90公里的博物馆春游,全班同学800从学校坐大巴车出发。班主任老师因为有事情,810自己自驾小车以大巴车快13的速度追赶,结果比大巴车提前20分钟到。问: (1)大巴和小车的速度各是多少? (2)班主任老师追上大巴的地点距离博物馆还有多远? 求是小学组织去距离90公里的博物馆春游,全班同学800从学校坐大巴车出发。班主任老师因为有事情,810自己自驾小车以大巴车快13的速度追赶,结果比大巴车提前20分钟到。问: (1)大巴和小车的速度各是多少? (2)班主任老师追上大巴的地点距离博物馆还有多远? ? 求是小学组织去距离90公里的博物馆春游,全班同学800从学校坐大巴车出发。班主任老师因为有事情,810自己自驾小车以大巴车快13的速度追赶,结果比大巴车提前20分钟到。问: (1)大巴和小车的速度各是多少 (2)班主任老师追上大巴的地点距离博物馆还有多远? 19 解题步骤更重要 思维链(ChainofThought,CoT) 通过模拟人类逐步推理过程来提升人工智能模型复杂任务处理能力的技术 核心是将问题拆解为多个中间步骤,引导模型生成逻辑链条,从而增强推理的准确性和可解释性 基本原理 分布推理:思维链通过将复杂问题分解为更小的子问题,逐步构建答案 显示中间过程:与传统直接输出答案的 方式不同,CoT要求模型引入推导过程 来源:httpswwwibmcomthinktopicschainofthoughts20 DeepSeekR1 首个将思维链显式展示的开源模型 21 对比维度 白盒派 黑箱派 核心特征 强制展示推理过程链支持步骤回溯 仅输出最终结果决策过程不可见 典型代表 DeepSeekV3IBMExplainableAI OpenAIGPTo1MetaLlama3 优势 错误可追溯合规性强调试效率高 计算效率高商业保密性强处理开放性任务更灵活 缺陷 推理延迟增加部分复杂任务表现受限 存在聪明汉斯效应(正确结论错误归因)合规成本高(欧盟AI法案罚款风险) 关键技术 链式思维提示(ChainofThought)动态置信度标注 黑盒优化隐式知识蒸馏 适用场景 教育、医疗诊断、金融风控 创意生成、游戏NPC、舆情分析 伦理风险 过度透明可能导致模型被逆向工程 决策偏见难追溯(如招聘AI的性别倾向性) 表格内容由AI生成,使用DeepSeekR1自动整理 马斯克发布的大模型 2月18日正式发布 通过X平台直播 展示火星轨道计算、游戏开发等实际应用场景 计算能力为Grok2的10倍 展示深度搜索 2月20日:开放免费试用(至服务器超负荷为止) httpsxaibloggrok3 23 xAI的定制超级计算机 世界最大的AI训练集群之一 第一阶段:仅122天内完成,部署了100000个H100GPU 在第二阶段:在另外92天内将计算能力翻倍。 允许持续训练,这意味着Grok3在更多用户与其互动时仍在实时改进 来源:httpsxcomxaistatus18916997152987304822025年2月18日 24 对比维度 Grok3xAI DeepSeekV3DeepSeek 参考资料 算力路线 20万H100GPU集群 2000颗H800GPU xAI发布会DeepSeek白皮书 训练成本 估算21亿5亿美元,含基础设施 558万美元(单次训练成本) Axios成本报告 技术特性 27万亿参数动态架构通过ThinkMode分解问题(如火星轨道计算调用9个子模型协同) 671B参数采用MoE架构仅激活少量参数完成同类任务 xAI技术文档DeepSeekV3技术表 数学推理 AIME52 AIME392 xAI基准测试DeepSeekV3数据表 代码生成 LiveCodeBench57 LiveCodeBench405 Radargit性能对比 训练能耗 相当于30万户家庭年用电 相当于于3000户家庭年用电 xAI发布会实录 推理成本 0015次 00018次 Radargit成本对比 生态策略 封闭生态X平台,但提供实时数据接口 开源策略允许开发者定制思维链展示规则 Radargit行业分析 使用DeepSeekR1自动整理,含第三方估计数据25 对比维度 非推理模型NonreasoningModels 推理模型ReasoningModels 典型产品 DeepSeekV3GPT14全系列MetaLlaMA3GeminiProGrok2 DeepSeekR1GPTo1通义千问QwQ32B天工Skyworko1讯飞 星火X1GeminiUltraGrok3 侧重点 语言模式匹配与统计规律学习上下文连贯性与生成流畅度大规模数据泛化 复杂逻辑分析与多步骤推理符号化规则与结构化思维链构建逻辑验证准确性 核心特点 基于Transformer的并行化生成端到端模式识别依赖提示工程提升表现 思维链(CoT)、思维树(ToT)等技术增强原子推理模块组合(如批判性思维、逐步推导)需强化学习优化推理路径 典型应用 开放域对话(客服机器人)文本创作(小说诗歌生成)语义分类(情感分析) 数学定理证明(如代数方程求解)动态规划算法设计实时决策系统(自动驾驶) 类别 贡献方向 具体技术成果 训练成本 硬件成本 采用MoE架构(混合专家模型),仅激活部分参数(如V3激活37B671B参数)FP8混合精度训练减少内存占用与计算量训练成本显著降低(如V3成本5576万美元,仅为Llama3的7) 算力利用率 DualPipe双向流水线优化计算与通信重叠跨节点MoE通信优化实现全计算通信折叠自适应计算分配机制提升GPU利用率 流程周期 强化学习直接用于基础模型(无需监督微调)知