您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [浙江大学]:DeepSeek智能时代的全面到来和人机协作的新常态 - 发现报告

DeepSeek智能时代的全面到来和人机协作的新常态

文化传媒 2025-02-01 浙江大学 风与林
报告封面

一、智能演变二、人机协作三、产业现状四、教育成长 从2018年的GPT-1到2020年的GPT-3,模型预训练数据量从4.6GB增加到了45TB45TB相当于三千万本《西游记》主要模型数据集包括:-维基百科数据集(庞大的客观知识)-书籍(故事讲述能力与反应)-杂志期刊(语言生成的严谨)-Github代码等其他数据(逻辑推理)GPT训练数据规模史无前例来源:OpenAI团队,LanguageModels are Few-Shot Learners,https://arxiv.org/abs/2005.14165,2022年7月22日 表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。Common Crawl数据集过滤之前为45T 由AI(DeepSeekR1)搜集并整理,经人工检查对比维度GPT-3DeepSeek-V3发布时间2020年6月2024年12月训练数据量3000亿token14.8万亿token参数量175B(密集架构)671B(MoE架构)训练成本$12M$5.57M激活参数量175B(全激活)37B(5.5%激活率)主要数据类型通用互联网文本(含代码/数学)强化代码/数学的高质量数据官方来源OpenAI技术论文HuggingFace模型卡 观点来自:北京大学黄铁军教授. 2023年3月31日大模型带来大知识 三体人如何学习地球知识? 三体人如何学习地球知识?电磁波探测器拯救派 三体人如何学习地球知识?电磁波探测器拯救派地 球 文 明 信 息原 始 数 据 、 无 目 标 性探 测 器 搜 集 数 据 集精 准 观 察 、 查 漏 补 缺人 类 反 馈 实 现 对 齐动 态 反 馈 、 价 值 博 弈 三体人如何学习地球知识?电磁波探测器拯救派地 球 文 明 信 息原 始 数 据 、 无 目 标 性探 测 器 搜 集 数 据 集精 准 观 察 、 查 漏 补 缺人 类 反 馈 实 现 对 齐动 态 反 馈 、 价 值 博 弈原 始 数 据 基 建定 向 能 力 强 化价 值 观 校 准 三体人如何学习地球知识?电磁波探测器拯救派预 训 练P r e-t r a i n i n g监 督 微 调S u p e r v i s e dF i n e-T u n i n g( S F T )人 类 反 馈 强 化 学 习R e i n f o r c e m e n tl e a r n i n gh u m a nf e e d b a c k( R L H F )AndrejKarpathy.How to trainyour(Chat)GPTAssistant-An emerging recipe, 2023年5月25日 参考GPTAssistantTrainingPipeline 三体人如何学习地球知识?电磁波探测器+拯救派基 础 模 型D e e p S e e k-V 3-B a s e强 化 学 习R e i n f o r c e m e n t l e a r n i n g/G R P O结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日 DeepSeek-R1-Zero的训练过程 三体人如何学习地球知识?电磁波探测器+拯救派基 础 模 型D e e p S e e k-V 3-B a s e强 化 学 习R e i n f o r c e m e n t l e a r n i n g/G R P O数 学 题 自 动 判 分/编 程 题 实 战 演 练/阶 梯 进 化结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日 DeepSeek-R1-Zero的训练过程 标签内是推理过程 是最终内容为强制思考,模型第一个输出单词必定为强制输出过程https://huggingface.co/papers/2501.12948 2025年1月22日 A conversation between User and Assistant.The user asks a question, and the Assistant solves it.The assistant first thinks about the reasoning process in themind and then provides the user with the answer.The reasoning process and answer are enclosed within and tags, respectively,i.e., reasoning process here answer here .这是用户和助手之间的对话。用户提出一个问题,助手解决它。助手首先在脑海中思考推理过程,然后为用户提供答案。推理过程和答案分别包含在<思考>和<回答>标签中。即:<思考>推理过程在这里<回答>在这里回答 结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型Ahamoment顿悟时刻人 类 长 期 思 考 后 的 灵 感 闪 现强 化 学 习 中 的 奖 励 信 号 引 导 DeepSeek-R1-Zero的训练过程https://huggingface.co/papers/2501.129482025年1月22日 结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型Ahamoment顿悟时刻人 类 长 期 思 考 后 的 灵 感 闪 现强 化 学 习 中 的 奖 励 信 号 引 导 DeepSeek-R1-Zero的训练过程https://huggingface.co/papers/2501.129482025年1月22日 求是小学组织去距离90公里的博物馆春游,全班同学8:00从学校坐大巴车出发。班主任老师因为有事情,8:10自己自驾小车以大巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问:(1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远? 求是小学组织去距离90公里的博物馆春游,全班同学8:00从学校坐大巴车出发。班主任老师因为有事情,8:10自己自驾小车以大巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问:(1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远? 求是小学组织去距离90公里的博物馆春游,全班同学8:00从学校坐大巴车出发。班主任老师因为有事情,8:10自己自驾小车以大巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问:(1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远? 解题步骤更重要来源:https://www.ibm.com/think/topics/chain-of-thoughts思维链(Chain of Thought,CoT)-通过模拟人类逐步推理过程来提升人工智能模型复杂任务处理能力的技术-核心是将问题拆解为多个中间步骤,引导模型生成逻辑链条,从而增强推理的准确性和可解释性基本原理-分布推理:思维链通过将复杂问题分解为更小的子问题,逐步构建答案-显示中间过程:与传统直接输出答案的方式不同,CoT要求模型引入推导过程 DeepSeekR1首个将思维链显式展示的开源模型 对比维度白盒派核心特征强制展示推理过程链支持步骤回溯典型代表DeepSeekV3IBM Explainable AI优势-错误可追溯-合规性强-调试效率高缺陷-推理延迟增加-部分复杂任务表现受限关键技术链式思维提示(Chain-of-Thought)动态置信度标注适用场景教育、医疗诊断、金融风控伦理风险过度透明可能导致模型被逆向工程表格内容由AI生成,使用DeepSeekR1自动整理 2月18日正式发布-通过X平台直播-展示火星轨道计算、游戏开发等实际应用场景-计算能力为Grok 2的10倍-展示深度搜索2月20日:开放免费试用(至服务器超负荷为止)马斯克发布的大模型https://x.ai/blog/grok-3 世界最大的AI训练集群之一第一阶段:仅122天内完成,部署了100,000个H100 GPU在第二阶段:在另外92天内将计算能力翻倍。允许持续训练,这意味着Grok3在更多用户与其互动时仍在实时改进xAI的定制超级计算机来源:https://x.com/xai/status/1891699715298730482 2025年2月18日 对比维度算力路线20万H100 GPU集群训练成本估算2.1亿/5亿美元,含基础设施技术特性2.7万亿参数动态架构通过ThinkMode分解问题(如火星轨道计算调用9个子模型协同)数学推理AIME 52%代码生成LiveCodeBench 57%训练能耗相当于30万户家庭年用电推理成本$0.015/次生态策略封闭生态X平台,但提供实时数据接口使用DeepSeekR1自动整理,含第三方估计数据 28视频案例网址:https://metaso.cn/s/TM0D0rP 2023年4月28日,中共中央政治局召开会议分析研究当前经济形势和经济工作:要巩固和扩大新能源汽车发展优势,加快推进充电桩、储能等设施建设和配套电网改造。要重视通用人工智能发展,营造创新生态,重视防范风险。政治局会议首提AGI 1.能力而非过程2.广度和深度3.认知和元认知任务4.潜力而非部署5.生态效度6.关注通向AGI的路径人类能力标尺来源:GoogleDeepMind团队,Levelsof AGI:Operationalizing Progress on the Path to AGIhttps://arxiv.org/pdf/2311.02462.pdf2023年11月4日 1.能力而非过程2.广度和深度3.认知和元认知任务4.潜力而非部署5.生态效度6.关注通向AGI的路径人类能力标尺来源:GoogleDeepMind团队,Levelsof AGI:Operationalizing Progress on the Path to AGIhttps://arxiv.org/pdf/2311.02462.pdf2023年11月4日 来源:OpenAI’s 5 Levels Of ‘Super AI’ (AGI To Outperform Human Capability)https://www.forbes.com/sites/jodiecook/2024/07/16/openais-5-levels-of-super-ai-agi-to-outperform-human-capability/2024年7月16日OpenAI2024年7月公布用于追踪人工智能向人工通用智能(AGI)发展的进程将AI能力分为从基础对话到全面组织管理的不同阶段没有纠结是否真正理解世界关注在场景中的能力任务复杂度标尺 来源:ARKInvesthttps://www.ark-invest.com/big-ideas-20242024年1月31日 能力涌现不可逆社会影响倒计时人机协作新常态 一、智能演变二、人机协作三、产业现状四、教育成长