您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [浙江大学]:DeepSeek:智能时代的全面到来和人机协作的新常态报告 - 发现报告

DeepSeek:智能时代的全面到来和人机协作的新常态报告

信息技术 2025-02-25 孙凌云 浙江大学 Franky!
报告封面

孙 凌 云教 授计 算 机 科 学 与 技 术 学 院2 0 2 5年2月 一、智能演变二、人机协作三、产业现状四、教育成长 GPT训练数据规模史无前例 从2018年的GPT-1到2020年的GPT-3,模型预训练数据量从4.6GB增加到了45TB45TB相当于三千万本《西游记》 主要模型数据集包括: -维基百科数据集(庞大的客观知识)-书籍(故事讲述能力与反应)-杂志期刊(语言生成的严谨)-Github代码等其他数据(逻辑推理) 表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。Common Crawl数据集过滤之前为45T 大模型带来大知识 三体人如何学习地球知识? 三体人如何学习地球知识? 电磁波探测器拯救派 三体人如何学习地球知识? 电磁波 探测器 拯救派 地 球 文 明 信 息原 始 数 据 、 无 目 标 性 人 类 反 馈 实 现 对 齐动 态 反 馈 、 价 值 博 弈 探 测 器 搜 集 数 据 集精 准 观 察 、 查 漏 补 缺 三体人如何学习地球知识? 电磁波 拯救派 探测器 地 球 文 明 信 息原 始 数 据 、 无 目 标 性 探 测 器 搜 集 数 据 集精 准 观 察 、 查 漏 补 缺 人 类 反 馈 实 现 对 齐动 态 反 馈 、 价 值 博 弈 价 值 观 校 准 三体人如何学习地球知识? 电磁波 拯救派 探测器 监 督 微 调S u p e r v i s e dF i n e-T u n i n g( S F T ) 人 类 反 馈 强 化 学 习R e i n f o r c e m e n tl e a r n i n gh u m a nf e e d b a c k( R L H F ) 预 训 练P r e-t r a i n i n g 参考GPTAssistantTrainingPipelineAndrejKarpathy.How to trainyour(Chat)GPTAssistant-An emerging recipe, 2023年5月25日 三体人如何学习地球知识? 基 础 模 型D e e p S e e k-V 3-B a s e 强 化 学 习 DeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日 三体人如何学习地球知识? 探测器+拯救派 基 础 模 型D e e p S e e k-V 3-B a s e 强 化 学 习 R e i n f o r c e m e n t l e a r n i n g/G R P O数 学 题 自 动 判 分/编 程 题 实 战 演 练/阶 梯 进 化 DeepSeek-R1-Zero的训练过程结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日 A conversation between User and Assistant.The user asks a question, and the Assistant solves it.The assistant first thinks about the reasoning process in themind and then provides the user with the answer.The reasoning process and answer are enclosed within and tags, respectively,i.e., reasoning process here answer here . 强制输出过程 标签内是推理过程 是最终内容为强制思考,模型第一个输出单词必定为 这是用户和助手之间的对话。用户提出一个问题,助手解决它。助手首先在脑海中思考推理过程,然后为用户提供答案。推理过程和答案分别包含在<思考>和<回答>标签中。即:<思考>推理过程在这里<回答>在这里回答 Ahamoment顿悟时刻 人 类 长 期 思 考 后 的 灵 感 闪 现强 化 学 习 中 的 奖 励 信 号 引 导 结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.129482025年1月22日 Ahamoment顿悟时刻 人 类 长 期 思 考 后 的 灵 感 闪 现强 化 学 习 中 的 奖 励 信 号 引 导 结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.129482025年1月22日 求是小学组织去距离90公里的博物馆春游,全班同学8:00从学校坐大巴车出发。班主任老师因为有事情,8:10自己自驾小车以大巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问: (1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远? 求是小学组织去距离90公里的博物馆春游,全班同学8:00从学校坐大巴车出发。班主任老师因为有事情,8:10自己自驾小车以大巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问: (1)大巴和小车的速度各是多少? (2)班主任老师追上大巴的地点距离博物馆还有多远? 求是小学组织去距离90公里的博物馆春游,全班同学8:00从学校坐大巴车出发。班主任老师因为有事情,8:10自己自驾小车以大巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问: (1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远? 解题步骤更重要 思维链(Chain of Thought,CoT) -通过模拟人类逐步推理过程来提升人工智能模型复杂任务处理能力的技术-核心是将问题拆解为多个中间步骤,引导模型生成逻辑链条,从而增强推理的准确性和可解释性 基本原理 -分布推理:思维链通过将复杂问题分解为更小的子问题,逐步构建答案-显示中间过程:与传统直接输出答案的方式不同,CoT要求模型引入推导过程 DeepSeekR1首个将思维链显式展示的开源模型 马斯克发布的大模型 2月18日正式发布 -通过X平台直播-展示火星轨道计算、游戏开发等实际应用场景-计算能力为Grok 2的10倍-展示深度搜索2月20日:开放免费试用(至服务器超负荷为止) xAI的定制超级计算机 世界最大的AI训练集群之一第一阶段:仅122天内完成,部署了100,000个H100 GPU在第二阶段:在另外92天内将计算能力翻倍。 允许持续训练,这意味着Grok3在更多用户与其互动时仍在实时改进 视频案例网址:https://metaso.cn/s/TM0D0rP 政治局会议首提AGI 2023年4月28日,中共中央政治局召开会议分析研究当前经济形势和经济工作: 要巩固和扩大新能源汽车发展优势,加快推进充电桩、储能等设施建设和配套电网改造。 要重视通用人工智能发展,营造创新生态,重视防范风险。 人类能力标尺 1.能力而非过程2.广度和深度3.认知和元认知任务4.潜力而非部署5.生态效度6.关注通向AGI的路径 人类能力标尺 1.能力而非过程2.广度和深度3.认知和元认知任务4.潜力而非部署5.生态效度6.关注通向AGI的路径 任务复杂度标尺 OpenAI2024年7月公布用于追踪人工智能向人工通用智能(AGI)发展的进程将AI能力分为从基础对话到全面组织管理的不同阶段没有纠结是否真正理解世界关注在场景中的能力 能力涌现不可逆社会影响倒计时人机协作新常态 一、智能演变二、人机协作三、产业现状四、教育成长 新工作机会和体面工作 诺贝尔经济学奖得主克里斯托弗·皮萨里德斯 较长的转型过渡期 -AI融入生产过程不会那么迅速 技能提升是关键 -大部分人要做的是技能提升,即学会使用AI 新工作机会出现 -工作毁灭(JobDestruction) -工作创造(JobCreation) 体面工作的机会 -提升幸福感、有可能转向每周4天工作制 日均工作时间下降 从第二次工业革命到二战结束的80年间,全球每个工人的劳动时间每年减少0.5%生成式人工智能可以将每个工人的平均劳动时间降低1.3%从2022年每天5小时到2030年的4.5小时 来源:Stella, F., Della Santina, C. & Hughes, J. How can LLMs transform the robotic designprocess. Nature Machine Intelligence. 5, 561–564 (2023). https://doi.org/10.1038/s42256-023-00669-7 2023年6月7日 来源:Stella, F., Della Santina, C. & Hughes, J. How can LLMs transform the robotic designprocess. Nature Machine Intelligence. 5, 561–564 (2023). https://doi.org/10.1038/s42256-023-00669-7 2023年6月7日 LatentConsistencyModels潜在一致性模型 来源:https://twitter.com/gong_cn/status/1726501516285264303https://huggingface.co/blog/lcm_lora2023年11月9日 一、智能演变二、人机协作三、产业现状四、教育成长 AI大模型发布情况 斯坦福大学2024 AI Index Report -数据截至2024年1月31日 -全球发布149个大模型(其中中国20个) 根据LifeArchitect.ai(持续更新) -2025年2月20日 AI工具迅猛增长 根据Toolify.ai统计(2025年2月20日访问)-23915个AI工具-233个分类-162万AIAPI其中:-2023年8813个-2024年13,795个(57%) https://a16z.com/100-gen-ai-apps-3/ AI工具迅猛增长 DeepSeek的开源策略正在加速AI技术普惠化 -头部应用正在/即将完成深度集成(社交/搜索/推荐),聚焦:交互体验-企业级场景在电力、政务、医疗等垂直领域取得突破,聚焦:系统级优化 瓶颈:算力成本、数据合规性和人才储备 支付宝-百宝箱(网页端) 百度(网页端) 微信(搜索-AI搜索) 提示词工程 Prompt Engineering提示词工程-通过精心设计输入提示,引导LLM生成期望的高质量输出-无需重新训练模型,不需要标注数据-一些提示工程框架可以显著增强LLM的推理能力-灵活性、使用简单 Retrieval-AugmentedGeneration, RAG Fine-tuning 微调