
王磊 中国科学院自动化研究所研究员中科闻歌董事长 人工智能技术发展 01 Deepseek认知与影响 02 AI+金融实践案例 03 04创业介绍—中科闻歌 01人工智能技术发展 ChatGPT不是基础科学突破,是工程积累奇迹 人机协同群体智慧(人力密集工程) 大模型技术大集成(智力密集工程) 大数据加大算力(算力密集工程) 大模型:智力密集型工程 AI+行业落地三步曲 STEP1 STEP2 STEP3 模型工程 领域工程 数据工程 继续预训练、多模型适配 高质量领域数据治理 指令微调、回馈学习、应用研发 大模型应用到行业领域关键挑战:静态模型与动态数据的不匹配 AI+行业数智化路径思考:先升级、再泛化、后革新 应用0-1创新: 升级赋能: 新业务、新功能,面上谋划 现有系统和业务小模型,点上赋能 l新型研判范式、l未来态势l广域理解+高效推演 l数据分析、知识积累l分析深度+高质量+l高效率 抓手与支撑:打造领域大模型 l前瞻性定义领域大模型与业务系统标准接口,多型共进,形成MoE(混合专家模型)生态,严格把好内容安全关,连续测试 02Deepseek认知与影响 DeepSeek模型发展 DeepSeekR1加速“o1时刻”到来 深度思考模型让大模型领域再度迎来“ChatGPT/o1时刻” “有限算力+算法创新”发展模式是突破算力卡脖子限制的关键 “开源”加速促进人工智能技术快速迭代 模型架构创新 强化学习高效 开源 全方位技术开源 高效训练-提升数据利用效率高效思考-提升思考信息密度 MoE/MTP/MLA提升训推效率 DeepSeek三大特征 特征一:复制OpenAIo1技术思路 通过大规模RL(强化学习)训练,逐步增加模型思考时间,涌现出“Ahamoment”的顿悟与反思行为,社区自发验证,影响力超过预期 OpenAI首席研究官MarkChen承认DeepSeekR1揭示o1核心思想 DeepSeek三大特征 特征二:通过工程优化极致压缩训练成本 架构侧优化提升训练推理效率 •MoE:采用细粒度专家和共享专家,671B参数,每个token激活参数37B,降本增效。•MLA:多头潜在注意力(Multi-HeadLatentAttention)通过低秩压缩减少KV缓存。•MTP:通过预测多个未来token提升规划能力(Multi-TokenPrediction),也用于推理加速。 Infra优化榨干阉割版特供显卡性能 •计算集群:2048*NVIDIAH800GPU并行训练。•训练框架:流水线并行+专家并行+数据并行,定制化PTX指令集(所谓“绕过CUDA”),提升节点间通信效率。•FP8混合精度训练:首次验证FP8训练的可行性,显著降低GPU内存使用并加速训练。 DeepSeek三大特征 特征二:通过工程优化极致压缩训练成本 DeepSeek通过PTX编程“绕过CUDA”? •CUDA和PTX的关系: •PTX(ParallelThreadExecution)是英伟达的并行线程执行中间表示语言(底层汇编语言)•CUDA(ComputeUnifiedDeviceArchitecture)是英伟达统一设备计算架构,封装了C++实现的GPU编程接口•CUDA编译器(NVIDIACUDACompiler,即nvcc)在编译流程中把CUDA代码编译为PTX代码,PTX代码会被进一步编译为特定GPU架构的机器码(ShaderAssembly,SASS),二进制机器码在GPU上执行。 •结论: •PTX是CUDA编译的中间表示,仍然依赖于CUDA的编译器和运行时环境(类似于windows驱动程序开发)并不意味着真正绕过了CUDA。•高级场景中,开发者可以直接编写PTX代码,并将其嵌入到CUDA程序中,用于性能优化,但仍然是在CUDA框架内进行的。 https://developer.download.nvidia.com/compute/cuda/docs/CUDA_Architecture_Overview.pdf DeepSeek三大特征 特征二:通过工程优化极致压缩训练成本 关于DeepSeek真实成本的估算? •硬件成本:据外媒报道幻方拥有2w-5w块GPU,购买和运维成本过亿美元/年(保守估计至少有1w块A100,2000+块H800,这部分硬件购买成本就超过2亿美元)。 •训练成本:DeepSeekV3基座模型预训练语料14.8Ttokens,预训练+后训练57天(278.8万卡时)成本557.6万美元(不含小规模模型的消融实验)。 •数据成本:预训练数据采集和购买,SFT数据构建和质检,无法量化。 其他大模型训练成本: OpenAlGPT-47800万美元GoogleGeminiUltra1.91亿美元Claud的训练成本数千万美元 DeepSeek三大特征 特征三:定位为OpenAIo1的开源平替 NVIDIANIM、AWS、Azure等云服务平台上架DeepSeekAPI Windsurf等AI初创公司集成DeepSeek模型能力实现各种场景 DeepSeek全系列开源模型权重(未开源训练代码&训练数据) DeepSeek三大特征 特征三:定位为OpenAIo1的开源平替 DeepSeek会被国外禁用吗? •模型权重开源,无法禁用:开源的模型权重任何人都可以下载,就像unix、MySQL。开源模型在huggingface、github等平台可以任意下载。 •国外只能禁止调用中国大模型MaaSAPI服务,禁止使用DeepseekAPP和网页端,无法禁止机构和个人下载开源模型。 可禁用 不可禁用 DeepSeek-R1-Zero (671B,激活37B,128K上下文) 基于DeepSeek-V3-Base验证纯RL方案(GRPO+基于规则的奖励)的可行性。但存在可读性差、语种混杂等缺点。 DeepSeek-R1 (671B,激活37B,128K上下文) 基于Zero构建数千条冷启动数据做SFT+RL,拒绝采样60wSFT数据,配比共80w数据基于Base模型进行两阶段训练(SFT+RL)得到更强模型R1,整体能力对标OpenAIo1。 DeepSeek-R1-Distill (1.5B/7B/8B/14B/32B/70B) 训R1的80w数据通过纯SFT蒸馏小模型,比直接对小模型做RL效果好,整体能力对标OpenAIo1-mini。 如何通过GRPO训练DeepSeek-R1-Zero?(核心) 为啥不用NN-basedRM? 基于神经网络的奖励模型大规模强化学习过程中存在rewardhacking,且训练奖励模型需要额外的训练资源。 RL训练使用的指令模版 该模板的目标是让模型按照指定的结构和步骤生成推理过程和最终答案,而不强制规定具体的推理方法或解题策略,不人为干预或限制,避免对模型产生内容偏见。 奖励建模(基于纯规则的奖励) •准确性奖励:答案正确则奖励。对于数学问题,让模型以指定格式(\box)给出最终答案,以便基于规则校验;对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。•格式奖励:比如将思考过程放在<think>和</think>标签之间则给予奖励。 如何通过GRPO训练DeepSeek-R1-Zero? 纯RL方案的缺点 •可读性差(无md格式)•语种混杂(尤其非中英) 因此,为了让推理过程更具可读性,推出R1模型。 左图: DeepSeek-R1-Zero自然涌现出复杂的行为:反思、探索替代方法。 右图: 在某个中间版本出现“顿悟时刻”。 训练DeepSeek-R1四步走(1/4):通过数千条冷启动数据训SFT 冷启动数据的两个优势 •可读性高:让模型输出遵循|<think>|<思考过程>|</think>|<结果总结>的格式。•性能潜力:带有人类先验格式的冷启动数据,与DeepSeek-R1-Zero相比,性能有所提升。 冷启动数据构建的三种方式(但未公开任何样例和数据分布) •使用longCoT作为example的few-shot提示•通过prompt让模型生成包含反思(reflection)和验证(verification)的详细答案•收集DeepSeek-R1-Zero的可读格式输出,并通过人工标注后处理来完善结果 训练DeepSeek-R1四步走(2/4):通过RL方案训GRPO增强推理 消融实验结论 引入语言一致性奖励的对齐会导致模型性能略有下降,但该奖励与人类偏好一致,使模型输出更具可读性。 引入语言一致性奖励 动机:这一阶段专注于提升模型在推理密集型任务(如编码、数学、科学和逻辑推理)推理能力。观察到链式推理(CoT)经常出现语言混用,特别是在prompt涉及多种语言时。为了缓解语言混用问题,RL引入语言一致性奖励,该奖励计算CoT中目标语言单词的比例。 最终奖励:语言一致性奖励与RL方案中的准确性奖励直接相加。 训练DeepSeek-R1四步走(3/4):拒绝采样与SFT 拒绝采样与SFT 拒绝采样:这一阶段也纳入其他方面的数据,以增强模型在写作、角色扮演等通用任务中的能力。 SFT:对DeepSeek-V3-Base进行2epoch微调。 •60w推理数据:通过reasoningprompt用拒绝采样生成推理轨迹。使用生成式RM模型,将真实结果和模型预测输入DeepSeek-V3判断。过滤掉语言混用、长段落和代码块的链式推理。 •20w非推理数据:对于非推理数据,如写作、事实问答、自我认知、翻译,重用DeepSeek-V3的部分监督微调数据集。提示DeepSeek-V3生成CoT,然后回答问题。然而,对于更简单的问题,如“你好”则不提供CoT。 注:未公开任何样例和具体数据分布 训练DeepSeek-R1四步走(4/4):通过RL方案训GRPO增强全场景能力 组合奖励信号 •推理数据:遵循DeepSeek-R1-Zero,利用基于规则的奖励。•通用数据:采用奖励模型来捕捉复杂场景中的人类偏好。 复用DeepSeek-V3的prompt分布和偏好数据提升helpful和harmless •有用性:专注于最终总结,确保答案实用性和问题相关性,同时尽量减少对推理过程的干扰。•无害性:评估模型的整个生成结果(思考过程+总结)以识别和减轻潜在风险、偏见或有害内容。 复用DeepSeek-R1的SFT数据蒸馏小模型 对于小模型,SFT蒸馏好,还是RL好? 实验:用Qwen-32B-Base重复RL实验,使用数学、代码和STEM数据,训练超过10K步。得到结论:•小模型蒸馏效果更好,RL费资源但性能稍逊 •尽管蒸馏策略既经济又有效,但要超越智能边界,仍需要更强大的Base模型和更大规模的RL。 两个不太成功的尝试 MonteCarloTreeSearch(MCTS) ProcessRewardModel(PRM) 最早由OpenAI提出:https://arxiv.org/pdf/2305.20050 实践中MCTS的两个限制: 实践中PRM的三个限制:•不容易定义细粒度步骤 •国际象棋搜索空间相对较为明确,而token生成呈现出指数增长的搜索空间。为了解决这一问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。•AlphaGo的核心成功依赖于训练一个价值模型指导搜索过程,来逐步提升性能。由于token生成的复杂性,训练精细的价值模型本身就很困难。 •不容易确定当前某步骤是否正确。使用模型进行自动化标注效果不行,人工标注没法大规模。•基于模型的PRM会导致rewardhacking,且重新训练奖励模型需要额外的训练资源,训练流程复杂化且成本高 结论: 结