您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中邮证券]:AI动态汇总:DeepSeek-R1带动思维链学,DeepMind推出questbenc基准 - 发现报告

AI动态汇总:DeepSeek-R1带动思维链学,DeepMind推出questbenc基准

2025-04-28肖承志、冯昱文中邮证券还***
AI智能总结
查看更多
AI动态汇总:DeepSeek-R1带动思维链学,DeepMind推出questbenc基准

发布时间:2025-04-28 金工周报 研究所 分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com DeepSeek-R1 带动思维链学,DeepMind 推出QuestBench 基准——AI 动态汇总 20250428 l深扒 DeepSeek-R1 思维链,带动思维链学 魁北克人工智能实验室联合麦吉尔大学、哥本哈根大学等机构,深度剖析了 DeepSeek-R1 大模型的思维链,从 DeepSeek 推理的底层构件出发,分析了推理链对其性能的影响。 近期研究报告 《泛消费打开连板与涨幅高度,ETF 资金平铺机器人、人工智能与芯片——行业轮动周报 20250427》 -2025.04.28 lDeepMind 推出 QuestBench 基准 4 月 25 日,科技媒体 Marktechpost 报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。 《国家队交易特征显著,短期指数仍交易补缺预期,TMT 类题材仍需等待——行业轮动周报 20250420》 -2025.04.21 l英伟达推出 Eagle-2.5、DAM-3B 模型 据科技媒体 Marktechpost 报导,英伟达分别于 4 月 22 日、23 日推出了大模型 Eagle-2.5、DAM-3B。Eagle 2.5 是一款专注于长上下文多模态学习的视觉-语言模型(VLM),而 DAM-3B 是为应对图像和视频中特定区域的详细描述难题而开发的模型。 《小市值持续,高低波风格交替——中邮因子周报 20250413》 -2025.04.14 l国产大模型 Vidu Q1 登顶视频生成榜 4 月 22 日,生数科技旗下的国产视频大模型 Vidu Q1 在权威评测基准 VBench-1.0 和 VBench-2.0 中,一举超越 Sora、Runway 等国内外顶尖模型,勇夺文生视频赛道双榜第一。 《4 月是否还会有“最后一跌”?——微盘股指数周报 20250406》- 2025.04.07 l风险提示: 《“924”以来融资资金防守后均见到行情低点,仍关注科技配置机会——行业轮动周报 20250330》 -2025.03.31 以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。 《英伟达召开 GTC 2025 大会,Skywork-R1V、混元 T1 等推理模型接连上线——AI 动态汇总 20250324》 -2025.03.25 《反转效应强势,GRU 模型新高——中邮因子周报 20250323》 - 2025.03.24 《微盘领涨创下历史新高,4 月临近仍有调整压力——微盘股指数周报20250316》 - 2025.03.17 《小市值强势,动量风格依旧——中邮因子周报 20250309》 - 2025.03.10 《泛科技大幅回调,融资资金和 ETF资金逆市流入行业轮动周报20250302》 - 2025.03.03 目录 1AI 重点要闻 ................................................................................ 41.1深扒 DeepSeek-R1 思维链,带动思维链学...................................................41.2DeepMind 推出 QuestBench 基准 ........................................................... 71.3英伟达推出 Eagle-2.5、DAM-3B 模型.......................................................91.4国产大模型 Vidu Q1 登顶视频生成榜......................................................132企业动态..................................................................................132.1OpenAI 推出轻量化深度研究工具 ......................................................... 132.2讯飞星火 X1 升级,对标 DeepSeek-R1 ..................................................... 152.3昆仑万维开源 SkyReels-V2 模型 ......................................................... 163AI 行业洞察 ............................................................................... 173.1全球首个行动浏览器 Fellou 发布.........................................................173.2Meta 发布 Token-Shuffle,突破自回归瓶颈................................................184技术前沿..................................................................................194.1Values in the wild: Claude 价值观研究 ................................................. 194.2模型能力提升:采样越多模型越强........................................................225风险提示..................................................................................24 图表目录 图表 1: DeepSeek-R1 思维链学.............................................................4图表 2: DeepSeek-R1 训练流程.............................................................5图表 3: DeepSeek-R1 推理步骤.............................................................6图表 4: GSM-Q ........................................................................... 7图表 5: Logic-Q ......................................................................... 7图表 6: Planning-Q ...................................................................... 8图表 7: QuestBench 测试结果..............................................................9图表 8: Eagle-2.5 跑分..................................................................10图表 9: DAM-3B 框架.....................................................................12图表 10: VBench ........................................................................ 13图表 11: OpenAI 官宣....................................................................14图表 12: 星火 X1 评测 ................................................................... 15图表 13: Token-shuffle 架构.............................................................19图表 14: Values in the wild ............................................................ 20图表 15: Claude 价值观分类..............................................................21图表 16: 实验结果 ...................................................................... 21图表 17: Sample, Scrutinize and Scale .................................................. 22图表 18: 隐式外扩 ...................................................................... 23图表 19: 新基准下模型表现良莠不齐 ...................................................... 23 1AI 重点要闻 1.1深扒 DeepSeek-R1 思维链,带动思维链学 魁北克人工智能实验室联合麦吉尔大学、哥本哈根大学等机构,深度剖析了DeepSeek-R1 大模型的思维链,从 DeepSeek 推理的底层构件出发,分析了推理链对其性能的影响。 资料来源:DeepSeek-R1 Thoughtology,中邮证券研究所 研究发现几个关键点: ·DeepSeek-R1 存在一个“推理甜点区”(sweet spot),即过多推理反而损害性能。·模型倾向于反复沉溺在已探索的方案中,阻碍进一步探索。·相比不具备推理能力的版本,DeepSeek-R1 展现出更高的安全风险,这可能对安全对齐的 LLM 构成挑战。 DeepSeek-R1 的训练基于 DeepSeek-V3,而下图展示了如何从 V3 模型训练得到 R1 模型: 资料来源:DeepSeek-R1 Thoughtology,中邮证券研究所 该训练过程包括了:1)通过 GRPO 的强化学习训练 DeepSeek-R1-Zero 模型;2)使用 DeepSeek-R1-Zero 生成的链式思维(CoT)数据以及其他来源数据进行 SFT(从冷启动开始);3)在以推理为主的数据上再次使用 GRPO 的强化学习;4)在约 60 万条推理类样本和 20 万条非推理样本上进行 SFT。需要注意的是,此阶段是从