DeepSeek-V3.2重塑开源模型性能边界
事项:2025年12月1日,DeepSeek正式发布新一代开源大模型DeepSeek-V3.2及其长思考增强版DeepSeek-V3.2-Speciale。
评论:
(一)DeepSeek-V3.2:达到顶尖的推理能力
DeepSeek-V3.2的综合能力已明显处于开源模型的领先地位,目标平衡推理能力与输出长度,适合日常使用。在公开推理类Benchmark测试中,DeepSeek-V3.2达到GPT-5水平,AIME 2025数学竞赛得分93.1%(GPT-5为94.6%),仅略低于Gemini-3.0-Pro。相比Kimi-K2-Thinking,V3.2保持相近性能的同时输出长度大幅降低,显著减少计算开销与用户等待时间。
(二)DeepSeek-V3.2-Speciale:专攻极限推理,奥赛金牌级性能的研究模型
DeepSeek-V3.2-Speciale是DeepSeek-V3.2的长思考增强版,结合DeepSeek-Math-V2的定理证明能力,目标将开源模型的推理能力推向极致。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上媲美Gemini-3.0-Pro。V3.2-Speciale模型成功斩获IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025金牌,其中ICPC与IOI成绩分别达到人类选手第二名与第十名的水平。
(三)DeepSeek-V3.2:DSA技术实现效率与性能双优
闭源模型与开源模型性能差距的主要原因包括对标准注意力机制的过度依赖、开源模型后训练阶段计算投入不足、开源模型在泛化能力和指令遵循能力上与专业模型存在差距。DeepSeek通过DSA技术,将计算复杂度从O(L²)降至O(Lk),在保持长上下文性能的同时显著提升计算效率。该机制不仅解决了传统注意力机制对长序列处理的效率瓶颈,还弥补了开源模型在训练资源和智能体能力上的不足,使得V3.2在多项基准测试中性能大幅提升,以更低的成本缩小了与前沿专有模型的差距。
(四)DeepSeek-V3.2:首个实现思考与工具调用融合的智能体模型
DeepSeek-V3.2成功克服以往版本在思考模式下无法调用工具的局限,成为DeepSeek推出的首个同步支持思考模式与非思考模式工具调用的模型。这一成就得益于团队创新性提出的大规模Agent训练数据合成方法,通过构建涵盖1800多种环境与超过8.5万条复杂指令的“难解答、易验证”的强化学习任务,系统化提升了模型的推理泛化能力。基于此,DeepSeek-V3.2在智能体权威评测中达到了当前开源模型的最高水准,显著缩小了与闭源模型的技术差距。该模型并未针对评测工具进行任何特殊训练,其优异表现完全源于自身强大的泛化性能,预示着在真实世界的复杂应用场景中,V3.2将展现出更可靠、更灵活的适应能力与实用价值。
投资建议:建议关注AI细分景气方向:
- 国产算力:寒武纪、海光信息、阿里巴巴、中科曙光、景嘉微、龙芯中科等。
- 企业级服务:广告(蓝色光标、易点天下)、编程(卓易信息、普元信息)、决策(海康威视、科大讯飞、第四范式)、ERP(金蝶国际、用友网络、鼎捷数智)、办公(金山办公、合合信息、三六零、福昕软件)。
- 应用场景:工业(中控技术、索辰科技)、军用(中国卫星、中科星图、佳缘科技)、医疗(晶泰控股、讯飞医疗科技)、财税(税友股份、中科江南、冠中生态)、法律(华宇软件、金桥信息)、教育(科大讯飞、豆神教育)、招聘(同道猎聘、BOSS直聘、北森控股)、电力(国网信通、国能日新)、驾驶(地平线机器人、禾赛科技、速腾聚创)、电商(聚水潭、微盟、光云科技)、安全(深信服)。
风险提示:技术进展不及预期;模型落地不及预期;商业落地不及预期。