
模型的迭代远未结束 全球顶尖大模型仍处于高速迭代阶段,技术路线与能力边界持续刷新。1)谷歌Gemini 3 Pro以多模态理解和长期规划能力为核心突破,模型可在文本、图像、视频、音频与代码之间进行精细推理,尤其在屏幕理解上表现突出,并有优秀的长期规划和工具使用能力。2)OpenAI新发布GPT-5.2聚焦专业知识型工作场景,在复杂文档、数据分析、代码开发和多步骤项目管理中表现显著提升。提出GDPval评测体系,从真实职业任务出发衡量模型的经济价值,GPT-5.2在多数知识型工作中已可与顶尖人类专家持平或超越。3)国产模型方面,DeepSeek V3.2系列通过稀疏注意力(DSA)、大规 模 后训 练 与 合成 数 据 等创 新 路径 实 现 能力 跃 升。官 方同时 坦承DeepSeekV3.2相比顶尖闭源模型的弱势在于预训练不足,这恰恰说明其模型能力受限于算力并未触及天花板。综合来看,算法创新、后训练扩展与Scaling Law仍在持续生效,顶尖模型的竞争与演进远未结束。 增持(维持) 模型算力底座的代际更迭:从Hopper到Blackwell。AI算力底座正从Hopper架构过渡至Blackwell架构,Blackwell在计算性能、内存体系和卡间互联等核心维度实现了系统性跃升:1)Blackwell在FP32、FP16、BF16、INT8等主流精度下计算性能全面领先,并原生支持FP4精度计算;2)单卡显存容量与带宽同步升级,使其更适合承载更大参数规模,并减少跨卡通信开销;3)新一代NVLink更高的互联带宽,显著提升多卡乃至整机柜级别的扩展效率,为超大规模训练集群奠定基础。这些提升不仅体现在训练时间的缩短,也直接改善了训练经济性。英伟达官网数据显示Blackwell的性能提升幅度明显高于价格提升,从而带来显著的“每美元性性能改改善。在基于MLPerf的Llama 3.1 405B训练对比中,使用公开GPU租赁价格测算,GB200 NVL72的美元性性能接近H100的2倍。 作者 分析师刘高畅执业证书编号:S0680518090001邮箱:liugaochang@gszq.com 分析师李可夫执业证书编号:S0680525060001邮箱:likefu@gszq.com 相关研究 1、《计算机:AI投资继续加码》2025-11-082、《计算机:软件筹码与景气双见底》2025-11-013、《计算机:国产化景气继续加速》2025-10-26 Blackwell对模型能力上限的意义不止于训练更快。更强的单卡能力和集群互联,使得训练中可以采用更大的Batch Size,更大Batch Size在梯度稳定性、收敛质量和计算效率方面具有显著优势,劣势在于更容易过拟合。随着算力与系统能力的扩展,模型开发者也能够探索更深的网络结构、更复杂的算法以及更长上下文的训练方式。2026年起基于Blackwell训练的新一代模型智能水平有望系统性受益于这一轮算力底座升级。 字节豆包手机助手革新交互体验,开启端侧Agent新时代。12月1日,字节跳动发布豆包手机助手预览版,作为面向手机厂商的系统级AI服务,将豆包大模型深度嵌入操作系统,实现以语音或简单指令替代大量手动点击的复杂操作。其能力覆盖跨平台比价点外卖、内容搜索与攻略整理等场景。豆包手机助手由字节AI硬件团队Ocean主导研发,并已与中兴合作推出首款打样手机,字节正推动该能力向更多厂商扩展。豆包手机助手上线后引发部分App的抗拒,尤其是在社交、金融等敏感场景中出现登录异常、功能受限甚至短暂封禁的问题,字节于12月5日发布说明,对AI操作手机的能力进行规范化调整,主动限制刷激励、金融类应用及部分游戏场景。我们认为豆包手机助手是大模型应用落地的重要突破,标志着端侧Agent时代的开启。随着大模型能力成熟与系统级整合加深,用户只需表达想做什么,由手机Agent完成跨App的任务编排与执行,移动交互范式正站在跃迁的前夜。 建议关注 算力:寒武纪、海光信息、东阳光、神州数码、新易盛、中际旭创、中芯 国际、华虹半导体、胜宏科技、品高股份、鸿腾精密科技、有方科技、协创数据、沪电股份、兴森科技、中科曙光、浪潮信息、东山精密、云天励飞、伟仕佳杰、宏景科技、中芯国际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文化、青云、大位科技、玉柴国际、亿田智能、弘信电子、圣阳股份、润泽科技、润建股份、深桑达、优刻得、云从科技、太极股份、数据港、首都在线。 Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶国际、拓尔思、合合信息、税友股份、新致软件、金桥信息、快手、元图公司、鼎捷数智、慧辰股份、嘉和元康、海天瑞声、泛微网络、朗新集团、润达医疗、壹网壹创、万兴科技、用友网络、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得信息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石网络、迪安诊断、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、新大陆、新开普等。 自动驾驶:江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。 军工AI:拓尔思、能科科技、普天科技、品高股份、海格通信、中科星图等。 风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 内容目录 全球顶尖大模型仍处于高速迭代阶段,技术路线与能力边界持续刷新...........................................................4Gemini 3 Pro:卓越的多模态推理与Agent能力............................................................................4GPT-5.2:为专业知识型工作打造..................................................................................................4DeepSeekV3.2:国产模型引领创新..............................................................................................4模型算力底座的代际更迭:从Hopper到Blackwell.....................................................................................5字节豆包手机助手革新交互体验,开启端侧Agent新时代...........................................................................6建议关注...............................................................................................................................................7风险提示...............................................................................................................................................8 图表目录 图表1:英伟达Blackwell与Hopper系列芯片重要参数比较......................................................................5 全球顶尖大模型仍处于高速迭代阶段,技术路线与能力边界持续刷新 Gemini 3 Pro:卓越的多模态推理与Agent能力 11月18日谷歌发布Gemini 3 Pro,核心突破体现在以下几个方面: 世界领先的多模态理解:模型能够处理和理解文本、图像、视频、音频乃至代码等多种模态的数据,并在这些复杂数据之间进行推理,达到了前所未有的细致程度。Gemini 3Pro在Screen UnderStanding任务方面表现尤其出色。 卓越的推理和规划能力:自从Gemini 2开启Agent时代以来,谷歌取得了许多进展,不仅提升了Gemini的编码代理能力,还改进了其在更长时间跨度内可靠规划的能力。Gemini 3在Vending-Bench 2上的榜首表现证明了这一点,该测试通过管理模拟的自动贩卖机业务来测试长期规划能力。Gemini 3 Pro在整整一年的模拟运营中,保持了一致的工具使用和决策能力,在不偏离任务的情况下带来了更高的回报: 增强的Agent能力:Gemini3带来了卓越的指令执行能力,显著改进工具使用和智能编码。更高效的工具使用:同时执行多步骤任务。Gemini3的智能体功能可以构建更实用、更智能的个人AI助手。 GPT-5.2:为专业知识型工作打造 12月11日OpenAI发布了GPT‑5.2,为专业知识型工作而打造。该模型在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳。 Notion、Box、Shopify、Harvey和Zoom观察到,GPT-5.2展现出强大的长时推理和工具调用性能。Databricks、Hex和Triple Whale发现,GPT-5.2在智能体数据科学和文档 分析任务中表现出色。Cognition、Warp、Charlie Labs、JetBrains和Augment Code表示,GPT-5.2在智能体编码方面达到了行业领先水平,并在交互式编程、代码审查和缺陷定位等领域带来了可量化的提升。 聚焦GDPval:定义AI的经济价值 OpenAI在GPT-5.2的宣发中引入了一个评价体系GDPval。在GDPval测试中,模型尝试完成定义明确的知识型工作,内容涵盖元国GDP贡献度最高的9个行业中的44种职业。任务要求生成真实的工作成果,例如销售演示文稿、会计表格、急诊排班表、制造业图表或短视频。GPT-5.2Thinking在GDPval的知识型任务中,有70.9%的对比项目表现优于顶尖行业专业人士或与其持平。 DeepSeekV3.2:国产模型引领创新 12月1日DeepSeek发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale模型。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro。DeepSeek-V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲元Gemini-3.0-Pro。 DeepSeekV3.2系列模型提出多项创新: 1)DSA稀疏注意力机制:全称DeepSeek Sparse Attention,旨在降低计算复杂度,举个例子,当你面前有一本超厚的书,现在需要从这本书里查询特定信息,要求只能一页一页地看,且需要记忆看过的内容,这就是传统AI模型处理长文本时的困境——计算量随文本长度呈平方级增长。而DSA的作用如同将这种每大海捞针改的方式转为每精准定位改, 不是美页都要看,而是能够只关注与目标信息最相关的几页,大幅提升了模型记忆与理解效率。 2)加码后训练:DeepSeek意识到开源模型的后训练投入普遍不足,限制了模型任务表现,于是采用更激进的方式,将后训练算力预