您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:Gemini3Pro在多模态和生产力落地层面超预期1119 - 发现报告

Gemini3Pro在多模态和生产力落地层面超预期1119

2025-11-19 未知机构 邵泽
报告封面

Gemini的体系迭代愈发完整和稳健:1代解决原生多模态和长文本,2代奠定Agent能力,3代能力完全释放(多模态理解+Agent+Coding)。 漂亮的迭代曲线。 Gemini 3 Pro的亮点:1)多模态理解能力。 目前视频生成还没有和LLM有机统一,但是多模态理解已经成为G Gemini 3 Pro在多模态和生产力落地层面超预期(1119) Gemini的体系迭代愈发完整和稳健:1代解决原生多模态和长文本,2代奠定Agent能力,3代能力完全释放(多模态理解+Agent+Coding)。 漂亮的迭代曲线。 Gemini 3 Pro的亮点:1)多模态理解能力。 目前视频生成还没有和LLM有机统一,但是多模态理解已经成为Gemini的强项。 2)生产力落地能力(也是Agent能力)。 可以关注Vending-Bench 2指标,这个指标通过管理一个模拟自动售货机业务来测试模型更长远的规划能力,已经到了生产力落地层面。 Gemini 3 Pro在整个模拟的一年运营中保持了一致的工具使用和决策制定,推动了更高的回报而不偏离任务。 参数猜测:据Artificial Analysis数据,3 Pro在准确率方面领先,而参数规模与准确率高度相关,因此3 Pro可能是个参数很大的模型。 不过3 Pro的幻觉率和2.5差距不大,幻觉率这块还没很好解决。 什么模型才是超预期? 「技术维度」,Gemini 3 Pro依然在预训练+RL的范式上,可以认为是符合大模型发展路径的预期。 但是Gemini 3 model card也强调,并不是不是上一代Gemini 2.5的微调,而是全新训练的sparse MoE,崭新的backbone,这是超预期的,因为模型架构有改进。 另外,前天的Grok-4.1用推理模型部分解决RL的泛化问题,这个是超预期的,因为对RL技术本质有贡献。 「应用维度」,beat OpenAI的GPT就是超预期。 因为OpenAI之前是leader,市场要求最高,而Google今年是loser转winner,所以任何进步都是市场可以把握的超预期。 Gemini 3在LMArena文本领域得分1501,是首个超1500分的模型;前端开发、视觉理解榜首;在Vending-Bench 2领先,这是应用维度的超预期。