Gemini的体系迭代愈发完整和稳健:1代解决原生多模态和长文本,2代奠定Agent能力,3代能力完全释放(多模态理解+Agent+Coding),展现出漂亮的迭代曲线。
Gemini 3 Pro的亮点:
1)多模态理解能力:目前视频生成尚未与LLM有机统一,但多模态理解已成为Gemini的强项。
2)生产力落地能力(Agent能力):通过Vending-Bench 2指标测试模型的长远规划能力,Gemini 3 Pro在模拟自动售货机业务的一年运营中保持一致的工具使用和决策制定,推动更高回报而不偏离任务,达到生产力落地层面。
参数猜测:据Artificial Analysis数据,Gemini 3 Pro在准确率方面领先,参数规模与准确率高度相关,推测3 Pro参数规模较大。但幻觉率与2.5代差距不大,幻觉率问题尚未解决。
超预期因素:
- 技术维度:Gemini 3 Pro在预训练+RL范式上符合大模型发展路径,但全新训练的sparse MoE和崭新的backbone架构超预期,模型架构有改进。Grok-4.1用推理模型部分解决RL泛化问题,对RL技术本质有贡献,也属超预期。
- 应用维度:Gemini 3在LMArena文本领域得分1501,首个超1500分的模型;前端开发、视觉理解榜首;Vending-Bench 2领先,均为应用维度的超预期。