您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中邮证券]:AI动态汇总:谷歌推出Gemini Robotics On-Device大模型,快手开源keye-VL多模态模型 - 发现报告

AI动态汇总:谷歌推出Gemini Robotics On-Device大模型,快手开源keye-VL多模态模型

2025-07-02 肖承志,冯昱文 中邮证券 「若久」
报告封面

目录 1 AI重点要闻..............................................................................41.1谷歌推出Gemini Robotics On-Device大模型.............................................41.2快手开源keye-VL多模态模型...........................................................51.3谷歌开源AI Agent框架Gemini CLI......................................................91.4用不等式检验大模型推理能力,推理正确率下降65.5%.....................................102企业动态................................................................................132.1微软推出Win11设备端小型语言模型Mu..................................................132.2网易有道开源子曰3模型..............................................................153 AI行业洞察.............................................................................173.1 Meta挖走OpenAI核心研究人员,涉及苏黎世实验室.......................................174技术前沿................................................................................184.1 More thing, less seeing:推理越多,幻觉越重?.......................................185风险提示................................................................................22 图表目录 图表1:Gemini Robotics On-Device......................................................4图表2:模型赋能后的机器人实验.........................................................4图表3:生成能力成功率评测.............................................................5图表4:指令遵循成功率评测.............................................................5图表5:keye-VL架构及训练策略.........................................................6图表6:Keye-VL与可比同类模型对比.....................................................7图表7:Keye-VL多基准测评.............................................................8图表8:Gemini CLI演示................................................................9图表9:Gemini CLI提供业内最大使用限额.................................................9图表10:INEQMARH排行榜..............................................................11图表11:最终结果精准度vs.总体精准度..................................................12图表12:模型大小scaling-law.........................................................12图表13:模型以自我审查为反馈情境下的模型表现.........................................12图表14:MU模型介绍..................................................................13图表15:MU模型评测..................................................................14图表16:子曰3-数学模型测评..........................................................16图表17:论文More thinking, less seeing...............................................19图表18:不同模型在推理和洞察任务(RH-bench)上的表现.................................20图表19:推理和非推理模型之间的注意力分配和视觉基础...................................20图表20:不同推理长度下多模态推理模型的推理-幻觉平衡..................................21 1AI重点要闻 1.1谷歌推出Gemini Robotics On-Device大模型 谷歌DeepMind于2025年6月25日正式发布的Gemini Robotics On-Device模型,标志着机器人控制技术迈入了一个全新的时代。这一视觉-语言-动作(VLA)模型基于Gemini 2.0架构开发,首次实现了多模态大模型在机器人设备上的完全本地化运行,无需依赖云端计算即可完成复杂任务,如折叠衣物、拉开拉链或精准装配工业零件。 资料来源:谷歌,中邮证券研究所 资料来源:谷歌,中邮证券研究所 Gemini Robotics On-Device的创新性在于其深度融合了视觉感知、自然语言理解和动作规划三大模块。通过端到端的多模态神经网络训练,模型能够直接将文本、图像输入映射为机械控制信号,例如根据“将水果放入碗中”的指令,实时识别物体位置并规划机械臂路径,响应延迟降至毫秒级。其核心技术优势体现在两方面:一是跨场景泛化能力,在未训练情境下(如笔盒位置偏移)的任务完成率达81%,远超同类本地模型;二是轻量化设计,通过优化计算资源需求,可在Franka机械臂或Apollo人形机器人等不同硬件形态上高效运行。 传统机器人依赖云端协同的混合架构存在网络延迟与数据隐私隐患,而On-Device模型彻底解决了这些痛点。在医疗、救援或工业车间等网络不稳定或敏感环境中,机器人能独立执行任务,确保操作连续性和数据本地化。例如,在无网 络灾区,搭载该模型的机器人可自主完成废墟搜救,避免了云端依赖导致的响应中断。谷歌还强调,模型内置三级安全机制,包括实时碰撞检测、伦理约束层和硬件级动作限制,通过“语义审查+物理限位”双重保障人机协作安全。 资料来源:谷歌,中邮证券研究所 资料来源:谷歌,中邮证券研究所 为加速技术落地,谷歌同步推出了Gemini Robotics SDK和MuJoCo物理模拟器工具链。开发者仅需提供50-100次人工演示(如手动操作机器人折叠衣物),即可通过微调使模型快速适应新任务。这种“快速任务适应”能力在工业场景中尤为突出,例如Franka机械臂通过少量样本学习即可完成皮带装配等高精度操作。目前,该模型已与Apptronik、Boston Dynamics等企业合作,应用于物流分拣、手术器械分类等领域,器械识别准确率超过95%。 尽管Gemini Robotics On-Device展现了显著优势,其逻辑规划能力仍有提升空间。例如处理“做三明治”等多步骤任务时,顺序安排尚需优化。谷歌透露,下一代模型将基于Gemini 2.5架构升级,进一步强化三维空间理解和动态障碍规避能力。从长远看,这一技术将推动机器人从“云端附庸”向“独立智能体”转型,开启设备端智能的黄金时代,其影响或堪比“机器人界的安卓”。 1.2快手开源keye-VL多模态模型 快手于2025年6月26日开源的Kwai Keye-VL多模态大模型,标志着国产多模态技术在视频理解与复杂推理领域的重大突破。该模型基于Qwen3-8B语言 模型架构,融合了SigLIP初始化的视觉编码器,通过创新的3D RoPE(旋转位置编码)技术实现对文本、图像和视频信息的统一处理,尤其擅长捕捉视频时序变化与动态分辨率输入,成为全球首个在高考数学卷中取得140分成绩的多模态模型。 KwaiKeye-VL的核心竞争力源于其分阶段渐进式训练框架。预训练阶段采用600B规模的多模态数据集,涵盖图文对、视频及纯文本数据,通过四阶段优化策略构建基座能力:首先通过视觉预训练适配动态分辨率输入,随后冻结主干模型仅训练轻量级MLP适配器完成跨模态对齐,再解锁全参数进行多任务联合训练,最终利用高质量数据退火精调,并引入同构异质融合技术降低模型偏差。后训练阶段则通过两阶段微调实现推理能力跃升,其中非推理训练使用500万条VQA数据夯实基础,推理训练则采用GRPO算法进行混合强化学习,通过双轨奖励机制(同步评估结果正确性与过程一致性)激活动态思维链,使模型能自适应选择推理深度。 在视频理解领域,Kwai Keye-VL展现出近乎人类直觉的解析能力。例如输入11秒的简易移动房屋视频,模型可实时生成包含价格策略与卖点提炼的完整销售方案;面对群猫图片,能精准框选特定黑猫或破解“吉娃娃vs松饼”视觉谜题。其技术优势在评测中进一步实证:在VideoMME等权威基准上以67.4分超越Qwen2.5-VL-7B,内部短视频场景测试中综合得分领先业界10%以上,尤其在热点聚合与广告价值评估等核心场景表现卓越。逻辑推理方面,模型不仅能在高考数学卷中完成多步骤解题,还能将流程图转化为Python代码,展现出跨模态的认知泛化能力。 快手此次全面开源模型权重、训练代码及评测数据集KC-MMBench,为开发者提供了从预训练到推理部署的全套工具链。开发者可通过动态调整视频帧数、分辨率等参数快速适配工业场景,例如电商直播中实时分析主播语言与商品展示以提升30%转化率,或医疗领域辅助解析影像资料(需专业验证)。模型内置的自动容错机制与联合检查点技术,则保障了大规模训练的稳定性,即使意外中断也可精准续训无需人工干预。 尽管Kwai Keye-VL在短视频理解与数学推理上表现惊艳,其长视频时序建模能力仍有提升空间。快手团队透露下一代模型将探索视频-音频-文本的三模态融合,并强化因果推理能力以应对更复杂的产业需求。这一开源举措不仅揭示了短视频巨头向基础模型进军的战略野心,更可能重塑内容创作、智能教育乃至工业检测等领域的技术范式,推动多模态交互从“感知智能”向“认知智能”的跨越式演进。 1.3谷歌开源AI Agent框架Gemini CLI 谷歌于2025年6月25日开源的Gemini CLI,标志着AI Agent技术与开发者工作流的深度融合。这一命令行框架将Gemini 2.5