行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI动态汇总：谷歌推出Gemini Robotics On-Device大模型，快手开源keye-VL多模态模型

2025-07-02 肖承志,冯昱文中邮证券「若久」

1AI重点要闻 1.1谷歌推出Gemini Robotics On-Device大模型谷歌DeepMind于2025年6月25日发布Gemini Robotics On-Device模型，实现多模态大模型在机器人设备上的本地化运行，无需云端计算即可完成复杂任务。该模型基于Gemini 2.0架构，深度融合视觉感知、自然语言理解和动作规划，直接将文本、图像输入映射为机械控制信号。核心技术优势包括跨场景泛化能力（未训练情境下任务完成率达81%）和轻量化设计，可在不同硬件形态上高效运行。模型内置三级安全机制，确保人机协作安全。谷歌同步推出Gemini Robotics SDK和MuJoCo物理模拟器工具链，加速技术落地。目前，该模型已与Apptronik、Boston Dynamics等企业合作，应用于物流分拣、手术器械分类等领域。尽管逻辑规划能力仍有提升空间，但该技术将推动机器人从“云端附庸”向“独立智能体”转型。 1.2快手开源keye-VL多模态模型快手于2025年6月26日开源Kwai Keye-VL多模态大模型，擅长视频理解与复杂推理。该模型基于Qwen3-8B语言模型架构，融合SigLIP初始化的视觉编码器，通过3D RoPE技术实现对文本、图像和视频信息的统一处理。核心竞争力源于分阶段渐进式训练框架，预训练阶段采用600B规模的多模态数据集，后训练阶段通过两阶段微调实现推理能力跃升。在视频理解领域，模型展现出近乎人类直觉的解析能力，例如输入11秒的简易移动房屋视频，可实时生成包含价格策略与卖点提炼的完整销售方案。快手全面开源模型权重、训练代码及评测数据集KC-MMBench，为开发者提供从预训练到推理部署的全套工具链。尽管长视频时序建模能力仍有提升空间，但该开源举措可能重塑内容创作、智能教育等领域的技术范式。 1.3谷歌开源AI Agent框架Gemini CLI 谷歌于2025年6月25日开源Gemini CLI，将Gemini 2.5 Pro模型的百亿级参数能力无缝嵌入终端环境，通过自然语言交互重构了开发者的生产力范式。该框架基于ReAct工作循环设计，实现多模态推理与工具调用的动态协同，支持开发者通过自然语言指令完成代码生成、调试、项目重构等复杂操作。谷歌以Apache 2.0协议开源，并配套推出业界最慷慨的免费策略。项目在GitHub上线48小时内即斩获3万星标，远超同类工具。其生态建设不仅体现在代码共享，更通过GEMINI.md配置文件实现团队协作标准化。与传统IDE插件不同，Gemini CLI重新定义了终端环境的智能上限，支持非交互式脚本调用，可嵌入CI/CD流程实现自动化。在安全机制上，谷歌采用沙盒执行与影子提交双重保障，大幅降低AI介入的风险。 1.4用不等式检验大模型推理能力，推理正确率下降65.5% 斯坦福大学、加州大学伯克利分校和麻省理工学院的研究团队联合发表题为《Solving Inequality Proofs with Large Language Models》的论文，聚焦于大语言模型在数学不等式证明领域的性能评估与方法创新。研究通过构建首个奥林匹克竞赛级不等式数据集INEQMATH，揭示了当前LLMs在严格数学推理上的显著缺陷，并提出了创新的评估框架与改进路径。研究发现单纯扩大模型规模或增加推理时长对提升证明严谨性收效甚微，提出定理引导推理和自我批判优化两条有效改进路径。该研究首次系统论证了LLMs在形式化数学推理上的能力边界，其贡献体现在提出非形式化但可验证的任务重构方法、发布高质量不等式基准库、开发模块化评估框架。 2企业动态 2.1微软推出Win11设备端小型语言模型Mu 微软于2025年6月24日推出Mu小型语言模型，专为Windows 11系统设计，通过深度优化硬件适配与算法效率，实现了与参数量十倍的Phi-3.5-mini相当的性能表现。Mu的核心创新在于其编码器-解码器架构与NPU的深度协同设计，通过一次性编码输入生成固定长度的潜在表示，使解码器可重复利用该表示生成输出。微软进一步采用权重共享技术减少参数总量，并通过三重关键优化强化性能。训练阶段，Mu先在数千亿高质量教育token上预训练，再通过知识蒸馏从Phi模型中提取核心能力，最终结合360万样本的特定任务微调。目前，Mu深度集成于Windows 11设置应用的智能代理功能，用户通过自然语言指令即可触发自动化设置调整。微软通过此布局，一方面强化了设备端AI的隐私保护与离线可用性优势，另一方面构建了从云端大模型到边缘小模型的完整AI栈。 2.2网易有道开源子曰3模型网易有道于2025年6月23日开源“子曰3”数学模型（Confucius3-Math），是国内首个专注于K12数学教育的开源推理模型。该模型基于14B参数规模，通过轻量化架构与增强学习优化，在单块RTX 4090D级消费级GPU上即可高效运行，不仅以98.5分的GAOKAO-Bench（Math）成绩超越DeepSeek-R1等通用大模型，更将推理成本压缩至每百万token仅0.15美元。子曰3的核心竞争力源于其数学专用引擎与全增强学习（RL）训练体系，采用符号运算加速器设计，并通过Policy-Specific Hardness Weighting技术动态调整训练样本权重。网易有道以Apache 2.0协议全面开源模型权重、训练代码及评测数据集KC-MMBench，配套发布包含公式识别OCR插件的本地部署方案。作为“子曰”系列第三款开源模型，Confucius3-Math体现了网易有道“垂直领域轻量化”的技术路线，其成功验证了封闭知识体系下小参数模型的SOTA可行性。 3AI行业洞察 3.1Meta挖走OpenAI核心研究人员，涉及苏黎世实验室 Meta近期从OpenAI大规模挖角核心研究人员的行动，已成为全球AI领域最具标志性的人才争夺事件。这场由扎克伯格亲自推动的“超级智能团队”组建计划，不仅暴露了Meta在Llama系列模型受挫后的战略焦虑，更揭示了AI行业从技术竞争向人才军备竞赛的范式转移。Meta已成功从OpenAI挖走至少8名核心研究员，包括推理模型o1的缔造者Trapit Bansal、多模态专家赵晟佳（Shengjia Zhao）、计算机视觉负责人余佳辉（Jiahui Yu）等关键人物。扎克伯格的紧迫感源于Llama 4模型的失败，采取双重策略：一方面斥资143亿美元收购Scale AI 49%股权，另一方面通过WhatsApp直接联系目标研究员，跳过面试环节开出包含股权激励的复合薪酬包。OpenAI虽保留着Ilya Sutskever等创始成员，但持续的人才外溢可能影响其GPT-5研发进度。这场争夺战的核心已不仅是人才数量，而是谁能将人力资本转化为真正的认知突破。 4技术前沿 4.1Morething, less seeing:推理越多，幻觉越重？加州大学圣克鲁兹分校、斯坦福大学和加州大学圣巴巴拉分校的研究团队联合发表题为《More Thinking,Less Seeing?Assessing AmplifiedHallucination in Multimodal Reasoning Models》的论文，系统研究了多模态推理模型中推理链长度与视觉幻觉之间的动态平衡关系。研究团队首先观察到多模态推理模型存在一个显著悖论：随着推理链的延长，模型在数学推理等复杂任务上表现提升的同时，视觉幻觉现象却同步加剧。研究发现推理模型在深层网络中分配给视觉token的注意力比基础模型低40%，而指令token的注意力提升25%。针对传统单点评估指标的局限，研究提出RH-AUC指标，通过计算不同推理长度下模型性能曲线下面积，量化推理能力与幻觉风险的动态平衡。研究颠覆性地发现感知数据量的增加未必改善平衡性，领域特异性数据的精细标注比大规模粗标注更能提升模型鲁棒性。 5风险提示以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。

目录 1 AI重点要闻..............................................................................41.1谷歌推出Gemini Robotics On-Device大模型.............................................41.2快手开源keye-VL多模态模型...........................................................51.3谷歌开源AI Agent框架Gemini CLI......................................................91.4用不等式检验大模型推理能力，推理正确率下降65.5%.....................................102企业动态................................................................................132.1微软推出Win11设备端小型语言模型Mu..................................................132.2网易有道开源子曰3模型..............................................................153 AI行业洞察.............................................................................173.1 Meta挖走OpenAI核心研究人员，涉及苏黎世实验室.......................................174技术前沿................................................................................184.1 More thing, less seeing:推理越多，幻觉越重？.......................................185风险提示................................................................................22 图表目录图表1：Gemini Robotics On-Device......................................................4图表2：模型赋能后的机器人实验.........................................................4图表3：生成能力成功率评测.............................................................5图表4：指令遵循成功率评测.............................................................5图表5：keye-VL架构及训练策略.........................................................6图表6：Keye-VL与可比同类模型对比.....................................................7图表7：Keye-VL多基准测评.............................................................8图表8：Gemini CLI演示................................................................9图表9：Gemini CLI提供业内最大使用限额.................................................9图表10：INEQMARH排行榜..............................................................11图表11：最终结果精准度vs.总体精准度..................................................12图表12：模型大小scaling-law.........................................................12图表13：模型以自我审查为反馈情境下的模型表现.........................................12图表14：MU模型介绍..................................................................13图表15：MU模型评测..................................................................14图表16：子曰3-数学模型测评..........................................................16图表17：论文More thinking, less seeing...............................................19图表18：不同模型在推理和洞察任务（RH-bench）上的表现.................................20图表19：推理和非推理模型之间的注意力分配和视觉基础...................................20图表20：不同推理长度下多模态推理模型的推理-幻觉平衡..................................21 1AI重点要闻 1.1谷歌推出Gemini Robotics On-Device大模型谷歌DeepMind于2025年6月25日正式发布的Gemini Robotics On-Device模型，标志着机器人控制技术迈入了一个全新的时代。这一视觉-语言-动作（VLA）模型基于Gemini 2.0架构开发，首次实现了多模态大模型在机器人设备上的完全本地化运行，无需依赖云端计算即可完成复杂任务，如折叠衣物、拉开拉链或精准装配工业零件。资料来源：谷歌，中邮证券研究所资料来源：谷歌，中邮证券研究所 Gemini Robotics On-Device的创新性在于其深度融合了视觉感知、自然语言理解和动作规划三大模块。通过端到端的多模态神经网络训练，模型能够直接将文本、图像输入映射为机械控制信号，例如根据“将水果放入碗中”的指令，实时识别物体位置并规划机械臂路径，响应延迟降至毫秒级。其核心技术优势体现在两方面：一是跨场景泛化能力，在未训练情境下（如笔盒位置偏移）的任务完成率达81%，远超同类本地模型；二是轻量化设计，通过优化计算资源需求，可在Franka机械臂或Apollo人形机器人等不同硬件形态上高效运行。传统机器人依赖云端协同的混合架构存在网络延迟与数据隐私隐患，而On-Device模型彻底解决了这些痛点。在医疗、救援或工业车间等网络不稳定或敏感环境中，机器人能独立执行任务，确保操作连续性和数据本地化。例如，在无网络灾区，搭载该模型的机器人可自主完成废墟搜救，避免了云端依赖导致的响应中断。谷歌还强调，模型内置三级安全机制，包括实时碰撞检测、伦理约束层和硬件级动作限制，通过“语义审查+物理限位”双重保障人机协作安全。资料来源：谷歌，中邮证券研究所资料来源：谷歌，中邮证券研究所为加速技术落地，谷歌同步推出了Gemini Robotics SDK和MuJoCo物理模拟器工具链。开发者仅需提供50-100次人工演示（如手动操作机器人折叠衣物），即可通过微调使模型快速适应新任务。这种“快速任务适应”能力在工业场景中尤为突出，例如Franka机械臂通过少量样本学习即可完成皮带装配等高精度操作。目前，该模型已与Apptronik、Boston Dynamics等企业合作，应用于物流分拣、手术器械分类等领域，器械识别准确率超过95%。尽管Gemini Robotics On-Device展现了显著优势，其逻辑规划能力仍有提升空间。例如处理“做三明治”等多步骤任务时，顺序安排尚需优化。谷歌透露，下一代模型将基于Gemini 2.5架构升级，进一步强化三维空间理解和动态障碍规避能力。从长远看，这一技术将推动机器人从“云端附庸”向“独立智能体”转型，开启设备端智能的黄金时代，其影响或堪比“机器人界的安卓”。 1.2快手开源keye-VL多模态模型快手于2025年6月26日开源的Kwai Keye-VL多模态大模型，标志着国产多模态技术在视频理解与复杂推理领域的重大突破。该模型基于Qwen3-8B语言模型架构，融合了SigLIP初始化的视觉编码器，通过创新的3D RoPE（旋转位置编码）技术实现对文本、图像和视频信息的统一处理，尤其擅长捕捉视频时序变化与动态分辨率输入，成为全球首个在高考数学卷中取得140分成绩的多模态模型。 KwaiKeye-VL的核心竞争力源于其分阶段渐进式训练框架。预训练阶段采用600B规模的多模态数据集，涵盖图文对、视频及纯文本数据，通过四阶段优化策略构建基座能力：首先通过视觉预训练适配动态分辨率输入，随后冻结主干模型仅训练轻量级MLP适配器完成跨模态对齐，再解锁全参数进行多任务联合训练，最终利用高质量数据退火精调，并引入同构异质融合技术降低模型偏差。后训练阶段则通过两阶段微调实现推理能力跃升，其中非推理训练使用500万条VQA数据夯实基础，推理训练则采用GRPO算法进行混合强化学习，通过双轨奖励机制（同步评估结果正确性与过程一致性）激活动态思维链，使模型能自适应选择推理深度。在视频理解领域，Kwai Keye-VL展现出近乎人类直觉的解析能力。例如输入11秒的简易移动房屋视频，模型可实时生成包含价格策略与卖点提炼的完整销售方案；面对群猫图片，能精准框选特定黑猫或破解“吉娃娃vs松饼”视觉谜题。其技术优势在评测中进一步实证：在VideoMME等权威基准上以67.4分超越Qwen2.5-VL-7B，内部短视频场景测试中综合得分领先业界10%以上，尤其在热点聚合与广告价值评估等核心场景表现卓越。逻辑推理方面，模型不仅能在高考数学卷中完成多步骤解题，还能将流程图转化为Python代码，展现出跨模态的认知泛化能力。快手此次全面开源模型权重、训练代码及评测数据集KC-MMBench，为开发者提供了从预训练到推理部署的全套工具链。开发者可通过动态调整视频帧数、分辨率等参数快速适配工业场景，例如电商直播中实时分析主播语言与商品展示以提升30%转化率，或医疗领域辅助解析影像资料（需专业验证）。模型内置的自动容错机制与联合检查点技术，则保障了大规模训练的稳定性，即使意外中断也可精准续训无需人工干预。尽管Kwai Keye-VL在短视频理解与数学推理上表现惊艳，其长视频时序建模能力仍有提升空间。快手团队透露下一代模型将探索视频-音频-文本的三模态融合，并强化因果推理能力以应对更复杂的产业需求。这一开源举措不仅揭示了短视频巨头向基础模型进军的战略野心，更可能重塑内容创作、智能教育乃至工业检测等领域的技术范式，推动多模态交互从“感知智能”向“认知智能”的跨越式演进。 1.3谷歌开源AI Agent框架Gemini CLI 谷歌于2025年6月25日开源的Gemini CLI，标志着AI Agent技术与开发者工作流的深度融合。这一命令行框架将Gemini 2.5

点击免费查看完整报告

AI动态汇总：谷歌推出Gemini Robotics On-Device大模型，快手开源keye-VL多模态模型

你可能感兴趣

AI动态汇总【中邮金工】：谷歌更新Gemini 2.5 Pro，阿里开源Qwen3新模型

乐聚人形机器人实现量产交付，谷歌推出最强多模态模型Gemini

通信行业周报：谷歌推出多模态新模型Gemini，低轨试验卫星发射成功

互联网行业人工智能周报（25年第29周）：谷歌推出Gemini 2.5稳定版，阿里开源Qwen3-Coder模型

【财联社早知道】谷歌Gemini AI新计划曝光，多模态不断突破或推动AI应用打开商业化空间，这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力

传媒行业重大事项点评：Pika1.0实机演示效果惊艳，谷歌大模型Gemini发布，重视多模态AI产业链机会

谷歌GEMINI模型发布，券商称AI进入多模态时代，血制品紧平衡延续，采浆量是决定远期业绩的关键因素-12月7日脱水研报

人工智能周报（25年第26周）：谷歌发布开源 AI智能体 Gemini CLI，MiniMax推出多项新技术及产品

AI动态汇总20250901：苹果推出Xcode26Beta7，英伟达开源Jet-Nemotron高性能语言模型

基础化工行业周报：谷歌推出大模型Gemini，继续看好AI材料