您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中邮证券]:AI动态汇总【中邮金工】:谷歌更新Gemini 2.5 Pro,阿里开源Qwen3新模型 - 发现报告

AI动态汇总【中邮金工】:谷歌更新Gemini 2.5 Pro,阿里开源Qwen3新模型

2025-06-09 肖承志,冯昱文 中邮证券 HEE
报告封面

市场有风险,投资需谨慎研究所分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com近期研究报告《结合基本面和量价特征的 GRU 模型》 - 2025.06.05《Claude 4 系列发布,谷歌上线编程智能体 Jules——AI 动态汇总20250526》 - 2025.05.27《谷歌发布智能体白皮书,Manus 全面开放注册——AI 动态汇总 20250519》- 2025.05.20《证监会修改《重组办法》,深化并购重组改革——微盘股指数周报20250518》 - 2025.05.19《通义千问发布 Qwen-3 模型,DeepSeek 发布数理证明大模型——AI动态汇总 20250505》 - 2025.05.06《基金 Q1 加仓有色汽车传媒,减仓电新食饮通信——公募基金 2025Q1 季报点评》 - 2025.04.30《泛消费打开连板与涨幅高度,ETF 资金平铺机器人、人工智能与芯片——行业轮动周报 20250427》 -2025.04.28《国家队交易特征显著,短期指数仍交易补缺预期,TMT 类题材仍需等待——行业轮动周报 20250420》 -2025.04.21《小市值持续,高低波风格交替——中邮因子周报 20250413》 -2025.04.14《4 月是否还会有“最后一跌”?——微盘股指数周报 20250406》- 2025.04.07 金工周报l谷歌更新 Gemini 2.5 Prol阿里开源 Qwen3 新模型域的重大进展。l英伟达推出 Fast-dLLM 框架l快手开源 Auto Think 大模型"DeepSeek-V3 与 R1 的技术合体"。l风险提示:失效的风险;历史信息不代表未来。 目录1AI 重点要闻 ................................................................................ 41.1谷歌更新 Gemini 2.5 Pro ................................................................ 41.2阿里开源 Qwen3 新模型...................................................................61.3英伟达推出 Fast-dLLM 框架 .............................................................. 81.4快手开源 Auto Think 大模型.............................................................112企业动态..................................................................................122.1Manus 推出文生视频功能 ................................................................ 122.2英伟达推出 ProRL 方法..................................................................143AI 行业洞察 ............................................................................... 163.1Karpathy 教你如何正确使用 ChatGPT......................................................164技术前沿..................................................................................174.1DeepMind: 智能体需要世界模型..........................................................175风险提示..................................................................................19 请务必阅读正文之后的免责条款部分2 图表目录图表 1: Gemini 2.5 Pro TextArena 评分....................................................5图表 2: Gemini 2.5 Pro WebDevArena 评分..................................................5图表 3: Gemini 2.5 Pro 多基准评分 ....................................................... 5图表 4: Gemini 2.5 Pro GPQA 评分.........................................................5图表 5: Qwen3-Embedding&Reranker 系列模型................................................7图表 6: 排序模型评测 .................................................................... 7图表 7: Qwen-3-Embedding 模型 MTEB 评测跑分 ...............................................8图表 8: 分块 KV 缓存(Block-Wise KV Cache)设计 .......................................... 9图表 9: Fast-dLLM 速度提升 27.6 倍 .......................................................10图表 10: Kwaipilot-chat 架构............................................................11图表 11: Kwaipilot-chat 评分............................................................11图表 12: ManusAI 宣布推出文生视频功能...................................................13图表 13: ProRL 方法效果.................................................................15图表 14: ProRL 方法测评.................................................................15图表 15: General agents need world models .............................................. 17图表 16: 研究结果与 RL, IRL 之间关系 .................................................... 18图表 17: 智能体环境系统 ................................................................ 18 请务必阅读正文之后的免责条款部分3 请务必阅读正文之后的免责条款部分1AI 重点要闻1.1谷歌更新 Gemini 2.5 Pro谷歌于 2025 年 6 月 5 日推出的 Gemini 2.5 Pro Preview 06-05 版本是其多模态大语言模型的最新迭代,标志着 AI 领域在编程、推理及多模态能力上的重大突破。此次更新基于 5 月 I/O 大会发布的 05-06 版本进一步优化,核心目标是通过技术升级巩固其在行业中的领先地位,并推动 AI 工具从实验室研究向实际生产力工具的转型。本次更新的首个亮点是技术架构与性能提升,新版本在底层架构上虽未公开细节,但实测表现显示其核心改进集中在三方面:·编程能 力:在 LMArena 编码排行榜以 1470 分(提升 24 分)和WebDevArena 以 1443 分(提升 35 分)实现断层式领先,尤其在 AiderPolyglot 基 准 测 试 中 以 82.2% 通 过 率 超 越 ClaudeOpus 4 和DeepSeek R1。其创新点在于通过单条提示生成完整交互式 Web 应用,例如将 YouTube 视频转化为带 UI 的学习应用,显著降低开发门槛。·推理与学术能力:在 GPQA(科学问答)和 Humanity's Last Exam(HLE)等高难度测试中分别取得 86.4%和 21.6%的准确率,未依赖多数投票策略即实现 SOTA,凸显纯推理能力的提升。·多模态处理:支持百万级 Token 上下文窗口,可解析 1 小时视频或 11小时音频,并在 VideoMME 基准测试中以 84.8%得分实现视频到代码的端到端转换。 4 请务必阅读正文之后的免责条款部分资料来源:LMArena,中邮证券研究所除此之外,本次更新还提升了功能创新与用户体验,谷歌首次引入“思考预算”(Thinking Budgets)功能,允许开发者通过调节 Token 消耗量平衡响应质量与成本,例如设定高预算时模型会进行更深入的逻辑推演。此外,针对用户反馈优化了非编码任务的响应风格,生成内容更具创意且结构清晰,例如自动格式化代码块和学术引用。在定价策略上维持输入 1.25 美元/百万 Token、输出 10 美元/百万 Token 的竞争力,仅为 Claude 4 的四分之一。图表3:Gemini 2.5 Pro 多基准评分资料来源:谷歌,中邮证券研究所 资料来源:LMArena,中邮证券研究所图表4:Gemini 2.5 Pro GPQA 评分资料来源:vellum,中邮证券研究所 5 请务必阅读正文之后的免责条款部分6从行业影响与竞争格局来看,此次更新直接冲击了 OpenAI 的 o3、Anthropic的 Claude 4 等竞品。例如在交通灯模拟编程测试中,Gemini 生成的 Python 代码在物理规律遵循和动画精细度上显著优于 GPT-4.5 和 Claude 3.7。谷歌 CEO 桑达尔·皮查伊强调,模型已通过 Replit 等平台集成,被开发者评价为“与高级工程师协作般的体验”。不过,部分测试显示其在 LiveCodeBench(75.8%)和 MMMU视觉推理(82.9%)上仍略逊于 OpenAI o3,表明多模态细节处理尚有优化空间。谷歌计划在未来几周内将 06-05 版本升级为稳定版(GA),并扩展上下文窗口至 200 万 Token。结合其已在 Vertex AI 和 Google AI Studio 开放的 API 访问,这一版本或将成为企业级 AI 应用的新基准,尤其在教育、自动化开发等领域。正如 DeepMind 首席执行官德米斯·哈萨比斯所言,Gemini 2.5 Pro 的迭代不仅关乎技术竞赛,更重新定义了“人类提出需求,AI 实现创意”的开发范式。1.