市场有风险,投资需谨慎研究所分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com近期研究报告《证监会修改《重组办法》,深化并购重组改革——微盘股指数周报20250518》 - 2025.05.19《通义千问发布 Qwen-3 模型,DeepSeek 发布数理证明大模型——AI动态汇总 20250505》 - 2025.05.06《基金 Q1 加仓有色汽车传媒,减仓电新食饮通信——公募基金 2025Q1 季报点评》 - 2025.04.30《泛消费打开连板与涨幅高度,ETF 资金平铺机器人、人工智能与芯片——行业轮动周报 20250427》 -2025.04.28《国家队交易特征显著,短期指数仍交易补缺预期,TMT 类题材仍需等待——行业轮动周报 20250420》 -2025.04.21《小市值持续,高低波风格交替——中邮因子周报 20250413》 -2025.04.14《4 月是否还会有“最后一跌”?——微盘股指数周报 20250406》- 2025.04.07《“924”以来融资资金防守后均见到行情低点,仍关注科技配置机会——行业轮动周报 20250330》 -2025.03.31《英伟达召开 GTC 2025 大会,Skywork-R1V、混元 T1 等推理模型接连上线——AI 动态汇总 20250324》 -2025.03.25《反转效应强势,GRU 模型新高——中邮因子周报 20250323》 - 2025.03.24 金工周报AI 动态汇总 20250519l谷歌发布智能体白皮书lManus 全面开放注册型的外部工具使用能力。l风险提示:失效的风险;历史信息不代表未来。 目录1AI 重点要闻 ................................................................................ 41.1谷歌发布智能体白皮书...................................................................41.2Manus 全面开放注册 ..................................................................... 71.3AI Ascent 2025: AI 的市场机遇是云计算的 10 倍 ........................................... 81.4英伟达发布新 RL 范式,重塑大模型外部工具能力...........................................112企业动态..................................................................................132.1谷歌 DeepMind 发布 AlphaEvolve ......................................................... 132.2阿里开源视频生成与编辑模型通义万相 Wan2.1-VACE ........................................ 143AI 行业洞察 ............................................................................... 143.1GPT-5 研发信息首次曝光 ................................................................ 144技术前沿..................................................................................174.1Meta 推出 CATransformers 框架,减少训练过程碳排放 ...................................... 175风险提示..................................................................................20 请务必阅读正文之后的免责条款部分2 图表目录图表 1: DepOps,MLOps,AgentOps 之间的关系.................................................5图表 2: 智能体运维的三元关系 ............................................................ 5图表 3: 智能体指标监控样例 .............................................................. 6图表 4: AgentBench 架构..................................................................6图表 5: LangSmith 轨迹评估架构...........................................................6图表 6: 多智能体调用流程示意图 .......................................................... 6图表 7: Manus 宣布全面开放注册...........................................................8图表 8: Manus 付费订阅计划...............................................................8图表 9: AI 进程..........................................................................9图表 10: AI 领域杀手级应用..............................................................10图表 11: 智能体将发展成真正强大的系统 .................................................. 10图表 12: Tool-N1 训练流程...............................................................12图表 13: Tool-N1 思考模板...............................................................12图表 14: 模型表现 ...................................................................... 12图表 15: AlphaEvolve 概览...............................................................13图表 16: AlphaEvolve 探索流程图 .........................................................13图表 17: CATransformers ................................................................ 17图表 18: CATransformers 框架概览 ....................................................... 17图表 19: 模型剪枝策略 .................................................................. 19图表 20: CarbonCLIP 模型性能 ........................................................... 19 请务必阅读正文之后的免责条款部分3 请务必阅读正文之后的免责条款部分1AI 重点要闻1.1谷歌发布智能体白皮书谷歌近日发布《智能体技术白皮书》,系统阐述了生成式 AI 智能体的技术架构、核心能力及行业应用前景。这份 76 页的文件标志着 AI 技术从“被动响应”向“主动决策”的范式转变,为开发者与企业提供了构建下一代智能系统的行动指南。其中,白皮书提出智能体的三大核心组件:模型(Model)、工具(Tool)与编排层(Orchestration)。模型作为决策中枢,通过 React、CoT 等推理框架调用工具;工具层通过扩展(Extensions)、函数(Functions)与数据存储(DataStores)三类设计连接外部系统,例如调用航班 API 实时查询数据,或通过向量数据库增强模型时效性;编排层则管理“观察-推理-行动”循环,支持多工具协作与异常处理。这种解耦设计实现了工具生态的灵活扩展,开发者可在函数调用的安全性与扩展的易用性之间权衡。白皮书阐述了智能体运维(AgentOps)、机器学习运维(MLOps)、AI 运维(AIOps)开发运维(DevOps)之间的关系,并强调智能体运维是将生成式 AI 应用于实际业务中的关键。开发运维(DevOps)是整个技术运营体系的基石。模型应用开发在一定程度上继承了 DevOps 的理念和方法,机器学习运维(MLOps)则是在 DevOps 的基础上,针对模型的特点发展而来的。而所有的运维工作都遵循着相同的理念,AgentOps 中也会遵循这些原则,并且开发运维和机器学习运维中的优秀实践经验也会应用在智能体运维中,它们是 AgentOps 顺利运行的基础。 4 资料来源:谷歌,中邮证券研究所除此之外,白皮书还深入探讨了智能体的评估方法。大多数智能体都是围绕完成特定目标设计的,目标完成率是一个关键指标。一个大目标往往可以细分成几个关键任务,或者涉及一些关键的用户交互环节。这些关键任务和交互都应单独监测和评估。每个业务指标、目标,或者关键交互数据,都会按照常见的方式进行汇总统计,比如计算尝试次数、成功次数、成功率等。另外,从应用程序遥测系统获取的指标,像延迟、错误率等,对智能体也非常重要。监测这些高级指标,是了解智能体运行状况的重要手段。在评估特定的智能体应用场景之前,可以先参考一些公开的基准测试和技术报告。对很多基本能力,像模型性能、是否会产生幻觉、工具调用和规划能力等,都有公开的基准测试。例如,伯克利函数调用排行榜(BFCL)和 τ-bench 等基准测试,就能展示智能体的工具调用能力。PlanBench 基准测试,则专注于评估多个领域的规划和推理能力。工具调用和规划只是智能体能力的一部分。智能体行为,会受到它所使用的 LLM 和其他组件的影响。智能体和用户的交互方式,在传统的对话设计系统和工作流系统中也有迹可循,可以借鉴这些系统的评估指标和方法,来衡量智能体的表现。AgentBench 这样的综合智能体基准测试,会在多种场景下对智能体进行全面评估,测试从输入到输出的整体性能。 请务必阅读正文之后的免责条款部分资料来源:谷歌,中邮证券研究所 5 资料来源:谷歌,中邮证券研究所在评估智能体的能力的基础之上,还要评估智能体行动轨迹和工具使用,因为对比智能体实际采取的行动轨迹和预期的行动轨迹,非常有助于发现问题。除此之外,白皮书