AI智能总结
2025 年 3 月 17 日 研究所 金工周报 分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com OpenAI 发布搭建智能体新工具,谷歌发布轻量级模型 Gemma 3——AI 动态汇总 20250317 lOpenAI 发布搭建智能体新工具 3 月 11 日,OpenAI 在其官网发布了新的面向开发者的 AI 工具。此次发布的工具可以帮助开发者在创建 AI 智能体过程中,简化开发流程和增强智能体技能和功能。 近期研究报告 《微盘领涨创下历史新高,4 月临近仍有调整压力——微盘股指数周报20250316》 - 2025.03.17 l谷歌发布轻量级模型 Gemma 3,号称可以在单一 GPU 上运行 谷歌于 3 月 12 日发布开源模型 Gemma 3,该模型基于 Gemini 2.0开发,是轻量级前沿开源模型,有多种尺寸可选,能在多种设备上快速运行,方便开发者创建 AI 应用。 《小市值强势,动量风格依旧——中邮因子周报 20250309》 - 2025.03.10 《泛科技大幅回调,融资资金和 ETF资金逆市流入行业轮动周报20250302》 - 2025.03.03 l最强标准化接口协议 MCP 讨论热度快速提高 随着 Manus 的走红,标准化接口协议 MCP 的讨论度也随之提高,因为其在工具调用、访问外部数据领域只需要一个协议,所以它也被称为 Agent 领域的 Type-C。 《高波不再持续,多数风格切换——中邮因子周报 20250302》–2025.03.03 lOpenAI 使用 CoT 监控推理模型的作弊行为 据 OpenAI 最近研究,研究人员发现推理模型会奖励作弊行为,并针对这一现象提出用思维链(CoT)监测来检测模型的不良行为,但发现对 CoT 施加优化压力可能导致模型变得更“狡猾”。 《3 月胜率最高的策略:多微盘空1000——微盘股指数周报 20250302》– 2025.03.02 l风险提示: 《Deepseek 背景综述及在金融领域应用场景初探》 - 2025.02.26 本报告所有信息基于网络内容整理,不构成投资建议。 《扩散指数有高位回调风险——微盘股指数周报 20250216》- 2025.02.17 《基本面回撤,高波风格持续——中邮因子周报 20250209》- 2025.02.10 《各资金持续流入机器人,短期注意回调风险,行业轮动开始超配成长——行业轮动周报 20250209》 -2025.02.10 《全面牛市正在到来,微盘有望修复前高——微盘股指数周报 20250209》- 2025.02.10 《基本面表现强势,风格切换加速——中邮因子周报 20250126》 -2025.01.27 《节前融资资金大幅净流出,ETF 资金聚焦机器人以及红利——行业轮动周报 20250126》 - 2025.01.26 目录 1AI 重点要闻 ................................................................................ 41.1OpenAI 发布搭建智能体新工具 ............................................................ 41.2谷歌发布轻量级模型 Gemma 3,号称可以在单一 GPU 上运行 ................................... 51.3最强标准化接口协议 MCP 讨论热度快速提高.................................................61.4OpenAI 使用 CoT 监控推理模型的作弊行为 .................................................. 82企业动态..................................................................................102.1华为联合北京大学发布全栈开源 DeepSeek 推理方案.........................................102.2OpenAI 发布 CoT 最新研究成果,检测前沿推理模型中的不当行为 ............................. 112.3Manus 与阿里通义千问团队达成战略合作..................................................123AI 行业洞察 ............................................................................... 133.1开发 AI 编译器 Cursor 的独角兽公司 Anysphere 拟以 100 亿美元估值融资 .................... 133.2哥伦比亚大学:AI 搜索工具平均准确率仅六成.............................................144技术前沿..................................................................................154.1通过反复实验测试大模型智力,AGI 恐还需 70 年 ........................................... 154.2阿里开源 R1-Omni:多模态模型 + RLVR ................................................... 164.3CoD:草稿链,极大降低成本.............................................................175风险提示..................................................................................18 图表目录 图表 1: Reponses API .................................................................... 4图表 2: Computer Use Tool ............................................................... 5图表 3: Gemma 3 评测对比.................................................................6图表 4: MCP ............................................................................. 7图表 5: MCP vs. API ..................................................................... 7图表 6: 监控前沿模型奖励作弊行为 ........................................................ 9图表 7: 对抗 CoT 检测器下的优化 .......................................................... 9图表 8: 推理方案架构 ................................................................... 11图表 9: CoT 监控........................................................................12图表 10: Manus 官宣与阿里通义千问合作...................................................13图表 11: AI 搜索工具准确率..............................................................15图表 12: Evaluating Intelligence via Trial and Error ................................... 15图表 13: 达到 AGI 需要难以想象的参数量 .................................................. 16图表 14: R1-Omni ....................................................................... 17图表 15: R1-Omni 对比实验...............................................................17图表 16: CoD 对比.......................................................................18 1AI 重点要闻 1.1OpenAI 发布搭建智能体新工具 3 月 11 日,OpenAI 在其官网发布了新的面向开发者的 AI 工具。此次发布的工具可以帮助开发者在创建 AI 智能体过程中,简化开发流程和增强智能体技能和功能。 本次主要发布了以下工具: ·Responses API 该 API 结合了聊天功能与集成工具(如网页搜索和文件搜索),基于ChatGPT 搜索模型,提供实时信息并附带引用来源,为开发者提供了更灵活的开发基础。 资料来源:OpenAI,中邮证券研究所 ·计算机使用工具(Computer Use Tool) 通过 Operator 功能,让 AI 能够在计算机上直接执行任务。 ·Agents SDK 一个用于协调涉及多个智能体的复杂工作流程的开源框架。该 SDK源自其实验性项目 Swarm,具备智能体交接、安全护栏和全面的调试追踪功能。该 SDK 支持从大量文档中高效检索信息,新增元数据过滤和直接搜索端点访问功能。 1.2谷歌发布轻量级模型 Gemma 3,号称可以在单一 GPU 上运行 谷歌于 3 月 12 日发布开源模型 Gemma 3,该模型基于 Gemini 2.0 开发,是轻量级前沿开源模型,有多种尺寸可选,能在多种设备上快速运行,方便开发者创建 AI 应用。 模型能力方面,Gemma 3 在性能上超越 Llama3 - 405B 等模型;支持 140 种语言;具备先进的文本和视觉推理能力;拥有 128k-token 的上下文窗口;支持函数调用和结构化输出;推出量化版本,减小模型大小并降低计算需求。 资料来源:Google,中邮证券研究所 在安全方面,Gemma 3 开发过程包含数据治理、微调以符合安全政策和基准评估。同时推出 ShieldGemma 2 用于图像安全检查,可输出危险内容、性暗示和暴力等三类安全标签。与此同时,Gemma 3 能与多种开发工具集成,如 HuggingFace Transformers 等;在 Google AI Studio 可直接试用和获取 API 密钥;可从 Hugging Face 等平台下载模型进行定制;有多种部署选项,在 NVIDIA、Google Cl