OpenAI发布o3和o4-mini,强化学习Scale继续。4月16日,OpenAI发布了两款突破性的模型:o3和o4-mini,它们能通过图像进行推理,并可自主调用多种工具。o3是OpenAI最强大的推理模型,在包括Codeforces、SWE-bench和MMMU在内的基准测试中设定了新的SOTA。在困难的现实任务中比o1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。o4-mini是一种较小的模型,针对快速、经济高效的推理进行了优化。o3和o4-mini通常比其前辈OpenAIo1和o3-mini更智能、更经济。在o3的开发过程中,OpenAI观察到大规模强化学习呈现出与预训练中相同的“计算量越大,性能越好”的趋势。 同时模型的性能也会随着思考时间的增加而持续提升。 o3与o4mini展现强大视觉推理与工具使用能力。1)视觉推理:o3和o4 mini模型首次能够将图像直接整合到它们的思维链中。模型可以动态操作图像,在推理过程中进行旋转、缩放或变换。视觉推理能力还能和Python数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户多模态Agent体验。2)工具使用:o3和o4-mini可以完全访问ChatGPT中的工具,并通过API中的函数调用访问用户自己的自定义工具。这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以正确的输出格式在通常不到一分钟快速生成详细而周到的答案。模型能够处理需要访问最新信息的任务,超出模型的内置知识、扩展推理、综合和跨模态的输出生成。OpenAI还发布了Codex CLI,一个可以从终端运行的轻量级编码Agent。 MCP影响力扩大,Agent生态构建加速。MCP(模型上下文协议)是一种由Anthropic开源的协议,旨在标准化如何为大模型提供上下文。可以将MCP想象成AIAgent的USB-C接口:为大模型提供了一种连接到各种工具和数据源的统一方法。MCP旨在替换碎片化的Agent代码集成,从而使AI系统更可靠,更有效。通过建立通用标准,服务商可以基于协议来推出它们自己服务的AI能力,从而支持开发者更快的构建更强大的AI应用。开发者也不需要重复造轮子,通过开源项目可以建立强大的AIAgent生态。MCP最早由Anthropic开源,目前已有越来越多公司和开发人员正在加入MCP协议,如谷歌、OpenAI、腾讯、阿里。我们认为MCP协议影响力的扩散有助于降低各领域Agent开发难度,加速AI应用落地。 建议关注: IAAS:寒武纪、海光信息、阿里巴巴、奥飞数据、科华数据、海南华铁、云赛智联、潍柴重机、玉柴国际、弘信电子、协创数据、圣阳股份、润建股份、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份、华策影视、顺网科技、恒为科技、网宿科技、朗科科技等。 垃圾发电:旺能环境、盈峰环境、瀚蓝环境、军信股份等。 SAAS:金山办公、用友网络、金蝶国际、泛微网络、鼎捷数智、宇信科技、京北方、致远互联、金桥信息、汉得信息、朗新集团、上海钢联、新致软件、同花顺、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、软通动力、光云科技、科大讯飞、万兴科技、海天信息、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。 互联网大厂AI链:寒武纪、恒玄科技、孩子王、天键股份、润欣科技、实丰文化、乐鑫科技、萤石网络、中芯国际、润泽科技、欧陆通、华懋科技、浪潮信息、中兴通讯、中科曙光、兆易创新、国光电器、法本信息、亚康股份、申菱环境、兆龙互连等。 军工AI:能科科技、品高股份、普天科技、海格通信等。 脑机接口:诚益通、倍轻松、三博脑科等。 风险提示:AI技术迭代不及预期风险、宏观经济风险、行业竞争加剧风险。 一、OpenAI发布o3和o4-mini,强化学习Scale继续 4月16日,OpenAI发布了两款突破性的模型:o3和o4-mini,它们能通过图像进行推理,并可自主调用多种工具,是OpenAI迄今为止发布的最智能的模型,代表着ChatGPT能力的一次飞跃。 模型首次能够智能地使用和组合ChatGPT中的所有工具——包括搜索网页、使用 Python分析上传的文件和其他数据、对视觉输入进行深度推理,甚至生成图像。至关重要的是,这些模型经过训练,能够推理何时以及如何使用工具,以正确的输出格式生成详细而周到的答案(通常在一分钟内完成),从而解决更复杂的问题。这使得它们能够更有效地处理多方面的问题,朝着更具智能性的ChatGPT迈进了一步,它可以独立地代表用户执行任务。最先进的推理能力与完全的工具访问权限相结合,在学术基准测试和实际任务中显著提升了性能,在智能性和实用性方面树立了新的标杆。 o3是OpenAI最强大的推理模型,在包括Codeforces、SWE-bench(无需构建自定义模型特定支架)和MMMU在内的基准测试中设定了新的SOTA。它非常适合需要多方面分析且答案可能不是立即显而易见的复杂查询。它在分析图像、图表和图形等视觉任务中表现尤为出色。在外部专家的评估中,o3在困难的现实任务中比OpenAI o1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。早期测试人员强调了其作为思想伙伴的分析严谨性,并强调了其生成和批判性评估新假设的能力,尤其是在生物学、数学和工程学领域。 o4-mini是一种较小的模型,针对快速、经济高效的推理进行了优化,在其尺寸和成本方面实现了卓越的性能,特别是在数学、编码和视觉任务方面。在专家评估中,o4-mini在非STEM任务以及数据科学等领域的表现均优于其前身o3-mini。 外部专家评估人员认为,得益于智能化的提升和对网络资源的整合,这两种模型都比前代产品展现出更佳的指令遵循能力,并提供了更有用、更可验证的响应。与之前的推理模型迭代相比,这两个模型也应该会更加自然、更具对话性,尤其是在它们参考记忆和过往对话,使响应更具个性化和相关性的情况下。 成本与性能优化:o3和o4-mini通常比其前辈OpenAIo1和o3-mini更智能、更经济。 例如,在2025年AIME数学竞赛中,o3和o4-mini分别比o1和o3-mini性价比更高。 图表1:o3-mini和o4-mini在AIME和GPQA基准上的成本与性能对比 图表2:o1和o3在AIME和GPQA基准上的成本与性能对比 强化学习能力持续扩展: 在o3的整个开发过程中,OpenAI观察到大规模强化学习呈现出与GPT系列预训练中相同的“计算量越大,性能越好”的趋势。同时,模型的性能会随着思考时间的增加而持续提 升。 在延迟和成本与OpenAI o1相同的条件下,o3在ChatGPT中提供了更高的性能,而且如果 让模型思考更长时间,它的性能还会持续提升。 OpenAI还通过强化学习训练了这两个模型使用工具,不仅教会它们如何使用工具,还教会它们推理何时使用工具。它们能够根据期望结果部署工具,这使得它们在开放式情境中表现更佳,尤其是在涉及视觉推理和多步骤工作流程的情况下。 目前ChatGPT Plus、Pro和Team用户已经可以开始在模型选择器中看到o3、o4-mini和o4-mini-high,同时OpenAI预计将在几周内发布o3-pro,并提供全面的工具支持。 二、o3与o4 mini展现强大视觉推理与工具使用能力 o3和o4 mini模型首次能够将图像直接整合到它们的思维链中。它们不仅仅是看到图像,还能用它来思考。这开启了一种融合视觉和文本推理的全新问题解决方式,这体现在它们在多模态基准测试中展现出的顶尖性能上。 人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、反转或质量低下,模型也能对其进行解读。借助工具,模型可以动态操作图像,在推理过程中进行旋转、缩放或变换。 这些模型在视觉感知任务上实现了一流的准确率,使其能够解决以前无法解决的问题。 图表3:OpenAI模型分析图像案例 视觉推理能力还能和Python数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户多模态Agent体验。 图表4:视觉推理和python结合解决迷宫问题 OpenAI o3和o4-mini可以完全访问ChatGPT中的工具,并通过API中的函数调用访问用户自己的自定义工具。这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以正确的输出格式在通常不到一分钟快速生成详细而周到的答案。 例如,用户可能会问:“加州夏季的能源使用量与去年相比如何?”模型可以搜索网络公共事业数据,编写Python代码进行预测,生成图表或图像,并解释预测背后的关键因素,并将多个工具调用串联起来。推理功能使模型能够根据遇到的信息做出反应和调整。 例如,它们可以借助搜索引擎多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。 这种灵活的战略方法使模型能够处理需要访问最新信息的任务,超出模型的内置知识、扩展推理、综合和跨模态的输出生成。 图表5:o3和o1工具使用能力对比:数学 图表6:o3和o1工具使用能力对比:商业 图表7:o3和o1工具使用能力对比:科学 图表8:o3和o1工具使用能力对比:体育 图表9:o3和o1工具使用能力对比:视觉推理 OpenAI还发布了一个新实验项目:Codex CLI。一个可以从终端运行的轻量级编码Agent,旨在最大限度地发挥o3和o4-mini等模型的推理能力,并即将支持GPT-4.1等更多API模型。用户可以通过将屏幕截图或低保真草图传递给模型,并在本地访问代码,从而从命令行体验多模态推理。 三、MCP影响力扩大,Agent生态构建加速 MCP(模型上下文协议)是一种开源协议,旨在标准化如何为大模型提供上下文。可以将MCP想象成AIAgent的USB-C接口:为大模型提供了一种连接到各种工具和数据源的统一方法。 传统上将AI统连接到外部工具涉及集成多个API。每个API集成都意味着单独的代码、文档、身份验证方法、错误处理和维护。MCP旨在替换碎片化的Agent代码集成,从而使AI系统更可靠,更有效。通过建立通用标准,服务商可以基于协议来推出它们自己服务的AI能力,从而支持开发者更快的构建更强大的AI应用。开发者也不需要重复造轮子,通过开源项目可以建立强大的AIAgent生态。 MCP的架构主要包括以下几部分: MCP主机:这些是需要访问外部数据或工具的应用程序(例如Claude Desktop或AI驱动的IDE); MCP客户端:它们与MCP服务器保持专用的一对一连接; MCP服务器:轻量级服务器通过MCP公开特定功能,连接到本地或远程数据源; 本地数据源:MCP服务器安全访问的文件、数据库或服务; 远程服务:基于互联网的API或MCP服务器访问的服务。 图表10:MCP架构示意图 MCP最早由Anthropic开源,目前已有越来越多的公司和开发人员正在加入,可能成为未来AI工具交互的新标准。 图表11:加入MCP标准的科技巨头 我们认为,MCP协议影响力的扩散有助于降低各领域Agent开发难度,加速AI应用落地。 四、建议关注 IAAS:寒武纪、海光信息、阿里巴巴、奥飞数据、科华数据、海南华铁、云赛智联、潍柴重机、玉柴国际、弘信电子、协创数据、圣阳股份、润建股份、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份、华策影视、顺网科技、恒为科技、网宿科技、朗科科技等。 垃圾发电:旺能环境、盈峰环境、瀚蓝环境、军信股份等。 SAAS:金山办公、用友网络、金蝶国际、泛微网络、鼎捷数智