您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东吴证券]:AI Agent深度(二):2025 Agent元年,AI从L2向L3发展 - 发现报告

AI Agent深度(二):2025 Agent元年,AI从L2向L3发展

信息技术2025-05-04张良卫、周良玖、张文雨东吴证券W***
AI智能总结
查看更多
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展

证券分析师:周良玖执业证书编号:S0600517110002联系邮箱:zhoulj@dwzq.com.cn 证券分析师:张良卫执业证书编号:S0600516070001联系邮箱:zhanglw@dwzq.com.cn 研究助理:张文雨执业证书编号:S0600123070071联系邮箱:zhangwy@dwzq.com.cn 2025年5月4日 核心观点 1.我们认为2025年是Agent元年:AI正从L2(推理者)向L3(Agent/智能体)进化,标志着AI从“思考”走向“行动”。这一转变由四大驱动力促成:①技术成熟度达到临界点:强大的多模态基础模型(能理解视觉信息如GUI界面)和成熟的强化学习训练方法已准备就绪。②标杆产品的出现:行业领导者(如OpenAI, Google, Anthropic)推出了关键产品(如Operator,DeepResearch),基准测试(如RE-Bench)显示顶尖Agent在特定任务上的效率已可匹敌甚至超越人类专家。③MCP协议的普及将促进Agent生态的互联互通。④市场需求驱动:经历了大模型能力竞赛(2023年)和初步应用探索(2024年)后,市场(尤其是B端)迫切需要AI能够落地解决复杂业务问题、自动化多步骤流程,并带来显著的生产力提升,Agent的出现恰好满足了这一需求。 2.为什么要关注Agent?我们认为其重要性在于:①深度自动化:Agent具有深度自动化、指数级效率提升和成本优化潜力,将人类从重复性劳动中解放出来,聚焦更高价值的创造性工作。②通往AGI:Agent(L3)是通往通用人工智能(AGI)和具身智能的关键环节。③重塑互联网入口:Agent可能改变用户获取信息和完成任务的方式,挑战传统搜索引擎,并可能使操作系统、浏览器或“超级App”成为新的核心入口。我们预计入口级通用Agent的竞争将在2025年下半年开启。 3.Agent的竞争格局是“巨头环伺,新锐突破”:①巨头环伺:大型科技平台(OpenAI, Google,微软;国内BAT、字节、华为等)凭借模型、数据、算力、生态优势主导通用Agent和平台生态的构建。②垂直机会:垂直领域凭借深度领域知识和工作流整合仍有创新机会,但长期面临通用Agent能力提升的威胁。初期AI应用价值高度依赖模型能力,但简单的“浅层套壳”产品(即Wrapper)缺乏壁垒,易被颠覆。真正的护城河在于复杂工作流的可靠编排、高质量工具集成能力和深度领域知识。 4.投资建议:①重视Agent投资窗口:2025年是布局Agent领域的重要窗口期,需密切跟踪基础模型(尤其多模态、推理、规划)、强化学习、工具调用可靠性、推理成本优化以及标准化协议(如MCP)的进展。②长期配置平台巨头:拥有强大基础大模型、算力、数据和生态系统的大型科技平台公司是Agent时代的核心受益者,最有可能主导通用Agent的发展,并能整合或取代单一功能应用,具备长期配置价值。例如海外的Google、微软,以及与OpenAI、Anthropic深度绑定的公司;国内的阿里、腾讯、字节(未上市)。③关注垂直领域领跑者:在通用Agent能力尚未完全成熟之前,那些在特定垂直赛道已经建立深厚领域知识壁垒、拥有清晰商业模式和客户基础的垂直Agent提供商具有较高的短期增长潜力。我们认为知识工作领域(如编程、研究、法律)将是最先落地的场景,其中,编程领域会是最快落地、最先实现PMF和商业化的领域,已有成功案例(如Cursor、Devin)。其他垂直应用也值得关注:我们总结了30家上市公司在垂类Agent方面的布局,其产品基本符合Agent定义且具有垂直领域的比较优势。例如出版校对(果麦文化)、电商外贸(焦点科技)、企业服务(创业黑马)、美学设计(美图公司)等。建议关注其利用AI Agent解决具体行业痛点的能力和商业化进展。 5.风险提示:技术成熟度风险,高成本风险,商业模式不确定性风险,竞争加剧风险。 目录 一、为什么说2025年是Agent元年?AI从L2向L3进化 驱动力:技术成熟度达到临界点;行业领导者推动,标杆产品验证;市场需求驱动定义:不是所有的AI模型/产品都叫Agent;Agent的四个必要构成(缺一不可);Agent的智能程度是有层次和梯度的 二、Agent为何重要?深度自动化、指数级效率提升、解放人类生产力与创造力 通往AGI和具身智能的关键环节重塑互联网流量入口格局预计入口级Agent大战将于25H2开启 三、竞争格局:模型即产品,通用Agent将由大厂主导Agent领域的竞争维度 模型即产品:爆款应用背后是模型能力更新、浅层套壳产品终将被颠覆Big Giants:角逐AGI、通用Agent和流量入口Niche market:垂直Agent长期面临通用Agent的威胁、垂直Agent的价值在于深耕领域知识、谈谈Cursor的壁垒 四、Agent将最先落地于知识工作(尤其是代码)Agent最先落地的行业和场景预测代码/软件开发领域的进展与观点法律AI Agent对比 五、投资建议 六、风险提示 一、为什么说2025年是Agent元年? 我们认为2025年将是Agent之年 OpenAI将AI发展阶段分为L1到L5五个阶段。我们认为,AI正从L2(推理者)向L3(Agent)进化,Agent代表了AI从“思考”走向“行动”的关键一步,是继大模型之后的下一个重要发展阶段和业界寻求的新突破口。驱动力来自:技术、产品、需求。 L1-聊天机器人(Chatbot):以ChatGPT(2022年底发布)为代表,具备自然语言交互能力。机器直接输出文字或回答。相较于机器学习时代,AIChatbot实现了“通用性”,不再局限于特定场景或单一问题,而是能处理广泛的语言任务。这是从基于规则、机器学习、神经网络、Transformer架构一路发展过来的通用大模型阶段。在这一阶段,交互模式是主要是输入-输出模式,用户提问,模型回答。 L2-推理者(Reasoner):具备更强的推理能力,能够处理更复杂的问题。用户能看见模型的推理过程。代表产品如OpenAI的o1系列、DeepSeekR1。相较于L1阶段,引入了强化学习和思维链(CoT)技术,模型在输出最终答案前会进行多步思考。 L3-智能体(Agent):能够自主规划和执行复杂任务的智能体。具备记忆、规划、工具使用和行为记忆四大核心能力。相较于L2阶段,AI从被动的“信息处理/推理”走向主动的“与外部世界交互和执行”。能调用工具(如浏览器、API)、操作软件界面,形成“指令->思考->交互->观察->再思考...”的闭环系统。 Why Now?——技术成熟度达到临界点 驱动力一:技术成熟度达到临界点。支撑通用Agent发展的关键技术要素,特别是强大的多模态基础模型(能理解视觉信息如屏幕内容)和成熟的强化学习训练方法(能训练Agent与环境交互),已经发展到相对成熟的阶段。 ➢从L0到L1:标志GPT-3、ChatGPT(2022年底)为标志。背后的技术驱动力是Transformer架构的出现,使得训练更大、更通用的语言模型成为可能。在这一阶段,实现了“通用性”(Generality),模型不再局限于特定场景,而是能够处理广泛的自然语言任务,像一个巨大的知识库。 Why Now?——技术成熟度达到临界点 ➢从L1到L2:L1到L2的技术演进,核心在于大模型基础上的推理能力突破,涉及多步推理训练、检索增强、逻辑融合等关键技术,使AI从“会说”进化到“会想”,实现更高层次的智能。从L1到L2的跃迁,是AI从“语言表达”到“认知推理”的质变,这为AI在科学发现、复杂决策、自动规划等高价值场景的应用奠定了基础。技术突破包括: ➢多步推理训练:通过链式思维(Chain-of-Thought,CoT)等方法,训练模型在给出答案前进行多轮、分步骤的推理。 ➢检索增强生成(RAG):结合外部知识库,提升模型的事实一致性和推理深度,减少“幻觉”。 ➢更高质量的数据与反馈机制:采用专家数据、复杂问题集和强化学习等方式,持续优化模型的推理表现 Why Now?——技术成熟度达到临界点 ➢从L2到L3:关键的技术要素(强大的多模态基础模型和成熟的强化学习训练方法)已经趋于成熟,达到了可以支撑通用Agent发展的阶段。OpenAI在2025年1月发布Operator,更是印证和点燃了这一行业共识。具体来说,关键的成熟要素包括: •强大的基础模型:像Claude Sonnet 3.5这样强大的、原生的多模态基础模型已经出现。这些模型具备了足够好的视觉理解、语言理解和基础推理能力,能够“看懂”图形界面(如网页、操作系统界面),这是构建基于GUI(图形用户界面)的Agent的前提。而在过去(例如OpenAI在2016年尝试类似项目时),缺乏这样强大的基础模型是导致失败的关键原因。 •成熟的强化学习技术与框架:以强化学习为核心的Post-training技术在2024年通过O1、O3等模型在纯文本领域被证明是极其有效的,能够显著激发和提升基础模型的深层推理和规划能力。行业将这种成功的范式应用到多模态领域,以训练出能够与环境交互、执行任务的Agent。 Why Now?——行业领导者推动,标杆产品验证 驱动力二:行业领导者推动,标杆产品验证。OpenAI、Anthropic、Google等头部公司发布关键产品(如Operator,DeepResearch)和技术协议(如MCP),并投入研发,起到了引领和示范作用。相对成型的Agent产品开始涌现(例如Manus、AutoGLM、Genspark等),验证了技术可行性,并点燃了行业共识,标志着Agent从设想走向相对成熟的产品阶段。 Why Now?——行业领导者推动,标杆产品验证 2024年的RE-Bench基准测试显示:在2小时短时限内,顶尖AI Agent得分是人类专家的4倍;但将时间放宽到32小时,人类表现则反超部分Agent。这表明Agent在特定任务上已能匹敌人类专家,且更快、更经济,但人类在长时策略上仍有优势。 Why Now?——MCP的普及助推Agent互联互通 在MCP出现之前,Agent想利用外部工具或数据源(例如调用一个API、查询数据库、读取Slack消息、操作某个软件),面临着巨大挑战:接口各异、定制开发成本高、生态割裂。 MCP的普及有助于推动Agent行业互联互通。MCP(Model Context Protocol,模型上下文协议),是由Anthropic提出的一个开放协议,旨在统一大型语言模型(LLM)/Agent与外部工具、数据源之间的通信方式。MCP通过提供一个开放、统一的通信标准,可以解决Agent与外部世界交互的碎片化和高成本问题。它的普及将极大地降低集成门槛,增强不同模型、Agent和工具间的互操作性,催生出一个更加繁荣、开放和互联互通的Agent生态系统,最终赋能更强大、更通用的AI Agent应用。 在MCP出现之前agent的挑战 MCP的普及有助于促进互联互通 ①建立“通用语言”:MCP提供了一套标准化的规则和格式,定义了Agent(通过MCP Client)如何向工具(MCP Server)发出请求、传递参数,以及工具如何返回结果。这就像为AI Agent和外部工具之间建立了一种通用的“交流语言”。 ①接口各异:每个工具、每个数据源都有自己独特的API接口或交互方式。 ②定制开发成本高:Agent开发者需要为每一个想要连接的工具编写特定的适配代码,以理解该工具的输入输出格式和调用逻辑。同样,工具开发者如果想让自己的服务被不同的Agent调用,也可能需要适配多种不同的Agent框架。 ②降低开发与集成复杂度:Agent开发者不再需要为每个工具编写定制化的适配器。只需要让Agent支持MCP协议,理论上就能与任何同样支持MCP的工具进行交互。工具/数据源提供者只需将自己的服务通过一