您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [国投证券]:Agent初具技术雏形,重点关注三大演化方向 - 发现报告

Agent初具技术雏形,重点关注三大演化方向

文化传媒 2025-05-20 - 国投证券 大王雪
报告封面

行业分析 2025年05月20日传媒 证券研究报告 Agent初具技术雏形,重点关注三大演化方向 投资评级领先大市-A维持评级 AGI正迈向自主行动阶段,指向Agent、具身智能。人工智能技术经过几轮迭代,已经基本迈过“感知-思考”的应用临界点,正在逐步实现“自主行动”的发展阶段,根据应用场景划分为Agent、具身智能两个大方向。我们曾以人形机器人为切入点探讨过具身智能相关的技术原理、发展路径、主要参与者等,本篇将聚焦于Agent方向,梳理其技术构成、演进阶段等。 首选股票目标价(元)评级 2023年至今国内外模型迭代速度非常快,推动了Agent产品感知、规划、记忆能力提升:1)GPT4、4o模型从单一文本走向多模态,模型感知能力更全面;2)o1通过后训练增强推理能力,模型推理能力实现突破;3)上下文窗口扩展至100万token,模型记忆能力提升,将更了解用户;4)模型使用成本大幅下降,试错成本下降,2025年DeepSeek模型的报价为0.25-0.5元/百万token,约为GPT-4o的1/7。 使用工具的能力是LLM模型与Agent的最大区别,MCP协议有望推动Agent工具生态建立:围绕如何调用工具、交互更加高效为主线,科技大厂先后探索出多种调用工具方式,其中以插件(plugin)、函数调用(FunctionCalling)、模拟人机交互(Computer use)三种方式最引人关注。2024年Anthropic推出开放协议MCP,屏蔽了不同模式工具与模型通信时的差异,统一由MCP协议转换对接,实现了一次开发、多场景复用的目的,能有效节省研发资源,降低边际开发成本,受到工具、模型及云厂商的广泛认可。 焦娟分析师SAC执业证书编号:S1450516120001jiaojuan@essence.com.cn 王利慧分析师SAC执业证书编号:S1450523120002wanglh3@essence.com.cn 相关报告 当前处于workflow到Agent的过渡期,类比自动驾驶规则驱动阶段。考虑到当前模型能力有限、业务场景对可控性要求较高,当前许多产品本质上为AIWorkflow,即按照预先定义好的代码路径,协调大模型和各种工具的系统,用于保证交付结果的稳定性。参考自动驾驶方案,我们认为当前可类比于自动驾驶的规则驱动阶段,我们预计真正Agent将实现从被动响应到主动执行的跃迁,进入到模型驱动阶段,进一步地也有望走入感知、决策规划、执行三位一体的端到端模型。 AItoC四个方向:硬件入口、现象级应用、爆款内容、IP运营系列03:AI对教育培训影响的6层次分析2025-04-17AI to C四个方向:硬件入口、现象级应用、爆款内容、IP运营系列02:传媒互联网视角下,内容产业的AI新叙事2025-03-31AI Agent本质为“执行”功能,关注其与终端结合的应用落地——AI专题报告之192024-11-05AI新标的,助力并购行情的“形势使然”还是“趋势使2024-11-04 Agent产品还在早期探索阶段,若以前瞻视角讨论商业化,我们认为产业链中以下几条主线值得重点关注:1)模型开源与闭源之争,对大模型厂商商业化能力最为关键;2)科技大厂争先下场,争夺产业链潜在价值点;3)工具层适合中小公司入局,但模型与工具层边界有待清晰。 投资建议: 1)利好算力基础设施,训练垂直场景中长尾模型算力、推理算力等需求将增长,关注商汤、阿里巴巴、腾讯; 然”?——AI专题报告之18预计AI技术路径将由大模型切向具身智能——AI专题“从上网到上算,由网络世界至虚拟现实”之十七2024-09-26 2)端侧硬件:手机、PC等硬件终端支持Agent本地部署,对端侧算力要求提升,也将引来换机周期,关注小米集团; 3)端侧芯片:手机等终端算力不足,对芯片性能仍有增长需求。 4)To C:个人助手,关注现有C端应用、华为小艺等手机助手的升级迭代,关注小米集团、腾讯; 5)ToB:Mass软件平台,用AI重塑SaaS等系统;私有化部署服务商,Agent个性化需求解决仍不足,需要服务商基于客户场景进行私有化定制,关注第四范式、云从科技等; 风险提示:技术进展不及预期、行业竞争加剧、商业模式变化 内容目录 1.技术层:模型与工具能力显著进化,类比自动驾驶规则驱动阶段...................41.1.发展路径:AGI正迈向自主行动阶段,指向Agent、具身智能.................41.2.关键技术:模型与工具显著进化,下一步提升可靠性、统一标准..............41.2.1.模型:感知与推理能力提升&成本下降,但可靠性不足限制场景.........51.2.2.工具:MCP&A2A推动开发标准化,但标准主导权未定...................71.3.所处阶段:从工作流模式向Agent过渡,类比自动驾驶规则驱动阶段..........92.产业链:商业化模式仍处早期,关注三大主线下动态演化........................112.1.主线1:模型开源与闭源之争,对大模型厂商商业化能力最为关键...........112.2.主线2:科技大厂争先下场,争夺产业链潜在价值点.......................122.3.主线3:工具层适合中小公司入局,但模型与工具层边界有待清晰...........123.投资建议..................................................................134.风险提示..................................................................13 图表目录 图1.人工智能核心模块及关键路径..............................................4图2.Agent与环境交互的链路...................................................5图3.AI Agent基础框架........................................................5图4.2023年至今代表性模型及其他特点..........................................6图5.主流基础模型在在推理、数学、代码能力上的评分............................6图6.模型智能化水平与使用成本................................................6图7.调用OpenAI模型成本显著下降.............................................7图8.DeepSeek模型报价........................................................7图9.MCP的工作架构...........................................................8图10.A2A协议的工作架构......................................................8图11.MCP、A2A方案的关系.....................................................9图12.智谱对AGI进行的分级与对应路线图......................................10图13.三种工作流模式........................................................10图14.自动驾驶技术演进路径..................................................11图15.扣子空间合作客户案例..................................................13 表1:MCP、A2A主要的合作伙伴.................................................9表2:Workflow与Agent对比..................................................10表3:模型API定价(每百万Token)...........................................11表4:国内外科技大厂代表性Agent产品........................................12 1.技术层:模型与工具能力显著进化,类比自动驾驶规则驱动阶段 1.1.发展路径:AGI正迈向自主行动阶段,指向Agent、具身智能 参考人类处理问题的流程与能力来看,人工智能系统应当具备的三大核心模块为: 1)感知模块:类似于人类的眼睛、耳朵等感官一样,人工智能需要借助摄像头、传感器等进行图像、声音等信息的收集,并将其传输至像大脑一样的数据处理中枢进行信息处理;2)规划模块:类似于人类大脑,人工智能应该有数据处理中心对所收集的数据进行处理分析,人类根据大脑处理后的信息,并基于一定的经验与知识对所处的环境进行判断,并最终做出决策;3)行动模块:在做出判断后,人类通过语言或行动对外界做出反馈。 AI正在迈入自主行动阶段,指向AIAgent、具身智能两个方向。人工智能技术经过几轮迭代,已经基本迈过“感知-思考”的应用临界点,正在逐步实现“自主行动”的发展阶段。我们认为其应用场景划分为两个方向:1)若仅需要在数字世界完成交互,则指向AIAgent,即能够通过观察环境并利用其可用的工具对环境采取行动以尝试实现预设目标的程序(资料来源:谷歌Agent白皮书);2)在Agent基础上,还需要借助硬件与现实物理世界进行交互,则指向“具身智能”,如智能驾驶、人形机器人等。 资料来源:国投证券证券研究所整理 我们曾在《人形机器人的AI算法,如何借力于自动驾驶FSD》、《英伟达入局加速产业进程,特斯拉等积极推动量产及应用落地》中以人形机器人为切入点探讨过具身智能相关的技术原理、发展路径、主要参与者等,本篇将聚焦于Agent方向,梳理其技术构成、演进阶段等。 1.2.关键技术:模型与工具显著进化,下一步提升可靠性、统一标准 按照“感知-决策规划-行动”的处理链路,Agent产品设计需要包括记忆(储存环境感知信息)、决策规划、工具(用于交互获取信息)三大模块,其中模型能力、调用工具调用最为重要: 1)模型承担了感知、规划、记忆的主要职能,以目前主流的LLM+强化学习模型作为基础模型,负责智能体感知、决策规划能力,同时模型的上下文窗口用于存储环境信息;2)工具用于补充感知信息,辅助行动:对于对话、生成图片等简易的任务,目前主流的LLM几乎都可以完成,无需工具;但复杂任务则需要调用工具补充信息以增强决策能力或者实现具体任务,比如在购买机票时查询航班信息、下单等步骤; 以订购机票为例,智能体处理的流程大体为: 模型对订购机票的问题分析得出用户目的;编排层分析下一步的行动,如打开航班查询工具—输入出发地、目的地——获取航班查询工具返回结果;交给模型层组织语言,给客户返回结果。 资料来源:《LLM Powered Autonomous Agents》、国投证券证券研究所 资料来源:阿里云官网、国投证券证券研究所 基于上述流程,我们推断评估Agent是否好用的关键标准包括:1)强大的模型能力,能够理解用户意图,擅长多步推理,输出稳定可靠的结果;2)具备较强的工具拓展性,支持尽可能广泛的工具,以增强智能体的交互能力、处理能力;3)具有较强的工程化能力,需要设计