行业研究 · 行业专题计算机:人工智能投资评级:优于大市 证券分析师:熊莉xiongli1@guosen.com.cn证券投资咨询执业资格证书编码:S0980519030002证券分析师:库宏垚kuhongyao@guosen.com.cn证券投资咨询执业资格证书编码:S0980520010001联系人:云梦泽yunmengze@guosen.com.cn 报告摘要 •AI Agent是人机交互新范式。AI Agent是能够感知环境、进行决策、执行动作的智能体,在2023已顺应大模型浪潮而生,随着多模态等技术逐步成熟,当前各厂商持续推出相关产品,Agent已开始逐步进入各个场景的工作流中,成为人机协同新范式。根据Roots Analysis预测数据,预计24年全球AI Agent市场规模为52.9亿美金,预计2035年达到2168亿美金,对应24-35年CAGR为40.15%。 •OpenAI推出Operator ,AI正式迈入Agent时代。Operator由CUA新模型提供支持,其通过强化学习实现了GPT-4o的视觉能力与高级推理相结合,可以像人类一样完成与图形用户界面(GUI)的交互。Operator运行在浏览器中,在云端构建虚拟环境来执行操作,工作步骤主要分为感知、推理、执行。当前Operator测试数据优于前期SOTA,但与人类差距仍较大,目前仍在快速进步中。 •Operator遵守严格的数据使用和法律要求。OpenAI在数据使用上,除了公开和用户提供的信息之外,还有较多的第三方公司合作。美国法律对OpenAI在数据访问的隐私保护、数据安全、版权、特定领域数据保护等均有要求,Operator也提供了较为严格的安全措施。 •Operator在多个场景应用已逐步显示潜力。Operator 的一些典型应用场景包括:旅行预订、购物、餐厅预订、行政任务、市场营销、与各行业合作。OpenAI 正与 DoorDash、Instacart、OpenTable 和 Priceline 等公司合作,以改进 Operator 在现实世界中的应用。 •中国团队推出全球首个通用AI Agent Manus,性能表现优异,与阿里千万达到合作。Manus定位为全球第一款通用Agen,面对各类复杂多变的任务,Manus在自己的虚拟环境中灵活调用各类工具——编写并执行代码、智能浏览网页、操作各类网页应用——目标为用户直接交付完整的任务成果。在官方演示中,Manus展现了其筛选简历、遴选房产、股票分析等多种应用场景。在GAIA基准测试中,Manus在所有三个难度级别上都取得了新的最先进(SOTA)表现。目前Manus平台宣布将与阿里通义千问团队正式达成战略合作。 •投资建议:维持“优于大市”评级。Agent能够分解执行用户指令,通过调用工具、生成代码等来完成任务,是业务+大模型的完美结合。C端Agent有望重塑流量入口,B端Agent将展现私域数据价值,落地行业Know-how。B和C两端Agent有望快速发展,看好AI应用。 •风险提示:AI Agent成熟度发展不及预期;AI产业进步放缓;市场需求疲弱;下游IT开支放缓等。 目录 OpenAI 率先发布Operator智能体,AI进入Agent时代02Operator遵守严格的数据使用规范和法律要求03Operator已展现较多场景的应用潜力04AI Agent将成为人机协同新范式01投资建议与风险提示06中国团队推出全球首个通用AI Agent Manus,性能表现优异05 全球AI快速发展推动人机协同 •全球AI快速扩张,中美领先应用落地。2022年,以ChatGPT为代表的大语言模型出现,掀起了全球AI浪潮。2023年开始,大模型的多模态能力显著增强,模型可用性进一步提升,推动全球AI行业快速扩张。在基础模型层面,据斯坦福大学数据,2023年共发布149个基础模型,为2022年的两倍,模型数量快速增加。据中国信通院数据,中美两国在AI领域中处于领先地位。截至2024年,全球AI企业数量超3万家,其中美国企业超1万家,占比达34%,中国占全球的15%,位居第二。全球AI大模型数量为1328个(包含同一企业、同一模型的不同参数版本),美国的AI大模型数量占比44%,中国大模型数量占比为36%。随着大模型行业发展逐步成熟,厂商之间开始出现明显的价格竞争与市场份额抢占。同时,DeepSeek等开源模型的性能快速提升,开源与闭源模型之间差距逐步缩小,进一步刺激了各模型应用成本下降。在上述因素推动下,用户与AI协作的条件逐渐成熟,AI应用有望在2025年于中、美两国快速发展。 资料来源:OpenAI官网,谷歌官网,通义千问官网,国信证券经济研究所整理 Agent为Copilot后的人机协同新范式 •AI Agent(人工智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent具备通过独立思考、调用工具去逐步完成给定目标的能力。AI Agent和传统大模型的区别在于,大模型与人类之间的交互是基于prompt实现的,用户prompt是否清晰明确会影响大模型回答的效果,而AI Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。 •基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人类与AI协同的模式。随着大模型的发展,人类与模型的协同方式从最初的聊天机器人转变为Copilot,并逐步向Agent探索。Agent的落地将给AI应用带来颠覆性变化,打开AI在垂直行业渗透的入口。随着自然语言处理、机器学习和生成式AI的进步,AI Agent的多功能性和部署量将急剧增长。 资料来源:头豹研究院,Frost & Sullivan,国信证券经济研究所整理 资料来源:头豹研究院,Frost & Sullivan,国信证券经济研究所整理 Agent是当前AI发展重点方向 •AI Agent将成为新一代智能交互范式。AI Agent是能够感知环境、进行决策、执行动作的智能体,在2023已顺应大模型浪潮而生,随着多模态等技术逐步成熟,当前各厂商持续推出相关产品,Agent已开始逐步进入各个场景的工作流中。根据Gartner预测,到2028年至少15%的日常工作由AI Agent自主完成,33%的企业软件也将保护AI Agent。 •AI Agent需要具备三大核心能力。根据OpenAI前应用研究主管的经典定义,一个合规的Agent需要三大核心能力:规划,将复杂任务分解成一些列子步骤;工具使用,选取最合适的工具并熟练应用;记忆,既有短期记忆存储即时信息,又有长期记忆沉淀持久知识。目前Agent底层技术在持续进步,因此相关代表产品也在应运而生。 图:Agent的核心能力 Agent市场处于爆发前夕 •AI Agent持续提升,有望改变传统工作范式。传统的工作范式是基于面向过程架构,以人为中心,AI为辅助,有固定形态的交互界面、预定义有限域的任务、信息分发平台等;基于AI Agent的工作范式基于面向目标架构,以AI为中心,人为辅助,变更为动态人机交互界面、无预限制有限域任务、知识和世界模型的分发平台等。 •AI Agent市场处于早期阶段,商业化产品落地前夕。目前,商业类AI Agent产品处于探索期,根据Y Combinator披露数据,24年冬季入营项目中,AI Agent项目占比接近80%,处于规模化应用前夕。根据Roots Analysis预测数据,预计24年全球AI Agent市场规模为52.9亿美金,预计2035年达到2168亿美金,对应24-35年CAGR为40.15%。国内AI Agent快速发展,根据华经产业研究院披露数据,23年中国AI Agent市场规模为59.81亿元人民币,预计24年将超过百亿元,市场规模快速增长。 资料来源:Roots Analysis,国信证券经济研究所整理 目录 OpenAI 率先发布Operator智能体,AI进入Agent时代02Operator遵守严格的数据使用规范和法律要求03Operator已展现较多场景的应用潜力04AI Agent将成为人机协同新范式01投资建议与风险提示06中国团队推出全球首个通用AI Agent Manus,性能表现优异05 OpenAI发布Operator智能体 •OpenAI推出Operator智能体,模拟人类在电脑上的操作行为。2025年1月OpenAI上线了其首个AI Agent Operator,Operator 能够模拟人类在电脑上的动作,如通过点击、滚动、输入等与电脑交互,并完成相关任务。Operator可以浏览网页、填写表格、订购商品、预定餐厅等,如输入餐厅预订要求后,Operator 会在分析需求后直接打开一个云端浏览器并执行搜索、查找、预定等相关操作。 •Operator仍处于研究预览阶段。Agent是AI产业当前进步重要方向之一,应用准确率仍待持续提升。为了确保安全和迭代进度,目前Operator处于研究预览阶段,仅面向美国的 ChatGPT Pro(200 美元/月)用户,Plus 用户也不能体验,未来将进一步扩展用户。 资料来源:OpenAI官网,国信证券经济研究所整理 资料来源:OpenAI官网,国信证券经济研究所整理 Operator代表AI进入Agent时代 •Operator代表OpenAI拉开L3级Agent时代序幕。OpenAI内部将AI发展阶段定义为5个阶段:聊天机器人(具备对话能力)、推理者(具备人类问题解决能力)、Agent(具备执行任务能力)、创新者(具备创造发明能力)、组织者(具备组织工作能力)。Operator实现了AI与数字系统的交互,将自动执行桌面任务成为可能,而非调用固定API,Agent成为AI发展的新阶段。 •CUA是Operator工作的主要Agent。Computer-Using Agent(CUA)是一个计算机使用代理,其通过强化学习实现了GPT-4o 的视觉能力与高级推理相结合,可以像人类一样完成与图形用户界面 (GUI)的交互。CUA将高级 GUI 感知与结构化问题解决相结合,将任务分解为多步骤计划,且会在出现问题时自动纠错。 Operator核心步骤为感知、推理、执行 •Operator运行在浏览器的虚拟环境中。当前Operator主要运行在浏览器中,并构建出虚拟环境和资源进行CUA一些列动作执行。这样可以保证 Operator 建立多重安全控制,且避免对用户本地系统造成干扰。 •感知:将任务文本和当前屏幕截图一起输入给模型,提供计算机当前状态的可视化快照。 •推理:CUA使用思维链来推理后续步骤,同时考虑当前和过去的屏幕和动作。CUA同步观察和评估结果,并动态适应各环节步骤。 图:Operator工作原理 资料来源:OpenAI官网,国信证券经济研究所整理 Operator测试已取得较大进步 •Operator测试数据优于前期SOTA,但与人类差距仍较大。OSWorld是一个用于评估多模态Agent的测试集,WebArena是用于评估Agent浏览器使用性能的测试集。测评结果显示,Operator在 OSWorld上实现了成功率38.1%;WebArena 上实现了 58.1% 的成功率;在 WebVoyager 上实现了 87% 的基于 Web 的任务的成功率,但是 WebVoyager大多数任务都相对简单。目前Operator超过了前期最优水平,但相比人类72%以上的成功率仍有较大差距。 •Operator仍在持续进步中。目前Operator仍不完美,并且可能会犯错误。在内部测试数据,Operator在创建PPT和日历等复杂界面时会遇到挑战,在复杂的文本编辑方面表现较差 (成功率为 40%)。 Operator强调安全机制,各方能力将进一步提升 •Operator已考虑了三层安全机制