核心观点:AIAgent积木搭建完成,迎来爆发临界点 以产业演进角度看,AIAgent的发展路径类似于搭积木过程,过去各模块(大模型智能性、多模态推理、Coding能力、工具调用ToolUse、Token经济、算力支撑)零散分布,单一技术无法形成闭环,Agent形态始终停留在“缺乏行动能力”的状态。当前,以MCP为代表的工具调用协议标准化落地、OpenAI的AgentSDK框架逐步完善、大模型Coding能力提升至产业应用级别、Token调用成本大幅下降等因素叠加,各项技术模块已逐渐完整拼接。 我们认为,AIAgent已经走到从组件齐备到整体协同运转的“临界点”,产业生态将步入爆发式增长阶段。预计将有越来越多的工具、软件开发接口,供大模型调用以提升其用户使用体验。且随着Token价格的下降,Agent渗透将加速。以MCP聚合平台Smithery为例,平台上已经有超过3500个MCP服务器推出,涉及多个领域。 本篇报告对上述提及的技术演进历程做了详细分析,同时就AIAgent可能带来的算力消耗做了敏感性分析测算。 技术演进: 大模型:基础对话需求对齐智能涌现多模态+长时记忆强Coding与推理能力。 工具调用:RAG(检索增强生成,扩展大模型记忆能力)FunctionCalling(函数调用,通过强化学习大模型可以调用外部一切)MCP协议(统一了各大模型与各工具间的通信格式)计算机操作(以OpenAI的Operator与Anthropic的ComputerUse为代表)。 技术迭代:COT的提出(思维链,让模型具备规划能力);LangGraph等的Agent开发框架的完善,增强大模型处理复杂问题、多重推理的能力;Cursor(估值25亿美元)、Cline等AI代码编辑器的推出,加快AIAgent所需的工具模块的开发。 算力消耗测算: 以GPT-4o为基准,假设一个日活规模达到10亿的全球级AIAgent应用,每日所需算力约相当于14.15万张NVIDIAH100SXMGPU。随着未来Agent应用向多模态、复杂推理与高频次ToolUse方向演进,这一需求预计还将进一步指数级攀升。 两个案例:1)Manus一次标准复杂度任务执行预计消耗20万Tokens;2)Cline+MCP+claudesonnet3.7组合一次标准旅行规划消耗93.34万Tokens。 相关公司推荐关注: 我们将产业链相关标的分为:1、硬件与基础设施(NVIDIA、AMD、Intel、TSMC、中芯国际、Amazon、Microsoft、Alphabet、CoreWeave、阿里巴巴);2、模型开发与研究(Alphabet、Microsoft、Meta、阿里巴巴、腾讯控股、科大讯飞); 3、平台与工具(HuggingFace-未上市、Brevian-未上市、Anysphere-未上市、Coze-字节跳动旗下、ScaleAI-未上市、Turing-未上市);4、应用(特斯拉、Salesforce、Adobe、Palantir、快手、阿里巴巴、腾讯控股、Boss直聘、美图、多领国)。 A股传媒相关标的:1、AI教育:南方传媒、豆神教育、荣信文化、世纪天鸿;2、AI陪伴:奥飞娱乐、上海电影、汤姆猫;3、AI工具:果麦文化、昆仑万维、易点天下;AI娱乐:恺英网络、巨人网络、盛天网络。 风险提示:1)AI大模型与AI应用发展进度不及预期风险;2)技术、环境变化导致测算依据失效的风险;3)数据信息更新不及时风险。 核心技术跃迁,AIAgent时代全面到来 何为AIAgent? 何为AIAgent? OpenAI官网定义:AIAgent是可以智能完成任务的系统——从执行简单的工作流程到追求复杂、开放式的目标。 Anthropic官网定义:AIAgent是让LLM(大语言模型)动态掌控工具使用方式的系统,可自主决定如何完成任务。 一句话形象总结:AIAgent就是给AI大模型安上可操控的“四肢”。 初期AI大模型只会告诉用户处理问题的方式或解决问题的办法(只有大脑),但实操环节还需人为介入,且需要用户来设计解决问题的路径。发展到AI Agent,其不仅可以提出处理方案,还可以自主编排处理流程,自主调用工具,最终解决问题。有了Agent,将大大扩展个体或机构的能力边界。 技术快速迭代创新,推动AIAgent时代的到来: 1、更加智能的大模型,长上下文记忆,且调用的token成本持续下降。 2、大模型可调用工具不断丰富。 3、辅助框架进一步完善(RAG技术、Functioncalling、LangGraph框架、MCP协议、AgentSDK)。 图表1:AIAgent突破关键技术点 AI大模型:对齐涌现长时记忆、多模态推理 AI大模型不断智能化 2018年:初代大语言模型GPT-1(固定长度的输入512Tokens)推出,还无法根据人类指令灵活响应。 2019年:GPT-2推出,较好顺写文本,但在长文本生成时会出现重复、跑题,缺乏整体连贯性,无法很好对齐用户意图。 2020年:GPT-3推出,拥有1750亿参数,远超GPT-2的15亿参数,上下文输入输出窗口来到2048个Tokens。由于参数的大幅提升,模型开始出现Few-Shot学习等涌现能力,但依旧无法很好对齐用户意图。 2021年:DALL·E模型发布,从文本到图像生成显雏形。 2022上半年:InstructGPT推出,微调GPT-3,采用监督学习和强化学习(RLHF)方式,在仅有13亿参数情况下,更好对齐用户意图。 2022下半年:ChatGPT正式推出,至此为分水岭,AI真正进入了大众视野,其显著增强了对话的连贯性和上下文理解能力。 2023上半年:Claude1.0和GPT-4共同推出,GPT-4推理能力、专业知识进一步提升,并支持图像输入,是多模态AI的里程碑。 2023下半年:Claude2.0、GPT-4Turbo、LLaMA2、Gemini推出,国内阿里推出Qwen,大模型进入百花齐放阶段。其中Claude2.0将上下文扩展到100Ktokens,支持文件上传处理。2023年11月上线Claude2.1,进一步将上下文窗口扩展至200Ktokens,模型记忆能力大幅提升。LLaMA2将其模型开源,推动整个行业发展。GoogleGemini上线既具备多模态处理能力。 2024上半年 :GPT-4o、Claude3、Gemini1.5Pro、Llama3、DeepSeek-V2等发布,多模态进一步完善,GPT-4o集成视频和语音功能,Llama3是首款能够处理图像和文本的开源模型,Gemini1.5 Pro支持多模态的同时还将上下文窗口提升至 1M Tokens。 2024下半年~至今 :OpenAIo1、Grok3、Claudesonnet3.7、DeepSeek-R1、AlibabaQwQ、Gemini2.5pro等发布,标志着模型的推理思考能力大幅提升,OpenAIo1通过链式思维(chain-of-thought reasoning)优化了推理能力,特别在科学和编程任务上表现优异,减少模型幻觉问题,Claudesonnet3.7在编程和工具调用能力上非常突出。 Token调用成本大幅下降 以GPT-4系列为例,GPT-4o每百万Tokens调用价格以及相较于GPT-4刚刚推出时下降了89%,若对比小模型GPT-4omini,则价格比GPT-4下降了99.3%。对比国产大模型DeepSeek,V3版本目前国内标准时间段(北京时间08:30-00:30)价格为2元/百万Tokens,输出为8元/百万Tokens,较GPT-4调用成本更低。 图表2:GPT-4Tokens价格变化(美元/百万Tokens) 上下文长时记忆 长时记忆对AIAgent尤为重要,减少了AIAgent频繁分段记忆导致的结果偏离。不支持足够长的文本输入,AIAgent就较难建立起对目标任务完整的认知逻辑。例如GPT-3只能支持2048个tokens的输入,很难完成逻辑链较长的任务,发展到GPT-4,最大已经可以支持到32K Tokens上下文窗口,再到Gemini甚至可以支持到 2M 的上下文Tokens。 此前受制于Transformer模型的自注意力机制,计算开销随序列长度指数增长,目前技术上通过更高效的稀疏注意力和分块处理实现上下文窗口的扩展。 图表3:大模型上下文窗口支持Token量发展趋势 可调用工具及协议不断完善(RAG、Functioncalling、MCP) 大语言模型经历了从预训练回答历史知识,到实施调用工具回答实施问题的阶段,工具调用与协议的完善大幅拓展了大语言模型的能力。 RAG(检索增强生成)技术的成熟:使AI大模型能够在生成响应之前引用训练数据来源之外的知识库,对模型在专业领域的知识补充、长时记忆、新知识补充等都起到至关重要的作用。提升了大模型输出的信息的及时性和质量、减少幻觉。在大模型本就已经很强的上下文记忆能力基础上,接上了一个随时可以扩展的向量数据库。 图表4:RAG与LLM配合使用的概念流程 OpenAI推出Functioncalling功能:2023年6月,OpenAI推出Function calling功能,允许开发者在ChatCompletionsAPI中定义函数,大模型可根据用户输入自动调用相应函数,生成所需的JSON对象输出。 结合了Functioncalling后,大模型相当于拥有了可以调用函数的能力,进而获得了与外部交互的能力。 图表5:FunctionCalling实现原理图 Anthropic推出MCP(ModelContextProtocol)协议:2024年11月25日Anthropic正式推出开源MCP协议,相当于在FunctionCalling之上提供了一套标准协议,把API调用流程进一步抽象,让AIAgent可以自动调用多个工具。Anthropic已经预先预构建了一些MCP服务器,支持连接GoogleDrive、Slack、GitHub、Git、Postgres、Puppeteer等企业级系统,也可以由社区编写更多功能的MCP服务器。MCP简化了AI连接外部数据的难度,一次性构建兼容多个数据源的AI解决方案,提高数据访问效率。有了MCP,就可以将企业数据与AI大模型更好的链接起来,让大模型更高效更自主使用外部数据。 图表6:MCP实现原理 其他工具的完善。包括:1、搜索(GoogleSearchAPI等),让大模型更加方面从互联网获取信息;2、文件系统(Filesearch),让大模型可以调用本地或者云端文件辅助分析;3、计算机调用(ComputerUse),让大模型具备类人的计算机操作能力;4、函数调用,让大模型可以使用编写的函数完成自定义功能;5、专业API调用,例如金融系统、天气系统、电商系统等数据信息;6、自动化工具,例如Google邮箱、Discord平台、Slack平台等信息的同步与编写。 推理赋予AIAgent处理复杂问题的能力 推理与制定计划(Planning)能力是AIAgent能够完成复杂目标的核心:将最终目标分解为可执行的具体步骤。大模型推理能力发展脉络: 1、初代大模型只是一问一答,没有推理和计划能力; 2、COT(ChainofThought,思维链)在2022年1月被提出,一种专门用于提升大模型推理能力的提示方法,能够逐步拆解问题; 3、2022年底,ChatGPT推出后,Auto-GPT/BabyAGI等引入了任务列表与思维链形式,可以按照任务规划拆分行动分步执行,大模型初步拥有了解决复杂任务的能力,这是把AI从工具变成Agent的分水岭; 4、2024年9月OpenAI推出了o1模型,强调其在回答问题前会进行“思考”,具备更强解决复杂任务的能力,而Anthropic在2025年2月发