从聊天机器人到持续运行的工作系统 2026年第一季度,AI Agent完成了一次关键跃迁。行业竞争的焦点从"谁的模型更聪明"转向"谁能把Agent做成一套持续运行的工作系统"。这篇报告拆解驱动这一转变的四股力量,以及它们为什么偏偏在同一个季度同时成熟 目录 01核心论点02为什么这些事偏偏在 Q� 同时发生03趋势一 � 高自动化 Agent 开始主流化OpenClaw 六维能力框架 · 各方博弈 · Codex Worktree 架构 · Cowork 三层体系 · OpenClawv����.�.��04趋势二 � Harness Engineering 走向核心六层架构 · Anthropic 接力赛 / 甲方乙方 · OpenAI 仓库卫生学 · Mitchell Ghostty · 收敛公约数05趋势三 � 递归研发加速AlphaEvolve · Autoresearch · MiniMax M�.� 自进化06趋势四 � Skill 成为 know-how 的落点Brainstorming Skill 拆解 · ClawHub 生态 · 供应链安全07下一季看什么08Q� 数据全景09结语10参考文献 核心论点 如果只把 2026 Q� 看作又一个�模型变强、产品变多�的季度,那就完全错过了重点。这一季真正的质变在于,市场第一次把 Agent 当作一种独立的软件形态来理解。它不再是那个被戏称为�更聪明的聊天框�的东西,而是拥有自己独立技术栈、知识载体和运行时的全新软件类别。 这种认知的转变不是孤立发生的,而是由四股力量共同推动的连贯演进。首先,以 OpenClaw 为代表的高自动化Agent彻底走向主流,让大众第一次直观地感受到�能持续做事的数字执行者�是什么样。但这立刻暴露了现有系统的短板,把Harness Engineering推向了舞台中央。开发者们意识到,要让 Agent 稳定工作,光靠模型能力远远不够,必须在状态、工作流和验证等六个层面搭建坚实的脚手架。 当这套系统初步建立后,研发场景顺理成章地成了首个验证场。因为研发天然具备可验证和可回退的属性,Agent 在这里率先跑通了�运行、评测、修改、再运行�的递归闭环。而支撑这一切运转的底层血液则是 Skill 的成熟。它成为比 prompt 更稳、比 workflow 更活的中间层,让人类的实操经验终于能被系统化地注入到 Agent 的大脑中。 这四件事并不是散落在时间线上的独立新闻,而是环环相扣的因果链。产品化倒逼了系统升级,系统升级促成了研发闭环,而 Skill 则为这一切提供了知识落点。它们恰好在这一季度同时撞线,铺设出了全新的行业版图。 为什么这些事偏偏在 Q� 同时发生 四个前提条件同时成熟 高自动化 Agent 绝不是什么横空出世的新概念。此前的 AutoGPT 和各类浏览器代理早就描绘过类似的蓝图。行业从来不缺想象力,真正卡脖子的是四个核心前提一直未能凑齐。而 Q� 正是这四大条件首次发生同时齐备的节点。 最关键的突破在于模型终于跨过了�可持续执行�的及格线。新一代前沿模型在面对冗长复杂的多步骤任务时,不再像过去那样轻易陷入全局崩溃。以前的模型演示三步就技惊四座,但走到第五步就会因为彻底丧失全局视野而跑偏。如今的模型虽然依旧会犯错,但它们已经能在几十步的循环中勉力支撑。这种差异是决定性的。因为局部的错误完全可以通过系统脚手架来纠正,而全局的崩溃则无药可医。 记忆功能完成了从底层附属品到前端主件的重大演进。不论是 OpenClaw 的工作区记忆,还是各家推出的 Markdown 格式规则文件,都让记忆第一次变成了用户触手可及的实体。过去藏在向量数据库里的黑盒记忆,现在变成了项目目录里清清楚楚的纯文本文件。用户可以直接翻阅、手动修改,甚至通过 Git 进行版本控制。Agent 终于告别了每次失忆重来的窘境,开始带着历史经验持续推进工作。 执行环境的极大丰富则为 Agent 提供了广阔的舞台。有了网关、心跳机制、浏览器接管和远程节点调用,Agent彻底挣脱了简陋沙盒的束缚。过去它们只能在几个文本文件里打转,现在却能自如地打开网页验证界面、在独立分支里提交代码,甚至调用外部API在后台昼夜不停地运转。这些单点突破汇聚在一起引发了质变,让 Agent 的动作边界首次覆盖了真实工作流的绝大多数环节。 最后,合适的产品语言为大众推开了这扇门。OpenClaw极其聪明地避开了所有晦涩的技术名词。它不再向用户解释什么是上下文窗口或是检索增强,而是直接甩出一个直白的结果,即�我会一直在线、我会记住你说的话、我会自己把事情做完�。这种先看疗效再讲原理的表达策略,直接击穿了技术壁垒,这也是它能在非技术圈层迅速引爆的根本原因。 趋势一 � 高自动化 Agent 开始主流化 能持续工作、能操作软件、能跨平台通信的 AI Agent,在这个季度从技术演示变成了真实产品。五种产品形态同时分叉。 五个数字勾勒出这条趋势的轮廓。OpenClaw 在 60 天内拿到 247K GitHub 星和 200 万月活,验证了高自动化 Agent 作为产品形态的成立。Anthropic 的 Computer Use 在 OSWorld 基准上首次达到人类水平(72.5% vs 人类 72.4%),说明�Agent 操作桌面�不再是演示。Cursor Agent 单任务跑到 36 小时,说明 Agent 的执行跨度已经从分钟级进入天级。五种产品形态在同一季度同时分叉,说明这不是一家公司的产品创新,而是一个范式。 趋势信号 硅谷 OpenClaw �� 天从 9K 到 157K 星,非技术人群涌入 OpenClaw 的爆火无疑是这一切的起点。短短 60 天内,它从 9000 星攀升至 157,000 星,成为整个 Q� 增长最快的开源项目。这种狂热甚至蔓延到了线下,在深圳腾讯大厦楼下,近千人排队求安装,市价一度炒到 1000 元。非技术人群也开始疯狂涌入,微信官方推出的 ClawBot插件让�养虾�迅速破圈。这股狂潮的渗透速度远远超出了企业的管理边界,高达 22% 的员工在未经 IT 部门批准的情况下就开始在工作中使用 OpenClaw。 行业领袖集体表态�从�两个小时�到�科幻起飞� Sam Altman 坦言最初决定不让 Codex 完全控制电脑的想法�只坚持了两个小时�,并将其称为继 ChatGPT 之后的又一个转折点。Dario Amodei 在达沃斯论坛上也提到,连非技术人员都愿意为了使用Claude Code去折腾命令行,这直接促成了Cowork产品的诞生。Karpathy 更是将驱动了 150 万 Agent 注册的 Moltbook 称为近期最接近科幻起飞的现实。面对这种势头,也有人保持警惕,GoogleCloud安全副总裁就直接发出了不要运行Clawdbot 的严厉警告。 资本狂飙�OpenAI 收编 OpenClaw,Devin 估值破百亿 OpenAI在情人节当天宣布收购OpenClaw创始人,明确表示这将成为其产品核心。而Cognition 在收购 Windsurf 后估值直接冲上百亿大关,Devin 的经常性收入实现了惊人的增长。 巨头迭代疯狂�Anthropic �� 天 74 次更新 Anthropic 在 52 天内连发 74 次更新,甚至推出了能让模型代替人类做审批的自动模式。GitHub 也在彻底改造 VS Code,将其升级为多 Agent 并行运行的开发中枢,积累了上千万开发者用户。Devin 的新版本更是将代码合并率推高到了 67%。 定价权之战�封堵还是收编 OpenClaw的爆发直接触发了一场平台级的攻防战。谷歌在2月中旬大规模封禁通过OpenClaw 调用 Gemini 模型的用户账户,事先无任何警告,数百个付费账户在一夜之间被关停。表面理由是�恶意使用导致计算负载远超预期�,但深层原因在于OpenClaw的心跳机制每 30 分钟携带数万 Token 的完整上下文进行检查,单个 Ultra 订阅用户的实际消耗换算成 API 价格可达 1000-3600 美元,远超 250 美元的月费�这是对订阅制补贴模型的结构性冲击。Anthropic 的应对更为精细,1 月 9 日部署客户端指纹识别技术,阻止 OAuth 在官方CLI 之外使用;2 月 20 日更新服务条款,将行为定性为�Token 套利�,要求用户必须通过API密钥(价格为订阅制的5-10倍)接入。OpenAI则采取了截然相反的策略�收购OpenClaw创始人后,明确将其列入消费者计划白名单,允许用户通过订阅账户使用。这场博弈的本质不是安全问题,而是 AI 基础设施定价权的争夺。当一个开源中间层能让用户绕过官方定价获取模型能力时,平台必须选择封堵或收编�谷歌和Anthropic选了前者,OpenAI 选了后者。 中国市场 �养虾�破圈�从开源社区到地方产业政策 中国市场的反应更为激烈。OpenClaw 在国内被称为�小龙虾�,部署行为被叫做�养虾�,深圳龙岗区和无锡高新区甚至把它写进了政府补贴文件�前者对关键代码贡献最高补贴200万元,后者为�一人公司�提供 3 个月免费算力。当一个开源框架的名字出现在地方产业政策里,它的产品化就不再只是技术社区的事了。 九家大厂�龙虾大战��小程序大战的 Agent 版本 大厂的应战几乎是同步的,业内称之为�龙虾大战�。从 1 月到 3 月,至少九家公司推出了自己的桌面 Agent 产品。阶跃星辰最早动手(2025 年 9 月 Mac 版),MiniMax 在 1 月推出Agent �.� 桌面端。2 月大厂集中入场,腾讯发布 WorkBuddy(企微/微信远程遥控电脑)和QClaw(微信扫码即用),字节的火山引擎推出 ArkClaw(云上 SaaS 版,飞书适配,关机也能跑),阿里 QoderWork � 月全面开放(从编码切入通用办公),百度 DuClaw 走零部署网页版,智谱AutoClaw走本地隐私路线预置50+技能,Kimi Claw走全包云端,MaxClaw 走会员积分制。每家的切入角度都不同�腾讯绑微信,字节绑飞书,阿里从编码扩通用,百度靠搜索降门槛�但都在回答同一个问题,即Agent入口应该长在哪个生态里。这不再是�谁做了更好的 OpenClaw 壳�的竞争,而是 2017 年小程序大战的 Agent 版本。 DeerFlow + WorkBuddy⸺超越编码的 Work Agent 登场 产品形态也不只停留在�桌面助手�这一层。字节在 2 月底开源了 DeerFlow �.�,一个月内从��K 星飙到 52K 星、登顶 GitHub Trending 全球榜首。它的定位不是 IDE 也不是桌面助手,而是�Super Agent Harness"⸺一个能研究、能写代码、能创作的长时间运行超级智能体框架,直接对标 Codex 的后台长任务模式。腾讯的 WorkBuddy 走的也不是 IDE 路线,而是�全场景职场 Agent 工作台�,支持微信远程委派任务、多 Agent 并行工作、内置 20+ 技能和安全审计�对标的是 Anthropic 的 Cowork,而非 Cursor。这两个产品的共同点是都超越了编码场景,把 Agent 推向了更广的工作自动化领域。如果说 Codex 和 Cowork 分别代表了硅谷在�后台编码�和�桌面工作�两条路线上的探索,那么 DeerFlow 和 WorkBuddy就是中国市场对这两条路线的几乎同步回应。 编码 Agent 四大 IDE⸺中国版 Cursor-Codex-Copilot 编码Agent赛道则形成了另一个独立战场,且激烈程度不亚于硅谷的Cursor-Codex-Copilot 三角。字节的 Trae 增长最凶猛,2025 年 1 月发布,不到一年拿下 600 万全球开发者,内部覆盖 92% 工程师,