核心观点
2026年第一季度,AI Agent 完成了一次关键跃迁,行业竞争的焦点从“谁的模型更聪明”转向“谁能把 Agent 做成一套持续运行的工作系统”。这一转变由四股力量共同推动:
- 高自动化 Agent 开始主流化:以 OpenClaw 为代表的高自动化 Agent 彻底走向主流,让大众第一次直观地感受到“能持续做事的数字执行者”是什么样。
- Harness Engineering 走向核心:为了让 Agent 稳定工作,必须在状态、工作流和验证等六个层面搭建坚实的脚手架。
- 递归研发加速:研发场景成为 Agent 最先跑通闭环的领域,Agent 开始参与改进自身的工作系统,优化自己的参数、发现新算法、改进自己的工具链。
- Skill 成为 know-how 的落点:Skill 成为比 prompt 更稳、比 workflow 更活的中间层,让人类的实操经验终于能被系统化地注入到 Agent 的大脑中。
这四件事并非独立发生,而是环环相扣的因果链,产品化倒逼了系统升级,系统升级促成了研发闭环,而 Skill 则为这一切提供了知识落点。
关键数据
- OpenClaw 在 60 天内拿到 247K GitHub 星和 200 万月活。
- Anthropic 的 Computer Use 在 OSWorld 基准上首次达到人类水平(72.5%)。
- Cursor Agent 单任务跑到 36 小时。
- Codex Worktree 架构中,三个 Agent 并行工作可将效率提升 50%。
- OpenClaw 的 ClawHub 半年内积累超过 13,700 个 Skill。
- MiniMax M-100 在 100+ 轮自主迭代后,内部评测提升 30%,SWE-Pro 得分追平 GPT-4.0-Codex。
- Karpathy 的 Autoresearch 用 630 行代码在单 GPU 上一晚跑 50 个实验。
研究结论
- AI Agent 竞争的核心从“谁家模型更聪明”转向了“谁能让 Agent 持续、可靠、可控地工作”。
- Harness Engineering 是现阶段性价比最高的能力放大器,但它不便宜。
- Skill 作为 know-how 的载体,在中国和硅谷同时被接受了,它不只是一个孤立的能力包,而是可以组成工作流的标准化模块。
- 未来最先被重新定义的不是办公软件,而是研发组织本身。
- Skill 作为趋势讲的不是某个统一 UI,而是人类经验终于有了一层可以被系统化承接的中间层。