行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

基于小型语言模型的终身智能体

2026-04-26 - - carry~强

永久智能体：小型语言模型

永久智能体正变得普遍，例如 OpenClaw，一个由 Peter Steinberger 和开源社区开发的个人 AI 助手。它运行在用户机器上，通过 WhatsApp、Slack、Telegram 进行交流，具有跨对话的持久记忆（偏好、事实、决策），并能执行操作（控制浏览器、运行脚本、设置提醒），且模型无关（Claude、GPT 或本地模型）。

然而，大多数部署仍调用前沿 API，存在成本、延迟/隐私、个性化等问题。前沿 API 不适合永久智能体，因为成本高昂，需要靠近用户，且无法满足个性化需求。因此，永久智能体必须在用户的设备上运行，小型语言模型是唯一现实的部署目标。

永久智能体在三个粒度上适应：领域、用户和交互。主要研究包括：

1. 特殊化：A3

小型开放权重代理在 Web 任务上落后于前沿模型 20+ 个百分点。标准 SFT 演示蒸馏会导致过拟合。A3 通过将 LLM 模块（如 Gemini-3-Pro）用于任务设计、任务生成和评估，替代了三个人类标注角色，并在 9B 模型上实现了与 27B 模型相当的性能。

A3 将 9B 模型在 WebArena 上的表现提升至 41.5%，与 27B 模型相当，比前沿模型（如 Claude 3.5 Sonnet）提高了 5.1 个百分点。
A3 实现了跨 Web 环境的泛化，而非任务过拟合。

2. 个性化：AdaptArena

即使有能力的代理也不知道用户。AdaptArena 是一个用于测试时个性化 Web 代理的基准，包含 110 个收集的任务，推断偏好并部署 110 个任务。AdaptiveAgent 接收新任务和 k 个过去轨迹，使用截图或文本表示。

AdaptiveAgent 的成功率（基于 Gemini-3-Pro）为 44.5%（截图）和 40.0%（文本），而 User-Centric（完整金 Profile）为 70.0%，Oracle（任务金偏好）为 85.5%。
通过交换用户历史记录，性能降至无 Profile 基线，表明收益来自正确的用户上下文对齐，而非通用上下文示例。未来方向包括在线学习、多偏好和多轨迹推理。

3. 通信：LLM2Vec-Gen

代理每个回合有两个需求：从记忆中检索和与同行通信。LLM2Vec-Gen 使用 LLM 生成响应并学习表示。

LLM2Vec-Gen 在 MTEB 上的得分比 LLM2Vec 高 5.1 个百分点。
输出空间胜于推理，因为基于 LLM 已知的内容进行检索比从原始输入检索更好。输出空间嵌入继承了 LLM 的推理。
推理密集型检索随 LLM 大小扩展。BRIGHT 比例超过 LLM2Vec：+7.7%（0.6B）、+11.7%（1.7B）、+19.7%（4B）、+35.6%（8B）。
嵌入是可解释的，使用 Logit Lens 可以将嵌入投影为文本。每个嵌入都是 LLM 会说的内容的加权袋。
A2A 通信今天使用 token，慢、有损、顺序。嵌入是密集的、并行的，并且是模型的本地内容。100 个响应 token 可以在一个前向传递中压缩成 10 个潜在 token。A2A 协议在规模上需要一个共享表示，而 LLM 已经提供了这个表示。未来方向包括 A2A 协议和嵌入空间协调。