行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

OpenClaw入门指南：龙虾完整手册

食品饮料 2026-03-12 龙虾完整手册 Michael Wong 香港继承教育

核心观点与结论

AI能力进化简史

AI经历了三次主要跃迁：
- 2023年：从能说会道（ChatGPT）到多模态感知（GPT-4V等）。
- 2024年：从多模态感知到深度推理（o1/o3等）。
- 2026年：AI长出手脚（OpenClaw），实现从对话到执行的跨越。
AI能力金字塔：
- 感知层：文字、图片、语音、视频。
- 认知层：逻辑推理、知识关联。
- 决策层：多选项最优方案选择。
- 行动层：调用工具、操作系统（OpenClaw在此层突破）。
大模型的致命弱点：事实不可靠、价值判断极弱。

OpenClaw深度拆解

OpenClaw定义：开源个人AI代理框架，具备规划、行动、观察与反思能力。
心智模型：超级实习生，需用岗位说明书而非愿望清单定义任务。
三层架构：
- 输入层：接入通道（Telegram、WhatsApp等）。
- 引擎层：网关与串行循环（单线程执行确保安全）。
- 执行层：工具调用（MCP标准接口扩展工具）。
竞品对比：QClaw（微信体验）、Manus（云端免运维）、原生OpenClaw（构建资产）、ArkClaw（企业部署）。

七大应用场景

晨间情报简报：自动抓取信息源并生成摘要。
邮件与文档自动化：邮件分类、文件重命名等。
个人知识库：将碎片信息结构化为思考卡片。
投研周报：自动生成行业/公司变化简报。
内容创作者的选题漏斗：生成候选选题。
工作流串联：多步骤自动化任务链（需人工审核）。
方法论产品化：将方法论编码成可自动运行的系统。

五大真实风险与控制框架

权限失控：需最小特权原则和人工二次确认。
成本失控：设定硬性Token消费上限。
幻觉的物理延伸：需沙箱环境隔离。
上下文腐烂：定期清理无效记录。
思考的隐性外包：保持独立思考能力。

长效建议

现在开始搭建，哪怕粗糙。
认清真正的核心资产：Prompt模板库、工作流、知识库。
保持技术谦逊，守住内核：系统性思考、商业洞察、同理心和道德判断。

关键数据与案例

OpenClaw GitHub Stars：超过27万。
真实案例：咨询顾问用OpenClaw邮件分类节省1.5小时/天。
知识复利数学：每周5张卡片，一年260张，关联数达33,670种。
默认安全基线：权限锁、预算锁、环境锁。

研究结论

AI代理代表执行力平权的不可逆趋势，但节奏由个体掌控。
大厂入场（QClaw、ArkClaw）推动AI代理普及，但需警惕主权让渡。
真正的护城河是积累的Prompt模板库、工作流和知识库。
理性使用AI代理需建立防灾框架，避免被潜力迷惑。

当AI长出了手脚：一份给聪明人的理性上手手册本报告面向具备独立判断力的决策者、投资人与知识工作者旨在提供AI代理框架的全景认知、实操路径与理性风险框架作者：老喻（孤独大脑）发布日期：2026年3月版本：V4.0 V4.0更新：新增腾讯QClaw/字节ArkClaw大厂版本解读· 48小时训练营作业单·默认安全基线· Prompt质量检查表·模板库目录结构SOP 执行摘要EXECUTIVE SUMMARY 自建运行成本(B类) 数据来源说明：A类=官方可追溯数据；B类=社区复述需二次核验；C类=作者基于样本的估算。六大核心结论 ❶范式跃迁OpenClaw不是聊天工具的升级，而是从「对话」到「执行」的维度跨越 ❷甜蜜区它最适合高度结构化、SOP明确、错误可逆的重复性任务 ❸真实风险权限失控、成本失控、幻觉物理化是三大致命陷阱——均有真实案例 ❹核心资产真正的护城河不是工具本身，而是你积累的Prompt模板库、工作流和知识库 ❺历史定位AI代理代表「执行力平权」的不可逆趋势，但节奏是你自己的——不必焦虑 ❻大厂入场腾讯QClaw、字节ArkClaw等将OpenClaw从极客玩具推向大众，但需警惕主权让渡本报告建议读者从「48小时入门作业」开始，以最小风险验证AI代理的实际价值，然后按「每周优化一个模板、每月新增一个工作流」的节奏积累数字资产。任何名人背书的结论，一律先跑一个只读3天的最小闭环再下判断。 ⚠️你不需要立刻学代码你需要的是逻辑思维和拆解问题的能力。如果你能写一份清晰的SOP，你就能驾驭AI代理。你应该做的第一步：跑通一个「只读、低风险」的最小闭环——本报告第三章会手把手教你。 PART I 全景图：理解AI大时代在深入OpenClaw之前，你需要先看清整片森林第一章大模型进化简史：从「能说」到「能做」在讨论OpenClaw之前，我想先帮你建立一个完整的坐标系。很多焦虑来自于「只见树木不见森林」——你看到了一个个爆炸性的产品名词，但不知道它们之间的关系，不知道整个技术浪潮走到了哪里。让我用最简洁的方式帮你理清过去三年发生了什么—— ■1.1三年三次跃迁：一张时间线【AI能力进化路线图（2023-2026）】 2023 ·第一次跃迁：能说会道 ChatGPT引爆全球。大模型展示了惊人的语言理解和生成能力。但它只能在对话框里输出文字，本质上是一个「超级百科全书」。核心局限：只能动嘴，不能动手。 2024 ·第二次跃迁：多模态感知 GPT-4V、Sora、Claude 3相继发布。AI开始「看懂」图片、理解视频、处理复杂文档。感知维度从文字扩展到了视觉。核心局限：看得见了，但还是不能动手。 2025 ·第三次跃迁：深度推理 o1/o3系列、DeepSeek-R1、Grok 3登场。模型学会了「慢思考」——面对复杂问题会自主拆解步骤、反复验证。推理能力逼近甚至超越部分人类专家。核心局限：想得深了，但依然被困在对话框里。 2026 ·第四次跃迁：AI长出了手脚 OpenClaw、Manus等AI代理框架爆发。大模型终于获得了「执行力」——能操作电脑、调用工具、运行工作流。从「只能说」进化到了「能干活」。这就是你现在所处的节点。 📖小故事：NVIDIA CEO黄仁勋的争议性类比 2026年2月，NVIDIA CEO黄仁勋在一次公开演讲中将OpenClaw比作Linux，声称「OpenClaw用三周达到的下载量，超过了Linux三十年的积累」。这番话在X平台引发了激烈争论。支持者认为这标志着AI代理时代的真正到来；批评者则嘲讽「下载量等于成就量吗？装了不等于用了」。真相可能在中间：OpenClaw的热度确实史无前例，但下载量和实际产出之间还有巨大鸿沟。就像2000年人人都注册了.com域名，但真正建成商业模式的寥寥无几。关键启示：不要被数字和名人背书绑架你的判断。技术的价值要靠你自己验证。 ■1.2一张图理解AI能力的四层金字塔【AI能力金字塔（自下而上）】第一层：感知Perception看懂文字、图片、语音、视频。这是基础能力层。2024年基本解决。第二层：认知Cognition 理解含义、逻辑推理、知识关联。大模型的核心能力。2023-2025年快速进化。第三层：决策Decision 在多个选项中选择最优方案、制定执行计划。o1/DeepSeek-R1在这一层取得突破。第四层：行动Action ← OpenClaw在这里将决策转化为物理或数字世界的实际操作——调用工具、操作系统、运行代码、发送通讯。这是2026年正在突破的层。OpenClaw就是打通这一层的基础设施。 💡为什么这张金字塔对你很重要？因为它告诉你一件事：AI并不是突然变成了「万能的」。它是在一层一层地解锁能力。当前解锁到了「行动层」，但这一层仍然非常初级、非常脆弱。理解这一点，你就不会过度恐惧（「AI要取代我了」），也不会过度乐观（「让AI替我做一切」）。你需要的是准确认知每一层的成熟度，然后做出理性的判断。 ■1.3大模型的能力边界：它真正擅长和真正不行的事我经常被问到：「大模型到底行不行？」这个问题太笼统了。精确的回答应该是一张二维表—— "塔勒布在《反脆弱》中说：知道什么会失败，比知道什么会成功更重要。对AI也是如此——了解它的弱点，是安全使用它的前提。" —纳西姆·塔勒布 ■1.4未来3-5年：我们正走向何方？预测未来是危险的，但有几个方向是相对确定的—— 📖争论：Sam Altman vs Vitalik Buterin OpenAI CEO Sam Altman认为AI代理将在2-3年内「改变人类工作方式的根本结构」，是「自互联网以来最大的范式转移」。以太坊创始人Vitalik Buterin则公开警告：当AI代理被赋予自主行动能力和金融操作权限时，「复杂系统的失控往往远远早于高级智能的涌现」。他呼吁优先解决安全和对齐问题，而非盲目加速。我的判断：两人都有道理。趋势的方向是确定的，但速度和安全之间的张力会一直存在。作为个体使用者，你不需要站队，你需要的是——在趋势确定时尽早介入，在安全不确定时控制风险敞口。这正是巴菲特式的理性乐观主义。 ■1.5大厂入场：腾讯QClaw与字节ArkClaw 2026年3月，一个标志性的信号出现了：中国互联网巨头开始下场。腾讯和字节跳动相继推出了自己的OpenClaw产品化封装版本。这意味着AI代理正式从极客实验室走向大众市场。 📖大厂为什么要做这件事？逻辑其实很简单。OpenClaw的开源社区证明了AI代理的需求是真实的，但原生版本的CLI复杂性把99%的普通用户挡在了门外。腾讯和字节看到了一个巨大的机会：用自己的产品化能力，把「极客的玩具」变成「所有人的工具」。这就像当年安卓是开源的，但真正让智能手机普及的，是小米、华为这些厂商的产品化能力。OpenClaw也正在经历类似的进程。 💡大厂版本怎么选？一条决策逻辑如果你只想感受AI代理是什么→QClaw（微信发消息就能体验，零门槛）。如果你确认要把它融入核心业务→原生OpenClaw（数据和系统完全属于你）。如果你是企业IT负责人需要团队部署→ArkClaw（云端管理+安全隔离）。关键原则：用大厂版本「体验概念」，用原生版本「构建资产」。 ⚠️大厂版本的隐性代价便利性和主权是一对永恒的矛盾。QClaw让你用微信操控AI，但你的指令和数据流经腾讯服务器；ArkClaw让你免去运维焦虑，但你的工作流存在字节云端。X平台上的开发者已经在警告：「免费的才是最贵的——当你的AI代理运行在别人的基础设施上时，你只是在给他们的数据飞轮做贡献。」这不是说大厂版本不能用，而是你需要清醒地知道：你在用便利性交换什么。本章核心结论 AI正在从「能说」进化到「能做」。OpenClaw处于「行动层」这个最新突破点上。但这一层仍然非常初级——理解这一点，是理性使用它的前提。读完立刻可以做的事 1.在脑中建立「感知→认知→决策→行动」的AI能力四层模型2.记住大模型的致命弱点：事实不可靠、价值判断极弱3.趋势确定但节奏是你的——不必焦虑，但值得尽早入场建立认知第二章OpenClaw深度拆解：它到底是什么、怎么工作的 ■2.1一句话定义与三条判别式 OpenClaw（「龙虾AI」/「小龙虾」）是一个开源的个人AI代理框架。发布数月内拿下超过27万GitHub Stars，成为2026年增长最快的开源AI项目。 "如果大语言模型是「大脑」，OpenClaw就是给大脑装上的「手脚和神经系统」。大脑再聪明，没有手脚也只能躺着聊天。装上手脚，它能站起来替你干活了。" 市面上打着「AI代理」旗号的产品越来越多。怎么分辨真伪？记住三条判别式—— 【AI代理的三条判别式】 Plan规划能否将一个模糊的目标自主拆解为具体的执行步骤？如果只能对话不能拆任务，那只是聊天机器人。 Act行动能否调用外部工具（浏览器、文件系统、API）执行物理操作？如果只能输出文字不能操作系统，那只是文本生成器。 Observe & Reflect观察与反思能否将执行结果写回系统、评估是否达标、并决定是继续还是调整？如果不能闭环循环，那只是一次性脚本。 💡判别标准同时满足三条=真正的AI代理框架。缺任何一条=更强的聊天机器人。ChatGPT满足第一条，勉强满足部分第二条，几乎不满足第三条。OpenClaw三条全满足。 ■2.2超级实习生：一个精确的心智模型为了帮你建立正确预期，我需要拆掉一个幻觉。很多人听到「AI代理」，脑海里浮现的是贾维斯——全知全能、料事如神。忘掉贾维斯。 "查理·芒格说：「我想知道我会死在哪里，这样我就永远不去那里。」了解实习生的弱点，比欣赏它的优点更重要。" —查理·芒格 💡关键思维转换：写「岗位说明书」，而不是「愿望清单」你给代理的不是「请帮我」这种模糊的愿望——而是一份正式的岗位说明书：做什么、不做什么、如何验收、何时停机。越像正式的岗位JD，AI的表现就越稳定。这和管理真人实习生是一模一样的道理。 ■2.3架构图解：三层结构一目了然 OpenClaw在开源社区风靡的一大原因是它的架构极其克制——拒绝过度设计，遵循「少即是多」的工程哲学。【OpenClaw三层架构】输入层·接入通道Channels 你说话的地方。不另造App——直接接入你日常用的Telegram、WhatsApp、Discord或命令行终端。你在哪里发消息，它就在哪里接收指令。设计理念：不增加任何新的学习成本。引擎层·网关与串行循环Gateway 它思考和调度的地方。Gateway（网关）后台永远运行，接收指令后启动「串行代理循环」——观察→计划→调用工具→记录结果→反馈，严格按顺序单线程执行。为什么单线程？因为安全。两个AI同时改一个文件=灾难。执行层·工具调用Tool Surface 它动手的地方。大模型不直接「做」事——只输出结构化指令（JSON），告诉系统「调用XX工具做XX事」。系统执行完，把结果反馈回来，形成闭环。大模型是军师，工具是执行者。通过MCP（模型上下文协议）标准接口，可以无限扩展工具种类。 📖工程哲学：为什么OpenClaw选择了「慢」在软件工程界，有一个经典辩论：要速度还是要安全？OpenClaw的创始团队做了一个反潮流的选择——单线程串行循环。这意味着AI代理一次只能做一件事，做完再做下一件。在追求高并发、高吞吐的互联网时代，这看起来像是倒退。但创始团队引用了一个投资界的类比：芒格说「第一条规则是不要亏钱，第二条规则是不要忘记第一条」。对于一个能直接操作你的文件系统和邮箱的AI来说，「不出灾难」比「做得快」重要一百倍。这个选择被证明是正确的。在竞品Manus因并

点击免费查看完整报告