先说结论
我把这组 OpenClaw 文章连着看完,又对照自己最近实际搭系统时踩过的坑,最后的判断很明确:
Agent 从“会聊天”到“能持续干活”,中间至少隔着 6 层系统能力。
真正卡人的,通常不是模型本身,而是系统一直没闭环。
我现在基本会先看这 4 件事:
- 任务有没有闭环,不只是“能调用一下工具”
- 记忆、权限、触发、反馈有没有串起来
- 失败后能不能定位在哪一层出问题
- 编排层是不是先于“多加几个 Agent”被设计清楚了
所以这篇我不重复安装流程,也不再讲“它能做什么”这种表层信息。我更想回答的是:这份主题页背后到底在讲什么,以及如果我今天重新搭一次,会按什么顺序来。
这份主题页,表面是分栏,实质是在回答一个问题
它把内容拆成了底层逻辑、安装配置、记忆身份、技能效率、场景实战、进阶架构 6 层。刚看会觉得像普通专题导航,但我读下来发现它其实一直在围着同一个核心问题打转:
怎么把模型能力,稳定地变成生产能力。
我自己的理解可以压缩成下面这 6 层:
- 第 1 层:底层逻辑。先接受一个事实,OpenClaw 不是“更聪明的聊天框”,它本质上是网关、会话、工具、调度拼出来的一套系统
- 第 2 层:安装与安全。你启动的不是玩具脚本,而是一个真的能连外部通道、能执行动作的系统
- 第 3 层:记忆与身份。不把信息落盘,不定义边界,Agent 用久了很容易退化成“每次都得重新交代背景”
- 第 4 层:Skill 与效率。Skill 不是一段好 prompt,而是可复用的工作流;效率问题也不只是模型速度,很多时候卡在上下文和缓存
- 第 5 层:实战闭环。没有 execute → feedback → re-trigger,所谓自动化通常只是做了一半
- 第 6 层:编排与多 Agent。真正拉开差距的不是多开几个 worker,而是编排层有没有先站住
我第一次看这套内容时,原本也会被“多智能体”“自动化编排”这些词吸引。但真开始自己搭以后,很快就发现:系统能不能连续跑 7 天,比它能不能一次性炫技更重要。
我认为最值得单独拎出来看的 4 个分歧
这组内容里有不少观点表面上像在互相打架,其实只是讨论层级不同。对新手来说,如果不先把这些分歧想明白,很容易一上来就把系统做复杂。
1)“多 Agent 才高级” vs “单 Agent 先跑圆”
这是最容易误读的一组。
有些文章会强调双层架构:编排层负责拆任务,执行层负责干活;也有些文章反复提醒,不要太早 multi-agent。乍一看像互相否定,实际不是。
我现在会这样区分:
- 如果你解决的是“思考问题”,比如想要多视角分析、方案对比,那单 Agent 圆桌往往就够了,便宜、好调、也更容易复盘
- 如果你解决的是“执行问题”,比如并行跑任务、隔离权限、做长时任务,那才值得把多 Agent 真正引入进来
也就是说,关键变量根本不是 Agent 数量,而是你当前在解哪类问题。
我自己最早搭的时候也犯过一个很典型的错误:看到能开子代理就很想拆,结果拆完发现每个子任务都在吃重复上下文,主会话还得不停补信息,最后复杂度上去了,收益不明显。后来反过来先把单链路做顺,再决定哪些地方值得并行,事情就顺很多。
2)“更大上下文” vs “文件化记忆 + 按需检索”
这组文章有个我很认同的判断:
Context 不是 Memory。
这不是一句术语区分,而是非常实际的成本问题。
- Context 是一次性的,贵,而且窗口总有上限
- Memory 是持久的,可以沉淀,也可以按需读
如果你把历史全塞进 prompt,系统每轮都在重复付费,也更容易把重点冲淡;但如果你把信息分层落到文件里,真正执行任务时只拿需要的那一小部分,成本和稳定性都会好很多。
我现在更偏向这种结构:
- 日志层:
memory/YYYY-MM-DD.md - 长期层:
MEMORY.md - 检索层:语义检索 + 关键词兜底
这套结构的价值,不是“更先进”,而是它适合长期运行。尤其是当任务开始跨天、跨场景时,文件化记忆几乎是刚需。
3)“先让它能做事” vs “先把安全边界前置”
很多人做 Agent 会把安全放在后面,觉得先跑通再说。但这类系统跟普通脚本不一样,它的风险通常不是单点错误,而是:
工具能力 × 自动触发 × 持久记忆
这三个东西一旦叠起来,边界没画清楚就会很麻烦。
我现在很认同一个做法:
危险动作不要等进了执行队列再拦,最好在入口就拒绝。
也就是把限制前移到 proposal 或 policy gate,而不是等 worker 已经拿到动作才想起来“这个不能自动做”。
这个区别在实战里很明显。比如“发消息”“改配置”“公开发布”这类动作,如果前面没定义清楚确认机制,后面越补越乱。相反,只要入口规则写得足够明确,后面就轻松很多。
4)“换更强模型” vs “先把缓存命中率做高”
这点是我最近越来越有体感的一件事。
很多人一遇到成本高、延迟大,第一反应是换模型。但如果你的系统本身就是循环式执行,前缀又长,经常重复把同一批背景、规则、记忆塞进去,那瓶颈可能根本不在模型,而在缓存策略。
说白了就是:
长上下文 Agent 的成本和延迟,很多时候不是被任务本身拉高的,而是被重复前缀拖高的。
所以在这类系统里,我会把缓存命中率当成一级指标,而不是“以后再优化”的附加项。
如果今天让我重搭一次,我会按这个 30 天路线走
读专题很容易上头,看完一堆概念,系统却没变化。所以我更喜欢把它压成一个真正能执行的路线。
第 1 周:先跑最小闭环
目标很简单:让系统先具备 propose → execute → feedback。
我会先做这几件事:
- 只选一个通道接入,比如 Telegram
- 跑通会话、工具调用、结果回传
- 明确只有一个执行入口,避免双 worker 竞争
- 给每次任务写状态:pending / running / succeeded / failed
这一周我不会追求“看起来很强”,只追求一件事:任务能不能被稳定跟踪到结束。
第 2 周:把安全和策略门控补齐
目标是让系统从“能做”变成“可控地做”。
清单我一般会列得很直白:
- 明确 threat model:谁可能发起风险、入口在哪、最坏结果是什么
- 配 allow/deny 策略
- 给敏感动作加前置审批
- 锁好凭据和文件权限
这一阶段做完后,系统虽然还是朴素,但已经不是“随便跑一跑”的玩具状态了。
第 3 周:重构记忆层
目标是让系统摆脱对长上下文的硬依赖。
我会把重点放在:
- 建 daily + long-term 两层记忆
- 给记忆加基础分类,比如 decision / preference / lesson
- 在压缩上下文前先 flush 关键事实
- 清理低价值上下文,只保留高价值索引
这一层做完以后,系统的长期可维护性会明显提升。很多“为什么它上周记得、这周不记得”的问题,往往就是这里没做好。
第 4 周:最后再谈多 Agent 和编排升级
等前面三层站稳了,再来谈并行才有意义。
我通常会这样推进:
- 先确认哪些任务真的值得并行,而不是因为“多 Agent 看起来高级”
- 让编排层持有业务上下文,执行层只拿最小必要信息
- 给子任务加超时、重试、回收策略
- 失败后不要机械重试,而是重写 prompt 或改任务拆法
如果前面基础没打稳,这一层很容易把系统复杂度直接拉爆。反过来,前面做对了,多 Agent 才是真的放大器。
一个我觉得足够实用的最小系统定义
如果你是个人开发者,或者是小团队先想做 MVP,我建议先把目标定得现实一点:
目标: 让 Agent 连续 7 天稳定完成固定任务,不需要人工盯盘
必须具备: - 单一执行入口(无双 worker 竞争) - 可追踪状态机(任务与步骤可审计) - 策略门控(敏感动作前置拒绝/审批) - 文件化记忆(daily + long-term) - 周期触发(cron)+ 事件反馈(event)
暂缓事项: - 复杂多 Agent 编排 - 大而全的工具接入 - 花哨 UI 和可视化面板我现在越来越觉得,这种“先收窄目标”的做法并不保守,反而是效率最高的。因为你真正需要的是稳定系统,不是一个演示视频里看起来很聪明的系统。
我会主动避开的 5 个误区
| 误区 | 常见结果 | 我更建议的做法 |
|---|---|---|
| 一上来堆很多 Agent | 编排复杂度瞬间爆炸 | 先单 Agent 跑圆,按需再拆 |
| 一开始就给很大全限 | 风险边界模糊 | 从最小权限起步,慢慢放开 |
| 把记忆全塞进 context | 成本高、速度慢、信息还容易失真 | 文件落盘 + 按需检索 |
| 失败后只会机械重试 | 同一个坑反复踩 | 先分析失败点,再改 prompt 或拆任务 |
| 遇到问题先换更贵模型 | 提升不稳定、成本先上来 | 先优化缓存、状态机、门控、观测 |
这些坑看起来都不复杂,但我基本都见过,也踩过。很多时候不是因为工程能力不够,而是太容易被“模型能力”吸走注意力,反而忽略了系统本身。
最后还是那句话:分水岭不是 prompt,而是闭环
这组内容对我最大的价值,不是又教了几招提示词,而是把 Agent 工程重新拉回到系统设计本身。
如果一定要再压缩成一句话,我的结论就是:
OpenClaw 真正的入门门槛,不是安装成功,而是把系统做成闭环。
我现在默认的优先级一直是这 4 个:
- 闭环先于炫技
- 边界先于能力
- 编排先于并行
- 记忆先于上下文堆叠
如果你也在搭自己的 Agent 系统,我会很建议你先按这个顺序走。先把一个能稳定跑的闭环做出来,再去谈更复杂的编排和更强的模型。这样后面每加一层能力,系统都还是稳的,也更容易长期维护。