我们做 Skills 时,最大的风险很清楚:它可能变成一个 prompt 收藏夹。
让 AI 写流程太容易了。给它几段聊天记录,它马上能写出一份看起来很完整的 checklist:先做什么、再做什么、最后注意什么。问题是,大部分这种 checklist 没有价值。好模型本来就会写;差一点的模型照着做,也不一定会做对。
真正值得留下的 Skill,要抓住你在真实工作里学到的那一步。没有它,换一个聪明的 Agent 来做,还是会犯错。
Skill 到底是什么
在 v0.9 里,我们把三类东西分开。
记忆记录发生过的事、做过的决定、学到的经验。
“回答简短点”是规则。它应该一直生效。“这个项目里别手改自动生成的 API 文档”也是规则。它约束 Agent 的行为。
“发版时先提交子仓库,再提交父仓库指针”,更像 Skill。它改变的是做事顺序。Agent 如果不知道这一步,就很容易把 repo 状态弄乱。
所以我们判断一条建议是不是 Skill,会先问一个很简单的问题:
它会让 Agent 下次做事时,具体哪一步变得不一样?
答不上来,就不该变成 Skill。
它必须来自真实工作
Skills 的价值首先看出处,不看 AI 写得漂不漂亮。
我们希望 Mem 从你的真实工作里找出那些反复出现的做法:一次排查、一段发版、一轮 review、一个你后来才知道必须加上的安全检查。它最好能指回当时发生过的事,少一点“你似乎喜欢这样做”这种猜测。
这也是为什么我们不会默认把建议打开。Mem 可以建议,但开不开应该由你决定。因为 Skill 一旦打开,Agent 之后真的会照着做。错的 Skill 会让 Agent 下次真的按错的方法行动。
Nowledge Mem 里的 Skills
我们自己的例子
做 v0.9 的 Skills 时,我们自己一直在用一套很土的办法:
先做一套会失败的评测,把每一步发生了什么记下来,看清到底卡在哪,只改那一处,再重新跑。
这句话听起来很普通。但做产品时,人最容易跳过的就是它。结果一不对,本能反应就是调 prompt、换模型、改阈值,或者让系统多推几条。看起来很忙,其实你不知道哪一步真的变好了。
这套办法我们在两个地方反复用过:一次是优化另一个 agent 项目的评测,另一次是做 Skills 自己的推荐质量。Mem 从这些开发记录里看出了这条共同的做法,把它写成了一条 Skill。
它没有写“做事要有评测”这种空话。它写的是具体动作:先量什么,为什么每一步要留记录,什么时候只改一个地方,什么时候不要急着扩大范围。
harness loop Skill 的详情页
这就是我们要的效果:从真实工作里找出一个会影响下次行动的做法,少一点正确废话。
更重要的是,它没有乱改
后来我们又让 Mem 去优化这条 Skill。
系统从证据里补了几个测试用例,试了几版改法,再和原版比。结果没有一个版本更好,所以最后没有改。
这听起来不刺激,但对 Skills 来说很重要。
文章改坏了,最多难看一点。Skill 改坏了,Agent 会真的按它去做。一个会自我改进的系统,不能为了显得“有产出”就硬改。改不出更好的,就别改。
v0.9 里你会看到什么
打开 v0.9 的 Skills,页面应该很安静。
Skills 列表里的 harness loop Skill
建议要少,每条都要有来处,并且回答三件事:
- 它来自哪段真实工作?
- 打开后,Agent 的哪一步会变得不一样?
- 为什么 Mem 认为这条值得留下?
如果你认得这条做法,也信得过它的出处,就打开。之后,连接到 Mem 的 Agent 就能在合适的时候读到它。以后它要被打磨,也得先证明新版本更好。
这就是 v0.9 的 Skills 想解决的问题:把你真的做对过的那一步,变成 Agent 下次也能做对的能力。