Skip to main content
·
Nowledge Labs 团队Nowledge Labs 团队
·1 min read

别把 Skills 做成 prompt 收藏夹

v0.9 的 Skills 从你真实做过的工作里找方法:有出处、你确认、能验证,而且会改变 Agent 下一次怎么做。

我们做 Skills 时,最大的风险很清楚:它可能变成一个 prompt 收藏夹。

让 AI 写流程太容易了。给它几段聊天记录,它马上能写出一份看起来很完整的 checklist:先做什么、再做什么、最后注意什么。问题是,大部分这种 checklist 没有价值。好模型本来就会写;差一点的模型照着做,也不一定会做对。

真正值得留下的 Skill,要抓住你在真实工作里学到的那一步。没有它,换一个聪明的 Agent 来做,还是会犯错。

Skill 到底是什么

在 v0.9 里,我们把三类东西分开。

记忆记录发生过的事、做过的决定、学到的经验。

“回答简短点”是规则。它应该一直生效。“这个项目里别手改自动生成的 API 文档”也是规则。它约束 Agent 的行为。

“发版时先提交子仓库,再提交父仓库指针”,更像 Skill。它改变的是做事顺序。Agent 如果不知道这一步,就很容易把 repo 状态弄乱。

所以我们判断一条建议是不是 Skill,会先问一个很简单的问题:

它会让 Agent 下次做事时,具体哪一步变得不一样?

答不上来,就不该变成 Skill。

它必须来自真实工作

Skills 的价值首先看出处,不看 AI 写得漂不漂亮。

我们希望 Mem 从你的真实工作里找出那些反复出现的做法:一次排查、一段发版、一轮 review、一个你后来才知道必须加上的安全检查。它最好能指回当时发生过的事,少一点“你似乎喜欢这样做”这种猜测。

这也是为什么我们不会默认把建议打开。Mem 可以建议,但开不开应该由你决定。因为 Skill 一旦打开,Agent 之后真的会照着做。错的 Skill 会让 Agent 下次真的按错的方法行动。

Nowledge Mem 里的 SkillsNowledge Mem 里的 Skills

我们自己的例子

做 v0.9 的 Skills 时,我们自己一直在用一套很土的办法:

先做一套会失败的评测,把每一步发生了什么记下来,看清到底卡在哪,只改那一处,再重新跑。

这句话听起来很普通。但做产品时,人最容易跳过的就是它。结果一不对,本能反应就是调 prompt、换模型、改阈值,或者让系统多推几条。看起来很忙,其实你不知道哪一步真的变好了。

这套办法我们在两个地方反复用过:一次是优化另一个 agent 项目的评测,另一次是做 Skills 自己的推荐质量。Mem 从这些开发记录里看出了这条共同的做法,把它写成了一条 Skill。

它没有写“做事要有评测”这种空话。它写的是具体动作:先量什么,为什么每一步要留记录,什么时候只改一个地方,什么时候不要急着扩大范围。

harness loop Skill 的详情页harness loop Skill 的详情页

这就是我们要的效果:从真实工作里找出一个会影响下次行动的做法,少一点正确废话。

更重要的是,它没有乱改

后来我们又让 Mem 去优化这条 Skill。

系统从证据里补了几个测试用例,试了几版改法,再和原版比。结果没有一个版本更好,所以最后没有改。

这听起来不刺激,但对 Skills 来说很重要。

文章改坏了,最多难看一点。Skill 改坏了,Agent 会真的按它去做。一个会自我改进的系统,不能为了显得“有产出”就硬改。改不出更好的,就别改。

v0.9 里你会看到什么

打开 v0.9 的 Skills,页面应该很安静。

Skills 列表里的 harness loop SkillSkills 列表里的 harness loop Skill

建议要少,每条都要有来处,并且回答三件事:

  • 它来自哪段真实工作?
  • 打开后,Agent 的哪一步会变得不一样?
  • 为什么 Mem 认为这条值得留下?

如果你认得这条做法,也信得过它的出处,就打开。之后,连接到 Mem 的 Agent 就能在合适的时候读到它。以后它要被打磨,也得先证明新版本更好。

这就是 v0.9 的 Skills 想解决的问题:把你真的做对过的那一步,变成 Agent 下次也能做对的能力。

© 2026 Nowledge Labs. 构建知识层。