我把 Agent Skills 的开放规范、SWE-Skills-Bench 的实证结果,以及 Daniel Sogl 对 skill eval 的反思放在一起看,试着回答三个问题:skill 适合解决什么问题、什么时候值得投入,以及为什么没有 eval 的 skill 很容易变成一份没人验证的 Markdown。
Posts for: #claude-code
工程化引入 Agentic Workflow:一些关于质量与协作转型的观察
结合截至 2026 年 4 月能看到的公开案例与开源生态,整理软件团队从「贴 Prompt」逐步过渡到 Agentic 工作流时,质量保障与团队协作可能发生的变化。
Claude Code 为什么会拒绝我?harness 与 vibe coding 时代的工程边界
从一次被 Claude Code 拒绝的 git push 出发,结合最近几个月能查到的官方文档、CVE、论文与失败案例,整理 vibe coding 时代为什么需要工程边界、Claude Code 的 harness 如何分层,以及其他 AI 编码 agent 的不同取舍。
同时用 Claude Code、Copilot、Qwen、Codex,个人 skill 该怎么组织?
一篇问题驱动的笔记:从多 agent 工作流为什么会变乱开始,拆开 always-on 规则和 skill 的边界、Claude Code 的 skill 加载时机、跨 agent 共享源文件的取舍,以及每家 agent 的落地方式。