我把 Agent Skills 的开放规范、SWE-Skills-Bench 的实证结果,以及 Daniel Sogl 对 skill eval 的反思放在一起看,试着回答三个问题:skill 适合解决什么问题、什么时候值得投入,以及为什么没有 eval 的 skill 很容易变成一份没人验证的 Markdown。