Harness Engineering 检查清单:团队开始用 AI coding agent 后,最该先补的不是更多提示词,而是这 10 个工程位
如果团队已经开始让 AI coding agent 连续改仓库、跑验证和提 PR,这份 Harness Engineering 检查清单能帮你先补最关键的工程位:知识入口、边界、验证、观测、清理和回退。
需要继续找相关内容?
如果你想继续查工具名、术语、对比页或相关问题,可以直接搜全站,不用回到博客列表页重找。
核心结论
团队真正需要的不是无限加 prompt,而是先把 10 个基础工程位补齐:入口、规则、验证、观测、回退、清理。
适合谁看
适合已经在仓库里用 AI coding agent 做连续开发、review 或修复的个人开发者和小团队。
关键判断
Harness Engineering 最怕一步到位做成大平台。更有效的做法通常是先补关键薄弱环节,再逐步把规则工程化。
下一步建议
如果你想看这套方法对应到具体开源平台,就接着看 Harness Open Source 两篇。
你将学到
- + 团队进入 harness engineering 阶段后应该先补哪些基础工程位
- + 哪些规则适合写进文档,哪些应该直接变成 lint 或自动检查
- + 为什么验证和观测入口要直接对 agent 开放
- + 如何避免 AI 代码库的熵增和坏模式复制
Harness Engineering 检查清单:团队开始用 AI coding agent 后,最该先补的不是更多提示词,而是这 10 个工程位
如果你还没先把几个基础词看顺,建议先过一遍:
先说判断标准
如果你的团队已经出现下面任意两三条,其实就该开始做 harness engineering 了:
- agent 不只是回答问题,而是在持续改仓库
- 会自己跑测试、改代码、提 PR
- 团队开始反复遇到相同风格偏差或重复错误
- 人工 review 时间被挤占得越来越明显
- 文档、代码和真实行为开始脱节
这时候最该做的,不是继续把 prompt 越写越长,而是先补工程位。
1. 给 agent 一个短入口
你的仓库应该有一个短入口文件,比如:
AGENTS.mdREADME-agent.mddocs/START_HERE.md
它的任务不是包打天下,而是回答这几个问题:
- 先看哪里
- 哪些文件是知识源
- 哪些规则最重要
- 默认验证顺序是什么
2. 把知识源放进 repo
如果关键知识只存在于:
- Slack
- 口头约定
- 临时白板
- 飞书文档但没人同步
那对 agent 来说基本等于不可见。
优先补齐这些:
- 架构说明
- 关键业务规则
- 活跃执行计划
- 技术债清单
- 常见错误与例外处理
3. 把规则分成“说明类”和“强制类”
很多团队的问题不是没规则,而是所有规则都停留在“说明”。
更稳的做法是分两层:
- 说明类:放文档,帮助 agent 理解上下文
- 强制类:放 lint、结构测试、CI、schema 校验
如果某条规则每周都会被违反,它通常就不该只写在文档里。
4. 明确边界和依赖方向
agent 在“自由发挥”的环境里,往往会更快地产生结构漂移。
所以你至少要清楚:
- 哪些层可以依赖哪些层
- 哪些目录是边界
- 哪些类型必须在边界校验
- 哪些跨层访问不允许出现
这类规则一旦明确,agent 反而更好用。
5. 让验证动作标准化
每次都靠人手动告诉 agent “改完跑什么”,是最容易累积摩擦的。
建议至少固定:
- 默认本地验证命令
- 哪类改动必须跑哪些检查
- 前端改动的 visual gate
- 内容改动的 schema / build gate
对你自己的站点来说,像 build + preview 这类规则就是很典型的 harness。
6. 给 agent 观测入口
如果 agent 只能改代码、看不到运行结果,它就很难闭环。
最低配也应该逐步补:
- 测试结果
- 应用日志
- 页面快照或截图
- 关键耗时指标
- 明确的错误信息
这样 agent 才不是“写一下试试”,而是“改完能判断自己到底修没修好”。
7. 设计回退和人工接管点
不是每个问题都适合继续自动迭代。
你应该显式定义:
- 遇到什么情况必须停下来
- 哪些风险需要人工判断
- 哪些改动不能自动 merge
- 出错后默认回到哪个状态
越早把这些点说清楚,越少出现 agent 一路把问题越改越深。
8. 把 review 目标改成“纠偏系统”,不只是挑代码
agent-first 环境里,review 不应该只盯着这一次提交写得像不像人。
更该问的是:
- 这次暴露出什么缺失规则
- 哪个知识入口不够清楚
- 哪个 lint 该补
- 哪个坏 pattern 已经开始复制
好的 review 会反过来升级 harness。
9. 建立固定 cleanup 节奏
AI 代码库不怕偶尔脏一次,怕的是没有持续清理。
建议至少固定做这些:
- 清理重复 helper
- 清理模糊命名
- 把临时 workaround 收敛掉
- 更新失效文档
- 修复 agent 易复制的坏模式
如果你已经开始把每周固定时间花在清理 “AI slop” 上,说明这一步不能再省了。
10. 让团队默认问“缺的是哪层 harness”
当 agent 做不好时,最容易出现的错误反应是:
- 再试一次
- 再换个 prompt
- 再换个模型
但很多时候真正应该问的是:
- 缺的是知识入口?
- 缺的是边界?
- 缺的是验证?
- 缺的是观测?
- 缺的是 cleanup?
这个判断习惯,本身就是 harness engineering 的开始。
一个更稳的落地顺序
如果你不想一下子铺太大,推荐按这个顺序补:
- 短入口
- repo 内知识源
- 默认验证命令
- 边界和依赖规则
- 关键 lint / 结构检查
- 日志和运行观测
- cleanup 节奏
这个顺序对个人开发者、小团队和内部工具项目都更友好。
下一步怎么接着看
- 什么是 Harness Engineering
- Open Harness 是什么:其实官方名称是 Harness Open Source
- Harness Open Source 安装与入门指南
- 如何把 Agent 工作流从 demo 变成稳定系统
参考与延伸阅读
继续延伸
要点总结
- - 先补最小可行 harness,比先追求完全自动化更稳
- - 规则写在 repo 里并可校验,才算真正被 agent 看见
- - 没有 cleanup 机制的 agent 代码库会越来越脏
常见问题
这份检查清单适合个人开发者吗?
适合。个人开发者通常不用一次做全,但入口、规则、验证和回退这几项会很快有回报。
是不是每一项都要自动化?
不是。更好的顺序通常是先显式化,再标准化,最后再自动化。
支付宝扫码赞赏
感谢支持