AI AI Agent Harness Engineering 大模型 AI 开发

Harness Engineering 是什么？新范式，还是噱头？

蔡坨坨2026-05-102026-05-10

转载请注明出处❤️

你好，我是测试蔡坨坨。

AI 圈造词的速度，比模型迭代的速度还快。

从最初人人挂在嘴边的 Prompt Engineering（提示工程），到后来强调信息组织的 Context Engineering（上下文工程），如今，一个更新的概念正在硅谷技术圈走红——Harness Engineering。

从今年 2 月份开始，这个词开始频繁出现在 OpenAI、Anthropic 等顶尖 AI 实验室的官方技术博客里。OpenAI 甚至专门发文，分享了他们如何通过 Harness Engineering，在 5 个月内让 AI 编写了将近 100 万行代码。

原文：Harness engineering: leveraging Codex in an agent-first world

Anthropic 也紧接着发文，分享自己如何使用精心设计的 Harness 架构来驱动 Agent 开发应用。

原文：

不仅如此，就连技术大牛 Martin Fowler 创建的技术网站 martinfowler.com 也开始公开讨论起 Harness Engineering。

原文：

但与此同时，也有不少人认为这不过是个噱头而已，换汤不换药。

那 Harness Engineering 到底是什么？它是真技术突破，还是又一个包装精美的炒作概念？

什么是 Harness Engineering？

先把这三个概念的演进理清楚。

Prompt Engineering 解决的是”怎么跟模型说话”的问题，研究的是提示词的措辞、结构、格式。

举一个具体点的例子，比如你对模型说*”帮我推荐一部电影。”*，这其实就是一个 Prompt。

但问题是，这句话的信息太少了，模型根本不知道你喜欢什么类型、想一个人看还是和朋友看、喜欢轻松搞笑还是烧脑、新片还是老片，于是它只能随机给你推荐一些“大众觉得不错”的电影，但这些推荐，很可能不符合你的口味，因此 AI 并不知道你真正想要什么。

这个时候 Prompt Engineering 的作用就来了，如果你把 Prompt 改成*”推荐一部适合周末晚上一个人看的电影，不要恐怖片，节奏不要太慢，希望是轻松搞笑的，最好近几年的高分作品。”*，你就会发现，AI 给出的结果立刻就不一样了。

不过，如今 Prompt Engineering 已经很少被单独提起了，一方面是因为它的门槛实在是太低了，另一方面模型本身的能力也变得更强了，很多时候不需要在 Prompt 上面调来调去，也能得到很不错的回答。
Context Engineering 往前走了一步，关注的是”给模型看什么”，不仅是在 Prompt 上下功夫，还包括历史对话管理、上下文压缩、RAG、动态检索外部资料、渐进式披露等技术，本质是在做信息的组织和筛选。

我们在之前的文章中也有讨论过，可参考：「什么是Context Engineering？一文读懂AI黑话之“上下文工程”」

总结来说，因为 Context Window 是有容量上限的，所以我们不可能无止境的往里塞东西，所以我们需要精心设计上下文窗口里面的内容，而这门研究就被叫做 Context Engineering。

可以看出 Context Engineering 其实已经是挺能整活的了，不过这依然不是终点，因为大家发现 Context Engineering是有一定的上限的，为了进一步榨干模型的潜力，AI 圈又整出了新花样——Harness。
Harness 这个词，本意是”马具”——缰绳、头套、驭马用的一整套装置。一匹烈马再强壮，没有马具就没法受人控制，也就是脱缰的野马，更别提为人所用。

这个比喻放到大模型上非常贴切。大模型（比如 GPT 5.5 或者 Claude Opus 4.7）的能力已经很强了，但它天然会产生幻觉、会跑偏、会在细节上犯低级错误。Harness Engineering 研究的，就是怎么为模型设计一套控制系统，让它踏实地把事办成。

业内目前有一个非官方公式：Harness = Agent - Model。一个完整的 AI Agent 去掉大模型本身，剩下的所有控制逻辑、工具调用、验证机制、调度流程，都属于 Harness 的范畴。

换句话说，它不只盯着几句提示词或者上下文，而是站在系统工程的高度来考虑问题：如何让模型在一个稳定的框架里持续、可靠地输出结果。

以 Claude Code 举例，除去 Claude 模型本身，剩下的 CLAUDE.md、可用工具列表、定时调度机制、Skills、Hooks 等这些都属于 Harness。

OpenAI 的实验：5 个月，100 万行代码

相信看到这里的同学已经了解了 Harness Engineering 是什么了，但是 Harness Engineering 具体要做哪些事情？说实话，这个概念实在是太新了，目前业界也没有一个公认的体系。

我的做法是直接看看大厂是怎么做的。

2025年8月 OpenAI 启动一个”疯狂”的实验：全程不允许工程师手写一行代码，完全由 AI 生成业务逻辑、测试、配置、文档和内部工具。

结果是 3 ~ 7 个人，5 个月，开发出将近 100 万行代码的 beta 产品，开发效率提升约 10 倍。

但这项实验一开始并不顺利，不是因为大模型不够聪明，而是因为 Harness 没有搭建好，工程师发现 Agent 经常走错方向，犯相同的错误。

其中的优化过程原文中有详细记录，信息量非常大，篇幅关系，我会放在单独的文章中再做进一步讨论。

简单来说，OpenAI 的工程师搭了一套精密的 Harness 让 Agent 可靠地完成工作。核心做了三件事：

上下文管理

他们放弃了把所有规则塞进一个大文件的做法。agent.md 被压缩到约 100 行，变成一个”目录”，Agent 需要哪块信息就去读对应的文档。同时，所有决策都强制同步进代码仓库，仓库成为 Agent 唯一的”事实来源”。

这个思路值得记住：上下文不是越多越好，是越精准越好。

验证与反馈闭环

他们给 AI 接入了 Chrome DevTools 等工具，让它能自己截图、自查 UI 效果，同时接入可观测性工具读取日志和指标。这样 AI 就能自己发现问题、原地修复，形成一个完整的自动化闭环，而不是每次都等人来发现错误。

持续清理技术债

设置后台任务定期扫描代码库和文档，自动修复重复代码、命名不一致或过时的文档。代码质量不靠人工 Review 维持，靠系统自动兜底。

这个实验重新定义了人机分工的边界：人类掌舵（Steer），Agent 干活（Execute）。工程师的工作，从写代码变成了为 Agent 搭建稳定可靠的系统支撑框架。

Anthropic 的方案：三角色分工协作

相比 OpenAI 的全能型路径，Anthropic 的 Harness 设计更倾向于多 Agent 协作。

为了让 Agent 稳定运行并完成复杂任务，他们提出了 F-Harness 架构，里面有三个核心角色：

Planner（规划者）：把用户模糊的需求拆解成清晰的功能列表
Generator（生成者）：根据列表逐个实现功能点
Evaluator（评估者）：作为独立第三方，对生成的代码做质量评估，把 Bug 反馈给 Generator 修改

有点像研发流程里的需求拆解 + 开发 + 测试，只是三个角色全都是 AI。

实验数据显示，Solo 模式一次任务花费约 9 美元，F-Harness 模式要 200 美元左右，贵了 20 多倍，耗时也更长。但产出的产品逻辑和布局质量，远超单 Agent 模式。

这让我想到一个测试里的道理：质量不是测出来的，是设计进去的。 给 AI 系统加上独立的”评估者”角色，本质上是把质量门槛设计进了流程里，而不是事后补救。

争议：是新范式，还是”新瓶装旧酒”？

Harness Engineering 并非没有质疑声。

有人觉得，代码检查（Lint）、任务拆解、单元测试这些技术早就有了，HE 不过是把老技术重新起了个洋气的名字。这个批评不是完全没道理——如果只是换了个马甲，那确实没必要大张旗鼓。

还有一个更深的担忧：**”模型会吃掉 Harness”**。

模型能力一直在涨。Anthropic 就发现，从较低版本升级到 Opus 4.6 后，原本需要强制拆解才能处理的任务，模型现在可以自主统筹并稳步推进，不再需要那么多外部约束。换句话说，Harness 里很多复杂的控制逻辑，将来可能会被模型本身内化掉。

这种担忧是真实的。但我觉得，它解决的是”现在”的问题，而不是”未来”的问题。

当下最务实的选择

争议归争议，现实是：模型现在依然会幻觉、会跑偏、会在长任务里失控。

在这个前提下，Harness Engineering 不是噱头，而是目前提升 Agent 稳定性、实现大规模自动化的最可行路径。它可能不是终局答案，但它是当下能拿出来用的答案。

也许等到哪天模型强到”不需要马具”，Harness 会退化成一个简单的环境接口。但在那一天到来之前，谁把 Harness 搭得更稳，谁就能更早地把 AI 能力转化为真实的生产力。

这也是为什么 OpenAI 和 Anthropic 愿意把这些实验细节公开出来——工程能力，才是 AI 落地的真正门槛。

如果你现在正在做 AI 相关的开发，不妨想想：你给 Agent 搭的那套”马具”，够稳吗？