self-media-james/articles/012-2025年做Agent的都哭了!2026年最火的Harness到底是什么鬼.md
邓文兵 09570aec99 feat(article): 添加四篇AI行业深度分析文章
- 创建300亿AI漫剧风口分析文章,探讨造富神话与韭菜收割机真相
- 添加Vibe Coding编程方式对程序员影响的深度研究报告
- 发布AI Agent Harness架构解析文章,揭示2026年最火技术内幕
- 撰写大厂模型训练投资与中小软件公司生存策略分析

fix(feedback): 创建内容创作反馈规则文档

- 设定文章配图丰富性要求,增强可读性
- 规范文作者称谓,避免使用老邓自称
- 明确去AI味写作要求,遵循真人博主聊天风格
2026-04-19 09:37:35 +08:00

14 KiB
Raw Permalink Blame History

2025 年做 Agent 的都哭了2026 年最火的 Harness 到底是什么鬼

发布日期2026-04-13 分类:行业分析 / AI 基础设施 作者老邓唠AI

封面

一个让所有人难堪的数字

4 月 8 日Anthropic 发布了 Claude Managed Agents。发布会上他们不经意间透露了一个数据

超过 40% 的 AI Agent 项目会在 2027 年前失败。

这不是 Anthropic 自己说的,是 Gartner 的预测。但 Anthropic 把这个数据放在了发布会第一页 PPT 上。

意思很明确:Agent 不是问题,让 Agent 跑起来才是问题。

2025 年,全行业疯狂做 Agent。到了 2026 年大家终于搞明白了一件事——Agent 本身不值钱,包在 Agent 外面的那套系统才值钱。

这套系统,叫 Harness


先讲个故事:为什么 Agent 会失控

去年我帮一个朋友的公司搭了个客服 Agent。技术栈很标准GPT-4 + LangChain + 几个工具调用。Demo 阶段表现不错,回答准确率 90% 以上。

上线第一周就炸了。

Agent 在处理一个退款请求时,连续调用了 47 次数据库查询,把数据库连接池干爆了。更离谱的是,它在一次对话中把用户的完整订单历史(包括收货地址和手机号)原封不动地输出到了聊天窗口。

我排查了两天发现问题根本不在模型上——GPT-4 的回答能力没问题。问题在于:没有人告诉它什么时候该停,什么东西不能说,查询失败了怎么办。

这就是典型的"有 Agent 没 Harness"的症状。


所以 Harness 到底是什么?

一句话:Harness 是套在 AI Agent 外面的操作系统。

这个比喻来自 Hugging Face 的 AI 总监 Phil Schmid我觉得他说得最到位

LLM 是 CPU提供原始算力。上下文窗口是内存有限且易失。Agent Harness 是操作系统管理启动流程、分配资源、提供驱动。Agent 本身只是跑在操作系统上的应用程序。

换成更直白的说法——LLM 是一匹野马,能力巨大但没方向感。Harness 就是缰绳、马鞍和围栏。 没有它,马跑得再快也是乱跑。

具体来说,一个 Harness 包含六个核心组件:

组件 干什么 类比
上下文工程 决定模型每一步能看到什么信息 给马戴上眼罩,只看该看的路
工具层 连接 API、数据库、代码执行环境 马身上挂的工具包
记忆与状态管理 短期记忆、会话状态、长期知识 马认路的能力
验证与护栏 格式校验、安全过滤、自我纠错 围栏和刹车
规划与分解 把复杂任务拆成子任务 导航系统
生命周期管理 初始化、执行、保存状态、故障恢复 马厩管理

你可能会说:这不就是传统的中间件/编排层吗?

但也不完全对。传统中间件处理的是确定性的输入输出。Harness 面对的是一个会犯错、会幻觉、会忘事、会乱花钱的"员工"。这个本质区别让整个工程复杂度翻了几倍。


2025 年的 Agent 们到底怎么死的

去年号称"Agent 元年"。每家 AI 公司都在发 Agent 产品,每个技术会议都在讲 Agent。一年过去了踩的坑比填的坑多。

坑一:上下文失忆症

长时间运行的 Agent 有个致命问题——每次新开上下文窗口就像失忆了一样。

Anthropic 自己发现Claude Sonnet 4.5 在长任务中会出现"上下文焦虑":当上下文快满的时候,模型会着急忙慌地草草收尾,不管任务做没做完。

这就好比你让一个实习生做一个需要三天的项目,但他每天早上来都不记得昨天做了什么。

坑二Agent 泛滥成灾

Salesforce 2026 年的调研显示,一家企业平均部署了 12 个 AI Agent,预计到 2027 年会到 20 个。但只有 27% 有统一管理。

剩下的 73%?各做各的,数据不通,权限混乱,有的 Agent 还会互相打架。

这跟十年前微服务泛滥的问题一模一样——当初每个团队疯狂拆微服务,最后搞出了服务网格和 API 网关来擦屁股。Agent 的治理问题,今天就需要 Harness 来解决。

坑三:模型趋同,基础设施拉开差距

一个残酷的现实:顶尖模型之间的差距在缩小。 GPT-4、Claude Sonnet、Gemini Pro 在标准测试上的表现越来越接近。

这意味着什么?意味着光靠模型好已经不够了。真正的差异化来自于你怎么用模型——也就是 Harness 的质量。

有一组数据很能说明问题:同一个模型,配上好的 Harness 和差的 Harness任务成功率分别是 98% 和 60%。差距来自哪?不是模型,是工程。

坑四:建了就得推倒

Manus一个做 AI Agent 的创业公司)在 6 个月内把 Harness 重写了 5 次模型一次没换。LangChain 的 Open Deep Research 在一年内重构了 4 次。

为什么?因为每当新模型发布,之前精心设计的 Harness 就有一部分过时了。2024 年需要复杂 pipeline 才能实现的功能2026 年一个简单 prompt 就搞定了。

Harness 工程最大的悖论:你今天写的代码,明天可能就得删。


大厂们是怎么做的

Anthropic把脑子和手分开

4 月 8 日发布的 Managed Agents核心架构是"三件套"

  1. Session会话——一个只追加的日志,记录 Agent 执行过程中的所有事件
  2. Harness控制器——调用 Claude、分发工具调用的控制循环
  3. Sandbox沙箱——代码实际运行的隔离环境

最巧妙的设计是把"大脑"和"手"解耦了。Claude 的推理大脑跟执行环境完全分离。Harness 变成了无状态的——如果 Harness 崩了,用一个 wake(sessionId) 就能从上次中断的地方恢复。

效果怎么样?首个 Token 的响应时间在 p50 提升了约 60%p95 提升了超过 90%

Notion、Asana、Rakuten 是首批用户。定价方面,标准 Claude API 费率 + 每个活跃会话小时 $0.08

Anthropic 的三 Agent 模式

除了 Managed AgentsAnthropic 还公开了一个他们内部用的"三 Agent Harness"模式:

Agent 角色 干什么
Planning Agent 军师 策略制定、任务拆解
Generation Agent 打工人 实际写代码/做任务
Evaluation Agent 质检员 独立评估输出质量,打分

关键在于:做事的和评判的是两个独立的 Agent。这就像 GAN生成对抗网络的思路——生成器和判别器互相博弈输出质量螺旋上升。

Anthropic Labs 的工程负责人 Prithvi Rajasekaran 说:"把执行和评判分开,是我们找到的最有效的质量杠杆。"

每次运行通常要 5-15 轮迭代,一个任务可能跑上四个小时。

OpenAI100 万行代码0 行人写

2 月 11 日OpenAI 发了一篇很震撼的博客。他们一个小团队用 Codex Agent 在 5 个月内写了超过 100 万行代码,提交了约 1,500 个 PR平均每人每天 3.5 个 PR。

而且——没有一行是人手写的。

工程师的角色完全变了:不再写代码,而是设计让 Agent 能高效工作的环境。具体做了什么?

  • 建立了严格的架构规范,所有依赖方向都有自动校验
  • 写了一批自定义 Linter讽刺的是这些 Linter 本身也是 Agent 写的)
  • 搞了一个"文档园丁"Agent专门扫描过期文档并自动提 PR 修复
  • 把监控工具PromQL、LogQL直接暴露给 Agent

最关键的教训来自他们失败的尝试:一开始搞了一个巨大的 AGENTS.md 文件,把所有指令都塞进去。结果完全失败——当什么都重要的时候,什么都不重要。 后来改成了精简的"地图"模式,只告诉 Agent 大方向,效果立刻好了。

开源生态

项目 定位
LangGraph Agent 运行时,管执行、状态、检查点
CrewAI 多 Agent 协作框架
OpenHarness TypeScript 实现,约 2000 行,零外部依赖
Microsoft Agent Framework 微软出品,生产级

一个有意思的趋势:最小可行 Harness 只需要 200-500 行代码3-5 个工具读文件、写文件、跑命令2-4 小时就能搭完。生产级的会膨胀到 5,000-20,000 行。

Vercel 的经验特别反直觉——他们砍掉了 80% 的工具Agent 的表现反而变好了。步骤更少Token 消耗更低,响应更快。

最好的 Harness 不是功能最多的,而是复杂度最低的。


一个新职业正在诞生Harness Engineer

如果说 2023 年最火的新岗位是 Prompt Engineer2024 年是 AI Engineer那 2026 年就是 Harness Engineer

这个岗位跟已有的角色有什么区别?

角色 关注什么 核心技能
Prompt Engineer 单次推理质量 写作能力、领域知识
ML Engineer 模型训练和优化 数学、数据科学
MLOps Engineer 模型部署流水线 DevOps、基础设施
Harness Engineer Agent 系统可靠性 软件工程、系统设计

五个核心技能:

  1. 上下文工程——不是写 prompt是管理信息流
  2. 安全架构——定义 Agent 能做什么、不能做什么
  3. 工具编排——选对工具比选多工具重要
  4. 状态与记忆设计——让 Agent 跨会话不失忆
  5. 质量循环设计——每一步都要验证

美国市场上,初级 Harness Engineer 的年薪在 $120,000-$160,000 之间。但你搜"Harness Engineer"这个头衔找不到几个职位——搜"AI Infrastructure Engineer"或"Agent Platform Engineer"就一堆了。技能是一样的,只是头衔还没标准化。


中国这边呢?

说实话,国内目前更多在"Agent 层"卷,"Harness 层"还没形成显性共识。但做的事情其实是一样的。

阿里是走得最快的。Qwen3.5 和最新的 Qwen3.6-Plus 都在强调"Agentic AI"能力,还推出了"悟空"企业 Agent 平台。

字节的豆包 2.0 也在往 Agent 方向走155 万周活用户是国内 AI 聊天产品的第一名。但在 Harness 基础设施层面,公开信息不多。

百度搞了一堆 Agent 产品——DuMate桌面助手、RedClaw移动端、DuClaw云端零部署。百度副总裁沈抖说了一句很有意思的话Agent"可能成为新时代的操作系统级能力"。

注意他说的是"操作系统级"——这不就是 Harness 的定义吗?

国内的独特现象是围绕 OpenClaw 的开源社区极其活跃就是我之前写过的那个龙虾框架。某种程度上OpenClaw 的插件生态在扮演 Harness 的角色,只是没用这个名字。


争议:这玩意是真革命还是新瓶装旧酒?

任何火起来的概念都会被质疑Harness 也不例外。

质疑一:"这不就是换了个名字的 DevOps 吗?"

有道理,但不完全对。传统 DevOps 面对的是确定性系统——输入 A 必然输出 B。Harness 面对的是概率性系统——同样的输入Agent 可能给你 10 种不同的输出,其中 3 种是错的。这让工程挑战的性质发生了根本变化。

质疑二:"术语通胀太严重了"

这个批评我觉得说到点子上了。从 2023 年到现在我们经历了Prompt Engineering → RAG → Agent → Agentic AI → Context Engineering → Harness Engineering → 最近甚至有人开始喊 "Environment Engineering"了。

每隔三个月就换一个名词,本质上是同一件事的不同切面。这种"概念通胀"确实让人烦。

质疑三:"模型会把 Harness 吃掉"

这是最尖锐的质疑。GPT-5 和 Claude 4 已经原生支持了重试逻辑、JSON 格式化、基本的工具路由——这些两年前都需要 Harness 来做。

照这个趋势Harness 层会不会越来越薄,最终被模型完全吸收?

我的看法是:80% 的 Harness 功能会被模型吸收,但剩下的 20% 永远不会。 因为那 20% 是跟你的业务逻辑、安全策略、合规要求深度绑定的——这些东西不可能通用化。


我的判断

第一Harness 不是新概念,但它终于被正名了。

做过后端开发的人都知道,中间件、编排层、服务治理这些东西一直存在。只是在 AI Agent 的语境下,这些东西需要重新设计。给它一个统一的名字叫 Harness有助于行业形成共识。

第二,现在做 Agent 不做 Harness等于裸奔。

98% vs 60% 的成功率差距不是开玩笑的。如果你正在上 Agent 项目,花在 Harness 上的时间应该至少跟花在 prompt 上的时间一样多。

第三,别把 Harness 搞复杂了。

Vercel 砍掉 80% 工具反而效果更好,这不是偶然。最好的 Harness 是最简单的 Harness。从 200 行代码、3 个工具开始,不够了再加。

第四,中国的机会在 Harness 层。

模型层的差距在缩小,但 Harness 层的工程化能力差距还很大。谁能先把 Agent 的可靠性从 60% 干到 98%,谁就能在企业市场吃到最大的蛋糕。

第五Harness Engineer 会成为未来三年最抢手的岗位之一。

上一篇文章我说"未来最值钱的不是写代码的手速,是判断代码对不对的眼光"。在 Harness 这个语境下,还要加一句:是设计让 AI 不犯错的系统的能力。

说到底AI 的能力已经够强了。2026 年的核心问题不是"AI 能不能做",而是"AI 做了之后谁来兜底"。

Harness 就是那个兜底的东西。