# 2025 年做 Agent 的都哭了!2026 年最火的 Harness 到底是什么鬼 > 发布日期:2026-04-13 > 分类:行业分析 / AI 基础设施 > 作者:老邓唠AI ![封面](https://cdn.union.jxyunge.com/self-media/012/cover.png) ## 一个让所有人难堪的数字 4 月 8 日,Anthropic 发布了 Claude Managed Agents。发布会上,他们不经意间透露了一个数据: **超过 40% 的 AI Agent 项目会在 2027 年前失败。** 这不是 Anthropic 自己说的,是 Gartner 的预测。但 Anthropic 把这个数据放在了发布会第一页 PPT 上。 意思很明确:**Agent 不是问题,让 Agent 跑起来才是问题。** 2025 年,全行业疯狂做 Agent。到了 2026 年,大家终于搞明白了一件事——Agent 本身不值钱,包在 Agent 外面的那套系统才值钱。 这套系统,叫 **Harness**。 --- ## 先讲个故事:为什么 Agent 会失控 去年我帮一个朋友的公司搭了个客服 Agent。技术栈很标准:GPT-4 + LangChain + 几个工具调用。Demo 阶段表现不错,回答准确率 90% 以上。 上线第一周就炸了。 Agent 在处理一个退款请求时,连续调用了 47 次数据库查询,把数据库连接池干爆了。更离谱的是,它在一次对话中把用户的完整订单历史(包括收货地址和手机号)原封不动地输出到了聊天窗口。 我排查了两天,发现问题根本不在模型上——GPT-4 的回答能力没问题。问题在于:**没有人告诉它什么时候该停,什么东西不能说,查询失败了怎么办。** 这就是典型的"有 Agent 没 Harness"的症状。 --- ## 所以 Harness 到底是什么? 一句话:**Harness 是套在 AI Agent 外面的操作系统。** 这个比喻来自 Hugging Face 的 AI 总监 Phil Schmid,我觉得他说得最到位: > LLM 是 CPU,提供原始算力。上下文窗口是内存,有限且易失。Agent Harness 是操作系统,管理启动流程、分配资源、提供驱动。Agent 本身只是跑在操作系统上的应用程序。 换成更直白的说法——LLM 是一匹野马,能力巨大但没方向感。**Harness 就是缰绳、马鞍和围栏。** 没有它,马跑得再快也是乱跑。 具体来说,一个 Harness 包含六个核心组件: | 组件 | 干什么 | 类比 | |------|--------|------| | 上下文工程 | 决定模型每一步能看到什么信息 | 给马戴上眼罩,只看该看的路 | | 工具层 | 连接 API、数据库、代码执行环境 | 马身上挂的工具包 | | 记忆与状态管理 | 短期记忆、会话状态、长期知识 | 马认路的能力 | | 验证与护栏 | 格式校验、安全过滤、自我纠错 | 围栏和刹车 | | 规划与分解 | 把复杂任务拆成子任务 | 导航系统 | | 生命周期管理 | 初始化、执行、保存状态、故障恢复 | 马厩管理 | 你可能会说:这不就是传统的中间件/编排层吗? 对,但也不完全对。传统中间件处理的是确定性的输入输出。Harness 面对的是一个**会犯错、会幻觉、会忘事、会乱花钱**的"员工"。这个本质区别让整个工程复杂度翻了几倍。 --- ## 2025 年的 Agent 们到底怎么死的 去年号称"Agent 元年"。每家 AI 公司都在发 Agent 产品,每个技术会议都在讲 Agent。一年过去了,踩的坑比填的坑多。 ### 坑一:上下文失忆症 长时间运行的 Agent 有个致命问题——**每次新开上下文窗口就像失忆了一样。** Anthropic 自己发现,Claude Sonnet 4.5 在长任务中会出现"上下文焦虑":当上下文快满的时候,模型会着急忙慌地草草收尾,不管任务做没做完。 这就好比你让一个实习生做一个需要三天的项目,但他每天早上来都不记得昨天做了什么。 ### 坑二:Agent 泛滥成灾 Salesforce 2026 年的调研显示,**一家企业平均部署了 12 个 AI Agent**,预计到 2027 年会到 20 个。但只有 **27%** 有统一管理。 剩下的 73%?各做各的,数据不通,权限混乱,有的 Agent 还会互相打架。 这跟十年前微服务泛滥的问题一模一样——当初每个团队疯狂拆微服务,最后搞出了服务网格和 API 网关来擦屁股。Agent 的治理问题,今天就需要 Harness 来解决。 ### 坑三:模型趋同,基础设施拉开差距 一个残酷的现实:**顶尖模型之间的差距在缩小。** GPT-4、Claude Sonnet、Gemini Pro 在标准测试上的表现越来越接近。 这意味着什么?意味着光靠模型好已经不够了。**真正的差异化来自于你怎么用模型**——也就是 Harness 的质量。 有一组数据很能说明问题:同一个模型,配上好的 Harness 和差的 Harness,任务成功率分别是 **98% 和 60%**。差距来自哪?不是模型,是工程。 ### 坑四:建了就得推倒 Manus(一个做 AI Agent 的创业公司)在 6 个月内**把 Harness 重写了 5 次**,模型一次没换。LangChain 的 Open Deep Research 在一年内重构了 4 次。 为什么?因为每当新模型发布,之前精心设计的 Harness 就有一部分过时了。2024 年需要复杂 pipeline 才能实现的功能,2026 年一个简单 prompt 就搞定了。 **Harness 工程最大的悖论:你今天写的代码,明天可能就得删。** --- ## 大厂们是怎么做的 ### Anthropic:把脑子和手分开 4 月 8 日发布的 Managed Agents,核心架构是"三件套": 1. **Session(会话)**——一个只追加的日志,记录 Agent 执行过程中的所有事件 2. **Harness(控制器)**——调用 Claude、分发工具调用的控制循环 3. **Sandbox(沙箱)**——代码实际运行的隔离环境 最巧妙的设计是**把"大脑"和"手"解耦了**。Claude 的推理(大脑)跟执行环境(手)完全分离。Harness 变成了无状态的——如果 Harness 崩了,用一个 `wake(sessionId)` 就能从上次中断的地方恢复。 效果怎么样?首个 Token 的响应时间在 p50 提升了约 **60%**,p95 提升了超过 **90%**。 Notion、Asana、Rakuten 是首批用户。定价方面,标准 Claude API 费率 + 每个活跃会话小时 **$0.08**。 ### Anthropic 的三 Agent 模式 除了 Managed Agents,Anthropic 还公开了一个他们内部用的"三 Agent Harness"模式: | Agent | 角色 | 干什么 | |-------|------|--------| | Planning Agent | 军师 | 策略制定、任务拆解 | | Generation Agent | 打工人 | 实际写代码/做任务 | | Evaluation Agent | 质检员 | 独立评估输出质量,打分 | 关键在于:**做事的和评判的是两个独立的 Agent**。这就像 GAN(生成对抗网络)的思路——生成器和判别器互相博弈,输出质量螺旋上升。 Anthropic Labs 的工程负责人 Prithvi Rajasekaran 说:"把执行和评判分开,是我们找到的最有效的质量杠杆。" 每次运行通常要 **5-15 轮迭代**,一个任务可能跑上四个小时。 ### OpenAI:100 万行代码,0 行人写 2 月 11 日,OpenAI 发了一篇很震撼的博客。他们一个小团队用 Codex Agent 在 5 个月内写了**超过 100 万行代码**,提交了约 1,500 个 PR,平均每人每天 3.5 个 PR。 而且——**没有一行是人手写的。** 工程师的角色完全变了:不再写代码,而是设计让 Agent 能高效工作的环境。具体做了什么? - 建立了严格的架构规范,所有依赖方向都有自动校验 - 写了一批自定义 Linter(讽刺的是,这些 Linter 本身也是 Agent 写的) - 搞了一个"文档园丁"Agent,专门扫描过期文档并自动提 PR 修复 - 把监控工具(PromQL、LogQL)直接暴露给 Agent 最关键的教训来自他们失败的尝试:一开始搞了一个巨大的 AGENTS.md 文件,把所有指令都塞进去。结果完全失败——**当什么都重要的时候,什么都不重要。** 后来改成了精简的"地图"模式,只告诉 Agent 大方向,效果立刻好了。 ### 开源生态 | 项目 | 定位 | |------|------| | LangGraph | Agent 运行时,管执行、状态、检查点 | | CrewAI | 多 Agent 协作框架 | | OpenHarness | TypeScript 实现,约 2000 行,零外部依赖 | | Microsoft Agent Framework | 微软出品,生产级 | 一个有意思的趋势:**最小可行 Harness 只需要 200-500 行代码**,3-5 个工具(读文件、写文件、跑命令),2-4 小时就能搭完。生产级的会膨胀到 5,000-20,000 行。 Vercel 的经验特别反直觉——他们**砍掉了 80% 的工具**,Agent 的表现反而变好了。步骤更少,Token 消耗更低,响应更快。 **最好的 Harness 不是功能最多的,而是复杂度最低的。** --- ## 一个新职业正在诞生:Harness Engineer 如果说 2023 年最火的新岗位是 Prompt Engineer,2024 年是 AI Engineer,那 2026 年就是 **Harness Engineer**。 这个岗位跟已有的角色有什么区别? | 角色 | 关注什么 | 核心技能 | |------|----------|----------| | Prompt Engineer | 单次推理质量 | 写作能力、领域知识 | | ML Engineer | 模型训练和优化 | 数学、数据科学 | | MLOps Engineer | 模型部署流水线 | DevOps、基础设施 | | **Harness Engineer** | **Agent 系统可靠性** | **软件工程、系统设计** | 五个核心技能: 1. **上下文工程**——不是写 prompt,是管理信息流 2. **安全架构**——定义 Agent 能做什么、不能做什么 3. **工具编排**——选对工具比选多工具重要 4. **状态与记忆设计**——让 Agent 跨会话不失忆 5. **质量循环设计**——每一步都要验证 美国市场上,初级 Harness Engineer 的年薪在 **$120,000-$160,000** 之间。但你搜"Harness Engineer"这个头衔找不到几个职位——搜"AI Infrastructure Engineer"或"Agent Platform Engineer"就一堆了。技能是一样的,只是头衔还没标准化。 --- ## 中国这边呢? 说实话,国内目前更多在"Agent 层"卷,"Harness 层"还没形成显性共识。但做的事情其实是一样的。 **阿里**是走得最快的。Qwen3.5 和最新的 Qwen3.6-Plus 都在强调"Agentic AI"能力,还推出了"悟空"企业 Agent 平台。 **字节**的豆包 2.0 也在往 Agent 方向走,155 万周活用户是国内 AI 聊天产品的第一名。但在 Harness 基础设施层面,公开信息不多。 **百度**搞了一堆 Agent 产品——DuMate(桌面助手)、RedClaw(移动端)、DuClaw(云端零部署)。百度副总裁沈抖说了一句很有意思的话:Agent"可能成为新时代的操作系统级能力"。 注意他说的是"操作系统级"——这不就是 Harness 的定义吗? 国内的独特现象是围绕 OpenClaw 的开源社区极其活跃(就是我之前写过的那个龙虾框架)。某种程度上,OpenClaw 的插件生态在扮演 Harness 的角色,只是没用这个名字。 --- ## 争议:这玩意是真革命还是新瓶装旧酒? 任何火起来的概念都会被质疑,Harness 也不例外。 **质疑一:"这不就是换了个名字的 DevOps 吗?"** 有道理,但不完全对。传统 DevOps 面对的是确定性系统——输入 A 必然输出 B。Harness 面对的是概率性系统——同样的输入,Agent 可能给你 10 种不同的输出,其中 3 种是错的。这让工程挑战的性质发生了根本变化。 **质疑二:"术语通胀太严重了"** 这个批评我觉得说到点子上了。从 2023 年到现在,我们经历了:Prompt Engineering → RAG → Agent → Agentic AI → Context Engineering → Harness Engineering → 最近甚至有人开始喊 "Environment Engineering"了。 每隔三个月就换一个名词,本质上是同一件事的不同切面。这种"概念通胀"确实让人烦。 **质疑三:"模型会把 Harness 吃掉"** 这是最尖锐的质疑。GPT-5 和 Claude 4 已经原生支持了重试逻辑、JSON 格式化、基本的工具路由——这些两年前都需要 Harness 来做。 照这个趋势,Harness 层会不会越来越薄,最终被模型完全吸收? 我的看法是:**80% 的 Harness 功能会被模型吸收,但剩下的 20% 永远不会。** 因为那 20% 是跟你的业务逻辑、安全策略、合规要求深度绑定的——这些东西不可能通用化。 --- ## 我的判断 **第一,Harness 不是新概念,但它终于被正名了。** 做过后端开发的人都知道,中间件、编排层、服务治理这些东西一直存在。只是在 AI Agent 的语境下,这些东西需要重新设计。给它一个统一的名字叫 Harness,有助于行业形成共识。 **第二,现在做 Agent 不做 Harness,等于裸奔。** 98% vs 60% 的成功率差距不是开玩笑的。如果你正在上 Agent 项目,花在 Harness 上的时间应该至少跟花在 prompt 上的时间一样多。 **第三,别把 Harness 搞复杂了。** Vercel 砍掉 80% 工具反而效果更好,这不是偶然。最好的 Harness 是最简单的 Harness。从 200 行代码、3 个工具开始,不够了再加。 **第四,中国的机会在 Harness 层。** 模型层的差距在缩小,但 Harness 层的工程化能力差距还很大。谁能先把 Agent 的可靠性从 60% 干到 98%,谁就能在企业市场吃到最大的蛋糕。 **第五,Harness Engineer 会成为未来三年最抢手的岗位之一。** 上一篇文章我说"未来最值钱的不是写代码的手速,是判断代码对不对的眼光"。在 Harness 这个语境下,还要加一句:**是设计让 AI 不犯错的系统的能力。** 说到底,AI 的能力已经够强了。2026 年的核心问题不是"AI 能不能做",而是"AI 做了之后谁来兜底"。 Harness 就是那个兜底的东西。