# 2025 年做 Agent 的都哭了！2026 年最火的 Harness 到底是什么鬼

> 发布日期：2026-04-13
> 分类：行业分析 / AI 基础设施
> 作者：老邓唠AI

![封面](https://cdn.union.jxyunge.com/self-media/012/cover.png)

## 一个让所有人难堪的数字

4 月 8 日，Anthropic 发布了 Claude Managed Agents。发布会上，他们不经意间透露了一个数据：

**超过 40% 的 AI Agent 项目会在 2027 年前失败。**

这不是 Anthropic 自己说的，是 Gartner 的预测。但 Anthropic 把这个数据放在了发布会第一页 PPT 上。

意思很明确：**Agent 不是问题，让 Agent 跑起来才是问题。**

2025 年，全行业疯狂做 Agent。到了 2026 年，大家终于搞明白了一件事——Agent 本身不值钱，包在 Agent 外面的那套系统才值钱。

这套系统，叫 **Harness**。

---

## 先讲个故事：为什么 Agent 会失控

去年我帮一个朋友的公司搭了个客服 Agent。技术栈很标准：GPT-4 + LangChain + 几个工具调用。Demo 阶段表现不错，回答准确率 90% 以上。

上线第一周就炸了。

Agent 在处理一个退款请求时，连续调用了 47 次数据库查询，把数据库连接池干爆了。更离谱的是，它在一次对话中把用户的完整订单历史（包括收货地址和手机号）原封不动地输出到了聊天窗口。

我排查了两天，发现问题根本不在模型上——GPT-4 的回答能力没问题。问题在于：**没有人告诉它什么时候该停，什么东西不能说，查询失败了怎么办。**

这就是典型的"有 Agent 没 Harness"的症状。

---

## 所以 Harness 到底是什么？

一句话：**Harness 是套在 AI Agent 外面的操作系统。**

这个比喻来自 Hugging Face 的 AI 总监 Phil Schmid，我觉得他说得最到位：

> LLM 是 CPU，提供原始算力。上下文窗口是内存，有限且易失。Agent Harness 是操作系统，管理启动流程、分配资源、提供驱动。Agent 本身只是跑在操作系统上的应用程序。

换成更直白的说法——LLM 是一匹野马，能力巨大但没方向感。**Harness 就是缰绳、马鞍和围栏。** 没有它，马跑得再快也是乱跑。

具体来说，一个 Harness 包含六个核心组件：

| 组件 | 干什么 | 类比 |
|------|--------|------|
| 上下文工程 | 决定模型每一步能看到什么信息 | 给马戴上眼罩，只看该看的路 |
| 工具层 | 连接 API、数据库、代码执行环境 | 马身上挂的工具包 |
| 记忆与状态管理 | 短期记忆、会话状态、长期知识 | 马认路的能力 |
| 验证与护栏 | 格式校验、安全过滤、自我纠错 | 围栏和刹车 |
| 规划与分解 | 把复杂任务拆成子任务 | 导航系统 |
| 生命周期管理 | 初始化、执行、保存状态、故障恢复 | 马厩管理 |

你可能会说：这不就是传统的中间件/编排层吗？

对，但也不完全对。传统中间件处理的是确定性的输入输出。Harness 面对的是一个**会犯错、会幻觉、会忘事、会乱花钱**的"员工"。这个本质区别让整个工程复杂度翻了几倍。

---

## 2025 年的 Agent 们到底怎么死的

去年号称"Agent 元年"。每家 AI 公司都在发 Agent 产品，每个技术会议都在讲 Agent。一年过去了，踩的坑比填的坑多。

### 坑一：上下文失忆症

长时间运行的 Agent 有个致命问题——**每次新开上下文窗口就像失忆了一样。**

Anthropic 自己发现，Claude Sonnet 4.5 在长任务中会出现"上下文焦虑"：当上下文快满的时候，模型会着急忙慌地草草收尾，不管任务做没做完。

这就好比你让一个实习生做一个需要三天的项目，但他每天早上来都不记得昨天做了什么。

### 坑二：Agent 泛滥成灾

Salesforce 2026 年的调研显示，**一家企业平均部署了 12 个 AI Agent**，预计到 2027 年会到 20 个。但只有 **27%** 有统一管理。

剩下的 73%？各做各的，数据不通，权限混乱，有的 Agent 还会互相打架。

这跟十年前微服务泛滥的问题一模一样——当初每个团队疯狂拆微服务，最后搞出了服务网格和 API 网关来擦屁股。Agent 的治理问题，今天就需要 Harness 来解决。

### 坑三：模型趋同，基础设施拉开差距

一个残酷的现实：**顶尖模型之间的差距在缩小。** GPT-4、Claude Sonnet、Gemini Pro 在标准测试上的表现越来越接近。

这意味着什么？意味着光靠模型好已经不够了。**真正的差异化来自于你怎么用模型**——也就是 Harness 的质量。

有一组数据很能说明问题：同一个模型，配上好的 Harness 和差的 Harness，任务成功率分别是 **98% 和 60%**。差距来自哪？不是模型，是工程。

### 坑四：建了就得推倒

Manus（一个做 AI Agent 的创业公司）在 6 个月内**把 Harness 重写了 5 次**，模型一次没换。LangChain 的 Open Deep Research 在一年内重构了 4 次。

为什么？因为每当新模型发布，之前精心设计的 Harness 就有一部分过时了。2024 年需要复杂 pipeline 才能实现的功能，2026 年一个简单 prompt 就搞定了。

**Harness 工程最大的悖论：你今天写的代码，明天可能就得删。**

---

## 大厂们是怎么做的

### Anthropic：把脑子和手分开

4 月 8 日发布的 Managed Agents，核心架构是"三件套"：

1. **Session（会话）**——一个只追加的日志，记录 Agent 执行过程中的所有事件
2. **Harness（控制器）**——调用 Claude、分发工具调用的控制循环
3. **Sandbox（沙箱）**——代码实际运行的隔离环境

最巧妙的设计是**把"大脑"和"手"解耦了**。Claude 的推理（大脑）跟执行环境（手）完全分离。Harness 变成了无状态的——如果 Harness 崩了，用一个 `wake(sessionId)` 就能从上次中断的地方恢复。

效果怎么样？首个 Token 的响应时间在 p50 提升了约 **60%**，p95 提升了超过 **90%**。

Notion、Asana、Rakuten 是首批用户。定价方面，标准 Claude API 费率 + 每个活跃会话小时 **$0.08**。

### Anthropic 的三 Agent 模式

除了 Managed Agents，Anthropic 还公开了一个他们内部用的"三 Agent Harness"模式：

| Agent | 角色 | 干什么 |
|-------|------|--------|
| Planning Agent | 军师 | 策略制定、任务拆解 |
| Generation Agent | 打工人 | 实际写代码/做任务 |
| Evaluation Agent | 质检员 | 独立评估输出质量，打分 |

关键在于：**做事的和评判的是两个独立的 Agent**。这就像 GAN（生成对抗网络）的思路——生成器和判别器互相博弈，输出质量螺旋上升。

Anthropic Labs 的工程负责人 Prithvi Rajasekaran 说："把执行和评判分开，是我们找到的最有效的质量杠杆。"

每次运行通常要 **5-15 轮迭代**，一个任务可能跑上四个小时。

### OpenAI：100 万行代码，0 行人写

2 月 11 日，OpenAI 发了一篇很震撼的博客。他们一个小团队用 Codex Agent 在 5 个月内写了**超过 100 万行代码**，提交了约 1,500 个 PR，平均每人每天 3.5 个 PR。

而且——**没有一行是人手写的。**

工程师的角色完全变了：不再写代码，而是设计让 Agent 能高效工作的环境。具体做了什么？

- 建立了严格的架构规范，所有依赖方向都有自动校验
- 写了一批自定义 Linter（讽刺的是，这些 Linter 本身也是 Agent 写的）
- 搞了一个"文档园丁"Agent，专门扫描过期文档并自动提 PR 修复
- 把监控工具（PromQL、LogQL）直接暴露给 Agent

最关键的教训来自他们失败的尝试：一开始搞了一个巨大的 AGENTS.md 文件，把所有指令都塞进去。结果完全失败——**当什么都重要的时候，什么都不重要。** 后来改成了精简的"地图"模式，只告诉 Agent 大方向，效果立刻好了。

### 开源生态

| 项目 | 定位 |
|------|------|
| LangGraph | Agent 运行时，管执行、状态、检查点 |
| CrewAI | 多 Agent 协作框架 |
| OpenHarness | TypeScript 实现，约 2000 行，零外部依赖 |
| Microsoft Agent Framework | 微软出品，生产级 |

一个有意思的趋势：**最小可行 Harness 只需要 200-500 行代码**，3-5 个工具（读文件、写文件、跑命令），2-4 小时就能搭完。生产级的会膨胀到 5,000-20,000 行。

Vercel 的经验特别反直觉——他们**砍掉了 80% 的工具**，Agent 的表现反而变好了。步骤更少，Token 消耗更低，响应更快。

**最好的 Harness 不是功能最多的，而是复杂度最低的。**

---

## 一个新职业正在诞生：Harness Engineer

如果说 2023 年最火的新岗位是 Prompt Engineer，2024 年是 AI Engineer，那 2026 年就是 **Harness Engineer**。

这个岗位跟已有的角色有什么区别？

| 角色 | 关注什么 | 核心技能 |
|------|----------|----------|
| Prompt Engineer | 单次推理质量 | 写作能力、领域知识 |
| ML Engineer | 模型训练和优化 | 数学、数据科学 |
| MLOps Engineer | 模型部署流水线 | DevOps、基础设施 |
| **Harness Engineer** | **Agent 系统可靠性** | **软件工程、系统设计** |

五个核心技能：
1. **上下文工程**——不是写 prompt，是管理信息流
2. **安全架构**——定义 Agent 能做什么、不能做什么
3. **工具编排**——选对工具比选多工具重要
4. **状态与记忆设计**——让 Agent 跨会话不失忆
5. **质量循环设计**——每一步都要验证

美国市场上，初级 Harness Engineer 的年薪在 **$120,000-$160,000** 之间。但你搜"Harness Engineer"这个头衔找不到几个职位——搜"AI Infrastructure Engineer"或"Agent Platform Engineer"就一堆了。技能是一样的，只是头衔还没标准化。

---

## 中国这边呢？

说实话，国内目前更多在"Agent 层"卷，"Harness 层"还没形成显性共识。但做的事情其实是一样的。

**阿里**是走得最快的。Qwen3.5 和最新的 Qwen3.6-Plus 都在强调"Agentic AI"能力，还推出了"悟空"企业 Agent 平台。

**字节**的豆包 2.0 也在往 Agent 方向走，155 万周活用户是国内 AI 聊天产品的第一名。但在 Harness 基础设施层面，公开信息不多。

**百度**搞了一堆 Agent 产品——DuMate（桌面助手）、RedClaw（移动端）、DuClaw（云端零部署）。百度副总裁沈抖说了一句很有意思的话：Agent"可能成为新时代的操作系统级能力"。

注意他说的是"操作系统级"——这不就是 Harness 的定义吗？

国内的独特现象是围绕 OpenClaw 的开源社区极其活跃（就是我之前写过的那个龙虾框架）。某种程度上，OpenClaw 的插件生态在扮演 Harness 的角色，只是没用这个名字。

---

## 争议：这玩意是真革命还是新瓶装旧酒？

任何火起来的概念都会被质疑，Harness 也不例外。

**质疑一："这不就是换了个名字的 DevOps 吗？"**

有道理，但不完全对。传统 DevOps 面对的是确定性系统——输入 A 必然输出 B。Harness 面对的是概率性系统——同样的输入，Agent 可能给你 10 种不同的输出，其中 3 种是错的。这让工程挑战的性质发生了根本变化。

**质疑二："术语通胀太严重了"**

这个批评我觉得说到点子上了。从 2023 年到现在，我们经历了：Prompt Engineering → RAG → Agent → Agentic AI → Context Engineering → Harness Engineering → 最近甚至有人开始喊 "Environment Engineering"了。

每隔三个月就换一个名词，本质上是同一件事的不同切面。这种"概念通胀"确实让人烦。

**质疑三："模型会把 Harness 吃掉"**

这是最尖锐的质疑。GPT-5 和 Claude 4 已经原生支持了重试逻辑、JSON 格式化、基本的工具路由——这些两年前都需要 Harness 来做。

照这个趋势，Harness 层会不会越来越薄，最终被模型完全吸收？

我的看法是：**80% 的 Harness 功能会被模型吸收，但剩下的 20% 永远不会。** 因为那 20% 是跟你的业务逻辑、安全策略、合规要求深度绑定的——这些东西不可能通用化。

---

## 我的判断

**第一，Harness 不是新概念，但它终于被正名了。**

做过后端开发的人都知道，中间件、编排层、服务治理这些东西一直存在。只是在 AI Agent 的语境下，这些东西需要重新设计。给它一个统一的名字叫 Harness，有助于行业形成共识。

**第二，现在做 Agent 不做 Harness，等于裸奔。**

98% vs 60% 的成功率差距不是开玩笑的。如果你正在上 Agent 项目，花在 Harness 上的时间应该至少跟花在 prompt 上的时间一样多。

**第三，别把 Harness 搞复杂了。**

Vercel 砍掉 80% 工具反而效果更好，这不是偶然。最好的 Harness 是最简单的 Harness。从 200 行代码、3 个工具开始，不够了再加。

**第四，中国的机会在 Harness 层。**

模型层的差距在缩小，但 Harness 层的工程化能力差距还很大。谁能先把 Agent 的可靠性从 60% 干到 98%，谁就能在企业市场吃到最大的蛋糕。

**第五，Harness Engineer 会成为未来三年最抢手的岗位之一。**

上一篇文章我说"未来最值钱的不是写代码的手速，是判断代码对不对的眼光"。在 Harness 这个语境下，还要加一句：**是设计让 AI 不犯错的系统的能力。**

说到底，AI 的能力已经够强了。2026 年的核心问题不是"AI 能不能做"，而是"AI 做了之后谁来兜底"。

Harness 就是那个兜底的东西。