- 创建300亿AI漫剧风口分析文章,探讨造富神话与韭菜收割机真相 - 添加Vibe Coding编程方式对程序员影响的深度研究报告 - 发布AI Agent Harness架构解析文章,揭示2026年最火技术内幕 - 撰写大厂模型训练投资与中小软件公司生存策略分析 fix(feedback): 创建内容创作反馈规则文档 - 设定文章配图丰富性要求,增强可读性 - 规范文作者称谓,避免使用老邓自称 - 明确去AI味写作要求,遵循真人博主聊天风格
257 lines
14 KiB
Markdown
257 lines
14 KiB
Markdown
# 2025 年做 Agent 的都哭了!2026 年最火的 Harness 到底是什么鬼
|
||
|
||
> 发布日期:2026-04-13
|
||
> 分类:行业分析 / AI 基础设施
|
||
> 作者:老邓唠AI
|
||
|
||

|
||
|
||
## 一个让所有人难堪的数字
|
||
|
||
4 月 8 日,Anthropic 发布了 Claude Managed Agents。发布会上,他们不经意间透露了一个数据:
|
||
|
||
**超过 40% 的 AI Agent 项目会在 2027 年前失败。**
|
||
|
||
这不是 Anthropic 自己说的,是 Gartner 的预测。但 Anthropic 把这个数据放在了发布会第一页 PPT 上。
|
||
|
||
意思很明确:**Agent 不是问题,让 Agent 跑起来才是问题。**
|
||
|
||
2025 年,全行业疯狂做 Agent。到了 2026 年,大家终于搞明白了一件事——Agent 本身不值钱,包在 Agent 外面的那套系统才值钱。
|
||
|
||
这套系统,叫 **Harness**。
|
||
|
||
---
|
||
|
||
## 先讲个故事:为什么 Agent 会失控
|
||
|
||
去年我帮一个朋友的公司搭了个客服 Agent。技术栈很标准:GPT-4 + LangChain + 几个工具调用。Demo 阶段表现不错,回答准确率 90% 以上。
|
||
|
||
上线第一周就炸了。
|
||
|
||
Agent 在处理一个退款请求时,连续调用了 47 次数据库查询,把数据库连接池干爆了。更离谱的是,它在一次对话中把用户的完整订单历史(包括收货地址和手机号)原封不动地输出到了聊天窗口。
|
||
|
||
我排查了两天,发现问题根本不在模型上——GPT-4 的回答能力没问题。问题在于:**没有人告诉它什么时候该停,什么东西不能说,查询失败了怎么办。**
|
||
|
||
这就是典型的"有 Agent 没 Harness"的症状。
|
||
|
||
---
|
||
|
||
## 所以 Harness 到底是什么?
|
||
|
||
一句话:**Harness 是套在 AI Agent 外面的操作系统。**
|
||
|
||
这个比喻来自 Hugging Face 的 AI 总监 Phil Schmid,我觉得他说得最到位:
|
||
|
||
> LLM 是 CPU,提供原始算力。上下文窗口是内存,有限且易失。Agent Harness 是操作系统,管理启动流程、分配资源、提供驱动。Agent 本身只是跑在操作系统上的应用程序。
|
||
|
||
换成更直白的说法——LLM 是一匹野马,能力巨大但没方向感。**Harness 就是缰绳、马鞍和围栏。** 没有它,马跑得再快也是乱跑。
|
||
|
||
具体来说,一个 Harness 包含六个核心组件:
|
||
|
||
| 组件 | 干什么 | 类比 |
|
||
|------|--------|------|
|
||
| 上下文工程 | 决定模型每一步能看到什么信息 | 给马戴上眼罩,只看该看的路 |
|
||
| 工具层 | 连接 API、数据库、代码执行环境 | 马身上挂的工具包 |
|
||
| 记忆与状态管理 | 短期记忆、会话状态、长期知识 | 马认路的能力 |
|
||
| 验证与护栏 | 格式校验、安全过滤、自我纠错 | 围栏和刹车 |
|
||
| 规划与分解 | 把复杂任务拆成子任务 | 导航系统 |
|
||
| 生命周期管理 | 初始化、执行、保存状态、故障恢复 | 马厩管理 |
|
||
|
||
你可能会说:这不就是传统的中间件/编排层吗?
|
||
|
||
对,但也不完全对。传统中间件处理的是确定性的输入输出。Harness 面对的是一个**会犯错、会幻觉、会忘事、会乱花钱**的"员工"。这个本质区别让整个工程复杂度翻了几倍。
|
||
|
||
---
|
||
|
||
## 2025 年的 Agent 们到底怎么死的
|
||
|
||
去年号称"Agent 元年"。每家 AI 公司都在发 Agent 产品,每个技术会议都在讲 Agent。一年过去了,踩的坑比填的坑多。
|
||
|
||
### 坑一:上下文失忆症
|
||
|
||
长时间运行的 Agent 有个致命问题——**每次新开上下文窗口就像失忆了一样。**
|
||
|
||
Anthropic 自己发现,Claude Sonnet 4.5 在长任务中会出现"上下文焦虑":当上下文快满的时候,模型会着急忙慌地草草收尾,不管任务做没做完。
|
||
|
||
这就好比你让一个实习生做一个需要三天的项目,但他每天早上来都不记得昨天做了什么。
|
||
|
||
### 坑二:Agent 泛滥成灾
|
||
|
||
Salesforce 2026 年的调研显示,**一家企业平均部署了 12 个 AI Agent**,预计到 2027 年会到 20 个。但只有 **27%** 有统一管理。
|
||
|
||
剩下的 73%?各做各的,数据不通,权限混乱,有的 Agent 还会互相打架。
|
||
|
||
这跟十年前微服务泛滥的问题一模一样——当初每个团队疯狂拆微服务,最后搞出了服务网格和 API 网关来擦屁股。Agent 的治理问题,今天就需要 Harness 来解决。
|
||
|
||
### 坑三:模型趋同,基础设施拉开差距
|
||
|
||
一个残酷的现实:**顶尖模型之间的差距在缩小。** GPT-4、Claude Sonnet、Gemini Pro 在标准测试上的表现越来越接近。
|
||
|
||
这意味着什么?意味着光靠模型好已经不够了。**真正的差异化来自于你怎么用模型**——也就是 Harness 的质量。
|
||
|
||
有一组数据很能说明问题:同一个模型,配上好的 Harness 和差的 Harness,任务成功率分别是 **98% 和 60%**。差距来自哪?不是模型,是工程。
|
||
|
||
### 坑四:建了就得推倒
|
||
|
||
Manus(一个做 AI Agent 的创业公司)在 6 个月内**把 Harness 重写了 5 次**,模型一次没换。LangChain 的 Open Deep Research 在一年内重构了 4 次。
|
||
|
||
为什么?因为每当新模型发布,之前精心设计的 Harness 就有一部分过时了。2024 年需要复杂 pipeline 才能实现的功能,2026 年一个简单 prompt 就搞定了。
|
||
|
||
**Harness 工程最大的悖论:你今天写的代码,明天可能就得删。**
|
||
|
||
---
|
||
|
||
## 大厂们是怎么做的
|
||
|
||
### Anthropic:把脑子和手分开
|
||
|
||
4 月 8 日发布的 Managed Agents,核心架构是"三件套":
|
||
|
||
1. **Session(会话)**——一个只追加的日志,记录 Agent 执行过程中的所有事件
|
||
2. **Harness(控制器)**——调用 Claude、分发工具调用的控制循环
|
||
3. **Sandbox(沙箱)**——代码实际运行的隔离环境
|
||
|
||
最巧妙的设计是**把"大脑"和"手"解耦了**。Claude 的推理(大脑)跟执行环境(手)完全分离。Harness 变成了无状态的——如果 Harness 崩了,用一个 `wake(sessionId)` 就能从上次中断的地方恢复。
|
||
|
||
效果怎么样?首个 Token 的响应时间在 p50 提升了约 **60%**,p95 提升了超过 **90%**。
|
||
|
||
Notion、Asana、Rakuten 是首批用户。定价方面,标准 Claude API 费率 + 每个活跃会话小时 **$0.08**。
|
||
|
||
### Anthropic 的三 Agent 模式
|
||
|
||
除了 Managed Agents,Anthropic 还公开了一个他们内部用的"三 Agent Harness"模式:
|
||
|
||
| Agent | 角色 | 干什么 |
|
||
|-------|------|--------|
|
||
| Planning Agent | 军师 | 策略制定、任务拆解 |
|
||
| Generation Agent | 打工人 | 实际写代码/做任务 |
|
||
| Evaluation Agent | 质检员 | 独立评估输出质量,打分 |
|
||
|
||
关键在于:**做事的和评判的是两个独立的 Agent**。这就像 GAN(生成对抗网络)的思路——生成器和判别器互相博弈,输出质量螺旋上升。
|
||
|
||
Anthropic Labs 的工程负责人 Prithvi Rajasekaran 说:"把执行和评判分开,是我们找到的最有效的质量杠杆。"
|
||
|
||
每次运行通常要 **5-15 轮迭代**,一个任务可能跑上四个小时。
|
||
|
||
### OpenAI:100 万行代码,0 行人写
|
||
|
||
2 月 11 日,OpenAI 发了一篇很震撼的博客。他们一个小团队用 Codex Agent 在 5 个月内写了**超过 100 万行代码**,提交了约 1,500 个 PR,平均每人每天 3.5 个 PR。
|
||
|
||
而且——**没有一行是人手写的。**
|
||
|
||
工程师的角色完全变了:不再写代码,而是设计让 Agent 能高效工作的环境。具体做了什么?
|
||
|
||
- 建立了严格的架构规范,所有依赖方向都有自动校验
|
||
- 写了一批自定义 Linter(讽刺的是,这些 Linter 本身也是 Agent 写的)
|
||
- 搞了一个"文档园丁"Agent,专门扫描过期文档并自动提 PR 修复
|
||
- 把监控工具(PromQL、LogQL)直接暴露给 Agent
|
||
|
||
最关键的教训来自他们失败的尝试:一开始搞了一个巨大的 AGENTS.md 文件,把所有指令都塞进去。结果完全失败——**当什么都重要的时候,什么都不重要。** 后来改成了精简的"地图"模式,只告诉 Agent 大方向,效果立刻好了。
|
||
|
||
### 开源生态
|
||
|
||
| 项目 | 定位 |
|
||
|------|------|
|
||
| LangGraph | Agent 运行时,管执行、状态、检查点 |
|
||
| CrewAI | 多 Agent 协作框架 |
|
||
| OpenHarness | TypeScript 实现,约 2000 行,零外部依赖 |
|
||
| Microsoft Agent Framework | 微软出品,生产级 |
|
||
|
||
一个有意思的趋势:**最小可行 Harness 只需要 200-500 行代码**,3-5 个工具(读文件、写文件、跑命令),2-4 小时就能搭完。生产级的会膨胀到 5,000-20,000 行。
|
||
|
||
Vercel 的经验特别反直觉——他们**砍掉了 80% 的工具**,Agent 的表现反而变好了。步骤更少,Token 消耗更低,响应更快。
|
||
|
||
**最好的 Harness 不是功能最多的,而是复杂度最低的。**
|
||
|
||
---
|
||
|
||
## 一个新职业正在诞生:Harness Engineer
|
||
|
||
如果说 2023 年最火的新岗位是 Prompt Engineer,2024 年是 AI Engineer,那 2026 年就是 **Harness Engineer**。
|
||
|
||
这个岗位跟已有的角色有什么区别?
|
||
|
||
| 角色 | 关注什么 | 核心技能 |
|
||
|------|----------|----------|
|
||
| Prompt Engineer | 单次推理质量 | 写作能力、领域知识 |
|
||
| ML Engineer | 模型训练和优化 | 数学、数据科学 |
|
||
| MLOps Engineer | 模型部署流水线 | DevOps、基础设施 |
|
||
| **Harness Engineer** | **Agent 系统可靠性** | **软件工程、系统设计** |
|
||
|
||
五个核心技能:
|
||
1. **上下文工程**——不是写 prompt,是管理信息流
|
||
2. **安全架构**——定义 Agent 能做什么、不能做什么
|
||
3. **工具编排**——选对工具比选多工具重要
|
||
4. **状态与记忆设计**——让 Agent 跨会话不失忆
|
||
5. **质量循环设计**——每一步都要验证
|
||
|
||
美国市场上,初级 Harness Engineer 的年薪在 **$120,000-$160,000** 之间。但你搜"Harness Engineer"这个头衔找不到几个职位——搜"AI Infrastructure Engineer"或"Agent Platform Engineer"就一堆了。技能是一样的,只是头衔还没标准化。
|
||
|
||
---
|
||
|
||
## 中国这边呢?
|
||
|
||
说实话,国内目前更多在"Agent 层"卷,"Harness 层"还没形成显性共识。但做的事情其实是一样的。
|
||
|
||
**阿里**是走得最快的。Qwen3.5 和最新的 Qwen3.6-Plus 都在强调"Agentic AI"能力,还推出了"悟空"企业 Agent 平台。
|
||
|
||
**字节**的豆包 2.0 也在往 Agent 方向走,155 万周活用户是国内 AI 聊天产品的第一名。但在 Harness 基础设施层面,公开信息不多。
|
||
|
||
**百度**搞了一堆 Agent 产品——DuMate(桌面助手)、RedClaw(移动端)、DuClaw(云端零部署)。百度副总裁沈抖说了一句很有意思的话:Agent"可能成为新时代的操作系统级能力"。
|
||
|
||
注意他说的是"操作系统级"——这不就是 Harness 的定义吗?
|
||
|
||
国内的独特现象是围绕 OpenClaw 的开源社区极其活跃(就是我之前写过的那个龙虾框架)。某种程度上,OpenClaw 的插件生态在扮演 Harness 的角色,只是没用这个名字。
|
||
|
||
---
|
||
|
||
## 争议:这玩意是真革命还是新瓶装旧酒?
|
||
|
||
任何火起来的概念都会被质疑,Harness 也不例外。
|
||
|
||
**质疑一:"这不就是换了个名字的 DevOps 吗?"**
|
||
|
||
有道理,但不完全对。传统 DevOps 面对的是确定性系统——输入 A 必然输出 B。Harness 面对的是概率性系统——同样的输入,Agent 可能给你 10 种不同的输出,其中 3 种是错的。这让工程挑战的性质发生了根本变化。
|
||
|
||
**质疑二:"术语通胀太严重了"**
|
||
|
||
这个批评我觉得说到点子上了。从 2023 年到现在,我们经历了:Prompt Engineering → RAG → Agent → Agentic AI → Context Engineering → Harness Engineering → 最近甚至有人开始喊 "Environment Engineering"了。
|
||
|
||
每隔三个月就换一个名词,本质上是同一件事的不同切面。这种"概念通胀"确实让人烦。
|
||
|
||
**质疑三:"模型会把 Harness 吃掉"**
|
||
|
||
这是最尖锐的质疑。GPT-5 和 Claude 4 已经原生支持了重试逻辑、JSON 格式化、基本的工具路由——这些两年前都需要 Harness 来做。
|
||
|
||
照这个趋势,Harness 层会不会越来越薄,最终被模型完全吸收?
|
||
|
||
我的看法是:**80% 的 Harness 功能会被模型吸收,但剩下的 20% 永远不会。** 因为那 20% 是跟你的业务逻辑、安全策略、合规要求深度绑定的——这些东西不可能通用化。
|
||
|
||
---
|
||
|
||
## 我的判断
|
||
|
||
**第一,Harness 不是新概念,但它终于被正名了。**
|
||
|
||
做过后端开发的人都知道,中间件、编排层、服务治理这些东西一直存在。只是在 AI Agent 的语境下,这些东西需要重新设计。给它一个统一的名字叫 Harness,有助于行业形成共识。
|
||
|
||
**第二,现在做 Agent 不做 Harness,等于裸奔。**
|
||
|
||
98% vs 60% 的成功率差距不是开玩笑的。如果你正在上 Agent 项目,花在 Harness 上的时间应该至少跟花在 prompt 上的时间一样多。
|
||
|
||
**第三,别把 Harness 搞复杂了。**
|
||
|
||
Vercel 砍掉 80% 工具反而效果更好,这不是偶然。最好的 Harness 是最简单的 Harness。从 200 行代码、3 个工具开始,不够了再加。
|
||
|
||
**第四,中国的机会在 Harness 层。**
|
||
|
||
模型层的差距在缩小,但 Harness 层的工程化能力差距还很大。谁能先把 Agent 的可靠性从 60% 干到 98%,谁就能在企业市场吃到最大的蛋糕。
|
||
|
||
**第五,Harness Engineer 会成为未来三年最抢手的岗位之一。**
|
||
|
||
上一篇文章我说"未来最值钱的不是写代码的手速,是判断代码对不对的眼光"。在 Harness 这个语境下,还要加一句:**是设计让 AI 不犯错的系统的能力。**
|
||
|
||
说到底,AI 的能力已经够强了。2026 年的核心问题不是"AI 能不能做",而是"AI 做了之后谁来兜底"。
|
||
|
||
Harness 就是那个兜底的东西。
|