feat(article): 添加四篇AI行业深度分析文章

- 创建300亿AI漫剧风口分析文章，探讨造富神话与韭菜收割机真相 - 添加Vibe Coding编程方式对程序员影响的深度研究报告 - 发布AI Agent Harness架构解析文章，揭示2026年最火技术内幕 - 撰写大厂模型训练投资与中小软件公司生存策略分析 fix(feedback): 创建内容创作反馈规则文档 - 设定文章配图丰富性要求，增强可读性 - 规范文作者称谓，避免使用老邓自称 - 明确去AI味写作要求，遵循真人博主聊天风格
2026-04-19 09:37:35 +08:00 · 2026-04-19 09:37:35 +08:00 · 09570aec99
commit 09570aec99
parent 66538592c8
14 changed files with 1376 additions and 0 deletions
--- a/.claude/projects/-Users-bing-work-code-myself-self-media-james/memory/MEMORY.md
+++ b/.claude/projects/-Users-bing-work-code-myself-self-media-james/memory/MEMORY.md
@ -1,2 +1,3 @@
 - [feedback_article_media.md](feedback_article_media.md) — 文章必须配丰富插图/动图/视频，增强可读性
 - [feedback_no_laodeng.md](feedback_no_laodeng.md) — 文章中不要用"老邓"自称，用"我"或省略主语
 - [feedback_no_ai_taste.md](feedback_no_ai_taste.md) — 核心要求：去AI味，像真人博主聊天，详见 STYLE_GUIDE.md
--- a/.claude/projects/-Users-bing-work-code-myself-self-media-james/memory/feedback_no_ai_taste.md
+++ b/.claude/projects/-Users-bing-work-code-myself-self-media-james/memory/feedback_no_ai_taste.md
@ -0,0 +1,17 @@
 ---
 name: 写文章核心要求：去AI味
 description: 文章不能让人看出是AI写的，要像真人博主在聊天。详见 STYLE_GUIDE.md
 type: feedback
 ---
 用户最重要的写作要求：文章不能有AI味道。
 **Why:** 读者一眼看出AI生成的文章就不会读了，失去信任感和真实感。
 **How to apply:** 
 1. 写文章时严格遵循 `/STYLE_GUIDE.md` 的风格指南
 2. 禁用「随着」「值得注意」「赋能」「让我们拭目以待」等AI高频词
 3. 必须有第一人称真实感受（「我觉得」「说实话」「我之前以为」）
 4. 开头必须场景化切入，禁止「近年来」式开头
 5. 观点要有态度，不能两头讨好
 6. 写完后用 STYLE_GUIDE.md 的「去AI味清单」逐项检查
--- a/STYLE_GUIDE.md
+++ b/STYLE_GUIDE.md
@ -0,0 +1,204 @@
 # 「老邓唠AI」写作风格指南
 > 核心原则：像一个真正懂技术的人在跟朋友聊天，不是AI在做知识搬运。
 ---
 ## 一、标题风格
 ### 学什么（36kr 的好）
 - 用**具体数字**制造冲击感：「51万行」「登顶第一」「涨8%」
 - 用**冲突/悬念**驱动点击：「凭什么」「谁做的」「为什么消失了」
 ### 不学什么（36kr 的问题）
 - 不用「全景扫描」「深度解读」「趋势判断」这类**官方报告腔**
 - 不用「X的机遇与冲击」这种**对称式标题**——太像新华社
 ### 我们的标题公式
 ```
 [情绪钩子] + [具体信息] + [悬念/冲突]
 ```
 **好标题示例：**
 - 51万行源码意外曝光！我扒完了Claude Code的全部家底
 - 神秘黑马HappyHorse空降屠榜！它凭什么碾压字节Seedance登顶AI视频第一？
 - 国产模型杀疯了！通义千问Qwen3.5登顶中国第一，凭什么超越GPT-5.4？
 **烂标题（要避免的）：**
 - ❌ 深度解析：Claude Code源码架构全景扫描
 - ❌ 2026 AI视频生成技术发展趋势与展望
 - ❌ 从推理到训练——国产AI芯片的机遇与挑战
 ---
 ## 二、开头：3句话定生死
 读者给你的耐心只有3句话。
 ### 公式：场景切入 → 意外/冲突 → 我来讲
 **模板A：「我在干嘛，然后看到了什么」**
 > 4月5号那天，我照常刷 Artificial Analysis 的 AI 视频排行榜。然后我就看到了一个从没见过的名字：HappyHorse 1.0。排在第一。
 **模板B：「圈子炸了」**
 > 3月31日凌晨，AI圈炸了一颗核弹。不是发新模型，不是融资消息——是 Anthropic 自己把 Claude Code 的完整源码泄漏了。
 **模板C：「直接甩数据」**
 > 12.96万亿Token，环比增长31.48%——中国AI大模型调用量连续第五周超过美国。
 ### 绝对不能这样开头
 - ❌ 「随着人工智能技术的飞速发展……」
 - ❌ 「近年来，AI行业迎来了前所未有的变革……」
 - ❌ 「在当今数字化转型的大背景下……」
 - ❌ 「众所周知……」
 - ❌ 「不可否认的是……」
 这些是 AI 味最重的开头。真人写文章不会这么说话。
 ---
 ## 三、语言风格：介于「朋友聊天」和「技术博客」之间
 ### 我们的位置
 ```
 闲聊 ←——|——→ 书面
       ↑
     我们在这
 ```
 比36kr更口语，但不是段子手。**像一个技术出身的人在微信群里给朋友讲一个事。**
 ### 具体做法
 **1. 用短句，别写长定语**
 - ✅ 「这个分数是怎么来的呢？大概2000个真人，看两段并排放的视频，不知道哪段是谁生成的，纯投票。」
 - ❌ 「该分数基于约2000名人类评估者对两段并排展示的匿名生成视频进行的偏好投票得出。」
 **2. 用「说人话」的过渡，不用书面连接词**
 - ✅ 「直说吧」「说到钱的事就得直接点」「我们一层一层拆」
 - ❌ 「接下来我们将从以下几个维度进行分析」「综上所述」「此外」「值得注意的是」
 **3. 允许口语碎片**
 - 「这事挺离谱的」
 - 「说实话，我之前以为……」
 - 「但这波涨得有点冲动」
 - 「暂时存疑」
 **4. 技术术语要用，但紧跟大白话翻译**
 - ✅ 「用了一个叫 Timestep-free denoising 的推理加速方案」——然后解释它干嘛用的
 - ❌ 堆一串术语不解释
 **5. 观点要有态度，不要两头讨好**
 - ✅ 「我觉得这波涨得有点冲动」「我个人倾向第二种」
 - ❌ 「这一趋势值得业界持续关注」「未来发展有待进一步观察」（太滑了）
 ---
 ## 四、段落节奏：呼吸感
 ### 核心规则：不要连续三段都长，也不要连续三段都短
 好的节奏是这样的：
 ```
 短段（1-2句，抛出结论或转折）
 中段（3-5句，展开说明）
 数据/图表/代码块（视觉呼吸）
 短段（1句，点评或过渡）
 长段（详细论证，但不超过8句）
 ```
 ### 具体手法
 - **一句话单独成段**，制造停顿感：「排在第一。」「没有人知道这是谁做的。」
 - **表格/列表**替代大段文字——36kr常用，我们也用
 - **粗体**标记关键判断，让扫读者也能抓住重点
 - 每800-1000字必须有一张图或一个表格
 ---
 ## 五、结构模板
 ### A. 热点解读类（最常用）
 ```
 1. 开头：场景+意外（200字内）
 2. 先说成绩/现象：硬数据+对比（配图/表格）
 3. 背后故事/来龙去脉：信息梳理+信源交叉验证
 4. 技术拆解：挑3-4个最值得聊的点，不求全
 5. 跟竞品/行业的对比
 6. 我的判断：直接给观点，不骑墙
 7. 结尾：短，一两句，可以是预判/反问/调侃
 ```
 ### B. 技术深扒类
 ```
 1. 开头：为什么要扒这个东西
 2. 全貌：用一张架构图+一段话建立整体认知
 3. 逐层拆解：每层配图，先结论后细节
 4. 最有意思的发现（藏在后面当彩蛋）
 5. 结尾：一句话总结 + 对行业的意义
 ```
 ---
 ## 六、去 AI 味清单
 写完每篇文章后，对照检查：
 | 检查项 | 怎么查 |
 |--------|--------|
 | 开头是不是「随着……」「近年来……」 | 删掉重写 |
 | 有没有「值得注意的是」「不可否认」「毋庸置疑」 | 全部删掉 |
 | 有没有「全面」「系统」「深入」「全景」 | 换成具体描述 |
 | 有没有对称式排比超过3组 | 砍到2组以内 |
 | 是不是每段都差不多长 | 制造长短交替 |
 | 有没有表达「我的态度」 | 没有就加 |
 | 结尾是不是「让我们拭目以待」「未来可期」 | 换成具体预判或反问 |
 | 有没有「赋能」「助力」「打造」「生态」连用 | 用人话重写 |
 | 有没有不必要的「首先/其次/最后」 | 用「第一个/另一个/最狠的是」替代 |
 | 有没有用到「我」的真实经历/感受 | 没有就补——这是去AI味最强的武器 |
 ---
 ## 七、人称与语气
 - 自称用「**我**」，不用「老邓」「笔者」「本文作者」
 - 可以用「你」直接跟读者对话：「你想想看」「你可以在自己服务器上跑」
 - 不用「我们」代指自己（「我们来看看」→「直接看」）
 - 允许用反问：「合理吗？」「凭什么？」
 ---
 ## 八、vs 36kr 的差异定位
 | 维度 | 36kr | 老邓唠AI |
 |------|------|----------|
 | 定位 | 行业媒体，机构视角 | 个人博主，技术人视角 |
 | 语气 | 权威、客观、偏书面 | 有态度、直接、偏口语 |
 | 信源 | 采访投资人/创始人 | 自己扒代码/跑模型/看论文 |
 | 数据用法 | 用数据建立行业图景 | 用数据支撑个人判断 |
 | 结尾 | 哲学性升华或免责声明 | 短平快，给预判或留悬念 |
 | AI味 | 有（「全景扫描」「趋势展望」） | 极力避免 |
 | 独特性 | 信息密度+多信源背书 | **第一人称体验+技术直觉** |
 ---
 ## 九、禁用词表
 以下词汇/句式直接拉黑，出现就改：
 ```
 随着……的发展    不可否认    值得注意的是    毋庸置疑
 让我们拭目以待    未来可期    总而言之    综上所述
 全面/系统/深入地   赋能    助力    打造生态
 引发广泛关注     业界普遍认为   意义深远    不言而喻
 具有重要意义     应运而生    蓬勃发展    方兴未艾
 一系列         进一步      持续深化    全方位
 多维度         新质生产力（除非在讽刺语境）
 ```
 ---
 ## 十、一句话总结
 **36kr 是记者在写报道，我们是技术人在跟朋友唠嗑。**
 他们追求「全面客观权威」，我们追求「真实、有态度、看得下去」。读者看完应该觉得「这人确实懂，而且聊得挺有意思」，而不是「又一篇AI生成的行业分析」。
--- a/articles/010-300亿风口杀疯了！AI漫剧到底是造富神话还是韭菜收割机.md
+++ b/articles/010-300亿风口杀疯了！AI漫剧到底是造富神话还是韭菜收割机.md
@ -0,0 +1,223 @@
 # 300 亿风口杀疯了！AI 漫剧到底是造富神话还是韭菜收割机？
 > 发布日期：2026-04-09
 > 分类：行业分析 / AI应用
 > 作者：老邓唠AI
 ![封面](https://cdn.union.jxyunge.com/self-media/010/cover.png)
 ## 刷抖音刷到怀疑人生
 最近打开抖音，每刷三条短剧就有一条是 AI 生成的。
 修仙渡劫、末世求生、总裁追妻——剧情全是老配方，但画面变了。人物不再是真人演员，而是 AI 生成的"仿真人"，嘴能动、眼能转、头发会飘，猛一看还以为是 3A 游戏 CG。
 更离谱的是数据。
 一部叫《斩仙台下，我震惊了诸神》的 AI 漫剧，12 个人的团队花了 30 天做出来，播放量**超 10 亿**，ROI 超过 110。另一部《从赖皮蛇开始吞噬进化》，上线一周播放量**破 2 亿**。
 整个 2025 年，光抖音一个平台就上线了**60,946 部**AI 漫剧。平均每天 167 部。
 这不是"小而美"的创作者经济，这是一条**日产百部、年赚百亿**的工业化流水线。
 但硬币的另一面是这样的：6 万部漫剧里，播放量过亿的只有 **96 部**。爆款率 **0.16%**。
 酱油文化创始人黄浩南说了句大实话："非头部的公司，**90% 是亏损或者白忙活**。"
 到底怎么回事？这个赛道到底是淘金场还是绞肉机？我花了几天时间把整条产业链扒了一遍。
 ---
 ## 先搞清楚：AI 漫剧到底是个啥？
 很多人把 AI 漫剧和传统动画搞混了。其实它们完全是两个物种。
 传统动画靠画师一帧一帧画，成本高到离谱。一部 80 集的竖屏漫剧，传统制作至少要百万起步，周期半年以上。
 AI 漫剧是这样的：**用大模型生成图片，再用视频模型让图片动起来，配上 AI 配音，剪辑成短剧**。整套流程一个人就能搞定，成本可以低到每分钟几百块。
 目前市面上有三种主流形态：
 | 类型 | 特点 | 成本 | 利润率 |
 |------|------|------|--------|
 | 动态漫/沙雕漫 | 图片+简单动效，门槛最低 | 400-600 元/分钟 | 10% 以下 |
 | 2D/3D 漫剧 | 画面精致，当前平台流量主力 | 800-1500 元/分钟 | 30%-40% |
 | AI 仿真人剧 | 逼近真人效果，最新风口 | 1500-3000 元/分钟 | 超 60% |
 重点说说 **AI 仿真人剧**——这是 2026 年最大的变量。
 2025 年它只占整个漫剧市场的 7%，到 2026 年 2 月已经飙到 **38%**。百强榜里接近 **60%** 都是仿真人漫。原因很简单：它能轻松实现真人短剧做不到的特效场景——上天入地、飞剑修仙、末世废墟，成本只有真人剧的十分之一。
 而且平台也在明确偏向它。抖音的分成系数里，AI 仿真人剧拿到了最高的 **60 分**，而普通 AI 解说漫只有 **5 分**。差了 12 倍。
 ---
 ## 一部 AI 漫剧是怎么生产出来的？
 跟你想的可能不一样，不是"按个按钮就能出片"。
 一套完整的工作流大概长这样：
 **第一步：剧本。** 用 ChatGPT/Claude 生成初稿，但必须人工改。AI 写剧本最大的问题是"永远正确但永远不惊喜"——节奏平、转折弱、金句少。头部团队的编剧依然是核心竞争力。
 **第二步：分镜。** 把剧本拆成一帧一帧的画面描述（prompt）。这一步非常吃经验——同一句台词，prompt 写法不同，出图质量天差地别。
 **第三步：生图。** 主力工具：
 - **即梦**（字节）：图生视频的无缝衔接最强，有"运镜笔刷"能精准控制画面
 - **可灵**（快手）：物理规律理解最好，打斗、长发飘飞这类动态效果自然
 - **通义万相**（阿里）：性价比高，批量出图稳定
 - MidJourney、Stable Diffusion：海外工具，风格化强但中式审美不够
 **第四步：生视频。** 把静态图变成 3-5 秒的动态视频。这步最吃算力，也最容易出 bug——人物造型跳变、对口型错位、手指数量玄学，都是常见问题。Seedance 2.0（字节）出来后有改善，但远没到"能用就行"的程度。
 **第五步：配音+音效。** AI 配音（如鱼声、豆包 TTS）生成，再加背景音乐和音效。
 **第六步：剪辑+后期。** 这步反而最耗时间。AI 生成的素材只是"半成品"，修 bug、补分镜、调节奏，人工精修占整个制作周期的 **50% 以上**。
 整套流下来，一个 5 人团队月产 10-15 部短剧是常见节奏。头部公司酱油文化做到了**月产 100 部**，但人家有近千人的团队。
 ---
 ## 钱从哪来？怎么赚的？
 AI 漫剧的商业模式跟短剧基本一样，核心就两个字：**投流**。
 流程是这样的：做好剧 → 投钱在抖音/快手买流量 → 用户看到前几集免费内容 → 被勾住了 → 付费解锁后面的集数。
 投出去的钱叫"日耗"，赚回来的钱叫"充值"。ROI（投入产出比）大于 1 就赚钱，小于 1 就亏。
 目前各平台的规模：
 | 平台 | 日耗 | 分账比例 |
 |------|------|----------|
 | 抖音 | 5000 万+ | 版权方拿 90% |
 | 快手 | 1000 万+ | 联合运营最高 90% |
 | 爱奇艺 | — | 独家分成最高 100% |
 你没看错，爱奇艺给独家内容的分成可以到 **100%**。它赚的是会员增长和广告，不在分账上卡你。
 头部作品的收入天花板：
 - 普通热门剧：**100-200 万元**
 - 现象级爆款：**1000 万元**
 - 千万播放量的平均水平：账面收入约 30 万，扣掉投流成本净利润约 10 万
 - 2 亿播放量的爆款：净利润 **200-300 万**
 听起来不错？问题是——投流本身就是个赌博。
 大部分作品投出去就石沉大海，连本都收不回来。这就是为什么爆款率只有 0.16%，90% 的公司在亏损。
 ---
 ## 谁在赚钱？赚了多少？
 扒了一圈，真正赚到钱的就这么几类人：
 **第一类：头部内容公司。**
 酱油文化是目前公认的行业老大。员工一年从不到百人扩到近千人，月产能破百部，月营收约 **5000 万元**。创始人黄浩南是最早 all in AI 漫剧的那批人。
 灵矩动漫是另一个代表。2025 年 5 月才启动，年底团队就从 30 人扩到 **800 人**，月产几十部。
 **第二类：工具平台。**
 这才是真正的"卖铲子的人"。
 "有戏AI"上线 5 天涌入 **1.3 万创作者**，首月收入折合 ARR 超 **3600 万元**。巨日禄、Elser.AI、腾讯云智绘这些工具平台，不管创作者赚不赚钱，工具费是先交了。
 **第三类：培训/课程。**
 "AI 漫剧零基础月入 10 万"——这种广告你一定见过。课程价格从几百到上万不等。买了课的人有多少真赚到钱？你猜。
 ---
 ## "90% 在亏损"——到底亏在哪？
 聊了几个业内人，亏损的原因高度一致：
 **1. 投流是个无底洞。**
 做出一部剧只是开始。不投流，没有任何曝光机会。投流的费用往往是制作成本的 3-5 倍。一部成本 5 万的剧，投流可能要砸 15-20 万。如果 ROI 没到 1，这笔钱就打水漂了。
 **2. 内容同质化太严重。**
 6 万部剧里，一半以上是修仙、穿越、重生。同样的套路、差不多的画风、连 prompt 都在圈子里互相抄。用户审美疲劳的速度比你想的快得多。
 **3. AI 质量不稳定。**
 前几集用心做了，效果不错。但进入中后期，赶工期、赶产量，AI 生成的"bug"来不及修，画面质量雪崩式下跌。观众追到第 30 集发现"人脸变了"，直接弃剧。
 **4. 平台流量向头部集中。**
 2026 年的一个明显变化：平台把 **70% 的流量**倾斜给头部优质内容。新号、新团队想靠量产垃圾剧赚流量的时代过去了。
 ---
 ## 割韭菜的都是谁？
 虎嗅有篇文章标题很直接：《风很大的 AI 漫剧，割完了头茬韭菜》。
 割的方式有几种：
 **第一种：工具收费。** AI 生图、生视频、配音，每一步都要钱。新手以为"AI 免费"，进去才发现每月工具费就要几千块，还没算算力。
 **第二种：培训课程。** "手把手教你月入百万"，课程费 9800。教的内容？网上免费教程拼凑的。
 **第三种：甲方压价。** 有创作者爆料：300 万播放量的漫剧，分到手的收益只有 **500 块**。甲方压低稿酬、审核通过率极低、拖延结算——承制方（实际干活的人）是利润链最底层。
 知乎创始人周源甚至在 2026 年提了个提案：《AI 漫剧侵权速度远超维权，应建立快速处置绿色通道》。因为抄袭太猖獗——一部爆款出来，三天之内就有几十个高仿版上线。
 ---
 ## 2026 年，这个赛道往哪走？
 几个明确的趋势：
 **1. AI 仿真人剧成为主流。**
 分成系数最高、用户接受度最好、利润率最高。技术上 Seedance 2.0 解决了很多一致性问题，成本还在继续降。与光创影的创始人说，用 Seedance 2.0 可以**降本 50%**。
 **2. 大厂全面入局。**
 字节（红果短剧）推了独立漫剧 App，百度搞了"柚漫剧"+"七猫漫剧"双线布局，腾讯上线了"火龙漫剧"。2025 年下半年，阅文、七猫、番茄小说开放了**数万部 IP 授权**。大厂带着 IP 和流量进场，独立创作者的空间会被进一步挤压。
 **3. 出海。**
 国内卷不动了，往外走。东南亚、拉美是第一站。中国 AI 漫剧的产能和成本优势在海外市场几乎是降维打击。
 **4. 从"快消爽剧"转向"精品 IP"。**
 用户对角色辨识度、世界观完整性的要求在提升。纯靠"修仙+爽文"套路已经跑不动了。2026 年 4 月 1 日新规落地后，平台对质量的卡控更严。
 ---
 ## 普通人还有机会吗？
 先泼盆冷水：如果你看了几篇"月入 10 万"的帖子就想冲进来，大概率当韭菜。
 再说句公道话：这个赛道确实有机会，但不是"零基础躺赚"的机会。
 **适合入场的人：**
 - 有短剧/短视频投流经验的团队（懂怎么花钱买流量）
 - 有编剧/内容策划能力的人（AI 解决不了"好故事"的问题）
 - 有技术背景、能搭建自有工作流的人（自部署开源模型降成本）
 **不建议入场的人：**
 - 以为买个工具就能赚钱的
 - 没有投流预算的个人创作者
 - 对短剧行业完全没认知的跨界新手
 灵矩动漫创始人王树波有句话我觉得说得到位："产能效率半年内翻了三倍"——但前提是你得先有产能。
 ---
 ## 最后说两句
 AI 漫剧这个赛道，像极了 2023 年的短剧行业——风口来了，钱来了，人也来了，但最终活下来的是少数。
 300 亿的市场是真的。90% 在亏损也是真的。
 真正赚到钱的人有三个共同点：**起步早、产能大、投流猛**。
 如果你不具备这三个条件中的至少两个，建议先观望、先学习，别急着 all in。
 毕竟，站在风口上猪都能飞。但风停了之后，能不能安全落地，取决于你到底是猪还是鹰。
--- a/articles/010/cover.png
+++ b/articles/010/cover.png
--- a/articles/011-不写代码也能做App？Vibe
+++ b/articles/011-不写代码也能做App？Vibe
@ -0,0 +1,247 @@
 # 不写代码也能做 App？Vibe Coding 一年干掉了多少程序员
 > 发布日期：2026-04-09
 > 分类：行业分析 / 开发者工具
 > 作者：老邓唠AI
 ![封面](https://cdn.union.jxyunge.com/self-media/011/cover.png)
 ## 一条推文引发的"地震"
 2025 年 2 月 2 日，前特斯拉 AI 总监、OpenAI 联合创始人 Andrej Karpathy 发了一条推文：
 > "有一种新的编程方式，我叫它 vibe coding（氛围编程）。你完全跟着感觉走，拥抱指数增长，忘掉代码本身的存在。我不看 diff，永远点 'Accept All'，遇到报错就直接复制粘贴进去，通常就修好了。代码已经超出我能理解的范围了。这不算真正的编码——我只是看东西、说东西、跑东西、复制粘贴东西，然后它基本就能用。"
 450 万人看了这条推文。
 一年后的今天，vibe coding 被柯林斯词典选为 **2025 年度词汇**，Cursor 的年化收入突破了 **20 亿美元**，GitHub 上超过一半的代码提交来自 AI，而全球科技行业裁掉了 **11 万程序员**。
 这到底是程序员的解放，还是程序员的末日？
 ---
 ## 先说清楚：Vibe Coding 到底是什么
 Karpathy 的原始定义其实很朴素——**跟着感觉写代码，不看细节，让 AI 搞定一切**。
 你用自然语言告诉 AI"把侧边栏的内边距减一半"，AI 改好代码，你点确认，连改了什么都不看。遇到 bug 就把报错丢给 AI，不分析原因，通常它自己就修好了。
 听起来很像"摆烂式编程"？对，Karpathy 本人也说了，这适合**周末玩票项目，不适合生产环境**。
 但市场不管你的本意。一年之内，这个词从一条随手推文变成了一场全球性的运动。
 到 2026 年初，这个概念进化了。Karpathy 自己提出了新术语：**Agentic Engineering**（智能体工程）。区别在哪？
 | | Vibe Coding | Agentic Engineering |
 |---|---|---|
 | 适合 | 黑客松、周末项目 | 企业级生产环境 |
 | 方法 | 写 prompt + 全盘接受 | 计划 → 执行 → 验证循环 |
 | 质量控制 | "希望它能行" | 多智能体协作 + 人类监督 |
 | 本质 | 个人效率工具 | 软件开发新范式 |
 简单说：**Vibe Coding 是入门毒品，Agentic Engineering 才是正经职业。**
 ---
 ## 数据说话：这个市场有多疯
 先看几个硬数据：
 | 指标 | 数据 |
 |------|------|
 | 全球 AI 编程工具市场规模（2026） | **94.6 亿美元** |
 | 预计 2030 年 | **222 亿美元** |
 | 开发者 AI 工具使用率 | **~92%** |
 | AI 代码占 GitHub 总提交量 | **51%+** |
 | AI 代码占全球生产代码 | **41-42%** |
 你没看错——**GitHub 上已经有超过一半的代码是 AI 写的**。
 这意味着什么？意味着如果你现在还在纯手写代码，你已经是少数派了。
 ---
 ## 神仙打架：主流工具到底哪家强？
 目前这个赛道的竞争格局，用一个词形容就是"疯狂"。
 ### Cursor — 当前最强选手
 Cursor 是目前公认的 AI 编程第一工具。几个关键数字：
 - 年化收入 **20 亿美元**（2026 年 2 月）
 - 日活 **100 万+**
 - 估值 **293 亿美元**
 - 超半数 Fortune 500 公司在用
 4 月 2 日刚发布了 **Cursor 3**，三个最值得说的更新：
 1. **Agents Window**：可以同时跑多个 AI 智能体，一个改前端、一个写测试、一个修 bug，并行工作
 2. **Design Mode**：直接在浏览器里圈出 UI 元素，告诉 AI "这里改成蓝色"，它自动改代码
 3. **Cloud Handoff**：把任务交给云端智能体，你去睡觉，它通宵干活
 价格：免费版 / Pro $20/月 / Business $40/月 / Ultra $200/月。
 ### GitHub Copilot — 装机量之王
 | 指标 | 数据 |
 |------|------|
 | 付费用户 | **470 万**（同比 +75%） |
 | 累计用户 | **2000 万+** |
 | 市场份额 | **42%** |
 | Fortune 100 渗透率 | **90%** |
 Copilot 的优势是跟 VS Code 和 GitHub 生态深度绑定。大厂用它最多，因为安全合规做得最早。
 ### Claude Code — 程序员中的程序员在用
 这个工具比较特殊——它不是 IDE 插件，是一个**命令行工具**。没有花哨的界面，打开终端就能用。
 最新的能力包括 Computer Use（操作你的屏幕）、子智能体（分派子任务）、自动记忆（记住你的偏好）。我之前扒过它的源码（51 万行那篇），对它的技术实力没啥怀疑。
 适合谁？适合本来就在终端里干活的人。如果你连 `cd` 都不会敲，这个工具不适合你。
 ### Windsurf — OpenAI 花 30 亿买回来的
 OpenAI 迄今最大的收购，30 亿美元。前身是 Codeium。它的 Cascade 引擎号称能写 **94%** 的代码。
 ### 其他玩家
 | 工具 | 一句话定位 | 适合谁 |
 |------|-----------|--------|
 | Bolt.new | 浏览器里直接生成全栈应用 | 完全不会写代码的人 |
 | Lovable | 自然语言→网站/App | 产品经理、设计师 |
 | Devin 2.0 | "不知疲倦的初级开发者" | 企业补充产能 |
 | Google Jules | 异步编程智能体 | Google 生态用户 |
 ---
 ## 不会写代码的人，用它做了什么？
 这是整件事最魔幻的部分。
 **案例一：SaaStr.ai。** 一个人用 vibe coding 做了 10 个工具，45 天内获得了 **50 万用户**，每月处理数十万次估值计算。
 **案例二：Dog-e-dex。** Block（就是 Square 那家公司）的产品设计师 Cynthia Chen，零编程背景，用 vibe coding 在 2 个月内做了一个识别狗品种的 App。
 **案例三：营销经理做线索评分系统。** 对接 HubSpot + AI 评分，第一季度影响了 **20 万美元**的销售管线。一行代码都没手写。
 **案例四：独立开发者批量造 SaaS。** Twitter/X 上有一批人专门用 Cursor + Bolt 在几周内做出 SaaS 产品，月收入 2000-10000 美元。这已经形成了一个亚文化圈子。
 这些案例传递了一个信号：**写代码不再是程序员的专利。** 任何能清楚描述需求的人，都有可能做出一个产品。
 ---
 ## 但是——效率真的提升了吗？
 这里有一组让人很不舒服的数据。
 开发者自己说：AI 帮我省了 **30-60%** 的时间。McKinsey 的研究也说：常规编码时间减少 **46%**。
 然后你看一个叫 METR 的研究机构做的**随机对照实验**——16 位资深开源开发者，246 个真实任务。结果：
 **用 AI 工具的人，完成任务的时间反而增加了 19%。**
 更诡异的是，这些开发者在实验前预估 AI 会帮他们节省 24% 时间，实验后依然坚持认为节省了 20%。**感知和现实之间有巨大的偏差。**
 为什么会这样？在大型成熟代码库里，AI 的代码接受率不到 **44%**。大量时间花在了审查和拒绝 AI 建议上。AI 帮你写了 10 行代码，你花 20 分钟确认这 10 行是对的——净效率可能是负的。
 这不是说 AI 编程没用。而是说：**"感觉很快"和"真的很快"之间，可能隔了一个太平洋。**
 ---
 ## 代码质量：一笔烂账
 如果说效率问题还有争议，代码质量问题就没啥好争的了。
 | 发现 | 数据 |
 |------|------|
 | AI 代码重大问题率 | 比人工代码多 **1.7 倍** |
 | AI 代码安全漏洞率 | 比人工代码多 **2.74 倍** |
 | 5 个 vibe coding 工具做 15 个相同 App | 产生 **69 个漏洞**，6 个为严重级 |
 | Lovable 平台审计 | 1,645 个 App 中 **170 个**有严重安全缺陷 |
 | 大规模扫描 | 5,600+ 公开应用发现 **2,000+ 漏洞、400+ 泄露密钥** |
 Trend Micro 那份报告最触目惊心：用 5 个主流 vibe coding 工具（Cursor、Lovable、Bolt、Replit、Windsurf）构建 15 个相同的 App，结果平均每个 App 有 **4.6 个安全漏洞**。
 这些不是理论上的风险。NBC News 报道过真实案例——有人用 vibe coding 做的网站，数据库密钥直接暴露在前端代码里，任何人都能看到。
 **Vibe Coding 降低了创造的门槛，同时也降低了犯错的门槛。**
 ---
 ## 程序员到底慌不慌？
 先看数据：2025 年，全球 200+ 科技公司裁员约 **11 万人**。虎嗅的数据更激进——AI 导致全球程序员就业率下降 **27.5%**。
 但这事得分两面看。
 **正在被淘汰的**：只会写 CRUD（增删改查）的初级码农。这类工作 AI 确实能做到 80 分。Salesforce 的支持智能体已经自主处理 **96%** 的客服案例，省了 5 万人的工时。
 **正在变贵的**：能做架构设计、能理解业务、能判断 AI 输出对不对的高级工程师。Fortune 杂志把这批人叫 **Supervisor Class**（监督者阶层）——不再手写代码，而是编排和监督 AI 写代码。
 哈佛教育研究院教授 Karen Brennan 开了一门为期 6 周的 vibe coding 课程，核心问题是："如何把 AI 当成创意伙伴？"
 她的观点很清醒：vibe coding 的承诺是**创造的民主化**——让没有计算机学位的人也能实现想法。但没有结构化方法时，产出的代码看起来能跑，实际上达不到生产环境的安全和性能标准。
 一句话总结：**门槛降低了，天花板没变。** 进来容易了，但要做好依然很难。
 ---
 ## 中国这边是什么情况？
 国内开发者对这事的态度很割裂。
 一项调研显示，**44.7%** 的程序员担心被 AI 抢饭碗，**55.3%** 持乐观态度。
 国产 AI 编程工具方面，几个主要玩家：
 | 工具 | 公司 | 数据 |
 |------|------|------|
 | 通义灵码 | 阿里 | 下载 **900 万+**，用户 **200 万+**，国内使用率第一（19%） |
 | 豆包 MarsCode | 字节 | 支持 100+ 语言，Cloud IDE + 编程助手双形态 |
 | 文心快码 | 百度 | 结合百度 20 年编程数据 |
 | 腾讯云 AI 代码助手 | 腾讯 | 基于混元大模型 |
 说实话，跟 Cursor 比还有明显差距——不是模型能力的差距，是**产品体验**的差距。通义灵码在 Java 上做了深度优化，如果你写 Java 可以试试。但如果你做全栈，Cursor 目前没有对手。
 国内程序员群体有一个独特的焦虑：**"我是不是在帮 AI 训练来取代自己？"** 每天用 AI 工具写代码，相当于每天在给 AI 提供高质量训练数据。这种感觉挺魔幻的。
 ---
 ## 我的判断
 聊了这么多，说说我自己怎么看这件事。
 **第一，Vibe Coding 会成为标配，但不会消灭编程。**
 就像 Excel 没有消灭会计师，Photoshop 没有消灭设计师一样。工具改变的是做事方式，不是做事的人。会用 AI 写代码的人和不会用的人之间，效率差可能有 3-5 倍——但前提是你得知道自己在做什么。
 **第二，"不看代码直接 Accept All"在生产环境是自杀行为。**
 Karpathy 自己都说这只适合周末项目。真实世界里，你不审查 AI 生成的代码，等于在你的产品里埋了一堆定时炸弹。2,000+ 已知漏洞不是开玩笑的。
 **第三，程序员这个职业不会消失，但会分化。**
 底层会出现大量"AI 操作员"——不需要理解代码原理，只需要会用工具把东西拼起来。顶层会出现"AI 监督者"——真正决定架构、审查质量、承担责任的人。中间层会被挤压。
 **第四，现在是学 AI 编程的最佳时机。**
 不管你是程序员还是非程序员，花几个周末学会 Cursor 或者 Claude Code，可能是 2026 年回报率最高的自我投资之一。
 ---
 ## 工具推荐：从哪开始？
 如果你看到这里想试试，我按场景推荐：
 | 你是谁 | 推荐工具 | 理由 |
 |--------|---------|------|
 | 完全不会写代码 | Bolt.new / Lovable | 浏览器打开就能用，零配置 |
 | 会一点但不熟练 | Cursor Free | 免费版够用，学习曲线平缓 |
 | 职业程序员 | Cursor Pro + Claude Code | 双工具组合，覆盖 IDE 和终端 |
 | Java 开发者 | 通义灵码 | 国产工具里 Java 支持最好 |
 | 想做独立产品 | Cursor + Bolt.new | 前者写逻辑，后者出原型 |
 一个忠告：**别一上来就搞复杂项目。** 先从一个简单的个人网站或者小工具开始，感受一下"跟 AI 协作"是什么体验。等你摸清了它的边界——什么能做好、什么容易出错——再上强度。
 说到底，AI 不会让编程消失，但会让"只会编程"变得不够。**未来最值钱的不是写代码的手速，是判断代码对不对的眼光。**
--- a/articles/011/cover.png
+++ b/articles/011/cover.png
--- a/articles/012-2025年做Agent的都哭了！2026年最火的Harness到底是什么鬼.md
+++ b/articles/012-2025年做Agent的都哭了！2026年最火的Harness到底是什么鬼.md
@ -0,0 +1,256 @@
 # 2025 年做 Agent 的都哭了！2026 年最火的 Harness 到底是什么鬼
 > 发布日期：2026-04-13
 > 分类：行业分析 / AI 基础设施
 > 作者：老邓唠AI
 ![封面](https://cdn.union.jxyunge.com/self-media/012/cover.png)
 ## 一个让所有人难堪的数字
 4 月 8 日，Anthropic 发布了 Claude Managed Agents。发布会上，他们不经意间透露了一个数据：
 **超过 40% 的 AI Agent 项目会在 2027 年前失败。**
 这不是 Anthropic 自己说的，是 Gartner 的预测。但 Anthropic 把这个数据放在了发布会第一页 PPT 上。
 意思很明确：**Agent 不是问题，让 Agent 跑起来才是问题。**
 2025 年，全行业疯狂做 Agent。到了 2026 年，大家终于搞明白了一件事——Agent 本身不值钱，包在 Agent 外面的那套系统才值钱。
 这套系统，叫 **Harness**。
 ---
 ## 先讲个故事：为什么 Agent 会失控
 去年我帮一个朋友的公司搭了个客服 Agent。技术栈很标准：GPT-4 + LangChain + 几个工具调用。Demo 阶段表现不错，回答准确率 90% 以上。
 上线第一周就炸了。
 Agent 在处理一个退款请求时，连续调用了 47 次数据库查询，把数据库连接池干爆了。更离谱的是，它在一次对话中把用户的完整订单历史（包括收货地址和手机号）原封不动地输出到了聊天窗口。
 我排查了两天，发现问题根本不在模型上——GPT-4 的回答能力没问题。问题在于：**没有人告诉它什么时候该停，什么东西不能说，查询失败了怎么办。**
 这就是典型的"有 Agent 没 Harness"的症状。
 ---
 ## 所以 Harness 到底是什么？
 一句话：**Harness 是套在 AI Agent 外面的操作系统。**
 这个比喻来自 Hugging Face 的 AI 总监 Phil Schmid，我觉得他说得最到位：
 > LLM 是 CPU，提供原始算力。上下文窗口是内存，有限且易失。Agent Harness 是操作系统，管理启动流程、分配资源、提供驱动。Agent 本身只是跑在操作系统上的应用程序。
 换成更直白的说法——LLM 是一匹野马，能力巨大但没方向感。**Harness 就是缰绳、马鞍和围栏。** 没有它，马跑得再快也是乱跑。
 具体来说，一个 Harness 包含六个核心组件：
 | 组件 | 干什么 | 类比 |
 |------|--------|------|
 | 上下文工程 | 决定模型每一步能看到什么信息 | 给马戴上眼罩，只看该看的路 |
 | 工具层 | 连接 API、数据库、代码执行环境 | 马身上挂的工具包 |
 | 记忆与状态管理 | 短期记忆、会话状态、长期知识 | 马认路的能力 |
 | 验证与护栏 | 格式校验、安全过滤、自我纠错 | 围栏和刹车 |
 | 规划与分解 | 把复杂任务拆成子任务 | 导航系统 |
 | 生命周期管理 | 初始化、执行、保存状态、故障恢复 | 马厩管理 |
 你可能会说：这不就是传统的中间件/编排层吗？
 对，但也不完全对。传统中间件处理的是确定性的输入输出。Harness 面对的是一个**会犯错、会幻觉、会忘事、会乱花钱**的"员工"。这个本质区别让整个工程复杂度翻了几倍。
 ---
 ## 2025 年的 Agent 们到底怎么死的
 去年号称"Agent 元年"。每家 AI 公司都在发 Agent 产品，每个技术会议都在讲 Agent。一年过去了，踩的坑比填的坑多。
 ### 坑一：上下文失忆症
 长时间运行的 Agent 有个致命问题——**每次新开上下文窗口就像失忆了一样。**
 Anthropic 自己发现，Claude Sonnet 4.5 在长任务中会出现"上下文焦虑"：当上下文快满的时候，模型会着急忙慌地草草收尾，不管任务做没做完。
 这就好比你让一个实习生做一个需要三天的项目，但他每天早上来都不记得昨天做了什么。
 ### 坑二：Agent 泛滥成灾
 Salesforce 2026 年的调研显示，**一家企业平均部署了 12 个 AI Agent**，预计到 2027 年会到 20 个。但只有 **27%** 有统一管理。
 剩下的 73%？各做各的，数据不通，权限混乱，有的 Agent 还会互相打架。
 这跟十年前微服务泛滥的问题一模一样——当初每个团队疯狂拆微服务，最后搞出了服务网格和 API 网关来擦屁股。Agent 的治理问题，今天就需要 Harness 来解决。
 ### 坑三：模型趋同，基础设施拉开差距
 一个残酷的现实：**顶尖模型之间的差距在缩小。** GPT-4、Claude Sonnet、Gemini Pro 在标准测试上的表现越来越接近。
 这意味着什么？意味着光靠模型好已经不够了。**真正的差异化来自于你怎么用模型**——也就是 Harness 的质量。
 有一组数据很能说明问题：同一个模型，配上好的 Harness 和差的 Harness，任务成功率分别是 **98% 和 60%**。差距来自哪？不是模型，是工程。
 ### 坑四：建了就得推倒
 Manus（一个做 AI Agent 的创业公司）在 6 个月内**把 Harness 重写了 5 次**，模型一次没换。LangChain 的 Open Deep Research 在一年内重构了 4 次。
 为什么？因为每当新模型发布，之前精心设计的 Harness 就有一部分过时了。2024 年需要复杂 pipeline 才能实现的功能，2026 年一个简单 prompt 就搞定了。
 **Harness 工程最大的悖论：你今天写的代码，明天可能就得删。**
 ---
 ## 大厂们是怎么做的
 ### Anthropic：把脑子和手分开
 4 月 8 日发布的 Managed Agents，核心架构是"三件套"：
 1. **Session（会话）**——一个只追加的日志，记录 Agent 执行过程中的所有事件
 2. **Harness（控制器）**——调用 Claude、分发工具调用的控制循环
 3. **Sandbox（沙箱）**——代码实际运行的隔离环境
 最巧妙的设计是**把"大脑"和"手"解耦了**。Claude 的推理（大脑）跟执行环境（手）完全分离。Harness 变成了无状态的——如果 Harness 崩了，用一个 `wake(sessionId)` 就能从上次中断的地方恢复。
 效果怎么样？首个 Token 的响应时间在 p50 提升了约 **60%**，p95 提升了超过 **90%**。
 Notion、Asana、Rakuten 是首批用户。定价方面，标准 Claude API 费率 + 每个活跃会话小时 **$0.08**。
 ### Anthropic 的三 Agent 模式
 除了 Managed Agents，Anthropic 还公开了一个他们内部用的"三 Agent Harness"模式：
 | Agent | 角色 | 干什么 |
 |-------|------|--------|
 | Planning Agent | 军师 | 策略制定、任务拆解 |
 | Generation Agent | 打工人 | 实际写代码/做任务 |
 | Evaluation Agent | 质检员 | 独立评估输出质量，打分 |
 关键在于：**做事的和评判的是两个独立的 Agent**。这就像 GAN（生成对抗网络）的思路——生成器和判别器互相博弈，输出质量螺旋上升。
 Anthropic Labs 的工程负责人 Prithvi Rajasekaran 说："把执行和评判分开，是我们找到的最有效的质量杠杆。"
 每次运行通常要 **5-15 轮迭代**，一个任务可能跑上四个小时。
 ### OpenAI：100 万行代码，0 行人写
 2 月 11 日，OpenAI 发了一篇很震撼的博客。他们一个小团队用 Codex Agent 在 5 个月内写了**超过 100 万行代码**，提交了约 1,500 个 PR，平均每人每天 3.5 个 PR。
 而且——**没有一行是人手写的。**
 工程师的角色完全变了：不再写代码，而是设计让 Agent 能高效工作的环境。具体做了什么？
 - 建立了严格的架构规范，所有依赖方向都有自动校验
 - 写了一批自定义 Linter（讽刺的是，这些 Linter 本身也是 Agent 写的）
 - 搞了一个"文档园丁"Agent，专门扫描过期文档并自动提 PR 修复
 - 把监控工具（PromQL、LogQL）直接暴露给 Agent
 最关键的教训来自他们失败的尝试：一开始搞了一个巨大的 AGENTS.md 文件，把所有指令都塞进去。结果完全失败——**当什么都重要的时候，什么都不重要。** 后来改成了精简的"地图"模式，只告诉 Agent 大方向，效果立刻好了。
 ### 开源生态
 | 项目 | 定位 |
 |------|------|
 | LangGraph | Agent 运行时，管执行、状态、检查点 |
 | CrewAI | 多 Agent 协作框架 |
 | OpenHarness | TypeScript 实现，约 2000 行，零外部依赖 |
 | Microsoft Agent Framework | 微软出品，生产级 |
 一个有意思的趋势：**最小可行 Harness 只需要 200-500 行代码**，3-5 个工具（读文件、写文件、跑命令），2-4 小时就能搭完。生产级的会膨胀到 5,000-20,000 行。
 Vercel 的经验特别反直觉——他们**砍掉了 80% 的工具**，Agent 的表现反而变好了。步骤更少，Token 消耗更低，响应更快。
 **最好的 Harness 不是功能最多的，而是复杂度最低的。**
 ---
 ## 一个新职业正在诞生：Harness Engineer
 如果说 2023 年最火的新岗位是 Prompt Engineer，2024 年是 AI Engineer，那 2026 年就是 **Harness Engineer**。
 这个岗位跟已有的角色有什么区别？
 | 角色 | 关注什么 | 核心技能 |
 |------|----------|----------|
 | Prompt Engineer | 单次推理质量 | 写作能力、领域知识 |
 | ML Engineer | 模型训练和优化 | 数学、数据科学 |
 | MLOps Engineer | 模型部署流水线 | DevOps、基础设施 |
 | **Harness Engineer** | **Agent 系统可靠性** | **软件工程、系统设计** |
 五个核心技能：
 1. **上下文工程**——不是写 prompt，是管理信息流
 2. **安全架构**——定义 Agent 能做什么、不能做什么
 3. **工具编排**——选对工具比选多工具重要
 4. **状态与记忆设计**——让 Agent 跨会话不失忆
 5. **质量循环设计**——每一步都要验证
 美国市场上，初级 Harness Engineer 的年薪在 **$120,000-$160,000** 之间。但你搜"Harness Engineer"这个头衔找不到几个职位——搜"AI Infrastructure Engineer"或"Agent Platform Engineer"就一堆了。技能是一样的，只是头衔还没标准化。
 ---
 ## 中国这边呢？
 说实话，国内目前更多在"Agent 层"卷，"Harness 层"还没形成显性共识。但做的事情其实是一样的。
 **阿里**是走得最快的。Qwen3.5 和最新的 Qwen3.6-Plus 都在强调"Agentic AI"能力，还推出了"悟空"企业 Agent 平台。
 **字节**的豆包 2.0 也在往 Agent 方向走，155 万周活用户是国内 AI 聊天产品的第一名。但在 Harness 基础设施层面，公开信息不多。
 **百度**搞了一堆 Agent 产品——DuMate（桌面助手）、RedClaw（移动端）、DuClaw（云端零部署）。百度副总裁沈抖说了一句很有意思的话：Agent"可能成为新时代的操作系统级能力"。
 注意他说的是"操作系统级"——这不就是 Harness 的定义吗？
 国内的独特现象是围绕 OpenClaw 的开源社区极其活跃（就是我之前写过的那个龙虾框架）。某种程度上，OpenClaw 的插件生态在扮演 Harness 的角色，只是没用这个名字。
 ---
 ## 争议：这玩意是真革命还是新瓶装旧酒？
 任何火起来的概念都会被质疑，Harness 也不例外。
 **质疑一："这不就是换了个名字的 DevOps 吗？"**
 有道理，但不完全对。传统 DevOps 面对的是确定性系统——输入 A 必然输出 B。Harness 面对的是概率性系统——同样的输入，Agent 可能给你 10 种不同的输出，其中 3 种是错的。这让工程挑战的性质发生了根本变化。
 **质疑二："术语通胀太严重了"**
 这个批评我觉得说到点子上了。从 2023 年到现在，我们经历了：Prompt Engineering → RAG → Agent → Agentic AI → Context Engineering → Harness Engineering → 最近甚至有人开始喊 "Environment Engineering"了。
 每隔三个月就换一个名词，本质上是同一件事的不同切面。这种"概念通胀"确实让人烦。
 **质疑三："模型会把 Harness 吃掉"**
 这是最尖锐的质疑。GPT-5 和 Claude 4 已经原生支持了重试逻辑、JSON 格式化、基本的工具路由——这些两年前都需要 Harness 来做。
 照这个趋势，Harness 层会不会越来越薄，最终被模型完全吸收？
 我的看法是：**80% 的 Harness 功能会被模型吸收，但剩下的 20% 永远不会。** 因为那 20% 是跟你的业务逻辑、安全策略、合规要求深度绑定的——这些东西不可能通用化。
 ---
 ## 我的判断
 **第一，Harness 不是新概念，但它终于被正名了。**
 做过后端开发的人都知道，中间件、编排层、服务治理这些东西一直存在。只是在 AI Agent 的语境下，这些东西需要重新设计。给它一个统一的名字叫 Harness，有助于行业形成共识。
 **第二，现在做 Agent 不做 Harness，等于裸奔。**
 98% vs 60% 的成功率差距不是开玩笑的。如果你正在上 Agent 项目，花在 Harness 上的时间应该至少跟花在 prompt 上的时间一样多。
 **第三，别把 Harness 搞复杂了。**
 Vercel 砍掉 80% 工具反而效果更好，这不是偶然。最好的 Harness 是最简单的 Harness。从 200 行代码、3 个工具开始，不够了再加。
 **第四，中国的机会在 Harness 层。**
 模型层的差距在缩小，但 Harness 层的工程化能力差距还很大。谁能先把 Agent 的可靠性从 60% 干到 98%，谁就能在企业市场吃到最大的蛋糕。
 **第五，Harness Engineer 会成为未来三年最抢手的岗位之一。**
 上一篇文章我说"未来最值钱的不是写代码的手速，是判断代码对不对的眼光"。在 Harness 这个语境下，还要加一句：**是设计让 AI 不犯错的系统的能力。**
 说到底，AI 的能力已经够强了。2026 年的核心问题不是"AI 能不能做"，而是"AI 做了之后谁来兜底"。
 Harness 就是那个兜底的东西。
--- a/articles/012/cover.png
+++ b/articles/012/cover.png
--- a/articles/013-大厂一年烧190亿训模型！中小软件公司凭什么活下去.md
+++ b/articles/013-大厂一年烧190亿训模型！中小软件公司凭什么活下去.md
@ -0,0 +1,353 @@
 # 大厂一年烧 190 亿训模型！中小软件公司凭什么活？3 条活路，3 条死路
 > 发布日期：2026-04-19
 > 分类：深度观点 / 行业趋势
 > 作者：老邓唠AI
 ![封面](https://cdn.union.jxyunge.com/self-media/013/cover.png)
 ## 先说结论
 如果你是一家几十到几百人的软件公司老板，正纠结 AI 时代要不要跟、怎么跟——
 **我的判断一句话讲完：**
 > **别学大厂卷模型，别学 AI 创业公司做通用套壳，也别死守「按座位收费」的老生意。中小软件公司真正的活路只有三条：做垂直行业的自动驾驶（Autopilot）、做人效 10 倍的微型团队、做「AI + 人」的混合服务。**
 再浓缩成 16 个字：**选窄赛道、砍小团队、混合定价、积累专属数据。**
 不同意的，看到这里就可以关了。同意但想听凭什么？下面一条一条拆给你看。
 下面的案例和数据，是我花了两周扒的——Anthropic、Cursor、Sierra、Klarna、Builder.ai 这些公司的真实账本、CEO 公开讲话、投资机构报告。全是硬数据，不是鸡汤。
 ---
 ## 引子：一个 80 人老板的深夜提问
 前两周，一个做企业协作工具的朋友在群里甩了条消息：
 > "我手下 80 人，一个季度出的功能，不如 Cursor 一个晚上。我到底还做不做？"
 群里瞬间炸锅。
 这种焦虑不止他一个。2 月份那场 **SaaS 大屠杀（SaaSpocalypse）**，华尔街一周内把软件即服务（SaaS）板块打掉 **2850 亿美金**市值——Thomson Reuters 单日 -15.83%、LegalZoom 单日 -19.68%、Workday 被 Jefferies 直接降级。媒体管那一周叫「SaaS 末日」。
 说白了就一句话——**连按人头收钱的商业模式都开始被质疑了。**
 然后你再抬头看大厂在干嘛：
 - **Anthropic 2026 年要烧 190 亿美元**（120 亿训模型 + 70 亿推理），这几乎等于它一年的**年化营收（ARR，Annual Recurring Revenue）**
 - OpenAI 2026 年**年化收入率（run rate）**超 250 亿，同样烧钱
 - NVIDIA 一年卖几千亿**图形处理器（GPU）**，数据中心还在扩
 百人不到的中小软件公司看了之后只有一个感觉——**这游戏怎么玩？我的研发预算加起来，连人家一天的电费都不够。**
 下面从 3 条死路开始拆，然后讲 3 条活路，最后给一份可以直接抄的落地清单。
 ---
 ## 一、先认清 3 条死路：中小软件公司千万别走
 有的路是给大厂准备的，有的路是给独角兽准备的。中小公司挤上去就是找死。
 ### 死路一：学大厂卷底层模型
 这条是最诱惑的。因为你看 Anthropic ARR 一年从 10 亿干到 300 亿，谁看了不心动。
 但看账本吧：
 | Anthropic 2026 账单 | 金额 |
 |---|---|
 | 训练模型 | $120 亿 |
 | 推理基础设施 | $70 亿 |
 | **合计** | **$190 亿** |
 | 同年 ARR | $300 亿 |
 **Anthropic 每收 1 美元，大约 0.62 美元花在算力上。**
 而且就在这种规模下，The Information 报道——Anthropic 把 2025 年毛利指引从 **50% 下调到 40%**，原因是「推理成本比预期高 23%」。
 ![大厂算力军备竞赛](https://cdn.union.jxyunge.com/self-media/013/datacenter.jpg)
 连 Anthropic 都在挣扎。你一个年研发预算 2000 万人民币的中小公司，卷什么基础模型？
 **这层是赢者通吃的军备竞赛。你挤上去就是慈善捐款。**
 ### 死路二：做通用 AI 套壳（氛围编程 Vibe Coding 类）
 这条更诱惑。因为它看起来门槛低——接一个**应用接口（API）**，包一层漂亮**界面（UI）**，就能开始卖钱。
 看看明星公司 Cursor 的真实账本（Contrary Research 扒出来的）：
 | Cursor 2026 年 | 金额 |
 |---|---|
 | 收入 | $10 亿 |
 | 给 Anthropic/OpenAI 的 API 费 | $6–8 亿 |
 | 其他成本 | $3+ 亿 |
 | **年亏损** | **-$1.5 亿** |
 Contrary Research 的原话画面感很强：
 > "Every dollar customers pay going straight to Anthropic for Claude API calls."
 > （客户付的每一块钱，转手就进了 Anthropic 的口袋。）
 Cursor 21 个月做到 20 亿 ARR，估值谈到 500–600 亿——**还在亏钱**。
 Lovable、Bolt、Replit 都是同一条路。增长曲线漂亮，账本地狱。
 你没有这些公司的融资额度，连亏的资格都没有。**上游不让出毛利，你连地板都坐不稳。**
 ### 死路三：死守「按座位收费」（per-seat）不动
 这条是最温水煮青蛙的。
 看 Chegg 怎么死的（我觉得这是所有传统 SaaS 老板应该贴在办公桌前的案例）：
 ![Chegg 股价暴跌三幕剧](https://cdn.union.jxyunge.com/self-media/013/chegg-stock.png)
 - **2021 年 2 月**：股价 $113.51，市值 140 亿
 - **2023 年 5 月 2 日**：财报会承认「ChatGPT 正在伤害我们的业务」——**单日跌 48%**
 - **2025 年 10 月**：第二轮裁员砍 **45%，388 人**
 - **2026 年至今**：从股价最高点下来跌了 **99%**，9 位分析师零 Buy 评级
 Chegg 战术上没做错任何事。它做错的只有一件——**它的生意是"学生付费看作业答案"。ChatGPT 免费做这事，还做得更好。**
 Nadella 在 2024 年 12 月 BG2 播客上甩出的那句话，每个 SaaS 老板都该抄在本子上：
 > "SaaS applications are essentially CRUD databases with a bunch of business logic. The business logic is all going to these [AI] agents."
 > （SaaS 应用本质就是**增删改查（CRUD）**数据库加点业务逻辑。业务逻辑以后全跑进智能体 Agent 里。）
 **客户会逼你改定价。你不主动改，他们会换成会改的那家。**
 ---
 三条死路说完了。你会发现一个规律——**它们的共同点是"没差异化"：卷模型拼不过大厂，套壳拼不过融资多的，按座位拼不过 AI 原生。**
 那活路长什么样？**都在"差异化"这三个字里。**
 ---
 ## 二、3 条真实的活路
 ### 活路一：做垂直行业的自动驾驶（Autopilot）
 这是我最看好的路。
 核心逻辑：**不做通用 AI 工具，深扎一个行业的流程和数据。**
 **Sierra 的样本**
 Bret Taylor（前 Salesforce 联席 CEO、OpenAI 董事会主席）创办的 Sierra，主打 AI 客服：
 - 21 个月从 0 → 1 亿 ARR
 - 到 2026 年 1 月 1.5 亿 ARR
 - 估值 100 亿
 它的定价模式非常聪明——**AI 自主解决问题按预先协商的费率收钱，升级给人工处理——免费。**
 Taylor 在 Sequoia 播客上的原话：
 > "The atomic unit of AI productivity is a process, not a person."
 > （AI 生产力的原子单位是一个流程，不是一个人。）
 它不卖 AI 工具，它卖「问题被解决了」这个结果。
 **Harvey 的样本**
 法律 AI 公司 Harvey 是另一个样本——**1.9 亿 ARR、110 亿估值**，敢按座位收 **$1200/律师/月**（最低 20 个席位起步）。
 为什么它的客户愿意付这个钱？**因为它不是卖软件，是卖律师助理的活。** 一个律师的年人工成本 20–50 万美金，AI 助理 $1.4 万/年直接省掉一个初级律师——客户付得心甘情愿。
 这两家公司的护城河在哪？不是模型。模型它们都用 Anthropic 和 OpenAI 的。真正的护城河是：
 1. **客户的专有数据**——Harvey 和 LexisNexis 合作、Sierra 读客户的工单系统
 2. **行业流程的深度理解**——律所怎么起草合同、客服的**服务等级协议（SLA）**怎么算
 3. **错误的承担机制**——AI 说错了谁赔
 **给中小公司的操作指南**：
 - 选一个你团队本来就懂的行业（医疗、制造、物流、法律、财税都可以——**越窄越好**）
 - 目标不是比通用 AI 更聪明，是**比大厂通用 AI 更懂这个行业**
 - 先把你最好的 3 个客户做成标杆案例，把流程、数据、错误模式全部吃进产品
 - 定价不用一步到位纯**成果付费（outcome-based pricing）**——**混合定价（月费底价 + 成果分成）是目前最安全的过渡态**
 对照 McKinsey 2025 年的调查：**150 家软件厂商里只有 2% 成功实施了纯成果付费模式。** 纯成果付费风险太高，中小公司别冒进。
 ### 活路二：做人效 10 倍于对手的微型团队
 这条路最反直觉——**别扩张，要精简。**
 AI 的杠杆让"5 个人干 50 人的活"变得真实可行。过去你要靠扩员抢市场，现在扩员反而拖慢你。
 **Pieter Levels（@levelsio）**——这人已经是这条路的行业图腾：
 - 一个人，**0 员工**
 - 三个产品（Nomad List、RemoteOK、PhotoAI）组合做 **$3M+ ARR**
 - 2025 年 3 月，**17 天内**把 fly.pieter.com 从 $0 干到 $1M ARR
 他自己发的推文原话：
 > "fly.pieter.com has now gone from $0 to $1 million ARR in just 17 days!"
 **Maor Shlomo / Base44**——一个人做 $3.5M ARR 的 AI 应用（App）构建平台，**2025 年 6 月被 Wix $80M 收购**——仍然是单人公司。
 **Lovable**——欧洲最快的独角兽：
 - 21 个月做到 $400M ARR
 - **146 人，2 月份单月新增营收 $100M**
 - 人效约 **$270 万/人/年**
 对比——传统 SaaS 的人效中位数是 **15–25 万美金/人/年**。Lovable 是 **10 倍**的水准。
 数据层面，2025 上半年新创公司里 **36.3% 是单人创办**，2019 年这个数字是 23.7%。Anthropic CEO Dario Amodei 公开押注：**2026 年会出现第一家单人独角兽**，概率 70–80%。
 **给中小公司的操作指南**：
 - 坚决砍掉中间层——**产品经理、项目经理、外包协调、合规专员**，这些岗位 AI 做得更快
 - 保留的每个工程师必须有 AI 杠杆（Cursor / Claude Code / Cognition），并且要在绩效里考核
 - 参考 Shopify CEO Tobi Lütke 2025 年 4 月那份内部备忘录的狠话："**Before asking for more headcount, teams must demonstrate why they cannot get what they want done using AI.**"（申请加人前，先证明 AI 做不到。）
 - 目标：**人效 100 万美金/人/年**。这是一个可达成的线——不是 SaaS 黄金时代的 20 万的线
 一句话：**这不是削减成本，是彻底重构组织。**
 ### 活路三：做「AI + 人」的混合服务
 这条路最多人会忽略——**因为大家都被"AI 替代人"的叙事洗脑了。**
 但 2024–2026 这两年最重要的实战教训来自 Klarna：
 **Klarna 的大反转**（我觉得这是所有想"纯 AI 替代"的老板必看的案例）：
 - **2024 年 2 月**：Klarna 和 OpenAI 合作，AI 客服上线 1 个月：
  - 处理 **230 万次对话**
  - 等于 **700 个全职客服**的工作量
  - 预计带来 **$40M 利润改善**
 - **2024 年 9 月**：CEO Siemiatkowski 放话要关停 Salesforce 和 Workday，纯 AI 替代
 - **2025 年 3 月**：CEO 亲自接受 Diginomica 采访，"**No, we didn't replace SaaS with an LLM.**"（我们没用大语言模型（LLM）替代 SaaS。）
 - **2025 年末**：CEO 亲承「**We went too far**」（我们走得太远了）：
  - 纯 AI 客服让**客户满意度（CSAT）下降 22%**
  - 客户信任受损
  - 重新招客服，换成 Uber 式灵活用工
 Klarna 的教训是最精确的——**不是「AI 能不能替代人」，而是「你愿意为了成本牺牲多少质量？」**
 IBM 调研 2000 位 CEO 的数据更扎心：**只有 1/4 的 AI 项目带来正投资回报（ROI）。**
 NBER 2026 年 2 月研究：**90% 的公司报告 AI 对工作场所生产力没有可测量影响。**
 这就给中小公司留了一个大机会——**卖「AI 加持下的专业服务」，而不是卖纯 AI。**
 具体路径：
 - **你不是 AI 工具公司，你是 AI 时代的专家服务公司**
 - **你的核心资产是人 + AI + 行业诀窍（Know-how）的组合**
 - **你的定价单位从"服务小时"变成"项目成果 + AI 杠杆"**
 举个接地气的例子：你做财税咨询，过去 5 个会计师一年服务 50 家企业。AI 上了之后，同样 5 个人能服务 200 家——**而客户付的单价可以比小作坊高，因为你卖的是"资深专家亲自把关 + AI 提效 + 出错我担责"。**
 **给中小公司的操作指南**：
 - 定位："AI 时代的专家咨询公司"，不是"AI 产品公司"
 - 交付的是结果 + 专家背书，不是一个工具
 - 定价从"按时计费"迁移到"按项目 + 成果分成"
 - 客户付钱的核心理由——**你懂他们的业务**，不是你的 AI 多强
 ---
 ## 三、一个必须清醒的底层真相
 说了三条活路，也得泼一盆冷水。
 **2024–2026 这波 AI 热潮里，死掉的比活下来的多得多。**
 - 2024 年全球有 14,000+ 家 AI 创业公司
 - 2025 年倒了 **3800 家（27%）**
 - 2026 年初又倒了 **1800 家（13%）**
 - **不到 24 个月，失败率 40%**
 Builder.ai 这个故事你应该听过——宣传它的 AI「Natasha」能以 70% 成本、6 倍速度构建应用，融了 **$7 亿**，金主名单里有软银、微软、卡塔尔主权基金。
 2025 年 5 月 20 日破产那天，真相曝光——**「Natasha」是 700 个印度工程师扮的，员工被要求「按英国时区回复、避免使用印度英语俗语」。**
 这个教训给中小公司的启示特别锋利：
 **当「卖 AI」变得时髦，最容易被骗的问题是——「你到底交付了什么？」**
 别把「用了 AI」等同于「产品变好了」。
 Gartner 的预测：**到 2027 年底，40%+ 的智能体 AI（agentic AI）项目会被放弃。**
 所以中小公司最危险的状态不是「没做 AI」——**是「假装 AI 已经颠覆了你」。**
 ---
 ## 四、落地：今天创业，4 件事最重要
 说了半天框架，落到具体。如果我今天从零开始做一家软件公司，我会做这 4 件事：
 **1. 选赛道**
 - 选一个你团队**真的懂**的垂直领域
 - **越窄越好**。不要做"全行业通用" SaaS
 - 判断标准：你能说出这个行业的 5 个核心痛点吗？能讲出来 3 个竞品怎么死的吗？说不出来，换赛道
 **2. 定团队**
 - **坚持 20 人以内，干到 1000 万美金 ARR 再扩**
 - 每个人都得有 AI 杠杆——没掌握 AI 工具的人，不要招（无论头衔 title 多响）
 - 目标人效 **100 万美金/人/年**
 **3. 定定价**
 - **混合定价**：月费底价（保成本）+ 成果分成（保增长）
 - 不要纯成果付费（归因扯皮、成功惩罚悖论）
 - 不要纯按座位计费（会被 AI 原生对手按在地上打）
 - 参考 Intercom Fin（0.99 美元/次解决，有最低消费）、Sierra（AI 解决收费 + 升级人工免费）
 **4. 定护城河**
 护城河不是你的代码（代码会越来越廉价）。护城河是这三样东西的组合：
 - 客户的专有数据（累积越久越有价值）
 - 行业流程的诀窍（写不进提示词 Prompt 的东西）
 - 错误的承担机制（你敢为 AI 的错误赔钱，客户就敢付你钱）
 ---
 ## 五、尾声：AI 时代是中小软件公司的黄金时代
 我不认为中小软件公司会消失。
 相反——**AI 时代是中小软件公司最好的时代。**
 过去你要做一个产品，得招 50 人研发 + 30 人销售 + 10 人运营。今天你 5 个人就能做出更好的产品，覆盖更广的市场。AI 帮你把执行成本压到几乎为零，剩下的全是「判断」——**这正是中小团队相对大厂的天然优势。**
 但前提是——
 **你不能再用过去 20 年的 SaaS 公司模板做公司。**
 大厂在烧 190 亿训模型，你烧不起，也不用烧。你的活路不在模型层，**在一个你真正懂的行业的骨髓里。**
 **选窄赛道，砍小团队，混合定价，积累专属数据。**
 这是中小软件公司未来 3 年的生存公式。
 开头那位 80 人老板的提问——「我到底还做不做？」
 我的回答是：**做。但不是照着过去 20 年 SaaS 的样子做。**
 ---
 ## 参考资料
 - [SaaSpocalypse 事件回顾 | Taskade](https://www.taskade.com/blog/saaspocalypse-explained)
 - [Chegg 裁员 45% | CNBC](https://www.cnbc.com/2025/10/27/chegg-slashes-45percent-of-workforce-blames-new-realities-of-ai.html)
 - [Nadella on SaaS = CRUD | BG2 Pod](https://www.youtube.com/watch?v=GuqAUv4UKXo)
 - [Anthropic 下调毛利指引 | The Information](https://www.theinformation.com/articles/anthropic-lowers-profit-margin-projection-revenue-skyrockets)
 - [Cursor 毛利真相 | Contrary Research](https://research.contrary.com/company/cursor)
 - [Sierra 21 个月 $100M ARR | TechCrunch](https://techcrunch.com/2025/11/21/bret-taylors-sierra-reaches-100m-arr-in-under-two-years/)
 - [Bret Taylor on Sierra | Cheeky Pint](https://cheekypint.substack.com/p/bret-taylor-of-sierra-on-ai-agents)
 - [Harvey $190M ARR, $11B valuation | CNBC](https://www.cnbc.com/2026/03/25/legal-ai-startup-harvey-raises-200-million-at-11-billion-valuation.html)
 - [levelsio tweet: $0 to $1M in 17 days](https://x.com/levelsio/status/1899596115210891751?lang=en)
 - [Lovable $400M ARR | Bloomberg](https://www.bloomberg.com/news/articles/2026-03-12/vibe-coding-startup-lovable-hits-400-million-recurring-revenue)
 - [Shopify Tobi Lutke AI memo | CNBC](https://www.cnbc.com/2025/04/07/shopify-ceo-prove-ai-cant-do-jobs-before-asking-for-more-headcount.html)
 - [Klarna CEO reverses course | Entrepreneur](https://www.entrepreneur.com/business-news/klarna-ceo-reverses-course-by-hiring-more-humans-not-ai/491396)
 - [Builder.ai 假 AI 真印度人 | eWEEK](https://www.eweek.com/news/builderai-bankruptcy-ai-developers-coding/)
 - [AI Bubble Warning | TIME](https://time.com/article/2026/03/26/we-must-prepare-for-an-ai-bubble-now/)
--- a/articles/013/chegg-stock.png
+++ b/articles/013/chegg-stock.png
--- a/articles/013/cover.png
+++ b/articles/013/cover.png
--- a/articles/013/datacenter.jpg
+++ b/articles/013/datacenter.jpg
--- a/scripts/chegg_chart.py
+++ b/scripts/chegg_chart.py
@ -0,0 +1,75 @@
 import matplotlib.pyplot as plt
 import matplotlib.dates as mdates
 from datetime import datetime
 plt.rcParams['font.sans-serif'] = ['PingFang SC', 'Hiragino Sans GB', 'Arial Unicode MS', 'STHeiti']
 plt.rcParams['axes.unicode_minus'] = False
 dates = [
    datetime(2020, 4, 1),
    datetime(2020, 10, 1),
    datetime(2021, 2, 12),
    datetime(2021, 8, 1),
    datetime(2022, 1, 1),
    datetime(2022, 6, 1),
    datetime(2023, 5, 1),
    datetime(2023, 5, 2),
    datetime(2023, 10, 1),
    datetime(2024, 3, 1),
    datetime(2024, 9, 1),
    datetime(2025, 3, 1),
    datetime(2025, 10, 27),
    datetime(2026, 4, 19),
 ]
 prices = [40, 65, 113.51, 60, 35, 17, 17.5, 9, 10, 5, 2.5, 1.8, 1.2, 0.61]
 fig, ax = plt.subplots(figsize=(12, 6.5), facecolor='#0d1117')
 ax.set_facecolor('#0d1117')
 ax.plot(dates, prices, color='#ff4d4d', linewidth=2.8, zorder=3)
 ax.fill_between(dates, prices, color='#ff4d4d', alpha=0.18, zorder=2)
 events = [
    (datetime(2021, 2, 12), 113.51, '2021-02\n历史高点 $113.51', (180, 8), 'bottom', 'left'),
    (datetime(2023, 5, 2), 9, '2023-05  ChatGPT 冲击\n财报日单日跌 48%', (180, 25), 'bottom', 'left'),
    (datetime(2025, 10, 27), 1.2, '2025-10  二轮裁员 -45%', (-60, 35), 'bottom', 'right'),
    (datetime(2026, 4, 19), 0.61, '2026-04  $0.61\n累计跌 99%', (-20, 55), 'bottom', 'right'),
 ]
 for dt, p, label, offset_days, va, ha in events:
    from datetime import timedelta
    xtext = dt + timedelta(days=offset_days[0])
    ytext = p + offset_days[1]
    ax.annotate(
        label,
        xy=(dt, p),
        xytext=(xtext, ytext),
        color='#ffd166',
        fontsize=10,
        ha=ha,
        va=va,
        fontweight='bold',
        arrowprops=dict(arrowstyle='->', color='#ffd166', lw=1.2),
    )
    ax.scatter([dt], [p], color='#ffd166', s=55, zorder=4, edgecolors='#ff4d4d', linewidth=1.5)
 ax.set_title('Chegg (CHGG) 股价 5 年雪崩：$113.51 → $0.61  (-99%)',
             color='white', fontsize=17, pad=20, fontweight='bold')
 ax.set_ylabel('股价 (USD)', color='#c9d1d9', fontsize=12)
 ax.set_xlabel('', color='#c9d1d9')
 ax.tick_params(colors='#c9d1d9', labelsize=11)
 for spine in ax.spines.values():
    spine.set_color('#30363d')
 ax.grid(True, alpha=0.25, color='#30363d', linestyle='--')
 ax.xaxis.set_major_locator(mdates.YearLocator())
 ax.xaxis.set_major_formatter(mdates.DateFormatter('%Y'))
 ax.set_ylim(-5, 140)
 fig.text(0.5, 0.01, '数据来源：Yahoo Finance / Macrotrends',
         color='#6e7681', fontsize=8, ha='center', va='bottom', style='italic')
 plt.tight_layout()
 plt.savefig('/Users/bing/work/code/myself/self-media-james/articles/013/chegg-stock.png',
            dpi=150, facecolor='#0d1117', bbox_inches='tight')
 print('Chegg chart saved')