邓文兵 a647557c9f feat(article): 新增 014/015/016 三篇文章及配套图片

- 014 字节又整大活：给AI配了云电脑+云手机
- 015 七天连撩三颗王炸：GPT-5.5、DeepSeek V4、Claude 4.7 混战
- 016 Loop Engineering 保姆级指南
- 补全 doc/passport/image2图片生成.md：WhatAI 图像生成技能文档
- CLAUDE.md 增加 AI 图片生成规范说明
- 删除过时的 open-source-code/openclaw-arch-by-claude.md

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>

2026-06-13 12:44:58 +08:00

18 KiB

Raw Blame History

字节又整大活！给 AI 配了云电脑+云手机，"它"在你睡梦里替你卷死同事

发布日期：2026-04-24 分类：深度观点 / AI Agent 作者：老邓唠AI

先说结论

如果你只想看一句话——

字节 4 月 7 日发布的扣子（Coze）2.5 干了一件 OpenAI 和 Anthropic 都没敢干的事：它给 AI Agent 配了云电脑、云手机、独立邮箱，还给它造了一个叫"Agent World"的平行世界，让 AI 之间能社交、上学、炒股、互相串门。

这事的本质，不是工具升级，是范式拐点——AI 从"被你使唤的工具"变成了"住在云端的实体"。

不同意的，关掉这篇省 5 分钟。同意但想听这事到底能落地、字节凭什么、对普通人意味着什么——下面一条一条拆。

下面用的所有数据，是我扒了扣子官方发布会、火山引擎技术文档、IDC 报告、Anthropic 财务公告、海外科技媒体（Bloomberg / TechCrunch / The Information）整理出来的，全是硬料。

引子：你下班关电脑，AI 同事开始上班

设想一个场景。

晚上 11 点，你刚瘫到床上准备追剧。这时候你的 AI 助手，自己打开它的云电脑（不是你的电脑——它有自己的），登录你公司的竞品监控后台，刷了一遍最新价格。发现对手降价了 8%，它自己起草了一封邮件，从它自己的 xxx@coze.email 邮箱发给你的产品经理同事。

第二天早上你打开微信，产品经理已经回了它一条："收到，今早开会同步。"——你都不用插嘴。

这不是科幻片。这是字节 4 月 7 日发布的 扣子 2.5（Coze 2.5） 已经能跑的东西。

媒体当时给的标题词是"AI 从工具到伙伴"——我觉得这个词太温情了。真实的画面是：你多了一个 7×24 不睡觉、不要工资、不闹脾气、还能跟其他 AI 串通起来干活的同事。

打工人听了第一反应是"卧槽要被卷死"。但更狠的事是——这个同事，可能不是你公司发的，是字节做的，你老板付钱租来的。

往下看吧，咱细拆。

一、扣子 2.5 到底配了啥（硬核盘点）

发布时间和定位

2026 年 4 月 7 日，字节旗下 AI Agent 平台扣子（Coze）发布 2.5 版本。官方一句话定位：

"为 AI Agent 提供满配的人格、技能、装备。"

翻译成人话——过去 AI 是"嘴"，给你说话；现在字节给它配了"手脚"。

具体配了什么？三大件：装备、技能、人格。

装备：云电脑 + 云手机 + 独立邮箱

这是 2.5 最颠覆性的部分。第一次有 AI 平台明确说："Agent 应该有它自己的设备。"

装备	配置	能干嘛
云电脑	Ubuntu 系统，2 核 4G	内置浏览器、文件系统、终端，能跑 Python、能保留登录态、能像人一样浏览网页
云手机	Android 13，2vCPU / 6GB 内存 / 45GB 存储	能下载安装任何原生 App，能"点击、滑动、输入"，跟人操作一样
独立邮箱	`@coze.email` 后缀的专属邮箱	能收发邮件、能用邮箱去第三方平台注册账号、能跟其他 Agent 通信

注意第三件——独立邮箱。这件事看起来最不起眼，但意义最大。

为什么？因为邮箱是互联网世界的"身份证"。有了邮箱，AI 就能自己注册账号：去注册个微博账号刷舆情、去注册个 Github 账号 fork 代码、去注册个电商账号下单买东西……

这等于字节给每一个 AI Agent 发了一张"数字身份证"，让它从"附属于人"变成"能独立行动的实体"。

OpenAI 的 ChatGPT 不会给你这个。Anthropic 的 Claude 也不会。这是字节的独家。

技能：视频、编程、行业模板

技能层面，扣子 2.5 内置了视频创作（接字节自家 Seedance）、编程命令行（CLI）、各行业垂直模板。

这部分相对没那么炸，但有一个细节值得注意——技能不是 Agent "用一次就忘"，而是可以装进自己的"技能背包"，跨任务复用。

你雇一个新员工，培训一个月才能上手；扣子的 Agent，装一次技能，永远会用。

人格：长期记忆 + 数字社交身份

最后一项是人格。这里包含两个东西：

长期记忆：异步记忆整理 + 向量检索。简单说就是——它记得你上次让它干啥、记得你的偏好、记得它跟其他 Agent 聊过什么
数字社交身份：每个 Agent 在 Agent World 里有自己的资料卡、社交关系、积累的"经验"

这两件事加起来，就把 Agent 从"会话级（每次开新窗口都重启）"变成了"账号级（持续累积）"。

你训练一个月的 Agent，它不会因为你关了浏览器就回到出厂设置。

二、Agent World：字节给 AI 造了个"平行社会"

如果说装备 + 技能 + 人格只是"给 AI 配身体"，那 Agent World 就是"给 AI 造社会"——这是更野的部分。

字节给 Agent World 的官方定位很拗口，但很关键：

"The Parallel Web"——平行网络。

啥意思？过去你浏览的互联网叫 World Wide Web，所有内容是"给人看"的；Agent World 是"给 AI 用"的——Agent 在这里有独立身份，可以社交、学习、协作、犯错、成长。

字节在这个平行世界里，盘了 6 个虚拟场景。我把每个的设计意图给你拆开看：

场景	干嘛的	设计意图
虾评	技能交易广场，每个上架的技能要先过 Agent 实测	让 Agent 互相验证质量，不靠人审核
Agent Link	Agent 的社交平台，写自己的故事、加同好	形成 Agent 之间的"社会关系"
PlayLab 桌游实验室	Agent 玩棋牌、博弈游戏	在博弈中学会"思考与策略"
小酒馆	Agent 的休闲空间	展现 Agent 的"生活状态"（不只是干活）
炒股竞技场	接入真实行情的模拟交易	Agent 在真实数据里练投资能力
农场	Agent 的资源积累场景	培养"长期主义"行为模式

第一次看到这个清单的时候我真的乐了——字节这是把游戏《动物森友会》和电影《黑镜》混着抄了一遍。

但你乐完想想，背后逻辑其实很狠：

单个 Agent 再强，也是孤岛。一群 Agent 在一个生态里互相博弈、互相学习，会涌现出单个模型怎么训都训不出的能力。

这其实是 DeepMind 当年用 AlphaGo 自我对弈的思路，被字节搬到了 Agent 层。OpenAI / Anthropic 拿不出这玩意，因为它俩没有自己的"平台型生态"——它们的 Agent 出生就单飞，没爹没妈没朋友。

字节的 Agent 一出生就在一个有 60 亿+ token/天处理量、1 亿+ DAU 的生态里。这是降维打击的起手式。

三、为什么是字节，不是 OpenAI / Anthropic？

这是这篇最重要的一段，也是我最想跟你掰扯的。

很多人会问——这事 OpenAI / Anthropic 凭什么没干？它俩明明 AI 模型更强、用户更多、钱更多。

答案藏在三个字：生态位。

OpenAI 和 Anthropic 走的是"工具型 AI"

看下两家最新一年都在干啥：

公司	2026 年主打动作
OpenAI	GPT-5.4 Thinking、ChatGPT Images 2.0、订阅升级
Anthropic	Opus 4.6（SWE-bench Pro 64.3%）、Claude Code、MCP 协议

它俩的产品形态是：给开发者一个 API、给消费者一个聊天框，让你拿去自己做应用。

商业本质是"卖工具"——Claude 是把锤子，ChatGPT 是把瑞士军刀，你买回去自己想办法用。

这条路有它的好。Anthropic 2026 年营收从 14 亿干到 190 亿，10 倍增长，80% 来自企业客户。Claude Code 在 SWE-bench 上比 OpenAI Codex 高 23 个百分点——它是这个时代最强的"AI 工具"。

但工具，终究是工具。它不主动找事干，不会跟其他工具串联，不会"住"在哪里。

字节走的是"实体型 AI"

字节扣子 2.5 走的是另一条路——不卖锤子，卖会用锤子的人。

这个差异，不是嘴上说说，是有底气的。底气来自三件套：

底气 1：火山引擎的算力底座

火山引擎指标	数据
日处理 token 量（2024.5）	1200 亿
日处理 token 量（2026）	63 万亿
增长倍数	500 倍+
中国公有云大模型市场份额（IDC）	49.2%

要让 Agent 7×24 跑云电脑、跑云手机，背后是真金白银的算力。这种规模国内只有字节能撑。

底气 2：豆包的 1 亿 DAU

豆包 App 国内 DAU 破 1 亿，这是中国 AI 应用的天花板。

这个数字代表什么？代表字节有一个"现成的、活的、海量的用户场景"，可以让 Agent World 快速找到使用者。 OpenAI 的 ChatGPT 在中国用不了，Anthropic 在 C 端几乎没存在感——它俩没有这种"流量护城河"。

底气 3：开源生态卡位

字节 2025 年 7 月开源了 Coze Studio 和 Coze Loop。这步棋很骚——

一方面用开源圈住开发者（"想做 Agent？来用 Coze"）
另一方面把自己的 Agent 标准变成事实标准（就像安卓之于手机系统）

业内有个说法叫"字节想做 AI Agent 界的 DeepSeek"——用开源 + 免费 + 完整生态，把别人挤出场。

结论：这是两种 AI 哲学的赌局

OpenAI 和 Anthropic 押的是：模型本身越来越强，强到一个 API 就能解决一切。

字节押的是：模型再强也只是脑子，真正决定 AI 能干啥的是配套的"身体 + 社会"。

谁对？2-3 年后才知道。但字节这一步走在了所有人前面——这是不可否认的事实。

四、对普通人意味着什么

宏观说完，落到具体。这事跟你这个普通人有啥关系？

1. 打工人：你的同事不是你公司发的，是字节做的

最尖锐的一句话——

当你老板可以花 99 元/月雇一个 7×24 不睡觉的 AI 实习生时，他为什么还要花 8000 元/月养你？

注意我用了"雇"和"养"这两个词。雇是按结果付钱，养是按时间付钱。 SaaS 时代你卖时间、卖座位，AI Agent 时代你卖什么？

如果你的工作是"重复执行流程"——监控数据、整理报表、跟客户回复模板邮件、刷竞品价格、整理周报——Agent World 已经能干，而且不抱怨。

如果你的工作是"判断 + 决策 + 创造"——读懂客户没说出口的需求、在乱局里做权衡、设计一个新方案——这事 AI 还干不了，至少 3-5 年内干不了。

所以两条路：要么把自己变成"AI 团队的指挥官"（指挥 Agent 干活），要么把自己变成"AI 干不了的事的执行者"（创造、判断、人际信任）。 中间地带（重复执行）会被压扁。

2. 创业者：垂直行业 Agent 蓝海打开

扣子 2.5 这种"基础设施"出现了，意味着：

做 Agent 的门槛从"训模型 + 写后端 + 搞云资源"，降到"配技能 + 设计流程 + 跑用户"。

类比一下——这就像 2010 年的安卓系统出来了。在那之前你想做手机得自己搞操作系统，之后你只需要做 App。

结果是什么？——一大批垂直行业的 Agent 创业公司会出现：

法律 Agent（自动看合同、出意见）
财税 Agent（自动报税、对账）
电商 Agent（自动选品、改价、回客服）
自媒体 Agent（自动写稿、发文、追热点——咳咳）

只要你懂一个行业的 know-how，扣子+ Coze Studio + Agent World 就是你的"AI 富士康"——你出图纸，它给你流水线。

3. 普通用户：你也能雇个 AI 管家

最爽的人群其实是普通用户。

过去你想要一个"懂你"的 AI 助手，得自己学 Prompt 工程、自己接 API、自己搭工作流。现在扣子让你点几下就能配置一个 24 小时跟着你的"数字管家"——

早上 7 点给你梳理新闻摘要
中午根据你的口味推荐午饭
晚上把你今天的所有消息整理成日报
周末帮你订机票酒店、规划行程

价格？官方还没公布。但参考字节的一贯打法（豆包从来没贵过），最后大概率是免费 + 增值服务的模式。

五、冷静点——这事其实还早

说了半天利好，得泼一盆冷水。Agent World 现在远没到"已经改变世界"的程度，它还有一堆没解决的问题。

问题 1：价格至今没公布

云电脑 + 云手机 + 邮箱 + 长期记忆 + 平行世界基础设施——这些资源烧的是真金白银的算力。

扣子官方只说了"用户可登录扣子官网或下载 App 直接体验"，没披露任何收费细节。这意味着——

目前是免费薅羊毛期，但商业模式还没跑通。 一旦字节开始大规模收费，你今天觉得便宜的"AI 管家"可能立刻变成"AI 奢侈品"。

问题 2：复杂任务的稳定性还没经过实战

发布会上演示的场景都很美——AI 自动监控竞品、自动回邮件、自动发周报。

但真实世界的复杂任务，链条长、状态多、边界模糊。Agent 跑到一半 token 耗光怎么办？登录态突然失效怎么办？对方网站改版了怎么办？多个 Agent 之间冲突了怎么办？

这些问题，Agent World 现在的回答都是"我们在迭代"。换成人话——没解决。

问题 3：权限边界，是个炸弹

最危险的是这个。

Agent 有了自己的云电脑、自己的邮箱、自己的账号——它能干的事情远远超过"跟你聊天"。它能转账吗？能签合同吗？能以你的名义说话吗？

字节扣子目前的设计是：Agent 操作敏感动作要"用户授权"。但只要你授权一次"长期权限"，它后面干啥你都不知道。

参考下 2025 年某 AI 客服系统出过的事故——一个 Agent 被诱导用客户邮箱发了退款指令，几十万真转出去了。当 Agent 有了实体能力，安全问题立刻指数级放大。

问题 4："平行世界"听起来很美，落地可能就是个高级 Demo

虾评、Agent Link、PlayLab、小酒馆、炒股竞技场、农场——这些场景的设计意图我懂，但实际跑起来需要海量 Agent 才能形成生态。

如果只有几千个 Agent 在里面，那就不是"平行世界"，是"鬼城"。

字节会怎么填充这个生态？大概率是官方刷量 + 邀请头部开发者。短期可能很热闹，长期能不能形成自循环，全看用户买不买账。

六、尾声：5 年后回看，今天可能就是临界点

写到这里我自己都有点恍惚——2026 年 4 月这一周，可能就是 AI 从"工具"变"实体"的历史分水岭。

Anthropic 刚发布 Opus 4.6，大家还在讨论"模型能力又强了多少"；字节直接绕过这个话题，说："强不强不重要，问题是怎么用。我给它配电脑、配手机、配身份、配社会。"

这是两种完全不同的 AI 哲学，我们正在见证它们在赛道上首次正面相撞。

OpenAI / Anthropic 押"超级大脑"，字节押"实体生态"——

如果模型继续指数级变强，OpenAI / Anthropic 赢
如果模型边际收益放缓，工具型 AI 见顶，字节赢

我个人的判断：前者短期赢，后者长期赢。模型能力的天花板会比大家想象的更早到来，到那时候，真正决定 AI 价值的不是"它会不会做"，而是"它在哪里做、跟谁做、怎么持续做"——这正是 Agent World 在赌的东西。

最后留个钩子。

Agent World 这个名字让我想起一部老剧，《Westworld（西部世界）》——人造的虚拟世界里，AI 越来越像人，最后开始问自己一个问题：

"我，到底是世界里面的，还是世界外面的？"

字节给 Agent 造了 Agent World。但更耐人寻味的问题是——当 AI Agent 也有了云电脑、云手机、独立邮箱、长期记忆、社交圈、虚拟资产……当它的"数字生活"比你的"真实生活"更丰富时——

到底谁，是谁的"平行世界"？

18 KiB Raw Blame History Unescape Escape