邓文兵 d4b8a2f844 fix(article): 更新文章中的图片格式

- 将 capability-stack.svg 替换为 capability-stack.png
- 将 model-selection-map.svg 替换为 model-selection-map.png

2026-03-16 16:42:39 +08:00

14 KiB

Raw Blame History

GPT-5.4 深度解析：OpenAI 的全能战士来了

发布日期：2026-03-16 分类：技术解读 / 深度分析作者：老邓唠AI

引子：这次不只是"更强"，而是"会干活了"

3 月 5 日深夜，OpenAI 扔出了一颗重磅炸弹——GPT-5.4。

如果你以为这又是一次"跑分更高、回答更准"的常规升级，那你低估了这次更新的意义。GPT-5.4 不只是变聪明了，它第一次学会了操作电脑。

是的，你没看错。它能看到你的屏幕截图，然后像一个真人一样移动鼠标、点击按钮、敲键盘——帮你订机票、填表格、发邮件、操作 Excel。在桌面操作测试中，它的表现超越了人类。

这不是概念演示。这是已经上线的 API，任何开发者今天就能调用。

今天老邓带你全面拆解 GPT-5.4 的六大核心能力、跑分数据、定价策略，以及它跟 Claude Opus 4.6、Gemini 3.1 Pro 的正面对决。

一、GPT-5.4 是什么？

GPT-5.4 是 OpenAI 于 2026 年 3 月 5 日发布的最新旗舰模型，官方定义为**"最强大且高效的专业工作前沿模型"**。

它不是一个模型，而是一个模型家族：

版本	定位	适用人群
GPT-5.4	标准版，日常专业工作	ChatGPT Plus / Team / API 开发者
GPT-5.4 Thinking	推理增强版，展示思考过程	ChatGPT Plus / Team / Pro
GPT-5.4 Pro	最高性能版，极限推理深度	ChatGPT Pro / Enterprise / API

三个版本共享同一个基座模型，区别在于推理深度和计算资源分配。

二、六大核心能力拆解

2.1 原生计算机操控（Computer Use）

这是 GPT-5.4 最炸裂的能力——OpenAI 首个原生支持计算机操控的通用模型。

它的工作方式很直觉：

看屏幕：模型接收桌面/浏览器的截图
理解界面：识别按钮、输入框、菜单等 UI 元素
发出指令：返回结构化的鼠标移动、点击、键盘输入动作
你的程序执行：由你的代码（harness）将这些动作应用到真实环境

简单说，GPT-5.4 就像一个坐在你电脑前的远程助手，看着屏幕告诉你"点这里、输入那个"。

实际能做什么？

自动填写复杂的 Web 表单
跨应用操作工作流（打开邮件 → 读取内容 → 创建日历事件）
操作 ERP、CRM 等企业系统
自动化测试 Web 应用

跑分有多强？

基准测试	GPT-5.4	GPT-5.2	人类表现
OSWorld-Verified（桌面操作）	75.0%	47.3%	72.4%
WebArena-Verified（浏览器操作）	67.3%	-	-
Online-Mind2Web（截图识别）	92.8%	-	-

OSWorld 75.0%，人类 72.4%——AI 在桌面操作任务上，第一次超越了人类基准。

当然也有局限：截图传输有延迟，密集 UI 元素（如超大表格）的精确度还不够完美。但作为 v1 版本，这个起点已经足够惊艳。

2.2 百万级上下文窗口

GPT-5.4 的标准上下文窗口为 272K tokens（比 GPT-5.3 Codex 的 200K 扩大了 36%），而通过 Codex 配置，可以解锁高达 100 万 tokens 的超大上下文。

100 万 tokens 是什么概念？

内容类型	大约容量
普通中文文字	约 150 万字
代码	约 75 万行
PDF 文档	约 3000 页

这意味着你可以把一整个代码仓库、一本完整的技术手册、或者几个月的聊天记录一次性喂给模型，它都能理解和引用。

对于 Agent 场景尤其关键——智能体在执行长链条任务时，不会因为"忘了之前做过什么"而翻车。

2.3 上下文压缩（Compaction）

大上下文的问题是贵。100 万 tokens 每个请求都要收费，成本飞涨。

GPT-5.4 引入了一个巧妙的解决方案——Compaction（上下文压缩）。这是 OpenAI 首个在主线模型中训练支持的压缩能力。

它的原理是：在长对话或 Agent 执行过程中，模型会自动总结和压缩早期的上下文，保留关键信息，丢弃冗余细节。这样即使对话轮次很多，也不会撑爆上下文窗口。

开发者可以通过两个参数来控制：

model_context_window：设置最大上下文窗口
model_auto_compact_token_limit：设置触发自动压缩的阈值

2.4 工具搜索（Tool Search）

这是一个面向 API 开发者的重磅特性。

传统做法是把所有工具的定义一股脑塞进 prompt，100 个工具的 schema 轻松吃掉几万 tokens。GPT-5.4 的工具搜索彻底改变了这个局面。

新方案：

模型只接收一个轻量的工具列表（名称 + 简短描述）
需要用某个工具时，按需加载该工具的完整定义
用完即弃，不占用后续请求的 token

效果？Token 使用量直降 47%，准确率不变。

对于构建大规模 Agent 系统的团队来说，这意味着成本直接砍半。

2.5 可配置推理深度

GPT-5.4 提供了 5 档推理深度，开发者可以精细控制模型的"思考力度"：

档位	用途	成本
`none`	直接回答，不推理	最低
`low`	简单逻辑、摘要	低
`medium`	通用场景，平衡性价比	中
`high`	多步分析、自我修正	高
`xhigh`	极限推理，科研级	最高

不同场景用不同档位，简单问题不浪费算力，复杂问题全力以赴——这是一个非常实用的成本优化手段。

2.6 编码能力大幅升级

GPT-5.4 融合了 GPT-5.3 Codex 的编码能力，在代码任务上表现惊人：

基准测试	GPT-5.4	GPT-5.3 Codex	Claude Opus 4.6
SWE-Bench Verified	~80.0%	75.2%	80.8%
HumanEval	95.1%	93.8%	94.6%
Terminal-Bench 2.0	75.1%	-	65.4%
SWE-Bench Pro	57.7%	-	-

在 SWE-Bench Verified（真实 GitHub issue 修复能力）上，GPT-5.4 与 Claude Opus 4.6 仅差 0.8 个百分点，几乎持平。而在 Terminal-Bench 2.0（终端操作能力）上，GPT-5.4 以 75.1% 的成绩大幅领先。

三、专业知识工作：逼近人类专家

GPT-5.4 最让行业震动的数据来自 GDPval 基准测试——这个测试覆盖 44 个职业领域，衡量模型在"真实经济价值工作"中的表现。

指标	GPT-5.4	GPT-5.2	提升
GDPval 综合	83.0%	70.9%	+12.1%
投行电子表格建模	87.3%	68.4%	+18.9%
演示文稿偏好率	68.0%	32.0%	-
错误率降低	-33%	-	单个陈述
整体回答错误率降低	-18%	-	完整回答

83% 的 GDPval 成绩意味着什么？ 在 44 个职业领域中，GPT-5.4 的工作输出质量已经接近行业从业者的平均水平。投行建模 87.3%，比 GPT-5.2 猛涨近 19 个百分点——这不是微调，这是质的飞跃。

浅色 = GPT-5.2，深色 = GPT-5.4

四、三国争霸：GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro

2026 年 3 月，三大 AI 巨头的旗舰模型罕见地同台竞技。老邓帮你拉了一张全维度对比表：

4.1 基准跑分对比

基准测试	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro	谁赢了
GDPval（知识工作）	83.0%	78.0%	-	GPT-5.4
GPQA Diamond（科学推理）	92.8%	91.3%	94.3%	Gemini
ARC-AGI-2（抽象推理）	73.3%	75.2%	77.1%	Gemini
MMMU Pro（视觉理解）	81.2%	85.1%	80.5%	Claude
SWE-Bench Verified（代码修复）	~80.0%	80.8%	80.6%	Claude（微弱）
Terminal-Bench 2.0（终端操作）	75.1%	65.4%	68.5%	GPT-5.4
OSWorld（桌面操控）	75.0%	-	-	GPT-5.4
BrowseComp（网页浏览）	82.7%	84.0%	85.9%	Gemini

4.2 定价对比

模型	输入价格（/百万 tokens）	输出价格（/百万 tokens）	上下文窗口
Gemini 3.1 Pro	$2	$12	2M
GPT-5.4	$2.50	$15	272K（最大 1M）
Claude Opus 4.6	$5	$25	200K
GPT-5.4 Pro	$30	$180	272K（最大 1M）

4.3 各家优势领域一目了然

4.4 怎么选？

一句话总结：没有全能冠军，只有场景之王。

选 GPT-5.4：如果你需要桌面自动化、知识工作、工具编排——它是唯一一个 Computer Use 超越人类的模型
选 Claude Opus 4.6：如果你的核心场景是代码开发、多文件重构、视觉理解——它在 SWE-Bench 和 MMMU Pro 上仍然最强
选 Gemini 3.1 Pro：如果你预算有限但要求高质量推理——它用 GPT-5.4 Pro 十五分之一的价格，达到了同级别的科学推理水平

五、定价与可用性

5.1 API 定价

模型	输入	输出	备注
GPT-5.4	$2.50/M	$15/M	标准档
GPT-5.4 Pro	$30/M	$180/M	极限性能
Batch 模式	标准 50%	标准 50%	异步批量处理
Flex 模式	标准 50%	标准 50%	弹性定价
Priority 模式	标准 200%	标准 200%	优先响应

5.2 谁能用？

渠道	可用版本
ChatGPT Plus / Team	GPT-5.4 Thinking
ChatGPT Pro / Enterprise	GPT-5.4 Thinking + GPT-5.4 Pro
API	gpt-5.4、gpt-5.4-pro

GPT-5.2 Thinking 将保留至 2026 年 6 月 5 日，之后下线。如果你还在用旧版，记得提前迁移。

六、老邓的观点

说几句大实话。

GPT-5.4 最大的意义不在跑分，而在 Computer Use。

跑分上，GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 三家在大多数评测中只差 2-3 个百分点，说实话对普通用户几乎没有体感差异。真正拉开差距的是能力维度的拓展。

Computer Use 让 AI 第一次真正能"用电脑"。这不是花活，这是生产力工具的范式转变。想象一下：

财务人员让 AI 自动操作 SAP 系统出报表
运营人员让 AI 自动在后台批量上架商品
HR 让 AI 自动在多个招聘平台发布岗位

这些场景以前需要 RPA（机器人流程自动化）工具，写一堆脆弱的规则脚本。现在？给 GPT-5.4 一个截图，它自己看着干。

当然，v1 版本还有明显的局限——延迟、精确度、安全边界都需要打磨。但方向是对的，OpenAI 在这一局抢了先手。

另一个被低估的特性是 Tool Search。 47% 的 token 节省对大规模 Agent 系统来说是巨大的成本优化，这个设计思路值得所有做 AI 应用的团队学习。

最后说说价格。 Gemini 3.1 Pro 用十五分之一的价格打到了同级别的推理水平，Google 在性价比上确实卷得最狠。但 OpenAI 的 Batch 和 Flex 半价模式也很香，异步场景下成本可以压得很低。

总之，2026 年的 AI 模型市场，已经不是"谁最强"的问题了，而是**"谁在你的场景里最合适"**。

14 KiB Raw Blame History Unescape Escape