GPT-5.4 在 3 月 5 日发布后,很多人的反应是:“又更新了?和上一版有什么区别?”
区别很大。这不是一次常规升级,而是 OpenAI 把之前分散在不同产品里的能力整合成了一个"全能旗舰"。
这篇文章把 GPT-5.4 的所有新功能拆开来讲,从基础使用到 API 开发,帮你把这个模型用透。
GPT-5.4 是什么
先明确定位。
GPT-5.4 是 OpenAI 截至 2026 年 3 月最强的通用模型。它合并了三条产品线的能力:
- GPT-5.3-Codex 的编码能力
- o3 系列 的推理能力
- 全新的 计算机操作能力
你不再需要根据任务类型切换模型。写代码、写报告、做分析、操作电脑,一个模型全搞定。
核心新功能
1. 计算机操作(Computer Use)
这是 GPT-5.4 最具突破性的功能。
它能做什么:
- 打开和切换应用程序
- 点击按钮、填写表单
- 在浏览器中导航和操作
- 在多个软件之间协调工作
- 操作电子表格和演示文稿
和之前的"截图识别"不同,GPT-5.4 的计算机操作是原生集成的。它不是看屏幕截图猜你在干什么,而是直接理解和操控应用程序的界面元素。
实际使用场景:
"帮我打开 Chrome,搜索最新的 AI 论文,
把前 5 篇的标题和摘要整理到 Google Sheets 里"
GPT-5.4 可以自主完成这整个流程。你只需要授权它操作你的电脑。
安全考虑:OpenAI 设置了多重安全机制。每次重要操作前都会征求你的确认,不会在你不知情的情况下删除文件或发送信息。
2. 工具搜索(Tool Search)
这是一个 API 开发者会特别兴奋的功能。
以前用 OpenAI API 调用工具时,你需要把所有工具的完整定义发给模型。如果你有 50 个工具,每个定义 200 个 token,光是工具描述就要占用 10,000 个 token。
工具搜索的解决方案:
- 你给模型一个工具的轻量索引(名称 + 一句话描述)
- 模型根据当前任务,按需请求具体工具的完整定义
- 只加载需要的工具,不浪费 token
OpenAI 的测试数据:token 用量减少 47%,准确率不变。
对于构建复杂 AI Agent 的开发者来说,这意味着你可以给 Agent 装载上百个工具而不用担心上下文窗口被占满。
3. 前置规划(Upfront Planning)
GPT-5.4 Thinking 版本的新功能。
以前的问题:你给 AI 一个复杂任务,它开始"思考",你看不到过程,5 分钟后给你一个结果。如果方向错了,只能从头来。
现在的改进:GPT-5.4 Thinking 在开始深度思考前,会先给你一个思考计划。你可以在 AI 思考的过程中看到它在做什么,随时调整方向。
这个功能在以下场景特别有用:
- 复杂的代码架构设计
- 长篇研究报告
- 多步骤数据分析
- 任何需要 AI 长时间思考的任务
4. 110 万 token 上下文
GPT-5.4 的上下文窗口从 GPT-5.2 的 12.8 万 token 扩大到 110 万 token。
110 万 token 是什么概念?大约等于:
- 6-8 本中等长度的书
- 一个中型代码仓库的全部源代码
- 半年的邮件往来
- 几百页的法律合同
实用技巧
技巧 1:善用系统提示词
GPT-5.4 对系统提示词的遵循度比前代好很多。花时间写一个好的系统提示词,回报是巨大的。
推荐的系统提示词结构:
1. 角色定义(你是...)
2. 输出格式要求(用什么格式回复)
3. 限制条件(不要做什么)
4. 上下文信息(背景知识)
技巧 2:用 Thinking 版本处理复杂任务
如果任务需要多步推理(数学证明、代码架构、策略分析),优先用 GPT-5.4 Thinking。它的推理能力显著强于普通版本。
技巧 3:分段处理超长文档
虽然上下文窗口有 110 万 token,但不建议一次性把所有内容塞进去。更好的做法:
- 先让 AI 快速浏览全文,生成目录和摘要
- 针对具体问题,让 AI 聚焦到相关章节
- 需要交叉引用时再扩大范围
这样既利用了长上下文的能力,又保持了回答的精准度。
技巧 4:计算机操作的正确姿势
使用计算机操作功能时:
- 先描述目标,再描述步骤。让 AI 理解你想要什么结果,而不是机械地执行步骤
- 分段执行。不要一次让 AI 做 20 步操作。每 3-5 步确认一次
- 敏感操作前确认。涉及发送邮件、提交表单、删除文件的操作,务必设置确认步骤
API 开发快速上手
基础调用
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": "你是一个专业的技术分析师"},
{"role": "user", "content": "分析 2026 年 AI 行业的三个最重要趋势"}
]
)
print(response.choices[0].message.content)
使用工具搜索
# 定义工具索引(轻量)
tool_index = [
{"name": "search_web", "brief": "搜索互联网"},
{"name": "query_database", "brief": "查询数据库"},
{"name": "send_email", "brief": "发送邮件"},
{"name": "create_chart", "brief": "生成图表"},
]
# 完整工具定义(按需加载)
tool_definitions = {
"search_web": {
"type": "function",
"function": {
"name": "search_web",
"description": "搜索互联网获取最新信息",
"parameters": {
"type": "object",
"properties": {
"query": {"type": "string", "description": "搜索关键词"}
},
"required": ["query"]
}
}
}
# ... 其他工具定义
}
选择模型版本
| 版本 | 适用场景 | 定价倍率 |
|---|---|---|
| gpt-5.4 | 通用任务 | 1x |
| gpt-5.4-thinking | 复杂推理 | 约 3x |
| gpt-5.4-mini | 简单任务、大批量 | 0.3x |
和 Claude Opus 4.6 的对比
这是大家最关心的问题。简单说:
| 维度 | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| 编码能力 | 强(集成 Codex) | 强(Claude Code 生态) |
| 长文本处理 | 110 万 token | 100 万 token |
| 计算机操作 | 原生支持 | 支持 |
| 推理能力 | Thinking 版本强 | Extended Thinking 强 |
| 中文能力 | 好 | 优秀 |
| API 价格 | 中等 | 中等 |
| 生态系统 | ChatGPT + Copilot | Claude Code + MCP |
总体上两者非常接近。选哪个更多取决于你的工作流和生态偏好,而不是模型能力的绝对差距。
最后
GPT-5.4 不只是"更好的语言模型"。计算机操作让它从"回答问题"进化到"执行任务",工具搜索让它在复杂 Agent 场景下更高效,前置规划让复杂任务的成功率大幅提升。
如果你之前用的是 GPT-5.2 或更早版本,强烈建议升级试用。差距不是"好一点",是"好很多"。
本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。