Token Robin Hood
OpenAI2026 年 4 月 25 日5 分钟

OpenAI GPT-5.5 发挥编码代理效率:更多完成的工作、更少的代币、相同的延迟

OpenAI 于 4 月 23 日推出 GPT-5.5很容易理解为另一个型号的升级。更有用的构建器角度是可操作的。 OpenAI 表示,GPT-5.5 提高了编码和计算机使用性能,同时在相同的 Codex 任务上使用更少的代币,并且在 4 月 24 日也确认了 API 的可用性。这改变了团队评估编码代理的方式:不仅通过基准分数或每个代币的价格,还通过审查摩擦发生之前每次运行完成的实际工作量。

发生了什么OpenAI 于 2026 年 4 月 23 日推出了 GPT-5.5,然后于 4 月 24 日更新了版本,表示 GPT-5.5 和 GPT-5.5 Pro 是可在 API 中使用。
为什么构建者关心OpenAI 明确地将胜利定义为使用更少的代币和类似的服务延迟完成更完整的编码工作,而不仅仅是更智能的模型。
TRH 操作跟踪每个已完成任务的成本、重试计数,并在将 GPT-5.5 与当前编码代理默认值进行比较时查看负载。

真正的指标是每次运行完成的工作

OpenAI 表示 GPT-5.5 是迄今为止最强的代理编码模型,并引用了 Terminal-Bench 2.0、SWE-Bench Pro、Expert-SWE、OSWorld-Verified、Toolathlon 和BrowseComp。这是有用的上下文,但对于操作员来说更尖锐的句子在版本中的其他地方:GPT-5.5 通常使用更少的令牌和更少的重试来达到更高质量的输出,同时匹配现实世界服务中的 GPT-5.4 每个令牌延迟。

这很重要,因为编码代理的昂贵部分通常不是单一的推理。这是整个循环:计划、检查文件、调用工具、重试、测试、修复和手工返回进行审查。如果模型在崩溃之前关闭了更多的循环,则有用的指标将变成每次运行完成的工作。对于 Token Robin Hood 读者来说,这是一个比追逐原始基准屏幕截图或单独争论标价更好的镜头。

OpenAI 还扩大了 Codex 操作故事

GPT-5.5 适合更广泛的 OpenAI 序列。 Codex 实验室和企业推出计划 推动了受监管的采用。 工作空间代理 将代理扩展到团队工作流程中。响应中的 WebSocket 模式 API 使代理循环在延迟方面更便宜。 GPT-5.5 在顶部添加了模型级声明:现在可以用更少的令牌阻力完成相同的工作流程。

这使得 GPT-5.5 不再是一个孤立的版本,而是整个堆栈中的一个效率层。如果您的团队已经拥有代理利用、评估和审核流程,那么问题不是“GPT-5.5 更聪明吗?”问题是“在人工修正成为瓶颈之前,它是否会关闭更多的票证、重构和调试会话?”

为什么 4 月 24 日的 API 更新很重要

OpenAI 的发行说明于 2026 年 4 月 24 日更新,表示 GPT-5.5 和 GPT-5.5 Pro 在 API 中可用。这很重要,因为它将 GPT-5.5 从产品兴奋转变为建筑商规划。 Reddit 的讨论立即反映了实际问题:人们已经尝试在 Codex 和 CLI 工作流程中使用它,并且正在关注模型何时真正可以跨曲面选择。

对于运行内部编码代理的团队来说,API 可用性是将发布转变为在您自己的环境中进行基准测试的产品线。一旦可以通过编程方式访问模型,您就可以比较任务完成率、令牌花费、挂钟时间,并根据当前基线查看差异,而不是从供应商图表中推断所有内容。

团队下一步应该做什么

在狭窄的高信号评估集上运行 GPT-5.5:通过测试修复错误、分支合并冲突、存储库范围的重构以及使用工具的调试循环。测量总代币消耗、每个任务的重试、代理停止后的人工编辑以及第一个计划方向正确的频率。如果GPT-5.5减少了清理负担,那才是真正的运营收益。如果不是,基准测试的胜利并不像看起来那么重要。

从此版本中受益的团队将是比较已完成工作的团队,而不仅仅是模型标签。

来源