OpenAI 将 WebSocket 模式添加到 Responses API:更快的代理循环现在是运行时优势
OpenAI 4 月 22 日的工程帖子很重要,因为它使对话超越了模型 IQ 和代币定价。该公司表示,一旦推理速度足够快,代理产品就会在传输、缓存状态以及它们在循环中强制执行的冗余工作量方面获胜或失败。
实际改变了什么
OpenAI 清楚地描述了旧的瓶颈。 Codex 式的错误修复任务可能需要数十次往返:决定下一步操作,调用工具,将工具结果发送回,然后重复。当模型每秒生成大约 65 个令牌时,这种开销更容易被忽略。一旦 OpenAI 将 GPT-5.3-Codex-Spark 推向每秒 1,000 个代币,隐藏就变得更加困难。
该修复并不是一个新的提示技巧。这是交通的改变。 OpenAI 保持持久的 WebSocket 连接处于活动状态,在内存中缓存可重用的响应状态,并让后续请求继续通过 previous_response_id 而不是每次都重建整个对话。
为什么这比一个 API 功能更重要
这是一个重要的构建者信号,因为它使代理速度成为一个系统问题。 OpenAI 表示,WebSocket 版本重用了之前的输入和输出项、工具定义、命名空间和渲染令牌。它还允许平台仅处理某些验证器和安全检查的新输入,而不是每次都重新处理完整的历史记录。
这正是许多代理产品浪费时间和金钱的地方。可见的发票上写着“代币”。隐藏的账单表现为重复的上下文塑造、重复的验证、额外的 API 握手以及缓慢的工具结果交接。更快的模型会暴露这些错误。
发布结果意味着什么
OpenAI 表示,alpha 用户看到了高达 40% 的工作流程改进,并且 Codex 将其大部分 Responses API 流量转移到 WebSocket 模式。该公司还表示,Vercel、Cline 和 Cursor 在整合后报告了重大延迟增益。实际要点很简单:运行时管道现在已成为编码代理竞争表面的一部分。
对于TRH的读者来说,这是同样的教训 为什么代理人工智能感觉很昂贵 和 生产代理的运行时设计。如果每个工具轮次都会重建太多状态,那么您的用户在注意到模型变得更智能之前就会感受到阻力。
建设者下一步应该做什么
测量一个真实的代理工作流程,并将延迟分为四个部分:模型推理、API 开销、客户端工具时间和后处理。如果每次都重新验证相同的历史记录或工具模式,请首先修复它。
然后进行三项架构检查。尽可能保持对话状态增量。将工具执行延迟与仪表板中的模型延迟分开。并决定持久连接在哪里有意义,而不是默认使用无状态请求链来进行长时间运行的循环。
重点不是每个代理明天都需要 WebSocket。关键是传输和状态重用现在直接塑造用户感知的智能。当推理加速时,循环中的废物就会变成产品。