开放人工智能2026 年 4 月 22 日6分钟

OpenAI 将 WebSocket 模式添加到 Responses API：更快的代理循环现在是运行时优势

OpenAI 4 月 22 日的工程帖子很重要，因为它使对话超越了模型 IQ 和代币定价。该公司表示，一旦推理速度足够快，代理产品就会在传输、缓存状态以及它们在循环中强制执行的冗余工作量方面获胜或失败。

发生了什么2026 年 4 月 22 日，OpenAI 表示，通过保持持久连接并重用以前的响应状态，WebSocket 模式使 Responses API 代理循环的端到端速度提高了 40%。

为什么建筑商关心重复验证、标记化、路由和历史重建现在对编码代理和工具使用工作流程来说是一种可见的产品税。

TRH 行动在追求更大的模型预算之前，逐步分析您的代理循环并减少重复工作。

实际改变了什么

OpenAI 清楚地描述了旧的瓶颈。 Codex 式的错误修复任务可能需要数十次往返：决定下一步操作，调用工具，将工具结果发送回，然后重复。当模型每秒生成大约 65 个令牌时，这种开销更容易被忽略。一旦 OpenAI 将 GPT-5.3-Codex-Spark 推向每秒 1,000 个代币，隐藏就变得更加困难。

该修复并不是一个新的提示技巧。这是交通的改变。 OpenAI 保持持久的 WebSocket 连接处于活动状态，在内存中缓存可重用的响应状态，并让后续请求继续通过 previous_response_id 而不是每次都重建整个对话。

为什么这比一个 API 功能更重要

这是一个重要的构建者信号，因为它使代理速度成为一个系统问题。 OpenAI 表示，WebSocket 版本重用了之前的输入和输出项、工具定义、命名空间和渲染令牌。它还允许平台仅处理某些验证器和安全检查的新输入，而不是每次都重新处理完整的历史记录。

这正是许多代理产品浪费时间和金钱的地方。可见的发票上写着“代币”。隐藏的账单表现为重复的上下文塑造、重复的验证、额外的 API 握手以及缓慢的工具结果交接。更快的模型会暴露这些错误。

发布结果意味着什么

OpenAI 表示，alpha 用户看到了高达 40% 的工作流程改进，并且 Codex 将其大部分 Responses API 流量转移到 WebSocket 模式。该公司还表示，Vercel、Cline 和 Cursor 在整合后报告了重大延迟增益。实际要点很简单：运行时管道现在已成为编码代理竞争表面的一部分。

对于TRH的读者来说，这是同样的教训为什么代理人工智能感觉很昂贵和生产代理的运行时设计。如果每个工具轮次都会重建太多状态，那么您的用户在注意到模型变得更智能之前就会感受到阻力。

建设者下一步应该做什么

测量一个真实的代理工作流程，并将延迟分为四个部分：模型推理、API 开销、客户端工具时间和后处理。如果每次都重新验证相同的历史记录或工具模式，请首先修复它。

然后进行三项架构检查。尽可能保持对话状态增量。将工具执行延迟与仪表板中的模型延迟分开。并决定持久连接在哪里有意义，而不是默认使用无状态请求链来进行长时间运行的循环。

重点不是每个代理明天都需要 WebSocket。关键是传输和状态重用现在直接塑造用户感知的智能。当推理加速时，循环中的废物就会变成产品。