Token Robin Hood
開放人工智慧2026 年 4 月 22 日6分鐘

OpenAI 將 WebSocket 模式新增至 Responses API:更快的代理程式循環現在是執行時間優勢

OpenAI 4 月 22 日的工程貼文很重要,因為它使對話超越了模型 IQ 和代幣定價。該公司表示,一旦推理速度夠快,代理產品就會在傳輸、快取狀態以及它們在循環中強制執行的冗餘工作量方面獲勝或失敗。

發生了什麼事2026 年 4 月 22 日,OpenAI 表示,透過保持持久連線並重複使用先前的回應狀態,WebSocket 模式使 Responses API 代理循環的端到端速度提高了 40%。
為什麼建築商關心重複驗證、標記化、路由和歷史重建現在對編碼代理和工具使用工作流程來說是一種可見的產品稅。
TRH 行動在追求更大的模型預算之前,請逐步分析您的代理循環並減少重複工作。

實際改變了什麼

OpenAI 清楚地描述了舊的瓶頸。 Codex 式的錯誤修復任務可能需要數十次往返:決定下一步操作,呼叫工具,將工具結果傳回,然後重複。當模型每秒產生大約 65 個令牌時,這種開銷更容易被忽略。一旦 OpenAI 將 GPT-5.3-Codex-Spark 推向每秒 1,000 個代幣,隱藏就變得更加困難。

該修復並不是一個新的提示技巧。這是交通的改變。 OpenAI 保持持久的 WebSocket 連線處於活動狀態,在記憶體中快取可重複使用的回應狀態,並讓後續請求繼續通過 previous_response_id 而不是每次都重建整個對話。

為什麼這比一個 API 功能更重要

這是一個重要的建構者訊號,因為它使代理速度成為一個系統問題。 OpenAI 表示,WebSocket 版本重複使用了先前的輸入和輸出項目、工具定義、命名空間和渲染代幣。它還允許平台僅處理某些驗證器和安全檢查的新輸入,而不是每次都重新處理完整的歷史記錄。

這正是許多代理產品浪費時間和金錢的地方。可見的發票上寫著「代幣」。隱藏的帳單表現為重複的上下文塑造、重複的驗證、額外的 API 握手以及緩慢的工具結果交接。更快的模型會暴露這些錯誤。

發布結果意味著什麼

OpenAI 表示,alpha 使用者看到了高達 40% 的工作流程改進,並且 Codex 將其大部分 Responses API 流量轉移到 WebSocket 模式。該公司還表示,Vercel、Cline 和 Cursor 在整合後報告了重大延遲增益。實際要點很簡單:運行時管道現在已成為編碼代理競爭表面的一部分。

對於TRH的讀者來說,這是同樣的教訓 為什麼代理人工智慧感覺很昂貴生產代理的運行時設計。如果每個工具輪次都會重建太多狀態,那麼您的使用者在註意到模型變得更聰明之前就會感受到阻力。

建設者下一步該做什麼

測量一個真實的代理程式工作流程,並將延遲分為四個部分:模型推理、API 開銷、客戶端工具時間和後處理。如果每次都重新驗證相同的歷史記錄或工具模式,請先修復它。

然後進行三項架構檢查。盡可能保持對話狀態增量。將工具執行延遲與儀表板中的模型延遲分開。並決定持久連接在哪裡有意義,而不是預設使用無狀態請求鏈來進行長時間運行的循環。

重點不是每個代理明天都需要 WebSocket。關鍵是傳輸和狀態重用現在直接塑造使用者感知的智慧。當推理加速時,循環中的廢棄物就會變成產品。

來源