OpenAI が Responses API に WebSocket モードを追加: エージェント ループの高速化が実行時の利点になりました
OpenAI の 4 月 22 日のエンジニアリング投稿は、モデル IQ やトークン価格設定を超えて話題を広げるため、重要です。同社は、推論が十分に高速になると、エージェント製品の勝敗は、トランスポート、キャッシュされた状態、およびループを介して強制される冗長な作業の少なさによって決まると言っています。
実際に何が変わったのか
OpenAI は古いボトルネックを明確に説明しています。 Codex スタイルのバグ修正タスクでは、次のアクションを決定し、ツールを呼び出し、ツールの結果を送り返し、それを繰り返すという何十回ものラウンドトリップが必要になる場合があります。モデルが 1 秒あたり約 65 トークンを生成する場合、このオーバーヘッドは無視するのが簡単でした。 OpenAI が GPT-5.3-Codex-Spark を 1 秒あたり 1,000 トークンに向けて推進すると、非表示にすることがはるかに困難になりました。
この修正は、新しいすぐに使えるトリックではありませんでした。交通機関の変更でした。 OpenAI は永続的な WebSocket 接続を維持し、再利用可能な応答状態をメモリにキャッシュして、フォローアップ リクエストを継続させます。 previous_response_id 毎回会話全体を再構築するのではなく。
これが 1 つの API 機能よりも重要な理由
これはエージェントの速度がシステムの問題となるため、重要なビルダー シグナルです。 OpenAIによると、WebSocketバージョンでは以前の入出力項目、ツール定義、名前空間、レンダリングされたトークンが再利用されるという。また、プラットフォームはターンごとに完全な履歴を再処理するのではなく、一部のバリデーターと安全性チェックに対する新しい入力のみを処理できるようになります。
多くのエージェント製品が時間と費用を漏らすのはまさにそこです。目に見える請求書には「トークン」と記載されています。隠れた請求は、繰り返しのコンテキスト形成、繰り返しの検証、余分な API ハンドシェイク、ツール結果の引き継ぎの遅さとして現れます。より高速なモデルでは、こうした間違いが明らかになります。
打ち上げ結果が意味するもの
OpenAI によると、アルファ ユーザーではワークフローが最大 40% 改善され、Codex は Responses API トラフィックのほとんどを WebSocket モードに移行したとのことです。同社はまた、Vercel、Cline、Cursor が統合後にレイテンシが大幅に向上したと報告していると述べています。実際に得られることは単純です。ランタイム プラミングはコーディング エージェントの競合領域の一部になっています。
TRH 読者にとって、これは同じ教訓です。 エージェント AI が高価に感じる理由 そして 実稼働エージェントのランタイム設計。ツールが切り替わるたびにあまりにも多くの状態が再構築されると、ユーザーはモデルがよりスマートになったことに気づく前に抵抗を感じることになります。
建築業者が次にすべきこと
1 つの実際のエージェント ワークフローを測定し、レイテンシを 4 つのバケット (モデル推論、API オーバーヘッド、クライアント側ツール時間、後処理) に分割します。同じ履歴またはツール スキーマが毎ターン再検証される場合は、最初にそれを修正します。
次に、3 つのアーキテクチャ チェックを実行します。可能な限り会話の状態を増分的に保ちます。ダッシュボードでツールの実行レイテンシをモデルのレイテンシから分離します。そして、長時間実行されるループに対してデフォルトでステートレスなリクエスト チェーンを使用するのではなく、永続的な接続が合理的な場合を決定します。
重要なのは、すべてのエージェントが明日 WebSocket を必要とするということではありません。重要なのは、トランスポートと状態の再利用が、ユーザーが認識するインテリジェンスを直接形成するようになったことです。推論が加速すると、ループ内の無駄が製品になります。