OpenAI fügt der Responses-API den WebSocket-Modus hinzu: Schnellere Agentenschleifen sind jetzt ein Laufzeitvorteil
Der technische Beitrag von OpenAI vom 22. April ist wichtig, weil er die Diskussion über den Modell-IQ und die Token-Preisgestaltung hinausführt. Das Unternehmen gibt an, dass Agentenprodukte, sobald die Inferenz schnell genug ist, hinsichtlich des Transports, des Cache-Status und der Menge an redundanter Arbeit, die sie durch die Schleife zwingen, gewinnen oder verlieren.
Was sich tatsächlich geändert hat
OpenAI beschreibt den alten Flaschenhals klar. Eine Fehlerbehebungsaufgabe im Codex-Stil kann Dutzende von Roundtrips erfordern: die nächste Aktion festlegen, ein Tool aufrufen, das Tool-Ergebnis zurücksenden und dann wiederholen. Dieser Overhead ließ sich leichter ignorieren, wenn Modelle etwa 65 Token pro Sekunde generierten. Es wurde viel schwieriger, sich zu verstecken, als OpenAI GPT-5.3-Codex-Spark auf 1.000 Token pro Sekunde brachte.
Der Fix war kein neuer Prompt-Trick. Es war eine Verkehrsveränderung. OpenAI hielt eine dauerhafte WebSocket-Verbindung aufrecht, speicherte den wiederverwendbaren Antwortstatus im Speicher zwischen und ließ Folgeanfragen weiterlaufen previous_response_id anstatt das gesamte Gespräch jedes Mal neu aufzubauen.
Warum dies größer ist als eine API-Funktion
Dies ist ein wichtiges Builder-Signal, da es die Agentengeschwindigkeit zu einem Systemproblem macht. Laut OpenAI verwendet die WebSocket-Version frühere Eingabe- und Ausgabeelemente, Tooldefinitionen, Namespaces und gerenderte Token wieder. Außerdem kann die Plattform nur neue Eingaben für einige Validatoren und Sicherheitsprüfungen verarbeiten, anstatt den gesamten Verlauf bei jeder Runde erneut zu verarbeiten.
Genau hier verschwenden viele Agentenprodukte Zeit und Geld. Auf der sichtbaren Rechnung steht „Tokens“. Die versteckte Rechnung zeigt sich in wiederholter Kontextgestaltung, wiederholter Validierung, zusätzlichen API-Handshakes und langsamen Tool-Ergebnisübergaben. Schnellere Modelle machen diese Fehler sichtbar.
Was die Startergebnisse bedeuten
OpenAI sagt, dass Alpha-Benutzer bis zu 40 % Workflow-Verbesserungen sahen und dass Codex den größten Teil seines Responses-API-Verkehrs in den WebSocket-Modus verlagerte. Das Unternehmen gibt außerdem an, dass Vercel, Cline und Cursor nach der Integration erhebliche Latenzgewinne gemeldet haben. Die praktische Erkenntnis ist einfach: Laufzeitinstallationen sind jetzt Teil der Wettbewerbsoberfläche für Codierungsagenten.
Für TRH-Leser ist dies die gleiche Lektion dahinter Warum sich Agenten-KI teuer anfühlt Und Laufzeitdesign für Produktionsagenten. Wenn bei jeder Werkzeugumdrehung zu viele Zustände neu aufgebaut werden, werden Ihre Benutzer den Widerstand spüren, bevor sie bemerken, dass das Modell intelligenter geworden ist.
Was Bauherren als nächstes tun sollten
Messen Sie einen echten Agenten-Workflow und teilen Sie die Latenz in vier Bereiche auf: Modellinferenz, API-Overhead, clientseitige Tool-Zeit und Nachbearbeitung. Wenn derselbe Verlauf oder das gleiche Toolschema immer wieder neu validiert wird, beheben Sie das zuerst.
Führen Sie dann drei Architekturprüfungen durch. Halten Sie den Konversationsstatus nach Möglichkeit inkrementell. Trennen Sie in Ihren Dashboards die Tool-Ausführungslatenz von der Modelllatenz. Und entscheiden Sie, wo dauerhafte Verbindungen sinnvoll sind, anstatt für lang laufende Schleifen standardmäßig auf zustandslose Anforderungsketten zurückzugreifen.
Der Punkt ist nicht, dass jeder Agent morgen WebSockets braucht. Der Punkt ist, dass Transport und staatliche Wiederverwendung jetzt direkt die vom Benutzer wahrgenommene Intelligenz beeinflussen. Wenn die Schlussfolgerung beschleunigt wird, wird Abfall im Kreislauf zum Produkt.