OpenAI voegt de WebSocket-modus toe aan de Responses API: snellere agentloops zijn nu een runtimevoordeel
De technische post van OpenAI van 22 april is van belang omdat het het gesprek verder brengt dan model-IQ en tokenprijzen. Het bedrijf zegt dat zodra de gevolgtrekking snel genoeg is, agentenproducten winnen of verliezen op het gebied van transport, cachestatus en hoe weinig overtollig werk ze door de lus dwingen.
Wat is er eigenlijk veranderd
OpenAI beschrijft het oude knelpunt duidelijk. Een bugfixtaak in de stijl van Codex kan tientallen keren heen en weer gaan: bepaal de volgende actie, roep een tool aan, stuur het resultaat van de tool terug en herhaal. Die overhead was gemakkelijker te negeren toen modellen ongeveer 65 tokens per seconde genereerden. Het werd veel moeilijker om te verbergen toen OpenAI GPT-5.3-Codex-Spark richting 1.000 tokens per seconde duwde.
De oplossing was geen nieuwe snelle truc. Het was een transportwissel. OpenAI hield een persistente WebSocket-verbinding in leven, sloeg de herbruikbare responsstatus in het geheugen op en liet vervolgverzoeken doorgaan previous_response_id in plaats van elke keer het hele gesprek opnieuw op te bouwen.
Waarom dit groter is dan één API-functie
Dit is een belangrijk signaal van de bouwer omdat het de snelheid van agenten tot een systeemprobleem maakt. OpenAI zegt dat de WebSocket-versie eerdere invoer- en uitvoeritems, tooldefinities, naamruimten en gerenderde tokens hergebruikt. Het laat het platform ook alleen nieuwe input verwerken voor sommige validators en veiligheidscontroles, in plaats van elke keer de volledige geschiedenis opnieuw te verwerken.
Dat is precies waar veel agentproducten tijd en geld lekken. Op de zichtbare factuur staat 'tokens'. De verborgen rekening komt naar voren in de vorm van herhaalde contextvorming, herhaalde validatie, extra API-handshakes en langzame overdracht van toolresultaten. Snellere modellen leggen deze fouten bloot.
Wat de lanceringsresultaten betekenen
OpenAI zegt dat alpha-gebruikers tot 40% workflowverbeteringen hebben gezien en dat Codex het grootste deel van zijn Responses API-verkeer naar de WebSocket-modus heeft verplaatst. Het bedrijf zegt ook dat Vercel, Cline en Cursor aanzienlijke latentiewinsten rapporteerden na de integratie ervan. De praktische conclusie is simpel: runtime-loodgieterswerk maakt nu deel uit van de concurrentiestrijd voor codeermiddelen.
Voor TRH-lezers is dit dezelfde les waarom agent-AI duur voelt En runtime-ontwerp voor productieagenten. Als elke gereedschapsbeurt te veel status opnieuw opbouwt, zullen uw gebruikers de weerstand voelen voordat ze merken dat het model slimmer is geworden.
Wat bouwers vervolgens moeten doen
Meet één echte agentworkflow en verdeel de latentie in vier segmenten: modelinferentie, API-overhead, tooltijd aan de clientzijde en nabewerking. Als dezelfde geschiedenis of hetzelfde gereedschapsschema bij elke beurt opnieuw wordt gevalideerd, moet u dat eerst oplossen.
Voer vervolgens drie architectuurcontroles uit. Houd de gespreksstatus waar mogelijk incrementeel. Scheid de latentie van de tooluitvoering van de modellatentie in uw dashboards. En beslis waar persistente verbindingen zinvol zijn, in plaats van standaard gebruik te maken van staatloze aanvraagketens voor langlopende lussen.
Het punt is niet dat elke agent morgen WebSockets nodig heeft. Het punt is dat transport en staatshergebruik nu rechtstreeks vorm geven aan door de gebruiker waargenomen intelligentie. Wanneer de inferentie versnelt, wordt afval in de lus het product.