Token Robin Hood
OpenAI22 aprile 20266 minuti

OpenAI aggiunge la modalità WebSocket all'API Responses: loop degli agenti più veloci sono ora un vantaggio in termini di runtime

Il post tecnico di OpenAI del 22 aprile è importante perché sposta la conversazione oltre il QI del modello e il prezzo dei token. L'azienda afferma che una volta che l'inferenza diventa sufficientemente veloce, i prodotti agente vincono o perdono in termini di trasporto, stato di memorizzazione nella cache e quanto poco lavoro ridondante costringono nel ciclo.

Quello che è successoIl 22 aprile 2026, OpenAI ha affermato che la modalità WebSocket ha reso i loop dell'agente API Responses più veloci del 40% end-to-end mantenendo una connessione persistente e riutilizzando lo stato di risposta precedente.
Perché i costruttori si preoccupanoLa convalida ripetuta, la tokenizzazione, il routing e le ricostruzioni della cronologia rappresentano ora un'imposta di prodotto visibile sugli agenti di codifica e sui flussi di lavoro che utilizzano strumenti.
Azione TRHProfila il tuo agente ciclo per fase e riduci il lavoro ripetitivo prima di inseguire un budget per il modello più grande.

Cosa è effettivamente cambiato

OpenAI descrive chiaramente il vecchio collo di bottiglia. Un'attività di correzione di bug in stile Codex può richiedere dozzine di viaggi di andata e ritorno: decidere l'azione successiva, chiamare uno strumento, inviare indietro il risultato dello strumento, quindi ripetere. Questo sovraccarico era più facile da ignorare quando i modelli generavano circa 65 token al secondo. È diventato molto più difficile nascondersi una volta che OpenAI ha spinto GPT-5.3-Codex-Spark verso 1.000 token al secondo.

La soluzione non era un nuovo trucco immediato. È stato un cambio di trasporto. OpenAI ha mantenuto attiva una connessione WebSocket persistente, ha memorizzato nella cache lo stato di risposta riutilizzabile e ha consentito che le richieste di follow-up continuassero previous_response_id invece di ricostruire l'intera conversazione ogni volta.

Perché questa è più grande di una funzionalità API

Questo è un segnale importante per il builder perché rende la velocità dell'agente un problema di sistema. OpenAI afferma che la versione WebSocket riutilizza elementi di input e output precedenti, definizioni di strumenti, spazi dei nomi e token renderizzati. Consente inoltre alla piattaforma di elaborare solo i nuovi input per alcuni validatori e controlli di sicurezza invece di rielaborare l'intera cronologia a ogni turno.

Questo è esattamente il motivo per cui molti prodotti agenti perdono tempo e denaro. La fattura visibile dice "gettoni". Il conto nascosto si presenta come modellatura ripetuta del contesto, convalida ripetuta, handshake API aggiuntivi e trasferimenti lenti dei risultati dello strumento. I modelli più veloci mettono in luce questi errori.

Cosa significano i risultati del lancio

OpenAI afferma che gli utenti alpha hanno riscontrato miglioramenti del flusso di lavoro fino al 40% e che Codex ha spostato la maggior parte del traffico dell'API Responses in modalità WebSocket. L'azienda afferma inoltre che Vercel, Cline e Cursor hanno riportato notevoli miglioramenti in termini di latenza dopo l'integrazione. La conclusione pratica è semplice: il sistema idraulico di runtime è ora parte della superficie competitiva per gli agenti di codifica.

Per i lettori di TRH, questa è la stessa lezione dietro perché l'intelligenza artificiale agentica sembra costosa E progettazione runtime per agenti di produzione. Se ogni turno dello strumento ricostruisce troppo stato, i tuoi utenti sentiranno la resistenza prima di notare che il modello è diventato più intelligente.

Cosa dovrebbero fare i costruttori dopo

Misura il flusso di lavoro di un agente reale e dividi la latenza in quattro intervalli: inferenza del modello, sovraccarico dell'API, tempo dello strumento lato client e post-elaborazione. Se la stessa cronologia o lo stesso schema dello strumento vengono riconvalidati ad ogni turno, correggilo prima.

Quindi effettua tre prove di architettura. Mantieni lo stato della conversazione incrementale ove possibile. Separa la latenza di esecuzione dello strumento dalla latenza del modello nelle dashboard. E decidi dove hanno senso le connessioni persistenti invece di ricorrere per impostazione predefinita a catene di richieste stateless per cicli di lunga durata.

Il punto non è che ogni agente avrà bisogno dei WebSocket domani. Il punto è che i trasporti e il riutilizzo statale ora modellano direttamente l’intelligenza percepita dall’utente. Quando l’inferenza accelera, i rifiuti nel ciclo diventano il prodotto.

Fonti