OpenAI ajoute le mode WebSocket à l'API Responses : des boucles d'agent plus rapides constituent désormais un avantage d'exécution
Le message d'ingénierie d'OpenAI du 22 avril est important car il déplace la conversation au-delà du modèle IQ et de la tarification des jetons. La société affirme qu'une fois l'inférence suffisamment rapide, les produits d'agent gagnent ou perdent en termes de transport, d'état en cache et du peu de travail redondant qu'ils forcent à travers la boucle.
Ce qui a réellement changé
OpenAI décrit clairement l'ancien goulot d'étranglement. Une tâche de correction de bogues de type Codex peut nécessiter des dizaines d'allers-retours : décider de l'action suivante, appeler un outil, renvoyer le résultat de l'outil, puis répéter. Cette surcharge était plus facile à ignorer lorsque les modèles généraient environ 65 jetons par seconde. Il est devenu beaucoup plus difficile de se cacher une fois qu'OpenAI a poussé GPT-5.3-Codex-Spark vers 1 000 jetons par seconde.
Le correctif n’était pas une nouvelle astuce d’invite. C'était un changement de transport. OpenAI a maintenu une connexion WebSocket persistante, mis en cache l'état de réponse réutilisable en mémoire et laissé les demandes de suivi se poursuivre. previous_response_id au lieu de reconstruire toute la conversation à chaque fois.
Pourquoi c'est plus grand qu'une fonctionnalité API
Il s'agit d'un signal de construction important car il fait de la vitesse des agents un problème système. OpenAI indique que la version WebSocket réutilise les éléments d'entrée et de sortie antérieurs, les définitions d'outils, les espaces de noms et les jetons rendus. Cela permet également à la plate-forme de traiter uniquement les nouvelles entrées pour certains validateurs et contrôles de sécurité au lieu de retraiter l'historique complet à chaque tour.
C’est exactement là que de nombreux produits d’agents perdent du temps et de l’argent. La facture visible indique « jetons ». La facture cachée apparaît sous la forme d'une mise en forme répétée du contexte, d'une validation répétée, de poignées de contact API supplémentaires et de transferts lents des résultats des outils. Des modèles plus rapides exposent ces erreurs.
Que signifient les résultats du lancement
OpenAI affirme que les utilisateurs alpha ont constaté jusqu'à 40 % d'améliorations du flux de travail et que Codex a déplacé la plupart de son trafic API Responses vers le mode WebSocket. La société affirme également que Vercel, Cline et Cursor ont signalé des gains de latence importants après son intégration. La conclusion pratique est simple : la plomberie d’exécution fait désormais partie de la surface concurrentielle des agents de codage.
Pour les lecteurs de TRH, c'est la même leçon derrière pourquoi l'IA agentique semble chère et conception du runtime pour les agents de production. Si chaque tour d'outil reconstruit trop d'état, vos utilisateurs ressentiront la traînée avant de remarquer que le modèle est devenu plus intelligent.
Ce que les constructeurs devraient faire ensuite
Mesurez un flux de travail d'agent réel et divisez la latence en quatre catégories : inférence de modèle, surcharge de l'API, temps d'utilisation de l'outil côté client et post-traitement. Si le même historique ou le même schéma d'outil est revalidé à chaque tour, corrigez-le d'abord.
Effectuez ensuite trois vérifications d’architecture. Gardez l’état de la conversation incrémentiel lorsque cela est possible. Séparez la latence d’exécution des outils de la latence du modèle dans vos tableaux de bord. Et décidez où les connexions persistantes ont du sens au lieu de recourir par défaut à des chaînes de requêtes sans état pour les boucles de longue durée.
Le fait n’est pas que tous les agents auront besoin de WebSockets demain. Le fait est que la réutilisation des transports et de l’État façonne désormais directement l’intelligence perçue par l’utilisateur. Lorsque l’inférence s’accélère, les déchets dans la boucle deviennent le produit.