Token Robin Hood
OpenAI22 avril 20266 minutes

OpenAI ajoute le mode WebSocket à l'API Responses : des boucles d'agent plus rapides constituent désormais un avantage d'exécution

Le message d'ingénierie d'OpenAI du 22 avril est important car il déplace la conversation au-delà du modèle IQ et de la tarification des jetons. La société affirme qu'une fois l'inférence suffisamment rapide, les produits d'agent gagnent ou perdent en termes de transport, d'état en cache et du peu de travail redondant qu'ils forcent à travers la boucle.

Ce qui s'est passéLe 22 avril 2026, OpenAI a déclaré que le mode WebSocket rendait les boucles de l'agent API Responses 40 % plus rapides de bout en bout en conservant une connexion persistante et en réutilisant l'état de réponse précédent.
Pourquoi les constructeurs s'en soucientLa validation répétée, la tokenisation, le routage et les reconstructions de l'historique constituent désormais une taxe visible sur les agents de codage et les flux de travail utilisant des outils.
Action TRHProfilez votre agent boucle par étape et réduisez les tâches répétées avant de rechercher un budget de modèle plus important.

Ce qui a réellement changé

OpenAI décrit clairement l'ancien goulot d'étranglement. Une tâche de correction de bogues de type Codex peut nécessiter des dizaines d'allers-retours : décider de l'action suivante, appeler un outil, renvoyer le résultat de l'outil, puis répéter. Cette surcharge était plus facile à ignorer lorsque les modèles généraient environ 65 jetons par seconde. Il est devenu beaucoup plus difficile de se cacher une fois qu'OpenAI a poussé GPT-5.3-Codex-Spark vers 1 000 jetons par seconde.

Le correctif n’était pas une nouvelle astuce d’invite. C'était un changement de transport. OpenAI a maintenu une connexion WebSocket persistante, mis en cache l'état de réponse réutilisable en mémoire et laissé les demandes de suivi se poursuivre. previous_response_id au lieu de reconstruire toute la conversation à chaque fois.

Pourquoi c'est plus grand qu'une fonctionnalité API

Il s'agit d'un signal de construction important car il fait de la vitesse des agents un problème système. OpenAI indique que la version WebSocket réutilise les éléments d'entrée et de sortie antérieurs, les définitions d'outils, les espaces de noms et les jetons rendus. Cela permet également à la plate-forme de traiter uniquement les nouvelles entrées pour certains validateurs et contrôles de sécurité au lieu de retraiter l'historique complet à chaque tour.

C’est exactement là que de nombreux produits d’agents perdent du temps et de l’argent. La facture visible indique « jetons ». La facture cachée apparaît sous la forme d'une mise en forme répétée du contexte, d'une validation répétée, de poignées de contact API supplémentaires et de transferts lents des résultats des outils. Des modèles plus rapides exposent ces erreurs.

Que signifient les résultats du lancement

OpenAI affirme que les utilisateurs alpha ont constaté jusqu'à 40 % d'améliorations du flux de travail et que Codex a déplacé la plupart de son trafic API Responses vers le mode WebSocket. La société affirme également que Vercel, Cline et Cursor ont signalé des gains de latence importants après son intégration. La conclusion pratique est simple : la plomberie d’exécution fait désormais partie de la surface concurrentielle des agents de codage.

Pour les lecteurs de TRH, c'est la même leçon derrière pourquoi l'IA agentique semble chère et conception du runtime pour les agents de production. Si chaque tour d'outil reconstruit trop d'état, vos utilisateurs ressentiront la traînée avant de remarquer que le modèle est devenu plus intelligent.

Ce que les constructeurs devraient faire ensuite

Mesurez un flux de travail d'agent réel et divisez la latence en quatre catégories : inférence de modèle, surcharge de l'API, temps d'utilisation de l'outil côté client et post-traitement. Si le même historique ou le même schéma d'outil est revalidé à chaque tour, corrigez-le d'abord.

Effectuez ensuite trois vérifications d’architecture. Gardez l’état de la conversation incrémentiel lorsque cela est possible. Séparez la latence d’exécution des outils de la latence du modèle dans vos tableaux de bord. Et décidez où les connexions persistantes ont du sens au lieu de recourir par défaut à des chaînes de requêtes sans état pour les boucles de longue durée.

Le fait n’est pas que tous les agents auront besoin de WebSockets demain. Le fait est que la réutilisation des transports et de l’État façonne désormais directement l’intelligence perçue par l’utilisateur. Lorsque l’inférence s’accélère, les déchets dans la boucle deviennent le produit.

Sources