Token Robin Hood
OpenAI19 avril 20267 minutes

Le SDK OpenAI Agents ajoute des bacs à sable natifs, de la mémoire et des contrôles de harnais pour les agents de production

La version du SDK Agents d'OpenAI du 15 avril n'est pas simplement une autre mise à jour du SDK. Il s'agit d'un progrès dans la pile : de l'accès au modèle et des appels d'outils à la couche d'exécution qui détermine réellement si un agent est sûr, durable et abordable à utiliser.

Ce qui s'est passéOpenAI a ajouté une exécution sandbox native, une mémoire configurable, des outils de fichiers de type Codex, des points de contrôle et des modèles d'orchestration multi-sandbox au SDK Agents.
Pourquoi les constructeurs s'en soucientLa partie la plus difficile des agents de production n’est plus la rédaction rapide. Il s’agit de contrôler l’exécution, d’isoler et de maintenir en vie de longues tâches sans augmenter les dépenses.
Action TRHTraitez la conception du runtime de l'agent comme un problème de budget de jetons : réduisez la mémoire, restreignez les outils, isolez le calcul et effectuez des points de contrôle de manière agressive.

Ce qu'OpenAI a réellement livré

OpenAI indique que le SDK mis à jour offre désormais aux développeurs un harnais natif de modèle capable d'inspecter des fichiers, d'exécuter des commandes, de modifier du code et d'opérer sur des tâches à long terme. La version ajoute de la mémoire configurable, des primitives de shell et de correctifs, la prise en charge de MCP et de la divulgation progressive de style compétences, ainsi qu'une exécution sandbox native avec un modèle de manifeste portable pour façonner l'espace de travail.

Le changement pratique est qu'OpenAI regroupe davantage la partie ennuyeuse mais coûteuse de l'ingénierie des agents : comment monter les fichiers, où vont les sorties, comment les exécutions sont récupérées après la mort d'un conteneur et comment conserver les informations d'identification hors des environnements d'exécution générés par le modèle.

Pourquoi cela est plus important qu'une autre liste d'outils

La plupart des démos d'agent échouent en production pour les mêmes raisons : les bacs à sable sont assemblés tardivement, l'état d'invite est mélangé à l'état d'exécution et chaque nouvelle tentative recommence à zéro. Cela transforme un prototype intelligent en fuite symbolique. OpenAI essaie clairement de rendre le chemin par défaut plus opiniâtre : un espace de travail contrôlé, une limite de harnais plus claire et une exécution durable via la capture instantanée et la réhydratation.

Cela est important pour les équipes qui créent des agents de codage, des agents de recherche, des agents d’assurance qualité et des automatisations de flux de travail internes. Le SDK ressemble désormais moins à un wrapper autour des appels de modèle qu’à une architecture de référence sur la façon dont OpenAI pense que les agents de production devraient être construits.

L'angle TRH : les erreurs d'exécution sont un gaspillage de jetons

Les constructeurs se concentrent souvent sur le choix du modèle et ignorent la forme d'exécution. C'est à l'envers. Un modèle puissant à l’intérieur d’un harnais bruyant gaspille toujours des jetons. De vastes réserves de mémoire, des outils trop permissifs et des bacs à sable réutilisés permettent aux agents de rassembler plus d'états que ce dont la tâche a besoin. Le résultat est une inspection répétée des fichiers, des hypothèses obsolètes et des boucles de raisonnement supplémentaires qui ne changent jamais l’artefact final.

Si vous souhaitez plus de travail expédié par plan payant, concevez le harnais comme vous concevez l'infra. Décidez ce que l'agent peut lire, où il peut écrire, quels outils il peut appeler, quel état est contrôlé et quand une exécution doit s'arrêter au lieu de rechercher plus de contexte.

Ce que les constructeurs devraient faire ensuite

Pour les nouveaux agents, commencez par le plus petit bac à sable et la plus petite surface de mémoire qui permette encore à la tâche de réussir. Conservez les informations d’identification en dehors du calcul exécuté par l’agent. Enregistrez le rapport entre le contexte collecté, les outils invoqués et les fichiers réellement modifiés. Si ce ratio continue d’augmenter, votre agent prend la mauvaise habitude.

Pour les automatisations existantes, cette version constitue une bonne fonction de forçage pour vérifier si votre harnais actuel effectue trop de travail personnalisé que le SDK peut désormais gérer de manière plus sûre.

Sources