Les délais d'attente de l'API transforment les agents utilisant des outils en dette de nouvelle tentative, à moins que les budgets de nouvelle tentative ne soient explicites.
Un frais fil de discussion r/AgentixLabs rend la version de production de l'échec de l'agent difficile à ignorer. Les délais d'attente de l'API ne sont pas des bruits rares. Il s'agit d'une condition de fonctionnement normale. La véritable erreur est de traiter chaque timeout comme un inconvénient temporaire que le modèle devrait simplement contourner. C'est ainsi qu'une dépendance fragile se transforme en appels de modèle supplémentaires, en tentatives d'outils répétées et en temps d'incident que personne ne peut expliquer par la suite.
Les délais d'attente sont des faits de production et non des défauts immédiats
Lorsqu'une dépendance externe échoue, les équipes blâment souvent le modèle en premier, car celui-ci est la partie visible de la pile. Cela passe à côté du problème de fonctionnement. Un délai d'attente peut provenir de l'API en aval, d'une dérive d'authentification, de la pression de la file d'attente, de limites de débit spécifiques au locataire ou d'une mauvaise forme de requête qui prend trop de temps avant d'échouer. Si le harnais ne peut pas distinguer ces cas, l’agent traite chaque échec comme une nouvelle opportunité de raisonnement.
C'est pourquoi les flux de travail exigeant beaucoup de délais d'attente semblent plus coûteux qu'ils ne le paraissent sur papier. Chaque nouvelle tentative peut déclencher plus de planification, plus de réutilisation du contexte, plus de narration des outils et plus de révision humaine avant que la tâche n'arrive ou ne meure. L'échec a commencé dans la couche de dépendance, mais la facture s'étend sur toute l'exécution.
La logique de réessayer sans budget devient un théâtre coûteux
Une simple boucle de nouvelle tentative semble responsable de manière isolée. Le problème apparaît lorsque rien de significatif ne change entre les tentatives. Même outil, même famille de charges utiles, même dépendance, même état bloqué. Du point de vue du runtime, une autre tentative semble plausible. Du point de vue de l’opérateur, le système répète lentement la même panne pendant que le client attend.
Le correctif n'est pas zéro tentative. Le correctif est une politique de nouvelle tentative explicite. Définissez quand un délai d'attente mérite une tentative supplémentaire, quand l'agent doit se dégrader progressivement, quand l'exécution doit s'interrompre et reprendre plus tard, et quand un humain doit prendre le relais. Sans cette limite, un délai d’attente d’outil se transforme discrètement en dette de nouvelle tentative.
Que mesurer avant de qualifier le flux de travail de fiable
Mesurez le taux de délai d'attente par outil, le nombre de tentatives par résultat réussi, la latence totale ajoutée par les tentatives et le chemin emprunté par chaque exécution après un échec : dégradation, escalade ou arrêt. Enregistrez également suffisamment de données pour classer l'incident ultérieurement : quel outil a expiré, combien de tentatives ont eu lieu, si la charge utile a changé et si une protection contre l'idempotence était en place. Si vous savez seulement que l'agent a été « exécuté », vous ne savez pas si le flux de travail fonctionne.
Token Robin Hood s'adapte à cette couche. Le produit ne doit pas promettre des économies garanties. Cela devrait aider les équipes à analyser, repérer et optimiser les domaines dans lesquels l'utilisation des jetons se développe avant que la tâche ne génère des dépenses.
La prochaine étape pratique
Choisissez un flux de production avec une véritable dépendance externe. Attribuez à chaque outil une classe de délai d'attente, un budget de nouvelle tentative et une action de secours claire. Comparez ensuite le coût par tâche réussie avant et après le changement de politique. Cela vous en dira plus sur la fiabilité des agents qu'un autre débat générique sur la question de savoir si le modèle est « assez bon ».