Token Robin Hood
AI-agenten25 april 20265 minuten

API-time-outs zorgen ervoor dat agenten die tools gebruiken, een schuld voor nieuwe pogingen krijgen, tenzij budgetten voor nieuwe pogingen expliciet zijn

Een frisse r/AgentixLabs-thread maakt de productieversie van agentfouten moeilijk te negeren. API-time-outs zijn geen zeldzame ruis. Dit is een normale bedrijfstoestand. De echte fout is dat elke time-out wordt behandeld als een tijdelijk ongemak waar het model gewoon omheen zou moeten werken. Zo verandert een onbetrouwbare afhankelijkheid in extra modeloproepen, herhaalde toolpogingen en incidenten die niemand achteraf kan verklaren.

Wat is er gebeurdIn een live builder-thread werd gevraagd hoe teams fouten kunnen opsporen in tools die agents gebruiken zodra echte API's een time-out krijgen in de productie.
Waarom bouwers erom gevenAls de runtime time-outfouten niet kan classificeren en netjes kan stoppen, neemt de betrouwbaarheid af terwijl de kosten per succesvolle taak stijgen.
TRH-actieHoud het time-outpercentage bij per tool, beperk het budget voor nieuwe pogingen en scheid degradatie-, escaleer- en hervattingspaden voordat u de workflow uitbreidt.

Time-outs zijn productiefeiten en geen prompte defecten

Wanneer een externe afhankelijkheid vastloopt, geven teams vaak eerst het model de schuld, omdat het model het zichtbare deel van de stapel is. Dat mist het operationele probleem. Een time-out kan afkomstig zijn van de downstream-API, van auth-drift, van wachtrijdruk, van tenantspecifieke tarieflimieten of van een slechte aanvraagvorm die te lang duurt voordat deze mislukt. Als het harnas deze gevallen niet van elkaar kan onderscheiden, beschouwt de agent elke mislukking als een nieuwe redeneermogelijkheid.

Dat is de reden dat time-out-intensieve workflows duurder aanvoelen dan ze er op papier uitzien. Elke nieuwe poging kan leiden tot meer planning, meer contexthergebruik, meer gereedschapsvertelling en meer menselijke beoordeling voordat de taak landt of sterft. De mislukking begon in de afhankelijkheidslaag, maar de rekening blijft gedurende de hele run hangen.

Logica opnieuw proberen zonder budget wordt duur theater

Een eenvoudige herhalingslus ziet er op zichzelf verantwoordelijk uit. Het probleem treedt op als er tussen de pogingen niets zinvols verandert. Hetzelfde hulpmiddel, dezelfde payloadfamilie, dezelfde afhankelijkheid, dezelfde geblokkeerde status. Vanuit het oogpunt van de looptijd lijkt een nieuwe poging plausibel. Vanuit het oogpunt van de operator repeteert het systeem langzaam dezelfde fout terwijl de klant wacht.

De oplossing bestaat niet uit nul nieuwe pogingen. De oplossing is het expliciete beleid voor opnieuw proberen. Bepaal wanneer een time-out nog een poging verdient, wanneer de agent netjes moet degraderen, wanneer de run moet pauzeren en later moet worden hervat, en wanneer een mens het over moet nemen. Zonder die grens verandert een time-out voor een tool stilletjes in een nieuwe poging.

Wat u moet meten voordat u de workflow betrouwbaar noemt

Meet het time-outpercentage per tool, het aantal nieuwe pogingen per succesvol resultaat, de totale latentie die door nieuwe pogingen wordt toegevoegd en het pad dat elke run volgde na een mislukking: degraderen, escaleren of stoppen. Registreer ook voldoende om het incident later te kunnen classificeren: bij welk hulpmiddel is een time-out opgetreden, hoeveel pogingen zijn er ondernomen, of de payload is gewijzigd en of er een idempotentiewachter aanwezig was. Als je alleen weet dat de agent "liep", weet je niet of de workflow werkt.

Token Robin Hood past op die laag. Het product mag geen gegarandeerde besparingen beloven. Het moet teams helpen bij het analyseren, opsporen en optimaliseren van waar het tokengebruik zich uitbreidt voordat de taak de uitgaven oplevert.

De volgende praktische zet

Kies één productieworkflow met een echte externe afhankelijkheid. Geef elke tool een time-outklasse, een budget voor opnieuw proberen en een duidelijke terugvalactie. Vergelijk vervolgens de kosten per succesvolle taak voor en na de beleidswijziging. Dat zal je meer vertellen over de betrouwbaarheid van agenten dan een ander algemeen debat over de vraag of het model 'goed genoeg' is.

Bronnen