Token Robin Hood
AI-agenten22 april 20266 min

Waarom agent-AI duur aanvoelt, zelfs als de modelprijzen er goed uitzien

Veel klachten over de kosten van overheidsagenten zijn niet echt modelklachten. Het zijn runtime-klachten. Tegen de tijd dat een team zegt dat ‘agentische AI ​​te duur is’, bestaat de echte vermenigvuldiger meestal uit herhaalde context, te grote instructies, het lezen van volledige bestanden, bevestigingslussen en seriële tooloproepen die stap voor stap redelijk lijken en absurd zijn als ze worden geteld per succesvolle taak.

Wat is er gebeurdBouwers in openbare threads blijven hetzelfde patroon beschrijven: de rekening stijgt voordat de workflow nuttig aanvoelt, omdat de runtime blijft betalen voor contextverzameling en controlelussen.
Waarom bouwers erom gevenDe prijs van het ruwe model is slechts één regelitem. De grotere budgetvraag is hoeveel tokens één succesvolle taak van begin tot eind verbrandt.
TRH actieRegistreer één taak vanaf de eerste prompt tot aan het uiteindelijke artefact, trim vervolgens herhaalde payloads, batchtools en voeg stopregels toe voordat u van leverancier verandert.

Dit is eerder een workflowprobleem dan een leveranciersprobleem

Het duidelijkste signaal kwam van een live r/AI_Agents discussie: bouwers beschrijven gigantische systeemprompts, volledige bestandslezingen, seriële toolketens en 'gewoon controleren'-lussen die de kosten op dezelfde taak stapelen voordat het model iets oplevert dat een beslissing waard is. Dat is geen benchmarkverhaal. Het is een runtime-ontwerpverhaal.

Datzelfde patroon duikt elders op. In een aparte r/LangChain draad, de foutmodus bestond uit herhaalde identiteitsbestanden en toolbeschrijvingen die in elke lus werden geïnjecteerd. In een r/LocalLLaMA draad, verscheen het afval als repo-oriëntatie voordat de taak zelfs maar begon. Verschillende tools, dezelfde economie.

Wat de stapel eigenlijk duur doet aanvoelen

Het dure deel is vaak niet één gigantische prompt. Het zijn dezelfde kosten die keer op keer worden betaald:

Herhaalde contextverzameling. Herhaalde instructies. Dezelfde bestanden worden na elke kleine vertakking in de workflow opnieuw gelezen. Tooloproepen die in batches hadden kunnen worden geplaatst, maar die waren geserialiseerd. Bevestigingslussen waardoor het harnas veilig aanvoelt terwijl het tokenbudget blijft lekken.

Daarom kan ‘goedkoop per token’ alsnog een duur systeem worden. Prijs per token is een invoer. De kosten per succesvolle taak zijn het bedrijfsgetal dat er werkelijk toe doet.

Wat teams vervolgens moeten meten

Als u de echte vermenigvuldiger wilt vinden, stop dan met het meten van alleen de uitgaven van leveranciers en begin met het meten van taakuitvoeringen. Geef elke run een taak-ID. Houd de context van de eerste aanraking en de laatste aanraking bij, het aantal tooloproepen, de grootte van herhaalde statische payloads, nieuwe pogingen en of het uiteindelijke artefact nuttig genoeg was om te behouden. Als dat eenmaal bestaat, houden de afvalpatronen meestal op met verbergen.

Dit is waar __TRH_PH_0__ past het beste: niet als belofte dat elke workflow op magische wijze goedkoper zal worden, maar als een manier om te analyseren waar het gebruik toeneemt voordat de uitvoerkwaliteit dit rechtvaardigt.

De praktische volgende stap

Kies een workflow die al duur aanvoelt. Voer het één keer uit terwijl logboekregistratie is ingeschakeld. Breng de tokens in kaart die zijn besteed aan installatie, navigatie, herhaalde payloads, nieuwe pogingen en het laatste nuttige werk. Verwijder vervolgens één herhaalde payload, één regellus en één onnodige lezing uit de volgende run. Dat zal u meestal meer leren dan een ander modelvergelijkingsspreadsheet.

Bronnen