Token Robin Hood
Agenti dell'intelligenza artificiale22 aprile 20266 minuti

Perché l'IA agentica sembra costosa anche quando i prezzi dei modelli sembrano buoni

Molti reclami sui costi degli agenti pubblici non sono realmente reclami modello. Sono reclami di runtime. Quando un team dice che "l'intelligenza artificiale è troppo costosa", il vero moltiplicatore è solitamente il contesto ripetuto, istruzioni sovradimensionate, letture di file interi, cicli di conferma e chiamate di strumenti seriali che sembrano ragionevoli un passo alla volta e assurde se conteggiate per attività di successo.

Quello che è successoI costruttori nei thread pubblici continuano a descrivere lo stesso schema: la fattura aumenta prima che il flusso di lavoro sembri utile perché il runtime continua a pagare per la raccolta del contesto e i cicli di controllo.
Perché i costruttori si preoccupanoIl prezzo del modello grezzo è solo una voce. La questione del budget più grande è quanti token vengono bruciati da un'attività di successo dall'inizio alla fine.
TRH azioneRegistra un'attività dal primo prompt all'artefatto finale, quindi elimina i payload ripetuti, gli strumenti batch e aggiungi regole di arresto prima di cambiare fornitore.

Questo è un problema del flusso di lavoro prima che sia un problema del fornitore

Il segnale più chiaro è arrivato da una diretta r/AI_Agents discussione: i costruttori descrivono giganteschi prompt di sistema, letture di file completi, catene di strumenti seriali e cicli di "solo controllo" che accumulano costi sulla stessa attività prima che il modello produca qualcosa di degno di decisione. Questa non è una storia di riferimento. È una storia di progettazione in fase di esecuzione.

Lo stesso schema si presenta altrove. In un separato r/LangChain filo, la modalità di errore era costituita dai file di identità ripetuti e dalle descrizioni degli strumenti inserite in ogni ciclo. Nell'a r/LocalLLaMA filo, i rifiuti sono apparsi come orientamento al pronti contro termine prima ancora che l'attività iniziasse. Strumenti diversi, stessa economia.

Ciò che in realtà fa sembrare lo stack costoso

La parte costosa spesso non è un unico grande suggerimento. È lo stesso costo pagato più e più volte:

Raccolta ripetuta del contesto. Istruzioni ripetute. Gli stessi file vengono riletti dopo ogni piccolo ramo del flusso di lavoro. Chiamate di strumenti che avrebbero potuto essere raggruppate, ma sono state serializzate. Anelli di conferma che fanno sentire l'imbracatura al sicuro mentre il budget del token continua a fuoriuscire.

Ecco perché il "economico per token" può ancora trasformarsi in un sistema costoso. Il prezzo per token è un input. Il costo per attività riuscita è il numero operativo che conta davvero.

Cosa dovrebbero misurare le squadre in seguito

Se vuoi trovare il vero moltiplicatore, smetti di misurare solo la spesa del fornitore e inizia a misurare l'esecuzione delle attività. Assegna a ogni esecuzione un ID attività. Tieni traccia del contesto del primo tocco, del contesto dell'ultimo tocco, del numero di chiamate allo strumento, della dimensione dei payload statici ripetuti, dei tentativi e se l'artefatto finale era sufficientemente utile da poter essere conservato. Una volta che esiste, i modelli di rifiuti di solito smettono di nascondersi.

Questo è dove __TRH_PH_0__ si adatta meglio: non come una promessa che ogni flusso di lavoro diventerà magicamente più economico, ma come un modo per analizzare dove l'utilizzo si espande prima che la qualità dell'output lo giustifichi.

Il prossimo passo pratico

Scegli un flusso di lavoro che sembra già costoso. Eseguilo una volta con la registrazione attivata. Mappa i token spesi per configurazione, navigazione, carichi utili ripetuti, tentativi e lavoro utile finale. Quindi rimuovere un payload ripetuto, un ciclo di controllo e una lettura non necessaria dall'esecuzione successiva. Questo di solito ti insegnerà più di un altro foglio di calcolo per il confronto dei modelli.

Fonti