Perché l'IA agentica sembra costosa anche quando i prezzi dei modelli sembrano buoni
Molti reclami sui costi degli agenti pubblici non sono realmente reclami modello. Sono reclami di runtime. Quando un team dice che "l'intelligenza artificiale è troppo costosa", il vero moltiplicatore è solitamente il contesto ripetuto, istruzioni sovradimensionate, letture di file interi, cicli di conferma e chiamate di strumenti seriali che sembrano ragionevoli un passo alla volta e assurde se conteggiate per attività di successo.
Questo è un problema del flusso di lavoro prima che sia un problema del fornitore
Il segnale più chiaro è arrivato da una diretta r/AI_Agents discussione: i costruttori descrivono giganteschi prompt di sistema, letture di file completi, catene di strumenti seriali e cicli di "solo controllo" che accumulano costi sulla stessa attività prima che il modello produca qualcosa di degno di decisione. Questa non è una storia di riferimento. È una storia di progettazione in fase di esecuzione.
Lo stesso schema si presenta altrove. In un separato r/LangChain filo, la modalità di errore era costituita dai file di identità ripetuti e dalle descrizioni degli strumenti inserite in ogni ciclo. Nell'a r/LocalLLaMA filo, i rifiuti sono apparsi come orientamento al pronti contro termine prima ancora che l'attività iniziasse. Strumenti diversi, stessa economia.
Ciò che in realtà fa sembrare lo stack costoso
La parte costosa spesso non è un unico grande suggerimento. È lo stesso costo pagato più e più volte:
Raccolta ripetuta del contesto. Istruzioni ripetute. Gli stessi file vengono riletti dopo ogni piccolo ramo del flusso di lavoro. Chiamate di strumenti che avrebbero potuto essere raggruppate, ma sono state serializzate. Anelli di conferma che fanno sentire l'imbracatura al sicuro mentre il budget del token continua a fuoriuscire.
Ecco perché il "economico per token" può ancora trasformarsi in un sistema costoso. Il prezzo per token è un input. Il costo per attività riuscita è il numero operativo che conta davvero.
Cosa dovrebbero misurare le squadre in seguito
Se vuoi trovare il vero moltiplicatore, smetti di misurare solo la spesa del fornitore e inizia a misurare l'esecuzione delle attività. Assegna a ogni esecuzione un ID attività. Tieni traccia del contesto del primo tocco, del contesto dell'ultimo tocco, del numero di chiamate allo strumento, della dimensione dei payload statici ripetuti, dei tentativi e se l'artefatto finale era sufficientemente utile da poter essere conservato. Una volta che esiste, i modelli di rifiuti di solito smettono di nascondersi.
Questo è dove __TRH_PH_0__ si adatta meglio: non come una promessa che ogni flusso di lavoro diventerà magicamente più economico, ma come un modo per analizzare dove l'utilizzo si espande prima che la qualità dell'output lo giustifichi.
Il prossimo passo pratico
Scegli un flusso di lavoro che sembra già costoso. Eseguilo una volta con la registrazione attivata. Mappa i token spesi per configurazione, navigazione, carichi utili ripetuti, tentativi e lavoro utile finale. Quindi rimuovere un payload ripetuto, un ciclo di controllo e una lettura non necessaria dall'esecuzione successiva. Questo di solito ti insegnerà più di un altro foglio di calcolo per il confronto dei modelli.