為什麼即使模型定價看起來不錯,代理人工智慧仍然感覺昂貴
許多公共代理費用投訴並不是真正的典型投訴。它們是運行時投訴。當一個團隊說「代理人工智慧太昂貴」時,真正的乘數通常是重複的上下文、超大的指令、全文件讀取、確認循環和串行工具調用,這些調用一次看起來合理,但如果按每個成功的任務來計算,則顯得荒謬。
這是一個工作流程問題,然後才是供應商問題
最清晰的訊號來自現場 r/AI_Agents 討論:建構者描述了巨大的系統提示、全文件讀取、串行工具鍊和「僅檢查」循環,這些循環在模型產生任何有價值的決策之前將成本堆積到同一任務上。這不是一個基準故事。這是一個運行時設計故事。
同樣的模式也出現在其他地方。在單獨的 r/LangChain 線程,失敗模式是在每個循環上重複注入身分文件和工具描述。在一個 r/LocalLLaMA 線程,在任務開始之前,廢棄物就以回購方向出現。不同的工具,相同的經濟學。
到底是什麼讓堆疊感覺昂貴
昂貴的部分通常不是一個巨大的提示。這是一次又一次支付的相同成本:
重複收集上下文。重複指示。在工作流程中的每個小分支之後都會重新讀取相同的檔案。本來可以批次但被序列化的工具呼叫。確認循環使安全帶感到安全,同時代幣預算不斷洩漏。
這就是為什麼「廉價的代幣」仍然會變成一個昂貴的系統。每個代幣的價格是一個輸入。每個成功任務的成本是真正重要的操作數。
團隊下一步該衡量什麼
如果您想找到真正的乘數,請停止僅測量提供者支出並開始測量任務運行。為每次運行指定一個任務 ID。追蹤首次觸控上下文、最後一次觸控上下文、工具呼叫次數、重複靜態有效負載的大小、重試以及最終工件是否足夠有用以保留。一旦存在,浪費模式通常就不再隱藏。
這是哪裡 __TRH_PH_0__ 最適合:不是作為每個工作流程都會神奇地變得更便宜的承諾,而是作為一種在輸出品質證明其合理性之前分析使用量擴展的方法。
實際的下一步
選擇一種已經感覺很昂貴的工作流程。打開日誌記錄運行一次。映射在設定、導航、重複有效負載、重試和最終有用工作上花費的令牌。然後從下一次運行中刪除一個重複的有效負載、一個控制循環和一個不必要的讀取。這通常會比另一個模型比較電子表格告訴你更多。