モデルの価格設定が適切に見えても、エージェント AI が高価に感じられる理由
公的エージェントの費用に関する苦情の多くは、実際には模範的な苦情ではありません。これらは実行時の苦情です。チームが「エージェント AI は高すぎる」と言う時点で、実際の倍数は、通常、繰り返されるコンテキスト、大きすぎる命令、フルファイルの読み取り、確認ループ、および一度に 1 ステップずつ合理的であるように見えても、成功したタスクごとにカウントすると不合理に見えるシリアル ツール呼び出しです。
これはベンダーの問題である前にワークフローの問題です
最も明確な信号はライブから来ました r/AI_Agents ディスカッション: ビルダーは、モデルが意思決定に値するものを生成する前に、同じタスクにコストを積み上げる巨大なシステム プロンプト、フルファイル読み取り、シリアル ツール チェーン、および「チェックだけ」ループについて説明します。それはベンチマークの話ではありません。ランタイム設計の話です。
同じパターンは他の場所でも見られます。別個に r/LangChain スレッド、障害モードは、ループごとに挿入される ID ファイルとツールの説明が繰り返されることでした。で r/LocalLLaMA スレッド、タスクが開始される前に、無駄がリポジトリの方向性として現れました。ツールは異なりますが、経済性は同じです。
実際にスタックが高価に感じられる原因は何ですか
多くの場合、高価な部分は 1 つの巨大なプロンプトではありません。同じコストが何度も支払われます。
コンテキスト収集を繰り返します。繰り返される指示。ワークフロー内の小さな分岐ごとに、同じファイルが再読み込みされます。バッチ化することもできましたが、シリアル化されたツール呼び出し。トークンバジェットが漏洩し続ける間、ハーネスが安全であると感じさせる確認ループ。
そのため、「トークンあたりの安さ」が依然として高価なシステムになる可能性があります。トークンごとの価格が入力です。実際に重要なのは、成功したタスクごとのコストです。
チームが次に何を測定すべきか
実際の乗数を知りたい場合は、プロバイダーの支出のみの測定をやめて、タスクの実行の測定を開始してください。すべての実行にタスク ID を与えます。ファーストタッチ コンテキスト、ラストタッチ コンテキスト、ツール呼び出しの数、繰り返される静的ペイロードのサイズ、再試行、および最終的なアーティファクトが保持するのに十分な有用性があるかどうかを追跡します。それが存在すると、通常、無駄なパターンは隠れなくなります。
ここが __TRH_PH_0__ 最適: すべてのワークフローが魔法のように安くなるという約束ではなく、出力品質が正当化される前に使用量が拡大する場所を分析する方法として。
実践的な次のステップ
すでにコストがかかっていると感じられるワークフローを 1 つ選びます。ログをオンにして一度実行します。セットアップ、ナビゲーション、繰り返されるペイロード、再試行、および最終的な有用な作業に費やされたトークンをマップします。次に、繰り返される 1 つのペイロード、1 つの制御ループ、および 1 つの不要な読み取りを次の実行から削除します。通常、これは別のモデル比較スプレッドシートよりも多くのことを学ぶことができます。