再試行予算が明示されていない限り、API タイムアウトにより、ツールを使用するエージェントが再試行の負債に陥ることになります
新鮮な r/AgentixLabs スレッド そのため、実稼働バージョンのエージェントの障害は無視できなくなります。 API タイムアウトは珍しいことではありません。これらは通常の動作状態です。本当の間違いは、すべてのタイムアウトを、モデルが回避すべき一時的な不都合であるかのように扱うことです。このようにして、1 つの不安定な依存関係が、追加のモデル呼び出し、繰り返しのツール試行、そして後になって誰も説明できないインシデント時間に変化するのです。
タイムアウトは生産上の事実であり、即時の欠陥ではありません
モデルはスタックの目に見える部分であるため、外部依存関係が停止した場合、チームは最初にモデルを非難することがよくあります。これでは動作上の問題が見逃されます。タイムアウトは、ダウンストリーム API、認証ドリフト、キュー圧力、テナント固有のレート制限、または失敗するまでに時間がかかりすぎる不正なリクエスト形式によって発生する可能性があります。ハーネスがこれらのケースを区別できない場合、エージェントはすべての失敗を別の推論の機会として扱います。
そのため、タイムアウトの多いワークフローは紙で見るよりもコストが高く感じられます。再試行するたびに、タスクが完了または終了する前に、より多くの計画、より多くのコンテキストの再利用、より多くのツールのナレーション、およびより多くの人によるレビューがトリガーされる可能性があります。障害は依存関係層で始まりましたが、その影響は実行全体に及んでいます。
予算のないリトライロジックは高価な劇場になる
単純な再試行ループが単独で発生しているように見えます。問題は、次の試行の間に意味のある変化が何もない場合に発生します。同じツール、同じペイロード ファミリ、同じ依存関係、同じブロック状態。ランタイムの観点からは、別の試行がもっともらしいと思われます。オペレーターの観点から見ると、システムは顧客が待っている間、同じ障害をゆっくりとリハーサルしていることになります。
修正は再試行ゼロではありません。修正は明示的な再試行ポリシーです。タイムアウトがもう 1 回試行されるべき時期、エージェントが正常に機能を低下する時期、実行を一時停止して後で再開する時期、および人間が引き継ぐ時期を定義します。この境界がなければ、ツールのタイムアウトは静かに再試行負債に変わります。
ワークフローが信頼できると判断する前に何を測定するか
ツールごとのタイムアウト率、成功ごとの再試行回数、再試行によって追加される合計レイテンシ、および失敗後に各実行がたどったパス (機能低下、エスカレーション、または停止) を測定します。また、後でインシデントを分類するのに十分な量のログも記録します。どのツールがタイムアウトしたか、何回試行が行われたか、ペイロードが変更されたかどうか、冪等性ガードが設置されていたかどうかなどです。エージェントが「実行された」ことだけがわかっている場合、ワークフローが機能するかどうかはわかりません。
Token Robin Hood その層にフィットします。この製品は、保証された節約を約束するものではありません。これは、タスクが支出を獲得する前に、チームがトークンの使用が拡大する箇所を分析、特定、最適化するのに役立ちます。
次の実践的な動き
実際の外部依存関係を持つ実稼働ワークフローを 1 つ選択します。各ツールにタイムアウト クラス、再試行バジェット、明確なフォールバック アクションを与えます。次に、ポリシー変更の前後で、成功したタスクあたりのコストを比較します。これにより、モデルが「十分に優れている」かどうかについての一般的な議論よりも、エージェントの信頼性について詳しく知ることができます。