Token Robin Hood
AIエージェント2026 年 4 月 25 日5分

終了条件が弱い場合、AI エージェントの誇大広告は高価なループのように見える

新鮮な r/AI_Agents スレッド きらびやかなデモのストーリーを素早く切り抜けます。ビルダーは依然として、マルチステップのエージェントが同じタスクを実行し、プロジェクトの一貫性を失い、単純な作業に過剰なセットアップを要求するのを観察しています。スレッド内で最も有用な返信により、診断がさらに正確になります。問題はループが存在することではありません。問題は、ランタイムが回復可能なパラメータのミスと無効なツール パスの違いを依然として認識できないことです。

どうしたのReddit のライブ ディスカッションでは、現在のエージェントの苦痛を、魔法のような自律性ではなく、ループ負債、コンテキストのドリフト、および重いセットアップとして枠組み化しました。
なぜ建築業者が気にするのか再試行条件があいまいな場合、ワークフローが保持するのに十分な信頼できるものを生成する前に、トークンは化合物を書き込みます。
TRH アクションワークフローを拡張する前に、ツール呼び出しにコントラクトを設定し、スキーマの不一致による再試行を停止し、成功したタスクごとのコストを測定します。

有益な反論はアンチエージェントではなく、アンチフレイリングです

元の投稿では、2026 年 4 月下旬の時点でも現在でも感じられる 3 つの痛みのシグナルがリストされています。それは、予算を浪費するループ推論、手順が多すぎると漂流するコンテキスト、そして通常のオペレーターにとって構成が難しすぎる製品表面です。これは、モデルの品質だけでなく、オペレーティング層についても言及しているため、一般的な「エージェントが過大評価されている」という言説よりも市場の読みが適切です。

スレッド内の最も強力なコメントは同じ方向を押します。つまり、ループが自動的に悪くなるわけではありませんが、終了ロジックが機能しないループはコストのかかる劇的なものになります。エージェントが失敗の原因が間違ったパラメータ、無効な API、無効な応答形状のいずれであるかを分類できない場合、ローカルではすべての再試行が合理的であるように見えますが、全体的にはタスクが無意味になります。

脆弱なツール契約が誇大宣伝を再試行の負債に変える

これは、現在のエージェント スタックがまだ信頼性を欠いているところです。チームは強力なモデルを幅広いツールベルトで包み込み、再試行を追加して、ハーネスが自動的に解決すると想定します。実際には、ハーネスには成功と失敗に関する厳密な契約が欠けていることがよくあります。ランタイムがモデルに厳密な操作境界を与えていないため、モデルは「ツールを再度呼び出す」ことを妥当な次の動作と見なします。

「エージェントが誇大宣伝のように感じている」の隣に高額なループの苦情が表示され続けるのはこのためです。建設業者が誇大宣伝として経験しているのは、多くの場合、単なる可観測性の負債です。システムは進行状況を説明できますが、ステップがいつ無効であるか、いつ実行を停止する必要があるか、または出力品質が弱すぎて別のラウンドを正当化できないかどうかを確実に判断することはできません。

オーケストレーションを追加する前にチームが測定すべきこと

1 つのタスクをエンドツーエンドで測定します。最初の有用な出力、総再試行数、繰り返されたペイロード サイズ、ツール呼び出し回数、人間が介入するかハーネスが解除されるまでに実行が同じ障害状態を通過した回数を追跡します。次に、パラメータの不一致、スキーマの不一致、トランスポートの停止、認証の問題、実際のモデルの混乱といったクラスごとに障害を分けます。

Token Robin Hood その層に属します。重要なのは、確実な節約を約束することではありません。重要なのは、ワークフローが支出を獲得する前に、チームがトークンの使用が拡大する正確な場所を分析、特定、最適化できるように支援することです。

次の実践的な動き

すでに不安定だと感じているエージェント ワークフローを 1 つ選びます。各ツールの応答に関して明示的な契約を置きます。応答の形状が間違っている場合は、停止します。ツールが停止している場合は停止します。モデルが状態を変更せずに同じステップを再試行している場合は、停止します。これらの境界が存在したら、タスクを再実行し、成功した結果ごとのコストを比較します。これは、「本物のエージェント」がまだ存在するかどうかについての別の議論よりも明確なシグナルを提供します。

情報源