當退出條件較弱時,人工智慧代理的炒作看起來就像昂貴的循環
一個新鮮的 r/AI_Agents 線程 快速切入閃亮的演示故事:構建者仍然看到多步驟代理在同一任務上旋轉,失去項目連貫性,並且需要太多的設置來完成簡單的工作。線程中最有用的回應進一步加深了診斷。問題不在於存在循環。問題是運行時仍然無法區分可恢復的參數丟失和死刀具路徑之間的區別。
有用的反對不是反代理,而是反連枷
最初的貼文列出了 2026 年 4 月下旬仍然存在的三個痛點:循環推理會消耗預算、上下文在太多步驟後會發生變化,以及產品介面對於普通操作員來說配置起來太痛苦。與一般的「代理人被過度炒作」的話語相比,這是一個更好的市場解讀,因為它指向操作層,而不僅僅是模型品質。
線程中最強烈的評論推動了相同的方向:循環不會自動變壞,但沒有工作終止邏輯的循環會變得昂貴。如果代理無法區分失敗是否來自錯誤的參數、死 API 或無效的回應形狀,則每次重試在本機看起來都是合理的,而任務在全域上卻變得毫無意義。
疲軟的工具合約將炒作變成重試債務
這就是當前代理堆疊仍然存在可信度的地方。團隊將強大的模型包裹在寬闊的工具帶中,添加重試,並假設該工具會自行解決。在實踐中,安全帶通常缺乏成功和失敗的嚴格契約。該模型將「再次呼叫工具」視為合理的下一步行動,因為運行時從未給它一個硬操作邊界。
這就是為什麼昂貴的循環投訴不斷出現在「代理商感覺像炒作」旁邊。建築商所經歷的炒作通常只是可觀察性債務。系統可以敘述進度,但它無法可靠地決定步驟何時無效、運行何時應停止,或者輸出品質何時太弱而無法證明另一輪的合理性。
團隊在添加更多編排之前應該衡量哪些內容
端到端地衡量一項任務。追蹤首次有用輸出、總重試次數、重複有效負載大小、工具呼叫計數,以及在人工幹預或安全帶退出之前運行跨越相同故障狀態的次數。然後按類別區分故障:參數不匹配、模式不匹配、傳輸中斷、身份驗證問題和實際模型混亂。
Token Robin Hood 屬於該層。重點不是承諾有保證的節省。重點是幫助團隊在工作流程贏得支出之前分析、發現和優化令牌使用擴充的確切位置。
下一步的實際行動
選擇一種已經感覺脆弱的代理商工作流程。圍繞每個工具響應制定明確的合約。如果回應形狀錯誤,則停止。如果工具已放下,請停止。如果模型正在重試相同的步驟而沒有狀態更改,則停止。一旦存在這些邊界,重新運行任務並比較每個成功結果的成本。與關於「真正的代理人」是否存在的另一場爭論相比,這給了你一個更清晰的信號。