为什么即使模型定价看起来不错,代理人工智能仍然感觉昂贵
许多公共代理费用投诉并不是真正的典型投诉。它们是运行时投诉。当一个团队说“代理人工智能太昂贵”时,真正的乘数通常是重复的上下文、超大的指令、全文件读取、确认循环和串行工具调用,这些调用一次看起来合理,但如果按每个成功的任务来计算,则显得荒谬。
这是一个工作流程问题,然后才是供应商问题
最清晰的信号来自现场 r/AI_Agents 讨论:构建者描述了巨大的系统提示、全文件读取、串行工具链和“仅检查”循环,这些循环在模型产生任何有价值的决策之前将成本堆积到同一任务上。这不是一个基准故事。这是一个运行时设计故事。
同样的模式也出现在其他地方。在单独的 r/LangChain 线程,失败模式是在每个循环上重复注入身份文件和工具描述。在一个 r/LocalLLaMA 线程,在任务开始之前,废物就以回购方向出现。不同的工具,相同的经济学。
到底是什么让堆栈感觉昂贵
昂贵的部分通常不是一个巨大的提示。这是一次又一次支付的相同成本:
反复收集上下文。重复指示。在工作流程中的每个小分支之后都会重新读取相同的文件。本来可以批处理但被序列化的工具调用。确认循环使安全带感到安全,同时代币预算不断泄漏。
这就是为什么“廉价的代币”仍然会变成一个昂贵的系统。每个代币的价格是一个输入。每个成功任务的成本是真正重要的操作数。
团队下一步应该衡量什么
如果您想找到真正的乘数,请停止仅测量提供商支出并开始测量任务运行。为每次运行指定一个任务 ID。跟踪首次触摸上下文、最后一次触摸上下文、工具调用次数、重复静态有效负载的大小、重试以及最终工件是否足够有用以保留。一旦存在,浪费模式通常就不再隐藏。
这是哪里 __TRH_PH_0__ 最适合:不是作为每个工作流程都会神奇地变得更便宜的承诺,而是作为一种在输出质量证明其合理性之前分析使用量扩展的方法。
实际的下一步
选择一种已经感觉很昂贵的工作流程。打开日志记录运行一次。映射在设置、导航、重复有效负载、重试和最终有用工作上花费的令牌。然后从下一次运行中删除一个重复的有效负载、一个控制循环和一个不必要的读取。这通常会比另一个模型比较电子表格告诉你更多。