모델 가격이 괜찮아 보이는데도 에이전트 AI가 비싸다고 느끼는 이유
많은 공공 대리인 비용 불만은 실제로 모델 불만이 아닙니다. 런타임 불만 사항입니다. 팀이 "에이전트 AI는 너무 비싸다"고 말할 때 실제 승수는 일반적으로 반복되는 컨텍스트, 대용량 지침, 전체 파일 읽기, 확인 루프 및 직렬 도구 호출로, 한 번에 한 단계씩 합리적으로 보이고 성공적인 작업별로 계산할 때 터무니없게 보입니다.
이는 공급업체 문제이기 이전에 작업 흐름 문제입니다.
가장 명확한 신호는 라이브에서 나왔습니다. r/AI_Agents 토론: 빌더는 모델이 결정할만한 어떤 것을 생성하기 전에 동일한 작업에 비용을 축적하는 거대한 시스템 프롬프트, 전체 파일 읽기, 직렬 도구 체인 및 "단지 확인" 루프를 설명합니다. 그것은 벤치마킹 이야기가 아닙니다. 런타임 디자인 이야기입니다.
동일한 패턴이 다른 곳에서도 나타납니다. 별도의 r/LangChain 스레드, 실패 모드는 모든 루프에 주입된 ID 파일과 도구 설명이 반복되는 것이었습니다. 에서 r/LocalLLaMA 스레드, 작업이 시작되기도 전에 폐기물이 저장소 방향으로 나타났습니다. 다른 도구, 동일한 경제성.
실제로 스택이 비싸다고 느끼는 이유는 무엇입니까?
값비싼 부분은 종종 하나의 거대한 프롬프트가 아닙니다. 계속해서 지불되는 동일한 비용입니다.
반복되는 컨텍스트 수집. 반복되는 지시. 워크플로의 모든 작은 분기마다 동일한 파일을 다시 읽습니다. 일괄 처리할 수 있었지만 직렬화된 도구 호출입니다. 토큰 예산이 계속 누출되는 동안 하네스가 안전하다고 느끼게 만드는 확인 루프.
이것이 바로 "토큰당 저렴한" 시스템이 여전히 비싼 시스템으로 변할 수 있는 이유입니다. 토큰당 가격은 입력입니다. 성공적인 작업당 비용은 실제로 중요한 운영 수치입니다.
다음에는 어떤 팀이 측정해야 할까요?
실제 승수를 찾으려면 공급자 지출만 측정하는 것을 중단하고 작업 실행 측정을 시작하세요. 모든 실행에 작업 ID를 제공하십시오. 첫 번째 터치 컨텍스트, 마지막 터치 컨텍스트, 도구 호출 수, 반복되는 정적 페이로드 크기, 재시도 및 최종 아티팩트가 유지하기에 충분히 유용한지 여부를 추적합니다. 일단 존재하면 폐기물 패턴은 일반적으로 더 이상 숨겨지지 않습니다.
이곳은 __TRH_PH_0__ 가장 적합합니다. 모든 작업 흐름이 마술처럼 저렴해질 것이라는 약속이 아니라 출력 품질이 정당화되기 전에 사용량이 어디에서 확장되는지 분석하는 방법입니다.
실용적인 다음 단계
이미 비싸다고 느껴지는 워크플로를 하나 선택하세요. 로깅을 활성화한 상태에서 한 번 실행해 보세요. 설정, 탐색, 반복 페이로드, 재시도 및 최종 유용한 작업에 사용된 토큰을 매핑합니다. 그런 다음 다음 실행에서 반복되는 페이로드 하나, 제어 루프 하나, 불필요한 읽기 하나를 제거합니다. 이는 일반적으로 다른 모델 비교 스프레드시트보다 더 많은 것을 가르쳐 줄 것입니다.