Mengapa AI agen terasa mahal meskipun harga model terlihat bagus
Banyak pengaduan biaya agen publik yang sebenarnya bukan merupakan pengaduan model. Itu adalah keluhan runtime. Pada saat sebuah tim mengatakan "AI agen terlalu mahal", pengganda sebenarnya biasanya berupa konteks yang berulang, instruksi yang terlalu besar, pembacaan file lengkap, loop konfirmasi, dan pemanggilan alat serial yang terlihat masuk akal selangkah demi selangkah dan tidak masuk akal jika dihitung per tugas yang berhasil.
Ini adalah masalah alur kerja sebelum menjadi masalah vendor
Sinyal paling jelas datang dari siaran langsung r/AI_Agents diskusi: pembuat mendeskripsikan perintah sistem raksasa, pembacaan file lengkap, rantai alat serial, dan loop "hanya memeriksa" yang menumpuk biaya ke tugas yang sama sebelum model menghasilkan sesuatu yang layak untuk diambil keputusan. Itu bukan cerita patokan. Ini adalah kisah desain runtime.
Pola yang sama juga muncul di tempat lain. Secara terpisah r/LangChain rangkaian pesan, mode kegagalan adalah pengulangan file identitas dan deskripsi alat yang disuntikkan pada setiap loop. Di sebuah r/LocalLLaMA rangkaian pesan, pemborosan muncul sebagai orientasi repo bahkan sebelum tugas dimulai. Alat yang berbeda, ekonomi yang sama.
Yang sebenarnya membuat tumpukan itu terasa mahal
Bagian yang mahal sering kali bukan sebuah permintaan besar. Ini adalah biaya yang sama yang dibayarkan berulang kali:
Pengumpulan konteks berulang. Instruksi berulang. File yang sama dibaca ulang setelah setiap cabang kecil dalam alur kerja. Pemanggilan alat yang bisa saja dilakukan secara batch, namun diserialkan. Putaran konfirmasi yang membuat harness terasa aman sementara anggaran token terus bocor.
Itulah mengapa “murah per token” masih bisa berubah menjadi sistem yang mahal. Harga per token adalah masukan. Biaya per tugas yang berhasil adalah jumlah operasi yang benar-benar penting.
Tim apa yang harus diukur selanjutnya
Jika Anda ingin menemukan pengganda sebenarnya, berhentilah mengukur pembelanjaan penyedia saja dan mulailah mengukur tugas yang berjalan. Berikan setiap proses id tugas. Lacak konteks sentuhan pertama, konteks sentuhan terakhir, jumlah pemanggilan alat, ukuran muatan statis yang berulang, percobaan ulang, dan apakah artefak akhir cukup berguna untuk disimpan. Setelah hal tersebut ada, pola limbah biasanya berhenti bersembunyi.
Di sinilah __TRH__PH_0__ paling cocok: bukan sebagai janji bahwa setiap alur kerja akan menjadi lebih murah secara ajaib, namun sebagai cara untuk menganalisis perluasan penggunaan sebelum kualitas keluaran membenarkan hal tersebut.
Langkah praktis selanjutnya
Pilih satu alur kerja yang sudah terasa mahal. Jalankan sekali dengan logging diaktifkan. Petakan token yang digunakan untuk penyiapan, navigasi, muatan berulang, percobaan ulang, dan pekerjaan akhir yang bermanfaat. Kemudian hapus satu payload berulang, satu loop kontrol, dan satu pembacaan yang tidak perlu dari proses berikutnya. Itu biasanya akan mengajari Anda lebih dari sekadar spreadsheet perbandingan model lainnya.