OpenAI19 April 20267 menit

OpenAI Agents SDK menambahkan kotak pasir asli, memori, dan kontrol harness untuk agen produksi

Rilis Agen SDK OpenAI pada 15 April bukan sekadar pembaruan SDK. Ini merupakan peningkatan: dari akses model dan panggilan alat ke lapisan runtime yang benar-benar menentukan apakah suatu agen aman, tahan lama, dan terjangkau untuk dioperasikan.

Apa yang telah terjadiOpenAI menambahkan eksekusi sandbox asli, memori yang dapat dikonfigurasi, alat file mirip Codex, pos pemeriksaan, dan pola orkestrasi multi-sandbox ke Agents SDK.

Mengapa pembangun peduliBagian tersulit dari agen produksi tidak lagi menulis dengan cepat. Ini adalah kontrol waktu proses, isolasi, dan menjaga tugas-tugas panjang tetap berjalan tanpa menghabiskan banyak uang.

Tindakan TRHPerlakukan desain runtime agen sebagai masalah anggaran token: mempersempit memori, membatasi alat, mengisolasi komputasi, dan pos pemeriksaan secara agresif.

Apa yang sebenarnya dikirimkan OpenAI

OpenAI mengatakan SDK yang diperbarui sekarang memberi pengembang sebuah model asli yang dapat memeriksa file, menjalankan perintah, mengedit kode, dan beroperasi di seluruh tugas jangka panjang. Rilis ini menambahkan memori yang dapat dikonfigurasi, shell dan patch primitif, dukungan untuk MCP dan pengungkapan progresif gaya keterampilan, ditambah eksekusi sandbox asli dengan model manifes portabel untuk membentuk ruang kerja.

Pergeseran praktisnya adalah OpenAI mengemas lebih banyak bagian rekayasa agen yang membosankan namun mahal: cara memasang file, ke mana output pergi, cara menjalankan pemulihan setelah container mati, dan cara menjaga kredensial tetap berada di luar lingkungan eksekusi yang dihasilkan model.

Mengapa ini lebih penting dibandingkan daftar alat lainnya

Sebagian besar demo agen gagal dalam produksi karena alasan yang sama: sandbox terlambat digabungkan, status prompt tercampur dengan status waktu proses, dan setiap percobaan ulang dimulai dari awal. Hal ini mengubah prototipe pintar menjadi kebocoran token. OpenAI jelas-jelas mencoba membuat jalur default lebih beropini: ruang kerja yang terkontrol, batasan harness yang lebih jelas, dan eksekusi yang tahan lama melalui snapshotting dan rehidrasi.

Hal ini penting bagi tim yang membangun agen pengkodean, agen penelitian, agen QA, dan otomatisasi alur kerja internal. SDK sekarang tidak terlihat seperti pembungkus panggilan model dan lebih seperti arsitektur referensi tentang bagaimana menurut OpenAI agen produksi harus dibangun.

Sudut TRH: kesalahan runtime adalah pemborosan token

Pembangun sering kali berfokus pada pilihan model dan mengabaikan bentuk waktu proses. Itu terbalik. Model yang kuat di dalam tali pengaman yang berisik masih membuang-buang token. Penyimpanan memori yang luas, alat yang terlalu permisif, dan kotak pasir yang digunakan kembali membuat agen mengumpulkan lebih banyak status daripada yang dibutuhkan tugas. Hasilnya adalah pemeriksaan file berulang-ulang, asumsi-asumsi yang sudah usang, dan putaran penalaran tambahan yang tidak pernah mengubah artefak akhir.

Jika Anda ingin lebih banyak pekerjaan terkirim per paket berbayar, rancang tali pengaman seperti Anda mendesain infra. Putuskan apa yang bisa dibaca oleh agen, di mana ia bisa menulis, alat apa yang bisa dipanggil, status apa yang diperiksa, dan kapan proses harus dihentikan alih-alih mencari konteks lebih lanjut.

Apa yang harus dilakukan pembangun selanjutnya

Untuk agen baru, mulailah dengan sandbox terkecil dan permukaan memori terkecil yang masih memungkinkan tugas berhasil. Simpan kredensial di luar komputasi yang dijalankan agen. Catat rasio antara konteks yang dikumpulkan, alat yang dipanggil, dan file yang benar-benar diubah. Jika rasio tersebut terus meningkat, agen Anda mempelajari kebiasaan yang salah.

Untuk otomatisasi yang sudah ada, rilis ini adalah fungsi pemaksaan yang baik untuk mengaudit apakah harness Anda saat ini melakukan terlalu banyak pekerjaan kustom yang kini dapat dimiliki oleh SDK dengan lebih aman.