OpenAI menambahkan mode WebSocket ke Responses API: loop agen yang lebih cepat kini menjadi keuntungan waktu proses
Postingan rekayasa OpenAI pada tanggal 22 April penting karena mengalihkan pembicaraan melampaui model IQ dan harga token. Perusahaan mengatakan bahwa ketika inferensi menjadi cukup cepat, produk agen menang atau kalah dalam transportasi, status dalam cache, dan betapa sedikit pekerjaan berlebihan yang mereka paksakan melalui loop.
Apa yang sebenarnya berubah
OpenAI menggambarkan hambatan lama dengan jelas. Tugas perbaikan bug gaya Codex memerlukan banyak perjalanan bolak-balik: memutuskan tindakan selanjutnya, memanggil alat, mengirim kembali hasil alat, lalu mengulanginya. Overhead tersebut lebih mudah diabaikan ketika model menghasilkan sekitar 65 token per detik. Menjadi lebih sulit untuk disembunyikan setelah OpenAI mendorong GPT-5.3-Codex-Spark menuju 1,000 token per detik.
Perbaikannya bukanlah trik cepat yang baru. Itu adalah perubahan transportasi. OpenAI menjaga koneksi WebSocket yang persisten tetap hidup, menyimpan status respons yang dapat digunakan kembali dalam cache di memori, dan membiarkan permintaan tindak lanjut terus berlanjut previous_response_id alih-alih membangun kembali seluruh percakapan setiap saat.
Mengapa ini lebih besar dari satu fitur API
Ini adalah sinyal pembangun yang penting karena menjadikan kecepatan agen sebagai masalah sistem. OpenAI mengatakan versi WebSocket menggunakan kembali item input dan output sebelumnya, definisi alat, namespace, dan token yang dirender. Hal ini juga memungkinkan platform hanya memproses masukan baru untuk beberapa validator dan pemeriksaan keamanan, alih-alih memproses ulang riwayat lengkap di setiap kesempatan.
Di sinilah banyak produk agen membocorkan waktu dan uang. Faktur yang terlihat bertuliskan "token". Tagihan tersembunyi muncul sebagai pembentukan konteks berulang, validasi berulang, jabat tangan API tambahan, dan penyerahan hasil alat yang lambat. Model yang lebih cepat mengungkap kesalahan tersebut.
Apa arti dari hasil peluncuran tersebut
OpenAI mengatakan pengguna alfa melihat peningkatan alur kerja hingga 40% dan Codex memindahkan sebagian besar lalu lintas API Responses ke mode WebSocket. Perusahaan juga mengatakan Vercel, Klein, dan Cursor melaporkan peningkatan latensi yang signifikan setelah mengintegrasikannya. Kesimpulan praktisnya sederhana: pipa ledeng runtime kini menjadi bagian dari kompetisi bagi agen pengkodean.
Bagi pembaca TRH, ini adalah pelajaran yang sama mengapa AI agen terasa mahal Dan desain runtime untuk agen produksi. Jika setiap putaran alat membangun kembali terlalu banyak status, pengguna Anda akan merasakan hambatannya sebelum mereka menyadari bahwa modelnya menjadi lebih pintar.
Apa yang harus dilakukan pembangun selanjutnya
Ukur satu alur kerja agen nyata dan bagi latensi menjadi empat kelompok: inferensi model, overhead API, waktu alat sisi klien, dan pasca-pemrosesan. Jika riwayat atau skema alat yang sama divalidasi ulang di setiap kesempatan, perbaiki terlebih dahulu.
Kemudian lakukan tiga pemeriksaan arsitektur. Jaga agar status percakapan tetap bertahap jika memungkinkan. Pisahkan latensi eksekusi alat dari latensi model di dasbor Anda. Dan putuskan di mana koneksi persisten masuk akal daripada menetapkan default ke rantai permintaan tanpa kewarganegaraan untuk loop yang berjalan lama.
Intinya bukanlah setiap agen membutuhkan WebSockets besok. Intinya adalah bahwa transportasi dan penggunaan kembali negara kini secara langsung membentuk kecerdasan yang dirasakan pengguna. Ketika inferensi dipercepat, sampah dalam loop menjadi produk.