Token Robin Hood
OpenAI22 April 20266 menit

OpenAI menambahkan mode WebSocket ke Responses API: loop agen yang lebih cepat kini menjadi keuntungan waktu proses

Postingan rekayasa OpenAI pada tanggal 22 April penting karena mengalihkan pembicaraan melampaui model IQ dan harga token. Perusahaan mengatakan bahwa ketika inferensi menjadi cukup cepat, produk agen menang atau kalah dalam transportasi, status dalam cache, dan betapa sedikit pekerjaan berlebihan yang mereka paksakan melalui loop.

Apa yang telah terjadiPada tanggal 22 April 2026, OpenAI mengatakan mode WebSocket membuat agen Responses API melakukan loop 40% lebih cepat secara end-to-end dengan mempertahankan koneksi yang persisten dan menggunakan kembali status respons sebelumnya.
Mengapa pembangun peduliValidasi berulang, tokenisasi, perutean, dan pembuatan ulang riwayat kini menjadi pajak produk yang terlihat pada agen pengkodean dan alur kerja penggunaan alat.
Tindakan TRHBuat profil agen Anda secara bertahap dan hentikan pekerjaan berulang sebelum mengejar anggaran model yang lebih besar.

Apa yang sebenarnya berubah

OpenAI menggambarkan hambatan lama dengan jelas. Tugas perbaikan bug gaya Codex memerlukan banyak perjalanan bolak-balik: memutuskan tindakan selanjutnya, memanggil alat, mengirim kembali hasil alat, lalu mengulanginya. Overhead tersebut lebih mudah diabaikan ketika model menghasilkan sekitar 65 token per detik. Menjadi lebih sulit untuk disembunyikan setelah OpenAI mendorong GPT-5.3-Codex-Spark menuju 1,000 token per detik.

Perbaikannya bukanlah trik cepat yang baru. Itu adalah perubahan transportasi. OpenAI menjaga koneksi WebSocket yang persisten tetap hidup, menyimpan status respons yang dapat digunakan kembali dalam cache di memori, dan membiarkan permintaan tindak lanjut terus berlanjut previous_response_id alih-alih membangun kembali seluruh percakapan setiap saat.

Mengapa ini lebih besar dari satu fitur API

Ini adalah sinyal pembangun yang penting karena menjadikan kecepatan agen sebagai masalah sistem. OpenAI mengatakan versi WebSocket menggunakan kembali item input dan output sebelumnya, definisi alat, namespace, dan token yang dirender. Hal ini juga memungkinkan platform hanya memproses masukan baru untuk beberapa validator dan pemeriksaan keamanan, alih-alih memproses ulang riwayat lengkap di setiap kesempatan.

Di sinilah banyak produk agen membocorkan waktu dan uang. Faktur yang terlihat bertuliskan "token". Tagihan tersembunyi muncul sebagai pembentukan konteks berulang, validasi berulang, jabat tangan API tambahan, dan penyerahan hasil alat yang lambat. Model yang lebih cepat mengungkap kesalahan tersebut.

Apa arti dari hasil peluncuran tersebut

OpenAI mengatakan pengguna alfa melihat peningkatan alur kerja hingga 40% dan Codex memindahkan sebagian besar lalu lintas API Responses ke mode WebSocket. Perusahaan juga mengatakan Vercel, Klein, dan Cursor melaporkan peningkatan latensi yang signifikan setelah mengintegrasikannya. Kesimpulan praktisnya sederhana: pipa ledeng runtime kini menjadi bagian dari kompetisi bagi agen pengkodean.

Bagi pembaca TRH, ini adalah pelajaran yang sama mengapa AI agen terasa mahal Dan desain runtime untuk agen produksi. Jika setiap putaran alat membangun kembali terlalu banyak status, pengguna Anda akan merasakan hambatannya sebelum mereka menyadari bahwa modelnya menjadi lebih pintar.

Apa yang harus dilakukan pembangun selanjutnya

Ukur satu alur kerja agen nyata dan bagi latensi menjadi empat kelompok: inferensi model, overhead API, waktu alat sisi klien, dan pasca-pemrosesan. Jika riwayat atau skema alat yang sama divalidasi ulang di setiap kesempatan, perbaiki terlebih dahulu.

Kemudian lakukan tiga pemeriksaan arsitektur. Jaga agar status percakapan tetap bertahap jika memungkinkan. Pisahkan latensi eksekusi alat dari latensi model di dasbor Anda. Dan putuskan di mana koneksi persisten masuk akal daripada menetapkan default ke rantai permintaan tanpa kewarganegaraan untuk loop yang berjalan lama.

Intinya bukanlah setiap agen membutuhkan WebSockets besok. Intinya adalah bahwa transportasi dan penggunaan kembali negara kini secara langsung membentuk kecerdasan yang dirasakan pengguna. Ketika inferensi dipercepat, sampah dalam loop menjadi produk.

Sumber