OpenAI रिस्पॉन्स एपीआई में वेबसॉकेट मोड जोड़ता है: तेज़ एजेंट लूप अब रनटाइम लाभ हैं
ओपनएआई की 22 अप्रैल की इंजीनियरिंग पोस्ट मायने रखती है क्योंकि यह बातचीत को मॉडल आईक्यू और टोकन मूल्य निर्धारण से आगे ले जाती है। कंपनी कह रही है कि एक बार जब अनुमान पर्याप्त तेज़ हो जाता है, तो एजेंट उत्पाद परिवहन, कैश्ड स्थिति और लूप के माध्यम से कितना कम अनावश्यक काम करते हैं, इस पर जीत या हार जाते हैं।
वास्तव में क्या बदला
OpenAI पुरानी अड़चन का स्पष्ट रूप से वर्णन करता है। Codex-शैली बग-फिक्स कार्य के लिए दर्जनों राउंड ट्रिप की आवश्यकता हो सकती है: अगली कार्रवाई तय करें, टूल को कॉल करें, टूल परिणाम वापस भेजें, फिर दोहराएं। जब मॉडल प्रति सेकंड लगभग 65 टोकन उत्पन्न करते थे तो उस ओवरहेड को अनदेखा करना आसान होता था। एक बार जब OpenAI ने GPT-5.3-Codex-Spark को 1,000 टोकन प्रति सेकंड की ओर धकेल दिया तो इसे छिपाना बहुत कठिन हो गया।
समाधान कोई नई शीघ्र युक्ति नहीं थी. यह एक परिवहन परिवर्तन था. OpenAI ने लगातार WebSocket कनेक्शन को जीवित रखा, मेमोरी में पुन: प्रयोज्य प्रतिक्रिया स्थिति को कैश किया, और अनुवर्ती अनुरोधों को जारी रहने दिया previous_response_id हर बार पूरी बातचीत को दोबारा बनाने के बजाय।
यह एक एपीआई सुविधा से बड़ा क्यों है?
यह एक महत्वपूर्ण बिल्डर सिग्नल है क्योंकि यह एजेंट की गति को एक सिस्टम समस्या बना देता है। OpenAI का कहना है कि WebSocket संस्करण पूर्व इनपुट और आउटपुट आइटम, टूल परिभाषा, नेमस्पेस और रेंडर किए गए टोकन का पुन: उपयोग करता है। यह प्लेटफ़ॉर्म को हर मोड़ पर पूर्ण इतिहास को पुन: संसाधित करने के बजाय कुछ सत्यापनकर्ताओं और सुरक्षा जांचों के लिए केवल नए इनपुट को संसाधित करने देता है।
यही वह जगह है जहां कई एजेंट उत्पाद समय और पैसा बर्बाद करते हैं। दृश्यमान बिल में "टोकन" लिखा हुआ है। छिपा हुआ बिल बार-बार संदर्भ आकार देने, बार-बार सत्यापन, अतिरिक्त एपीआई हैंडशेक और धीमी टूल-परिणाम हैंडऑफ़ के रूप में दिखाई देता है। तेज़ मॉडल उन गलतियों को उजागर करते हैं।
लॉन्च के नतीजों का क्या मतलब है
OpenAI का कहना है कि अल्फा उपयोगकर्ताओं ने 40% तक वर्कफ़्लो में सुधार देखा और Codex ने अपने अधिकांश रिस्पॉन्स API ट्रैफ़िक को WebSocket मोड पर स्थानांतरित कर दिया। कंपनी का यह भी कहना है कि वर्सेल, क्लाइन और कर्सर ने इसे एकीकृत करने के बाद भौतिक विलंबता लाभ की सूचना दी। व्यावहारिक उपाय सरल है: रनटाइम प्लंबिंग अब कोडिंग एजेंटों के लिए प्रतिस्पर्धी सतह का हिस्सा है।
TRH पाठकों के लिए, इसके पीछे वही सबक है एजेंटिक एआई महंगा क्यों लगता है? और उत्पादन एजेंटों के लिए रनटाइम डिज़ाइन. यदि प्रत्येक टूल टर्न बहुत अधिक स्थिति का पुनर्निर्माण करता है, तो आपके उपयोगकर्ता मॉडल के स्मार्ट होने पर ध्यान देने से पहले ही खिंचाव महसूस करेंगे।
बिल्डरों को आगे क्या करना चाहिए
एक वास्तविक एजेंट वर्कफ़्लो को मापें और विलंबता को चार बकेट में विभाजित करें: मॉडल अनुमान, एपीआई ओवरहेड, क्लाइंट-साइड टूल समय और पोस्ट-प्रोसेसिंग। यदि हर मोड़ पर एक ही इतिहास या टूल स्कीमा को पुनः मान्य किया जा रहा है, तो पहले उसे ठीक करें।
फिर तीन आर्किटेक्चर जांचें करें। जहां संभव हो बातचीत की स्थिति को वृद्धिशील रखें। अपने डैशबोर्ड में टूल निष्पादन विलंबता को मॉडल विलंबता से अलग करें। और तय करें कि लंबे समय तक चलने वाले लूप के लिए स्टेटलेस अनुरोध श्रृंखलाओं को डिफ़ॉल्ट करने के बजाय लगातार कनेक्शन कहां समझ में आता है।
मुद्दा यह नहीं है कि हर एजेंट को कल वेबसॉकेट की आवश्यकता होगी। मुद्दा यह है कि परिवहन और राज्य का पुन: उपयोग अब सीधे उपयोगकर्ता-कथित बुद्धिमत्ता को आकार देता है। जब अनुमान में तेजी आती है, तो लूप में अपशिष्ट उत्पाद बन जाता है।