Token Robin Hood
ओपनएआईअप्रैल 22, 20266 मिनट

OpenAI रिस्पॉन्स एपीआई में वेबसॉकेट मोड जोड़ता है: तेज़ एजेंट लूप अब रनटाइम लाभ हैं

ओपनएआई की 22 अप्रैल की इंजीनियरिंग पोस्ट मायने रखती है क्योंकि यह बातचीत को मॉडल आईक्यू और टोकन मूल्य निर्धारण से आगे ले जाती है। कंपनी कह रही है कि एक बार जब अनुमान पर्याप्त तेज़ हो जाता है, तो एजेंट उत्पाद परिवहन, कैश्ड स्थिति और लूप के माध्यम से कितना कम अनावश्यक काम करते हैं, इस पर जीत या हार जाते हैं।

क्या हुआ22 अप्रैल, 2026 को, ओपनएआई ने कहा कि वेबसॉकेट मोड ने लगातार कनेक्शन बनाए रखने और पिछली प्रतिक्रिया स्थिति का पुन: उपयोग करके रिस्पॉन्स एपीआई एजेंट लूप को एंड-टू-एंड 40% तेज बना दिया।
बिल्डरों को इसकी परवाह क्यों है?बार-बार सत्यापन, टोकननाइजेशन, रूटिंग और इतिहास का पुनर्निर्माण अब कोडिंग एजेंटों और टूल-उपयोग वर्कफ़्लो पर एक दृश्यमान उत्पाद कर है।
TRH कार्रवाईबड़े मॉडल बजट का पीछा करने से पहले अपने एजेंट लूप को चरण दर चरण प्रोफाइल करें और दोहराए जाने वाले काम में कटौती करें।

वास्तव में क्या बदला

OpenAI पुरानी अड़चन का स्पष्ट रूप से वर्णन करता है। Codex-शैली बग-फिक्स कार्य के लिए दर्जनों राउंड ट्रिप की आवश्यकता हो सकती है: अगली कार्रवाई तय करें, टूल को कॉल करें, टूल परिणाम वापस भेजें, फिर दोहराएं। जब मॉडल प्रति सेकंड लगभग 65 टोकन उत्पन्न करते थे तो उस ओवरहेड को अनदेखा करना आसान होता था। एक बार जब OpenAI ने GPT-5.3-Codex-Spark को 1,000 टोकन प्रति सेकंड की ओर धकेल दिया तो इसे छिपाना बहुत कठिन हो गया।

समाधान कोई नई शीघ्र युक्ति नहीं थी. यह एक परिवहन परिवर्तन था. OpenAI ने लगातार WebSocket कनेक्शन को जीवित रखा, मेमोरी में पुन: प्रयोज्य प्रतिक्रिया स्थिति को कैश किया, और अनुवर्ती अनुरोधों को जारी रहने दिया previous_response_id हर बार पूरी बातचीत को दोबारा बनाने के बजाय।

यह एक एपीआई सुविधा से बड़ा क्यों है?

यह एक महत्वपूर्ण बिल्डर सिग्नल है क्योंकि यह एजेंट की गति को एक सिस्टम समस्या बना देता है। OpenAI का कहना है कि WebSocket संस्करण पूर्व इनपुट और आउटपुट आइटम, टूल परिभाषा, नेमस्पेस और रेंडर किए गए टोकन का पुन: उपयोग करता है। यह प्लेटफ़ॉर्म को हर मोड़ पर पूर्ण इतिहास को पुन: संसाधित करने के बजाय कुछ सत्यापनकर्ताओं और सुरक्षा जांचों के लिए केवल नए इनपुट को संसाधित करने देता है।

यही वह जगह है जहां कई एजेंट उत्पाद समय और पैसा बर्बाद करते हैं। दृश्यमान बिल में "टोकन" लिखा हुआ है। छिपा हुआ बिल बार-बार संदर्भ आकार देने, बार-बार सत्यापन, अतिरिक्त एपीआई हैंडशेक और धीमी टूल-परिणाम हैंडऑफ़ के रूप में दिखाई देता है। तेज़ मॉडल उन गलतियों को उजागर करते हैं।

लॉन्च के नतीजों का क्या मतलब है

OpenAI का कहना है कि अल्फा उपयोगकर्ताओं ने 40% तक वर्कफ़्लो में सुधार देखा और Codex ने अपने अधिकांश रिस्पॉन्स API ट्रैफ़िक को WebSocket मोड पर स्थानांतरित कर दिया। कंपनी का यह भी कहना है कि वर्सेल, क्लाइन और कर्सर ने इसे एकीकृत करने के बाद भौतिक विलंबता लाभ की सूचना दी। व्यावहारिक उपाय सरल है: रनटाइम प्लंबिंग अब कोडिंग एजेंटों के लिए प्रतिस्पर्धी सतह का हिस्सा है।

TRH पाठकों के लिए, इसके पीछे वही सबक है एजेंटिक एआई महंगा क्यों लगता है? और उत्पादन एजेंटों के लिए रनटाइम डिज़ाइन. यदि प्रत्येक टूल टर्न बहुत अधिक स्थिति का पुनर्निर्माण करता है, तो आपके उपयोगकर्ता मॉडल के स्मार्ट होने पर ध्यान देने से पहले ही खिंचाव महसूस करेंगे।

बिल्डरों को आगे क्या करना चाहिए

एक वास्तविक एजेंट वर्कफ़्लो को मापें और विलंबता को चार बकेट में विभाजित करें: मॉडल अनुमान, एपीआई ओवरहेड, क्लाइंट-साइड टूल समय और पोस्ट-प्रोसेसिंग। यदि हर मोड़ पर एक ही इतिहास या टूल स्कीमा को पुनः मान्य किया जा रहा है, तो पहले उसे ठीक करें।

फिर तीन आर्किटेक्चर जांचें करें। जहां संभव हो बातचीत की स्थिति को वृद्धिशील रखें। अपने डैशबोर्ड में टूल निष्पादन विलंबता को मॉडल विलंबता से अलग करें। और तय करें कि लंबे समय तक चलने वाले लूप के लिए स्टेटलेस अनुरोध श्रृंखलाओं को डिफ़ॉल्ट करने के बजाय लगातार कनेक्शन कहां समझ में आता है।

मुद्दा यह नहीं है कि हर एजेंट को कल वेबसॉकेट की आवश्यकता होगी। मुद्दा यह है कि परिवहन और राज्य का पुन: उपयोग अब सीधे उपयोगकर्ता-कथित बुद्धिमत्ता को आकार देता है। जब अनुमान में तेजी आती है, तो लूप में अपशिष्ट उत्पाद बन जाता है।

सूत्रों का कहना है