एआई एजेंट25 अप्रैल, 20265 मिनट

एपीआई टाइमआउट टूल-उपयोग करने वाले एजेंटों को पुनः प्रयास ऋण में बदल देता है जब तक कि पुनः प्रयास बजट स्पष्ट न हो

एक ताज़ा आर/एजेंटिक्सलैब्स थ्रेड एजेंट की विफलता के उत्पादन संस्करण को नज़रअंदाज करना कठिन हो जाता है। एपीआई टाइमआउट दुर्लभ शोर नहीं हैं। वे एक सामान्य परिचालन स्थिति हैं. असली गलती यह है कि हर टाइमआउट को एक अस्थायी असुविधा की तरह माना जाए, जिस पर मॉडल को काम करना चाहिए। इस प्रकार एक परतदार निर्भरता अतिरिक्त मॉडल कॉल, बार-बार टूल प्रयासों और घटना के समय में बदल जाती है जिसे कोई भी बाद में नहीं समझा सकता है।

क्या हुआएक लाइव बिल्डर थ्रेड में पूछा गया कि वास्तविक एपीआई के उत्पादन में समय समाप्त होने के बाद टीमें टूल-उपयोग करने वाले एजेंटों को कैसे डिबग करती हैं।

बिल्डरों को इसकी परवाह क्यों है?यदि रनटाइम टाइमआउट विफलताओं को वर्गीकृत नहीं कर सकता है और सफाई से नहीं रोक सकता है, तो प्रति सफल कार्य की लागत बढ़ने पर विश्वसनीयता कम हो जाती है।

TRH कार्रवाईवर्कफ़्लो का विस्तार करने से पहले टूल द्वारा टाइमआउट दर को ट्रैक करें, पुन: प्रयास बजट को कैप करें, और अलग-अलग डिग्रेड, एस्केलेट और फिर से शुरू करें।

टाइमआउट उत्पादन तथ्य हैं, त्वरित दोष नहीं

जब कोई बाहरी निर्भरता रुक जाती है, तो टीमें अक्सर पहले मॉडल को दोष देती हैं क्योंकि मॉडल स्टैक का दृश्यमान हिस्सा होता है। वह परिचालन समस्या से चूक जाता है। टाइमआउट डाउनस्ट्रीम एपीआई, ऑथ बहाव, कतार दबाव, किरायेदार-विशिष्ट दर सीमा या खराब अनुरोध आकार से आ सकता है जो विफल होने से पहले बहुत लंबा समय लेता है। यदि हार्नेस उन मामलों को अलग नहीं बता सकता है, तो एजेंट हर विफलता को एक और तर्क अवसर के रूप में मानता है।

यही कारण है कि टाइमआउट-भारी वर्कफ़्लो कागज़ पर दिखने की तुलना में अधिक महंगे लगते हैं। प्रत्येक पुनः प्रयास कार्य पूरा होने या समाप्त होने से पहले अधिक योजना, अधिक संदर्भ पुन: उपयोग, अधिक टूल वर्णन और अधिक मानवीय समीक्षा को ट्रिगर कर सकता है। विफलता निर्भरता परत में शुरू हुई, लेकिन बिल पूरे दौर में समाप्त हो गया।

बिना बजट के तर्क पुनः प्रयास करना महँगा थिएटर बन जाता है

एक सादा पुनः प्रयास लूप अलगाव में जिम्मेदार दिखता है। समस्या तब सामने आती है जब प्रयासों के बीच कुछ भी सार्थक परिवर्तन नहीं होता है। वही उपकरण, वही पेलोड परिवार, वही निर्भरता, वही अवरुद्ध स्थिति। रनटाइम के दृष्टिकोण से, एक और प्रयास प्रशंसनीय लगता है। ऑपरेटर के दृष्टिकोण से, ग्राहक की प्रतीक्षा के दौरान सिस्टम धीरे-धीरे उसी विफलता का पूर्वाभ्यास कर रहा है।

समाधान शून्य पुनर्प्रयास नहीं है। समाधान स्पष्ट पुनः प्रयास नीति है। परिभाषित करें कि कब टाइमआउट एक और प्रयास के लायक है, जब एजेंट को शालीनता से नीचा दिखाना चाहिए, जब रन को रोकना चाहिए और बाद में फिर से शुरू करना चाहिए, और जब एक इंसान को कार्यभार संभालना चाहिए। उस सीमा के बिना, एक टूल टाइमआउट चुपचाप पुनर्प्रयास ऋण में बदल जाता है।

वर्कफ़्लो को विश्वसनीय कहने से पहले आपको क्या मापना चाहिए?

टूल द्वारा टाइमआउट दर को मापें, प्रति सफल परिणाम के लिए पुनः प्रयास की गणना करें, पुनः प्रयास द्वारा जोड़ी गई कुल विलंबता, और विफलता के बाद प्रत्येक रन द्वारा लिया गया पथ: नीचा दिखाना, बढ़ाना, या रोकना। घटना को बाद में वर्गीकृत करने के लिए भी पर्याप्त लॉग इन करें: कौन सा उपकरण समय समाप्त हो गया, कितने प्रयास हुए, क्या पेलोड बदल गया, और क्या कोई निष्क्रियता गार्ड मौजूद था। यदि आप केवल यह जानते हैं कि एजेंट "भागा" है, तो आप नहीं जानते कि वर्कफ़्लो काम करता है या नहीं।

Token Robin Hood उस परत पर फिट बैठता है. उत्पाद को गारंटीकृत बचत का वादा नहीं करना चाहिए। इससे टीमों को विश्लेषण करने, पता लगाने और अनुकूलन करने में मदद मिलेगी कि कार्य खर्च अर्जित करने से पहले टोकन का उपयोग कहां बढ़ता है।

अगला व्यावहारिक कदम

वास्तविक बाहरी निर्भरता वाला एक उत्पादन वर्कफ़्लो चुनें। प्रत्येक टूल को एक टाइमआउट क्लास, एक पुनः प्रयास बजट और एक स्पष्ट फ़ॉलबैक कार्रवाई दें। फिर नीति परिवर्तन से पहले और बाद में प्रति सफल कार्य की लागत की तुलना करें। यह आपको एजेंट की विश्वसनीयता के बारे में किसी अन्य सामान्य बहस की तुलना में अधिक बताएगा कि क्या मॉडल "काफ़ी अच्छा है।"

सूत्रों का कहना है

Reddit: एपीआई टाइमआउट के तहत टूल का उपयोग करने वाले एजेंटों को डीबग करने पर r/AgentixLabs चर्चा