एआई एजेंट25 अप्रैल, 20265 मिनट

जब बाहर निकलने की स्थिति कमजोर होती है तो एआई एजेंट का प्रचार महंगे लूप की तरह दिखता है

एक ताज़ा r/AI_एजेंट थ्रेड चमकदार-डेमो कहानी को तेजी से पूरा करता है: बिल्डर्स अभी भी मल्टी-स्टेप एजेंटों को एक ही कार्य पर घूमते हुए देख रहे हैं, प्रोजेक्ट सुसंगतता खो रहे हैं, और सरल कार्य के लिए बहुत अधिक सेटअप की मांग कर रहे हैं। थ्रेड में सबसे उपयोगी उत्तर निदान को और अधिक तेज करता है। समस्या यह नहीं है कि लूप मौजूद हैं। समस्या यह है कि रनटाइम अभी भी पुनर्प्राप्त करने योग्य पैरामीटर मिस और मृत टूल पथ के बीच अंतर बताने में विफल रहता है।

क्या हुआएक लाइव रेडिट चर्चा ने वर्तमान एजेंट दर्द को जादुई स्वायत्तता के बजाय लूप ऋण, संदर्भ बहाव और भारी सेटअप के रूप में प्रस्तुत किया।

बिल्डरों को इसकी परवाह क्यों है?यदि पुनः प्रयास की स्थितियाँ अस्पष्ट हैं, तो वर्कफ़्लो से पहले टोकन बर्न कंपाउंड कुछ भी विश्वसनीय बनाए रखने के लिए तैयार करता है।

TRH कार्रवाईटूल कॉल पर अनुबंध रखें, स्कीमा बेमेल पर पुनः प्रयास रोकें, और वर्कफ़्लो का विस्तार करने से पहले प्रति सफल कार्य की लागत को मापें।

उपयोगी आपत्ति अभिकर्ता-विरोधी नहीं है, वह प्रति-विरोधी है

मूल पोस्ट में तीन दर्द संकेत सूचीबद्ध हैं जो अभी भी अप्रैल 2026 के अंत में महसूस होते हैं: लूप्ड तर्क जो बजट को बर्बाद कर देता है, संदर्भ जो बहुत सारे चरणों के बाद बह जाता है, और उत्पाद सतहें जो सामान्य ऑपरेटरों के लिए कॉन्फ़िगर करने के लिए बहुत दर्दनाक हैं। यह सामान्य "एजेंटों को अत्यधिक प्रचारित किया जाता है" प्रवचन की तुलना में बेहतर बाजार पढ़ा जाता है क्योंकि यह न केवल मॉडल की गुणवत्ता पर बल्कि ऑपरेटिंग स्तर पर भी इशारा करता है।

थ्रेड में सबसे मजबूत टिप्पणी एक ही दिशा में धकेलती है: लूप स्वचालित रूप से खराब नहीं होते हैं, लेकिन कार्य समाप्ति तर्क के बिना लूप महंगे थिएटर बन जाते हैं। यदि एजेंट यह वर्गीकृत नहीं कर सकता है कि विफलता गलत पैरामीटर, मृत एपीआई या अमान्य प्रतिक्रिया आकार से आई है, तो प्रत्येक पुनः प्रयास स्थानीय रूप से तर्कसंगत दिखता है जबकि कार्य विश्व स्तर पर बकवास हो जाता है।

कमजोर उपकरण अनुबंध प्रचार को पुनर्प्रयास ऋण में बदल देते हैं

यह वह जगह है जहां मौजूदा एजेंट स्टैक अभी भी विश्वसनीयता लीक कर रहा है। टीमें एक मजबूत मॉडल को एक विस्तृत टूल बेल्ट में लपेटती हैं, पुनः प्रयास करती हैं, और मान लेती हैं कि हार्नेस अपने आप ठीक हो जाएगा। व्यवहार में, हार्नेस में अक्सर सफलता और विफलता के लिए एक सख्त अनुबंध का अभाव होता है। मॉडल "कॉल टूल अगेन" को एक प्रशंसनीय अगले कदम के रूप में देखता है क्योंकि रनटाइम ने इसे कभी भी कठिन परिचालन सीमा नहीं दी।

यही कारण है कि महंगी-लूप की शिकायत "एजेंटों को प्रचार जैसा महसूस होता है" के बगल में दिखाई देती रहती है। बिल्डर्स जिसे प्रचार के रूप में अनुभव करते हैं वह अक्सर केवल अवलोकन योग्य ऋण होता है। सिस्टम प्रगति बता सकता है, लेकिन यह विश्वसनीय रूप से यह तय नहीं कर सकता है कि कब कोई कदम अमान्य है, कब दौड़ना बंद करना चाहिए, या जब आउटपुट गुणवत्ता दूसरे दौर को उचित ठहराने के लिए बहुत कमजोर है।

अधिक ऑर्केस्ट्रेशन जोड़ने से पहले टीमों को क्या मापना चाहिए

एक कार्य को शुरू से आखिर तक मापें। पहले उपयोगी आउटपुट, कुल पुनर्प्रयास, बार-बार किए गए पेलोड आकार, टूल-कॉल गिनती, और किसी मानव के हस्तक्षेप करने या हार्नेस के विफल होने से पहले कितनी बार रन ने उसी विफल स्थिति को पार किया, को ट्रैक करें। फिर कक्षा के आधार पर विफलताओं को अलग करें: पैरामीटर बेमेल, स्कीमा बेमेल, ट्रांसपोर्ट आउटेज, ऑथ मुद्दा और वास्तविक मॉडल भ्रम।

Token Robin Hood उस परत पर है. मुद्दा गारंटीशुदा बचत का वादा करना नहीं है। मुद्दा यह है कि टीमों को उन सटीक स्थानों का विश्लेषण, पता लगाने और अनुकूलित करने में मदद करना है जहां वर्कफ़्लो खर्च अर्जित करने से पहले टोकन का उपयोग फैलता है।

अगला व्यावहारिक कदम

ऐसा एजेंट वर्कफ़्लो चुनें जो पहले से ही कमज़ोर लगता हो। प्रत्येक उपकरण प्रतिक्रिया के चारों ओर एक स्पष्ट अनुबंध रखें। यदि प्रतिक्रिया का आकार गलत है, तो रुकें। यदि उपकरण नीचे है, तो रुकें। यदि मॉडल बिना किसी स्थिति परिवर्तन के उसी चरण का पुनः प्रयास कर रहा है, तो रुकें। एक बार वे सीमाएँ अस्तित्व में आ जाएँ, तो कार्य को फिर से चलाएँ और प्रति सफल परिणाम की लागत की तुलना करें। यह आपको इस बारे में किसी अन्य बहस की तुलना में अधिक स्पष्ट संकेत देता है कि "वास्तविक एजेंट" अभी भी मौजूद हैं या नहीं।

सूत्रों का कहना है

Reddit: महंगे-लूप एजेंट प्रचार पर r/AI_Agents चर्चा