Hugging Faceअप्रैल 22, 20267 मि

Hugging Face कोड एजेंटों के लिए समीक्षक-पहली प्लेबुक दिखाता है: कौशल, परीक्षण हार्नेस और रखरखाव योग्य PRs

इस महीने की सबसे उपयोगी कोडिंग-एजेंट पोस्ट में किसी मॉडल की घोषणा नहीं की गई। इसने एक मानक की घोषणा की। Hugging Face के 16 अप्रैल के लेख में, टीम का तर्क है कि कोड एजेंट अंततः एक नई समस्या पैदा करने के लिए काफी अच्छे हैं: अनुरक्षक प्रशंसनीय PRs में डूब रहे हैं। उनका उत्तर "एजेंटों पर प्रतिबंध" नहीं है। यह एजेंटों को समीक्षक-ग्रेड सिग्नल उत्पन्न करने के लिए बाध्य करना है।

क्या हुआHugging Face ने पोर्ट की मदद के लिए एक कौशल और बाहरी परीक्षण हार्नेस प्रकाशित किया transformers में मॉडल mlx-lm PRs को प्रतिलिपि प्रस्तुत करने योग्य और समीक्षक-अनुकूल रखते हुए।

बिल्डरों को इसकी परवाह क्यों है?लेख कोडबेस पर कोडिंग एजेंटों का उपयोग करने के लिए एक ठोस टेम्पलेट है जहां रखरखाव और समीक्षक का समय कच्चे PR गिनती से अधिक मायने रखता है।

TRH कार्रवाईअपने कोड-एजेंट वर्कफ़्लो को समीक्षक के विश्वास के अनुरूप बनाएँ: अधिक स्वचालन के लिए अनुकूलन करने से पहले मैनिफ़ेस्ट, प्रतिलिपि प्रस्तुत करने योग्य परीक्षण और स्पष्ट दायरे की सीमाएँ उत्पन्न करें।

Hugging Face ने वास्तव में क्या बनाया

पोस्ट एक ऐसे कौशल का वर्णन करती है जो मॉडल कार्यान्वयन को पोर्ट करता है transformers में mlx-lm. एजेंट एक वातावरण स्थापित करता है, कॉन्फ़िगरेशन का निरीक्षण करता है, चेकपॉइंट डाउनलोड करता है, कार्यान्वयन लिखता है, और परीक्षण पास होने तक इसे दोहराता रहता है। लेकिन मुख्य डिज़ाइन विकल्प सांस्कृतिक है, तकनीकी नहीं: कौशल को स्पष्ट रूप से योगदानकर्ताओं और समीक्षकों के लिए समर्थन के रूप में तैयार किया गया है, न कि सबमिट-एंड-भूल PR बॉट के रूप में।

Hugging Face कौशल को एक अलग गैर-एजेंटिक परीक्षण हार्नेस के साथ जोड़ता है। वह हार्नेस रिपोर्ट, मॉडल विवरण, कच्चे इनपुट और आउटपुट और कॉपी किए गए परीक्षण कोड को संग्रहीत करता है ताकि कोई भी मॉडल सत्र के बाहर परिणामों को पुन: पेश कर सके। लेख में उन मानदंडों पर भी जोर दिया गया है जो एजेंट-जनरेटेड PRs आमतौर पर चूक जाते हैं: सट्टा रिफैक्टरों से बचें, साझा उपयोगिताओं को लापरवाही से न छूएं, और कोड को कुछ ऐसा बनाएं जैसे किसी सावधान इंसान ने जानबूझकर खोला हो।

कोडिंग-एजेंट टीमों के लिए यह क्यों मायने रखता है

यह कोड-एजेंट संचालन की अब तक की सबसे परिपक्व फ़्रेमिंग है। अड़चन अब केवल यह नहीं है कि मॉडल कोड लिख सकता है या नहीं। यह है कि क्या आउटपुट लक्ष्य कोडबेस की सामाजिक और रखरखाव बाधाओं का सम्मान करता है। एक एजेंट जो एक वैध पैच तैयार करता है लेकिन रखरखावकर्ता की समीक्षा का समय बर्बाद करता है वह अभी भी महंगा है।

यह तर्क खुले स्रोत से परे भी लागू होता है। आंतरिक प्लेटफ़ॉर्म टीमों, साझा मोनोरेपोज़ और इन्फ्रा-हेवी कोडबेस में एक ही विफलता मोड होता है: एजेंट मनुष्यों की तुलना में इरादे, साइड इफेक्ट्स और स्थानीय सम्मेलनों को सत्यापित करने की तुलना में तेज़ी से ठोस अंतर उत्पन्न करते हैं। उपयोगी प्रतिक्रिया अधिक स्वायत्त PR वॉल्यूम नहीं है। यह प्रत्येक अंतर से जुड़े उच्च गुणवत्ता वाले साक्ष्य हैं।

TRH कोण: टोकन पुनर्प्राप्ति समीक्षा से पहले शुरू होती है

Token Robin Hood पाठकों को इसे एक सांकेतिक-अनुशासन कहानी के रूप में पढ़ना चाहिए। समीक्षा अपशिष्ट अभी भी उपयोग अपशिष्ट है। यदि कोई कोडिंग एजेंट तीन लगभग-सही PRs का उत्पादन करता है, मनुष्यों को स्थानीय सम्मेलनों को फिर से खोजने के लिए मजबूर करता है, और आत्मविश्वासपूर्ण गद्य के पीछे अस्थिर सत्यापन छुपाता है, तो आप विलय होने से पहले ही महंगे संदर्भ को जला रहे हैं।

Hugging Face का उत्तर परिचालनात्मक रूप से मजबूत है क्योंकि यह दायरा सीमित करता है और साक्ष्य बढ़ाता है। एजेंट को बताया जाता है कि क्या नहीं छूना है। आउटपुट में प्रतिलिपि प्रस्तुत करने योग्य कलाकृतियाँ होती हैं। समीक्षक को तुरंत हाँ या ना कहने का बेहतर आधार मिल जाता है। यह केवल उच्च स्वायत्त पूर्णता दर का पीछा करने की तुलना में अधिक टिकाऊ अनुकूलन है।

बिल्डरों को आगे क्या करना चाहिए

यदि आपकी टीम उत्पादन कोड पर Codex, Claude Code, या समान एजेंटों का उपयोग करती है, तो एक समीक्षक अनुबंध परिभाषित करें। प्रत्येक एजेंट को दायरे, मान्यताओं, सत्यापन आदेशों और एक प्रतिलिपि प्रस्तुत करने योग्य आर्टिफैक्ट बंडल को चलाने की आवश्यकता होती है। निषिद्ध व्यवहारों की एक सूची रखें जैसे कि अनचाहे रिफैक्टर, साझा-उपयोग संपादन, या डिज़ाइन-पैटर्न क्लीनअप, जब तक कि कार्य स्पष्ट रूप से उनके लिए न पूछे।

यदि आप वास्तविक रखरखाव बोझ के साथ एक कोडबेस चलाते हैं, तो Hugging Face दृष्टिकोण को एक टेम्पलेट के रूप में मानें: संकीर्ण निष्पादन के लिए एजेंट कौशल, सत्यापन के लिए बाहरी उपयोग, और अंतिम PR के लिए मानव स्वामित्व। यही वह रास्ता है जो कोड एजेंटों को समीक्षक ऋण के बजाय उत्तोलन में बदल देता है।