Hugging Face22 เมษายน 20267 นาที

Hugging Face แสดง Playbook แรกของผู้ตรวจสอบสำหรับตัวแทนโค้ด: ทักษะ ชุดทดสอบ และ PRs ที่บำรุงรักษาได้

หนึ่งในโพสต์เกี่ยวกับการเขียนโค้ดที่มีประโยชน์มากที่สุดในเดือนนี้ไม่ได้ประกาศโมเดล ก็ได้ประกาศมาตรฐาน ในการเขียนบทความเมื่อวันที่ 16 เมษายนของ Hugging Face ทีมงานแย้งว่าในที่สุด Code Agent ก็ดีพอที่จะสร้างปัญหาใหม่ได้: ผู้ดูแลกำลังจมอยู่ใน PRs ที่น่าเชื่อถือ คำตอบของพวกเขาไม่ใช่ "ห้ามตัวแทน" เป็นการบังคับให้ตัวแทนสร้างสัญญาณระดับผู้ตรวจสอบ

เกิดอะไรขึ้นHugging Face เผยแพร่ทักษะและชุดทดสอบภายนอกเพื่อช่วยพอร์ต transformers โมเดลต่างๆ เข้ามา mlx-lm ในขณะเดียวกันก็ทำให้ PRs สามารถทำซ้ำได้และเป็นมิตรกับผู้ตรวจสอบ

เหตุใดผู้สร้างจึงสนใจบทความนี้เป็นเทมเพลตที่เป็นรูปธรรมสำหรับการใช้เอเจนต์การเขียนโค้ดบนโค้ดเบสที่การบำรุงรักษาและเวลาของผู้ตรวจสอบมีความสำคัญมากกว่าการนับจำนวน PR แบบดิบ

การกระทำ TRHติดตั้งเวิร์กโฟลว์ตัวแทนโค้ดของคุณเกี่ยวกับความไว้วางใจของผู้ตรวจสอบ: สร้างรายการ การทดสอบที่ทำซ้ำได้ และขอบเขตขอบเขตที่ชัดเจน ก่อนที่คุณจะปรับให้เหมาะสมสำหรับการทำงานอัตโนมัติมากขึ้น

สิ่งที่ Hugging Face สร้างขึ้นจริงๆ

โพสต์นี้อธิบายถึงทักษะที่พอร์ตการใช้งานแบบจำลอง transformers เข้าไปข้างใน mlx-lm. เอเจนต์จะตั้งค่าสภาพแวดล้อม ตรวจสอบการกำหนดค่า ดาวน์โหลดจุดตรวจสอบ เขียนการใช้งาน และทำซ้ำจนกว่าการทดสอบจะผ่าน แต่ตัวเลือกการออกแบบหลักคือวัฒนธรรม ไม่ใช่ทางเทคนิค: ทักษะได้รับการกำหนดกรอบไว้อย่างชัดเจนว่าเป็นการสนับสนุนสำหรับผู้สนับสนุนและผู้ตรวจสอบ ไม่ใช่บอท PR ที่ส่งและลืม

Hugging Face จับคู่ทักษะกับชุดทดสอบที่ไม่ใช่เอเจนต์แยกต่างหาก ชุดควบคุมดังกล่าวจะจัดเก็บรายงาน รายละเอียดโมเดล อินพุตและเอาท์พุตดิบ และคัดลอกโค้ดทดสอบ เพื่อให้ทุกคนสามารถสร้างผลลัพธ์ใหม่นอกเซสชั่นโมเดลได้ บทความนี้ยังเน้นย้ำถึงบรรทัดฐานที่ PRs ที่สร้างโดยเอเจนต์มักจะพลาด: หลีกเลี่ยงการสร้างซ้ำเชิงคาดเดา อย่าแตะต้องยูทิลิตี้ที่ใช้ร่วมกันโดยไม่ตั้งใจ และทำให้โค้ดดูเหมือนเป็นสิ่งที่มนุษย์ระมัดระวังจะเปิดขึ้นโดยตั้งใจ

เหตุใดจึงสำคัญสำหรับทีมตัวแทนการเข้ารหัส

นี่คือกรอบการดำเนินการโค้ดเอเจนต์ที่เป็นผู้ใหญ่ที่สุดจนถึงตอนนี้ คอขวดไม่ใช่แค่ว่าโมเดลจะสามารถเขียนโค้ดได้หรือไม่เท่านั้น อยู่ที่ว่าเอาต์พุตจะเคารพข้อจำกัดทางสังคมและการบำรุงรักษาของโค้ดเบสเป้าหมายหรือไม่ ตัวแทนที่สร้างแพตช์ที่ถูกต้องแต่ทำให้ผู้ดูแลเสียเวลาในการตรวจสอบยังคงมีราคาแพง

ตรรกะนั้นนำไปใช้นอกเหนือจากโอเพ่นซอร์ส ทีมแพลตฟอร์มภายใน โมโนเรโพสที่ใช้ร่วมกัน และโค้ดเบสอินฟาเรดหนักๆ มีโหมดความล้มเหลวเหมือนกัน: เอเจนต์สร้างความแตกต่างที่น่าเชื่อได้เร็วกว่าที่มนุษย์สามารถตรวจสอบเจตนา ผลข้างเคียง และแบบแผนของท้องถิ่นได้ The useful response is not more autonomous PR volume. It is higher-quality evidence attached to each diff.

มุม TRH: การกู้คืนโทเค็นเริ่มต้นก่อนการตรวจสอบ

Token Robin Hood ผู้อ่านควรอ่านเรื่องนี้เป็นเรื่องราวเกี่ยวกับวินัย ของเสียจากการตรวจสอบยังคงเป็นของเสียจากการใช้งาน หากตัวแทนการเขียนโค้ดสร้าง PRs ที่เกือบถูกต้องสามตัว บังคับให้มนุษย์ค้นพบแบบแผนในท้องถิ่นอีกครั้ง และซ่อนการยืนยันที่สั่นคลอนไว้เบื้องหลังร้อยแก้วที่มั่นใจ คุณกำลังเผาบริบทที่มีราคาแพงก่อนที่การรวมจะเกิดขึ้น

คำตอบของ Hugging Face มีความแข็งแกร่งในการปฏิบัติงานเนื่องจากทำให้ขอบเขตแคบลงและเพิ่มหลักฐาน เจ้าหน้าที่บอกสิ่งที่ไม่ควรสัมผัส เอาต์พุตมีอาร์ติแฟกต์ที่ทำซ้ำได้ ผู้ตรวจสอบจะมีพื้นฐานที่ดีกว่าในการตอบตกลงอย่างรวดเร็ว นั่นคือการปรับให้เหมาะสมที่คงทนมากกว่าการไล่ตามอัตราการสำเร็จอัตโนมัติที่สูงขึ้น

สิ่งที่ผู้สร้างควรทำต่อไป

หากทีมของคุณใช้ Codex, Claude Code หรือตัวแทนที่คล้ายกันในโค้ดที่ใช้งานจริง ให้กำหนดสัญญาของผู้ตรวจสอบ กำหนดให้แต่ละเอเจนต์รันเพื่อปล่อยขอบเขต สมมติฐาน คำสั่งการตรวจสอบ และบันเดิลอาร์ติแฟกต์ที่ทำซ้ำได้ เก็บรายการพฤติกรรมต้องห้าม เช่น ตัวรีแฟคเตอร์ที่ไม่พึงประสงค์ การแก้ไขการใช้งานร่วมกัน หรือการล้างรูปแบบการออกแบบ เว้นแต่ว่างานจะขออย่างชัดเจน

หากคุณรันโค้ดเบสที่มีภาระในการบำรุงรักษาจริง ให้พิจารณาแนวทาง Hugging Face เป็นเทมเพลต: ทักษะตัวแทนสำหรับการดำเนินการแบบแคบ การควบคุมภายนอกสำหรับการตรวจสอบ และความเป็นเจ้าของของมนุษย์สำหรับ PR สุดท้าย นั่นคือเส้นทางที่เปลี่ยน Code Agent ให้เป็น Leverage แทนที่จะเป็นหนี้ของผู้ตรวจสอบ