Hugging Face แสดง Playbook แรกของผู้ตรวจสอบสำหรับตัวแทนโค้ด: ทักษะ ชุดทดสอบ และ PRs ที่บำรุงรักษาได้
หนึ่งในโพสต์เกี่ยวกับการเขียนโค้ดที่มีประโยชน์มากที่สุดในเดือนนี้ไม่ได้ประกาศโมเดล ก็ได้ประกาศมาตรฐาน ในการเขียนบทความเมื่อวันที่ 16 เมษายนของ Hugging Face ทีมงานแย้งว่าในที่สุด Code Agent ก็ดีพอที่จะสร้างปัญหาใหม่ได้: ผู้ดูแลกำลังจมอยู่ใน PRs ที่น่าเชื่อถือ คำตอบของพวกเขาไม่ใช่ "ห้ามตัวแทน" เป็นการบังคับให้ตัวแทนสร้างสัญญาณระดับผู้ตรวจสอบ
transformers โมเดลต่างๆ เข้ามา mlx-lm ในขณะเดียวกันก็ทำให้ PRs สามารถทำซ้ำได้และเป็นมิตรกับผู้ตรวจสอบสิ่งที่ Hugging Face สร้างขึ้นจริงๆ
โพสต์นี้อธิบายถึงทักษะที่พอร์ตการใช้งานแบบจำลอง transformers เข้าไปข้างใน mlx-lm. เอเจนต์จะตั้งค่าสภาพแวดล้อม ตรวจสอบการกำหนดค่า ดาวน์โหลดจุดตรวจสอบ เขียนการใช้งาน และทำซ้ำจนกว่าการทดสอบจะผ่าน แต่ตัวเลือกการออกแบบหลักคือวัฒนธรรม ไม่ใช่ทางเทคนิค: ทักษะได้รับการกำหนดกรอบไว้อย่างชัดเจนว่าเป็นการสนับสนุนสำหรับผู้สนับสนุนและผู้ตรวจสอบ ไม่ใช่บอท PR ที่ส่งและลืม
Hugging Face จับคู่ทักษะกับชุดทดสอบที่ไม่ใช่เอเจนต์แยกต่างหาก ชุดควบคุมดังกล่าวจะจัดเก็บรายงาน รายละเอียดโมเดล อินพุตและเอาท์พุตดิบ และคัดลอกโค้ดทดสอบ เพื่อให้ทุกคนสามารถสร้างผลลัพธ์ใหม่นอกเซสชั่นโมเดลได้ บทความนี้ยังเน้นย้ำถึงบรรทัดฐานที่ PRs ที่สร้างโดยเอเจนต์มักจะพลาด: หลีกเลี่ยงการสร้างซ้ำเชิงคาดเดา อย่าแตะต้องยูทิลิตี้ที่ใช้ร่วมกันโดยไม่ตั้งใจ และทำให้โค้ดดูเหมือนเป็นสิ่งที่มนุษย์ระมัดระวังจะเปิดขึ้นโดยตั้งใจ
เหตุใดจึงสำคัญสำหรับทีมตัวแทนการเข้ารหัส
นี่คือกรอบการดำเนินการโค้ดเอเจนต์ที่เป็นผู้ใหญ่ที่สุดจนถึงตอนนี้ คอขวดไม่ใช่แค่ว่าโมเดลจะสามารถเขียนโค้ดได้หรือไม่เท่านั้น อยู่ที่ว่าเอาต์พุตจะเคารพข้อจำกัดทางสังคมและการบำรุงรักษาของโค้ดเบสเป้าหมายหรือไม่ ตัวแทนที่สร้างแพตช์ที่ถูกต้องแต่ทำให้ผู้ดูแลเสียเวลาในการตรวจสอบยังคงมีราคาแพง
ตรรกะนั้นนำไปใช้นอกเหนือจากโอเพ่นซอร์ส ทีมแพลตฟอร์มภายใน โมโนเรโพสที่ใช้ร่วมกัน และโค้ดเบสอินฟาเรดหนักๆ มีโหมดความล้มเหลวเหมือนกัน: เอเจนต์สร้างความแตกต่างที่น่าเชื่อได้เร็วกว่าที่มนุษย์สามารถตรวจสอบเจตนา ผลข้างเคียง และแบบแผนของท้องถิ่นได้ The useful response is not more autonomous PR volume. It is higher-quality evidence attached to each diff.
มุม TRH: การกู้คืนโทเค็นเริ่มต้นก่อนการตรวจสอบ
Token Robin Hood ผู้อ่านควรอ่านเรื่องนี้เป็นเรื่องราวเกี่ยวกับวินัย ของเสียจากการตรวจสอบยังคงเป็นของเสียจากการใช้งาน หากตัวแทนการเขียนโค้ดสร้าง PRs ที่เกือบถูกต้องสามตัว บังคับให้มนุษย์ค้นพบแบบแผนในท้องถิ่นอีกครั้ง และซ่อนการยืนยันที่สั่นคลอนไว้เบื้องหลังร้อยแก้วที่มั่นใจ คุณกำลังเผาบริบทที่มีราคาแพงก่อนที่การรวมจะเกิดขึ้น
คำตอบของ Hugging Face มีความแข็งแกร่งในการปฏิบัติงานเนื่องจากทำให้ขอบเขตแคบลงและเพิ่มหลักฐาน เจ้าหน้าที่บอกสิ่งที่ไม่ควรสัมผัส เอาต์พุตมีอาร์ติแฟกต์ที่ทำซ้ำได้ ผู้ตรวจสอบจะมีพื้นฐานที่ดีกว่าในการตอบตกลงอย่างรวดเร็ว นั่นคือการปรับให้เหมาะสมที่คงทนมากกว่าการไล่ตามอัตราการสำเร็จอัตโนมัติที่สูงขึ้น
สิ่งที่ผู้สร้างควรทำต่อไป
หากทีมของคุณใช้ Codex, Claude Code หรือตัวแทนที่คล้ายกันในโค้ดที่ใช้งานจริง ให้กำหนดสัญญาของผู้ตรวจสอบ กำหนดให้แต่ละเอเจนต์รันเพื่อปล่อยขอบเขต สมมติฐาน คำสั่งการตรวจสอบ และบันเดิลอาร์ติแฟกต์ที่ทำซ้ำได้ เก็บรายการพฤติกรรมต้องห้าม เช่น ตัวรีแฟคเตอร์ที่ไม่พึงประสงค์ การแก้ไขการใช้งานร่วมกัน หรือการล้างรูปแบบการออกแบบ เว้นแต่ว่างานจะขออย่างชัดเจน
หากคุณรันโค้ดเบสที่มีภาระในการบำรุงรักษาจริง ให้พิจารณาแนวทาง Hugging Face เป็นเทมเพลต: ทักษะตัวแทนสำหรับการดำเนินการแบบแคบ การควบคุมภายนอกสำหรับการตรวจสอบ และความเป็นเจ้าของของมนุษย์สำหรับ PR สุดท้าย นั่นคือเส้นทางที่เปลี่ยน Code Agent ให้เป็น Leverage แทนที่จะเป็นหนี้ของผู้ตรวจสอบ