Token Robin Hood
ตัวแทนเอไอ22 เมษายน 20266 นาที

เหตุใด AI แบบตัวแทนจึงรู้สึกว่ามีราคาแพง แม้ว่าราคาโมเดลจะดูดีก็ตาม

การร้องเรียนเรื่องค่าใช้จ่ายตัวแทนสาธารณะจำนวนมากไม่ใช่การร้องเรียนตัวอย่างจริงๆ เป็นการร้องเรียนรันไทม์ เมื่อทีมพูดว่า "AI แบบเอเจนต์มีราคาแพงเกินไป" ตัวคูณที่แท้จริงมักเป็นบริบทซ้ำๆ คำสั่งขนาดใหญ่ การอ่านไฟล์แบบเต็ม ลูปการยืนยัน และการเรียกใช้เครื่องมือแบบอนุกรมที่ดูสมเหตุสมผลทีละขั้นตอนและไร้สาระเมื่อนับต่องานที่ประสบความสำเร็จ

เกิดอะไรขึ้นตัวสร้างในเธรดสาธารณะมักจะอธิบายรูปแบบเดียวกัน: การเรียกเก็บเงินพุ่งสูงขึ้นก่อนที่เวิร์กโฟลว์จะรู้สึกว่ามีประโยชน์ เนื่องจากรันไทม์ยังคงจ่ายเงินสำหรับการรวบรวมบริบทและลูปควบคุม
เหตุใดผู้สร้างจึงสนใจราคาโมเดลดิบเป็นเพียงรายการเดียวเท่านั้น คำถามด้านงบประมาณที่ใหญ่กว่าคือจำนวนโทเค็นที่งานหนึ่งงานที่ประสบความสำเร็จจะเผาไหม้ตั้งแต่ต้นจนจบ
การดำเนินการ TRHบันทึกงานหนึ่งงานตั้งแต่การแจ้งเตือนครั้งแรกไปจนถึงสิ่งประดิษฐ์ขั้นสุดท้าย จากนั้นตัดแต่งเพย์โหลดที่ซ้ำ เครื่องมือแบบแบตช์ และเพิ่มกฎการหยุดก่อนที่จะเปลี่ยนผู้ขาย

นี่คือปัญหาเวิร์กโฟลว์ก่อนที่จะเป็นปัญหาของผู้จัดจำหน่าย

สัญญาณที่ชัดเจนที่สุดมาจากการถ่ายทอดสด r/AI_Agents การสนทนา: ผู้สร้างอธิบายพรอมต์ของระบบขนาดยักษ์ การอ่านไฟล์แบบเต็ม ห่วงโซ่เครื่องมือแบบอนุกรม และ "เพียงแค่ตรวจสอบ" ลูปที่กองต้นทุนไว้กับงานเดียวกันก่อนที่โมเดลจะสร้างสิ่งที่คุ้มค่าต่อการตัดสินใจ นั่นไม่ใช่เรื่องราวมาตรฐาน มันเป็นเรื่องราวการออกแบบรันไทม์

รูปแบบเดียวกันนั้นปรากฏขึ้นที่อื่น ในการแยก r/LangChain เธรดโหมดความล้มเหลวจะถูกแทรกไฟล์ข้อมูลระบุตัวตนและคำอธิบายเครื่องมือซ้ำๆ ในทุกลูป ในก r/LocalLLaMA เธรดของเสียปรากฏเป็นแนวทางการซื้อคืนก่อนที่งานจะเริ่มต้นด้วยซ้ำ เครื่องมือต่างกัน เศรษฐศาสตร์เดียวกัน

สิ่งที่ทำให้สแต็ครู้สึกว่ามีราคาแพงจริงๆ

ส่วนที่มีราคาแพงมักจะไม่ใช่คำสั่งที่ใหญ่โตเพียงข้อเดียว เป็นต้นทุนเดียวกันที่จ่ายซ้ำแล้วซ้ำเล่า:

การรวบรวมบริบทซ้ำๆ คำแนะนำซ้ำ ไฟล์เดียวกันจะอ่านซ้ำหลังจากสาขาเล็กๆ ทุกสาขาในเวิร์กโฟลว์ การเรียกเครื่องมือที่สามารถแบทช์ได้ แต่ถูกซีเรียลไลซ์ ลูปการยืนยันที่ทำให้สายรัดรู้สึกปลอดภัยในขณะที่งบประมาณโทเค็นรั่วไหลอยู่เสมอ

นั่นคือเหตุผลว่าทำไม "ราคาถูกต่อโทเค็น" จึงยังสามารถเปลี่ยนเป็นระบบที่มีราคาแพงได้ ราคาต่อโทเค็นเป็นอินพุต ต้นทุนต่องานที่ประสบความสำเร็จคือจำนวนการปฏิบัติงานที่สำคัญจริงๆ

ทีมไหนควรวัดกันต่อไป

หากคุณต้องการค้นหาตัวคูณที่แท้จริง ให้หยุดวัดเฉพาะการใช้จ่ายของผู้ให้บริการ และเริ่มวัดการทำงาน ให้รหัสงานทุกครั้ง ติดตามบริบทการสัมผัสครั้งแรก บริบทการสัมผัสครั้งสุดท้าย จำนวนการเรียกใช้เครื่องมือ ขนาดของเพย์โหลดคงที่ซ้ำ การลองใหม่ และดูว่าส่วนสุดท้ายมีประโยชน์เพียงพอที่จะเก็บไว้หรือไม่ เมื่อสิ่งนั้นเกิดขึ้น รูปแบบของขยะก็มักจะหยุดซ่อนตัว

นี่คือที่ __TRH_PH_0__ เหมาะที่สุด: ไม่ใช่คำมั่นสัญญาว่าทุกเวิร์กโฟลว์จะถูกลงอย่างน่าอัศจรรย์ แต่เป็นวิธีการวิเคราะห์ว่าการใช้งานจะขยายออกไปตรงไหนก่อนที่คุณภาพเอาต์พุตจะเหมาะสม

ขั้นต่อไปในทางปฏิบัติ

เลือกขั้นตอนการทำงานหนึ่งที่รู้สึกว่ามีราคาแพงอยู่แล้ว เรียกใช้ครั้งเดียวโดยเปิดการบันทึก แมปโทเค็นที่ใช้ในการตั้งค่า การนำทาง เพย์โหลดซ้ำ การลองใหม่ และงานที่เป็นประโยชน์ในขั้นสุดท้าย จากนั้นลบเพย์โหลดที่ซ้ำกันหนึ่งรายการ ลูปควบคุมหนึ่งรายการ และการอ่านที่ไม่จำเป็นหนึ่งรายการจากการรันครั้งถัดไป ซึ่งโดยปกติจะสอนคุณมากกว่าสเปรดชีตเปรียบเทียบแบบจำลองอื่นๆ

แหล่งที่มา