เหตุใด AI แบบตัวแทนจึงรู้สึกว่ามีราคาแพง แม้ว่าราคาโมเดลจะดูดีก็ตาม
การร้องเรียนเรื่องค่าใช้จ่ายตัวแทนสาธารณะจำนวนมากไม่ใช่การร้องเรียนตัวอย่างจริงๆ เป็นการร้องเรียนรันไทม์ เมื่อทีมพูดว่า "AI แบบเอเจนต์มีราคาแพงเกินไป" ตัวคูณที่แท้จริงมักเป็นบริบทซ้ำๆ คำสั่งขนาดใหญ่ การอ่านไฟล์แบบเต็ม ลูปการยืนยัน และการเรียกใช้เครื่องมือแบบอนุกรมที่ดูสมเหตุสมผลทีละขั้นตอนและไร้สาระเมื่อนับต่องานที่ประสบความสำเร็จ
นี่คือปัญหาเวิร์กโฟลว์ก่อนที่จะเป็นปัญหาของผู้จัดจำหน่าย
สัญญาณที่ชัดเจนที่สุดมาจากการถ่ายทอดสด r/AI_Agents การสนทนา: ผู้สร้างอธิบายพรอมต์ของระบบขนาดยักษ์ การอ่านไฟล์แบบเต็ม ห่วงโซ่เครื่องมือแบบอนุกรม และ "เพียงแค่ตรวจสอบ" ลูปที่กองต้นทุนไว้กับงานเดียวกันก่อนที่โมเดลจะสร้างสิ่งที่คุ้มค่าต่อการตัดสินใจ นั่นไม่ใช่เรื่องราวมาตรฐาน มันเป็นเรื่องราวการออกแบบรันไทม์
รูปแบบเดียวกันนั้นปรากฏขึ้นที่อื่น ในการแยก r/LangChain เธรดโหมดความล้มเหลวจะถูกแทรกไฟล์ข้อมูลระบุตัวตนและคำอธิบายเครื่องมือซ้ำๆ ในทุกลูป ในก r/LocalLLaMA เธรดของเสียปรากฏเป็นแนวทางการซื้อคืนก่อนที่งานจะเริ่มต้นด้วยซ้ำ เครื่องมือต่างกัน เศรษฐศาสตร์เดียวกัน
สิ่งที่ทำให้สแต็ครู้สึกว่ามีราคาแพงจริงๆ
ส่วนที่มีราคาแพงมักจะไม่ใช่คำสั่งที่ใหญ่โตเพียงข้อเดียว เป็นต้นทุนเดียวกันที่จ่ายซ้ำแล้วซ้ำเล่า:
การรวบรวมบริบทซ้ำๆ คำแนะนำซ้ำ ไฟล์เดียวกันจะอ่านซ้ำหลังจากสาขาเล็กๆ ทุกสาขาในเวิร์กโฟลว์ การเรียกเครื่องมือที่สามารถแบทช์ได้ แต่ถูกซีเรียลไลซ์ ลูปการยืนยันที่ทำให้สายรัดรู้สึกปลอดภัยในขณะที่งบประมาณโทเค็นรั่วไหลอยู่เสมอ
นั่นคือเหตุผลว่าทำไม "ราคาถูกต่อโทเค็น" จึงยังสามารถเปลี่ยนเป็นระบบที่มีราคาแพงได้ ราคาต่อโทเค็นเป็นอินพุต ต้นทุนต่องานที่ประสบความสำเร็จคือจำนวนการปฏิบัติงานที่สำคัญจริงๆ
ทีมไหนควรวัดกันต่อไป
หากคุณต้องการค้นหาตัวคูณที่แท้จริง ให้หยุดวัดเฉพาะการใช้จ่ายของผู้ให้บริการ และเริ่มวัดการทำงาน ให้รหัสงานทุกครั้ง ติดตามบริบทการสัมผัสครั้งแรก บริบทการสัมผัสครั้งสุดท้าย จำนวนการเรียกใช้เครื่องมือ ขนาดของเพย์โหลดคงที่ซ้ำ การลองใหม่ และดูว่าส่วนสุดท้ายมีประโยชน์เพียงพอที่จะเก็บไว้หรือไม่ เมื่อสิ่งนั้นเกิดขึ้น รูปแบบของขยะก็มักจะหยุดซ่อนตัว
นี่คือที่ __TRH_PH_0__ เหมาะที่สุด: ไม่ใช่คำมั่นสัญญาว่าทุกเวิร์กโฟลว์จะถูกลงอย่างน่าอัศจรรย์ แต่เป็นวิธีการวิเคราะห์ว่าการใช้งานจะขยายออกไปตรงไหนก่อนที่คุณภาพเอาต์พุตจะเหมาะสม
ขั้นต่อไปในทางปฏิบัติ
เลือกขั้นตอนการทำงานหนึ่งที่รู้สึกว่ามีราคาแพงอยู่แล้ว เรียกใช้ครั้งเดียวโดยเปิดการบันทึก แมปโทเค็นที่ใช้ในการตั้งค่า การนำทาง เพย์โหลดซ้ำ การลองใหม่ และงานที่เป็นประโยชน์ในขั้นสุดท้าย จากนั้นลบเพย์โหลดที่ซ้ำกันหนึ่งรายการ ลูปควบคุมหนึ่งรายการ และการอ่านที่ไม่จำเป็นหนึ่งรายการจากการรันครั้งถัดไป ซึ่งโดยปกติจะสอนคุณมากกว่าสเปรดชีตเปรียบเทียบแบบจำลองอื่นๆ