Hugging Face20 เมษายน 20267 นาที

Waypoint-1.5 นำโมเดลโลกแบบเรียลไทม์เข้าใกล้ขั้นตอนการทำงานของตัวแทนในพื้นที่มากขึ้น

โพสต์ Waypoint-1.5 ของ Hugging Face เป็นเรื่องเกี่ยวกับโลกกำเนิด แต่สัญญาณของผู้สร้างที่ใหญ่กว่าคือการโต้ตอบในท้องถิ่น: ปริมาณงาน AI มากขึ้นกำลังย้ายจากการสาธิตบนคลาวด์ไปสู่ฮาร์ดแวร์ที่ผู้คนสามารถทำงานได้จริง

เกิดอะไรขึ้นOverworld เปิดตัวน้ำหนัก Waypoint-1.5 บน Hugging Face โดยรองรับ 720p บน RTX GPU ระดับไฮเอนด์ และระดับ 360p สำหรับฮาร์ดแวร์สำหรับผู้บริโภคที่กว้างขึ้น

เหตุใดผู้สร้างจึงสนใจโมเดลโลกเชิงโต้ตอบสามารถกลายเป็นการจำลอง เครื่องมือสร้างสรรค์ การสร้างต้นแบบเกม และสภาพแวดล้อมการทดสอบเอเจนต์เมื่อทำงานในพื้นที่

การกระทำ TRHเปรียบเทียบเวลาแฝงในพื้นที่และค่าใช้จ่าย GPU ก่อนที่จะส่งทุกลูปภาพหรือการจำลองไปยังการอนุมานบนคลาวด์

จัดส่งอะไร.

Waypoint-1.5 คือโมเดลโลกวิดีโอแบบเรียลไทม์ถัดไปของ Overworld รุ่น Hugging Face กล่าวว่าแบบจำลองนี้สร้างขึ้นสำหรับสภาพแวดล้อมการสร้างเชิงโต้ตอบบนฮาร์ดแวร์ที่เป็นเจ้าของ ไม่เพียงแต่สำหรับการสาธิตในระดับศูนย์ข้อมูลเท่านั้น ประกอบด้วยระดับ 720p สำหรับ GPU เช่น RTX 3090 ถึง 5090 และระดับ 360p สำหรับเครื่องที่กว้างขึ้น รวมถึงแล็ปท็อปสำหรับเล่นเกมและการรองรับ Apple Silicon ในอนาคต

การอัปเดตยังกล่าวอีกว่าโมเดลดังกล่าวได้รับการฝึกอบรมเกี่ยวกับข้อมูลมากกว่า Waypoint รุ่นแรกเกือบ 100 เท่า และใช้เทคนิคการสร้างแบบจำลองวิดีโอที่มีประสิทธิภาพมากขึ้นเพื่อลดการคำนวณซ้ำซ้อนในเฟรมต่างๆ นั่นสำคัญเพราะแบบจำลองของโลกถูกตัดสินโดยเวลาตอบสนองและความเชื่อมโยง ไม่ใช่เพียงคุณภาพของเฟรมที่แยกออกมาเท่านั้น

เหตุใดสิ่งนี้จึงมีความสำคัญมากกว่าการเล่นเกม

สภาพแวดล้อมที่สร้างขึ้นแบบเรียลไทม์มักถูกกล่าวถึงว่าเป็นความบันเทิง ผู้สร้างควรอ่านข่าวประชาสัมพันธ์ให้กว้างขึ้น แบบจำลองโลกในท้องถิ่นสามารถกลายมาเป็นอุปกรณ์จำลองราคาถูก พื้นผิว QA สังเคราะห์ ห้องปฏิบัติการจำลองผลิตภัณฑ์ หรือกล่องทดสอบภาพสำหรับตัวแทนที่ต้องการให้เหตุผลเกี่ยวกับสถานะเชิงพื้นที่

คำถามที่มีประโยชน์ไม่ใช่ว่า Waypoint-1.5 จะเข้ามาแทนที่เอ็นจิ้นเกมหรือไม่ มันไม่จำเป็นต้อง คำถามที่มีประโยชน์คือโมเดลเชิงโต้ตอบเฉพาะที่ช่วยลดจำนวนการเรียกใช้บนคลาวด์ที่จำเป็นในการสำรวจการออกแบบ ทดสอบพฤติกรรม หรือสร้างสภาพแวดล้อมการฝึกอบรมที่แคบได้หรือไม่

มุม TRH: ลูปท้องถิ่นสามารถกู้คืนการใช้จ่ายได้

Token Robin Hood ให้ความสำคัญกับรูปแบบเดียวกันทั้งข้อความ การเขียนโค้ด และการทำงานต่อเนื่องหลายรูปแบบ: ควรสงวนการวนซ้ำระยะไกลราคาแพงไว้ในช่วงเวลาที่ต้องการ หากผู้สร้างสามารถทำการสำรวจในพื้นที่ตั้งแต่เนิ่นๆ แบบจำลองขอบเขตแบบชำระเงินก็สามารถนำมาใช้สำหรับการตัดสินใจที่มีเลเวอเรจสูงกว่า แทนที่จะต้องทำซ้ำทุกครั้ง

สิ่งนี้เกี่ยวข้องโดยเฉพาะกับทีมตัวแทน เจ้าหน้าที่ที่สร้างสินทรัพย์ ตรวจสอบฉาก หรือประเมินพฤติกรรมของสภาพแวดล้อมอาจมีราคาแพงมากเมื่อการเปลี่ยนแปลงเล็กๆ น้อยๆ กระทบกับโมเดลระยะไกล ระดับท้องถิ่นสร้างวาล์วงบประมาณ: ทำงานคร่าวๆ อย่างรวดเร็วในบริเวณใกล้เคียง การให้เหตุผลราคาแพงเฉพาะเมื่อสิ่งประดิษฐ์นั้นคุ้มค่าที่จะเพิ่มระดับ

สิ่งที่ผู้สร้างควรทำต่อไป

ลองใช้การสาธิตเบราว์เซอร์หรือเส้นทาง Biome ในพื้นที่ จากนั้นวัดสามสิ่ง: เวลาแฝงต่อการโต้ตอบ ความดันหน่วยความจำ GPU และคุณภาพเอาต์พุตดีเพียงพอสำหรับลูปต้นแบบจริงของคุณหรือไม่ อย่าเปรียบเทียบเฉพาะเฟรมที่ดีที่สุดเท่านั้น เปรียบเทียบลูปทั้งหมดตั้งแต่อินพุตพร้อมท์หรืออินพุตควบคุมไปจนถึงการตัดสินใจที่ใช้งานได้

หากเส้นทางในเครื่องดีเพียงพอ ให้เขียนลงในเวิร์กโฟลว์ของคุณเป็นเครื่องจำลองการส่งผ่านครั้งแรก ถ้ายังไม่ดีพอก็เก็บไว้ใน watchlist ครับ ทิศทางยังคงมีความสำคัญ: โมเดลโลกกำลังมุ่งสู่การดำเนินการในท้องถิ่นแบบโต้ตอบ และนั่นเปลี่ยนวิธีที่ผู้สร้างควรคิดเกี่ยวกับการใช้จ่ายโครงสร้างพื้นฐาน AI