تعمل Waypoint-1.5 على تقريب النماذج العالمية في الوقت الفعلي من سير عمل الوكلاء المحليين
يدور منشور Hugging Face Waypoint-1.5 حول العوالم التوليدية، لكن إشارة البناء الأكبر هي التفاعل المحلي: المزيد من أعباء عمل الذكاء الاصطناعي تنتقل من العروض التوضيحية السحابية إلى الأجهزة التي يمكن للأشخاص تشغيلها فعليًا.
ما شحنها
Waypoint-1.5 هو نموذج عالم الفيديو التالي في الوقت الفعلي من Overworld. يشير إصدار Hugging Face إلى أن النموذج مصمم للبيئات التوليدية التفاعلية على الأجهزة التي يمتلكها الأشخاص، وليس فقط للعروض التوضيحية على نطاق مراكز البيانات. يتضمن طبقة 720 بكسل لوحدات معالجة الرسومات مثل RTX 3090 إلى 5090 وطبقة 360 بكسل مخصصة للأجهزة الأوسع، بما في ذلك أجهزة الكمبيوتر المحمولة المخصصة للألعاب ودعم Apple Silicon المستقبلي.
يقول التحديث أيضًا أن النموذج قد تم تدريبه على بيانات أكثر بحوالي 100 مرة من إصدار Waypoint الأول ويستخدم تقنيات أكثر كفاءة لنمذجة الفيديو لتقليل الحسابات الزائدة عبر الإطارات. وهذا مهم لأنه يتم الحكم على النماذج العالمية من خلال وقت الاستجابة والتماسك، وليس فقط من خلال جودة الإطار المعزولة.
لماذا هذا مهم خارج نطاق الألعاب
عادةً ما تتم مناقشة البيئات التي يتم إنشاؤها في الوقت الفعلي على أنها ترفيه. يجب على البناة قراءة الإصدار على نطاق أوسع. يمكن أن يصبح نموذج العالم المحلي وسيلة محاكاة رخيصة، أو سطحًا اصطناعيًا لضمان الجودة، أو معملًا لنماذج المنتجات، أو صندوقًا مرئيًا للوكلاء الذين يحتاجون إلى التفكير في الحالة المكانية.
السؤال المفيد ليس ما إذا كان Waypoint-1.5 سيحل محل محرك اللعبة. لا حاجة لذلك. والسؤال المفيد هو ما إذا كان النموذج التفاعلي المحلي يمكنه تقليل عدد الاستدعاءات السحابية اللازمة لاستكشاف تصميم ما، أو اختبار سلوك ما، أو إنشاء بيئة تدريب ضيقة.
زاوية TRH: يمكن للحلقات المحلية استرداد الإنفاق
يهتم Token Robin Hood بنفس النمط عبر النص والترميز والعمل متعدد الوسائط: يجب حجز الحلقات البعيدة باهظة الثمن للحظات التي تحتاج إليها. إذا كان بإمكان شركة البناء إجراء استكشاف مبكر محليًا، فيمكن استخدام نموذج الحدود المدفوع لاتخاذ قرارات ذات رافعة مالية أعلى بدلاً من كل تكرار.
وهذا مهم بشكل خاص لفرق الوكلاء. يمكن أن يصبح الوكلاء الذين يقومون بإنشاء الأصول أو فحص المشاهد أو تقييم سلوك البيئة مكلفين للغاية عندما يحدث كل تغيير صغير في نموذج بعيد. يقوم المستوى المحلي بإنشاء صمام للميزانية: عمل شاق سريع في مكان قريب، وتفكير مكلف فقط عندما تكون القطعة الأثرية تستحق التصعيد.
ما الذي يجب على البناة فعله بعد ذلك
جرب العرض التوضيحي للمتصفح أو مسار Biome المحلي، ثم قم بقياس ثلاثة أشياء: زمن الاستجابة لكل تفاعل، وضغط ذاكرة وحدة معالجة الرسومات، وما إذا كانت جودة الإخراج جيدة بما يكفي لحلقة النموذج الأولي الفعلية الخاصة بك. لا تقارن فقط الإطار الأفضل. قم بقياس الحلقة الكاملة بدءًا من الإدخال الفوري أو التحكم إلى القرار القابل للاستخدام.
إذا كان المسار المحلي جيدًا بما فيه الكفاية، فاكتبه في سير العمل الخاص بك كمحاكاة للمرور الأول. إذا لم تكن جيدة بما فيه الكفاية بعد، احتفظ بها في قائمة المراقبة. لا يزال الاتجاه مهمًا: فالنماذج العالمية تتجه نحو التنفيذ المحلي التفاعلي، وهذا يغير الطريقة التي يجب أن يفكر بها البناة في الإنفاق على البنية التحتية للذكاء الاصطناعي.