वेपॉइंट-1.5 वास्तविक समय के विश्व मॉडल को स्थानीय एजेंट वर्कफ़्लो के करीब लाता है
Hugging Face का वेपॉइंट-1.5 पोस्ट जेनरेटिव दुनिया के बारे में है, लेकिन बड़ा बिल्डर सिग्नल स्थानीय इंटरैक्टिविटी है: अधिक एआई वर्कलोड क्लाउड डेमो से हार्डवेयर की ओर बढ़ रहा है जिसे लोग वास्तव में चला सकते हैं।
क्या भेजा गया
वेपॉइंट-1.5 ओवरवर्ल्ड का अगला वास्तविक समय वीडियो वर्ल्ड मॉडल है। Hugging Face रिलीज़ का कहना है कि मॉडल केवल डेटासेंटर-स्केल डेमो के लिए ही नहीं, बल्कि हार्डवेयर लोगों के स्वामित्व वाले इंटरैक्टिव जेनरेटिव वातावरण के लिए बनाया गया है। इसमें RTX 3090 से 5090 जैसे GPU के लिए 720p टियर और गेमिंग लैपटॉप और भविष्य के Apple सिलिकॉन समर्थन सहित व्यापक मशीनों के लिए 360p टियर शामिल है।
अपडेट में यह भी कहा गया है कि मॉडल को पहले वेपॉइंट रिलीज की तुलना में लगभग 100 गुना अधिक डेटा पर प्रशिक्षित किया गया था और फ्रेम में अनावश्यक गणना को कम करने के लिए अधिक कुशल वीडियो मॉडलिंग तकनीकों का उपयोग किया गया है। यह मायने रखता है क्योंकि विश्व मॉडल को प्रतिक्रिया समय और सुसंगतता के आधार पर आंका जाता है, न कि केवल अलग-अलग फ्रेम गुणवत्ता के आधार पर।
यह गेमिंग से परे क्यों मायने रखता है?
वास्तविक समय में उत्पन्न वातावरण की चर्चा आमतौर पर मनोरंजन के रूप में की जाती है। बिल्डरों को विज्ञप्ति को अधिक व्यापक रूप से पढ़ना चाहिए। एक स्थानीय विश्व मॉडल उन एजेंटों के लिए एक सस्ता सिमुलेशन हार्नेस, एक सिंथेटिक क्यूए सतह, एक उत्पाद मॉकअप लैब या एक विज़ुअल सैंडबॉक्स बन सकता है, जिन्हें स्थानिक स्थिति पर तर्क करने की आवश्यकता होती है।
उपयोगी प्रश्न यह नहीं है कि वेपॉइंट-1.5 गेम इंजन को प्रतिस्थापित करता है या नहीं। इसकी जरूरत नहीं है. उपयोगी प्रश्न यह है कि क्या एक स्थानीय इंटरैक्टिव मॉडल किसी डिज़ाइन का पता लगाने, किसी व्यवहार का परीक्षण करने या एक संकीर्ण प्रशिक्षण वातावरण उत्पन्न करने के लिए आवश्यक क्लाउड कॉल की संख्या को कम कर सकता है।
TRH कोण: स्थानीय लूप खर्च की वसूली कर सकते हैं
Token Robin Hood टेक्स्ट, कोडिंग और मल्टीमॉडल कार्यों में समान पैटर्न की परवाह करता है: महंगे रिमोट लूप को उन क्षणों के लिए आरक्षित किया जाना चाहिए जिनकी उन्हें आवश्यकता है। यदि कोई बिल्डर स्थानीय स्तर पर प्रारंभिक अन्वेषण कर सकता है, तो भुगतान किए गए फ्रंटियर मॉडल का उपयोग प्रत्येक पुनरावृत्ति के बजाय उच्च-लीवरेज निर्णयों के लिए किया जा सकता है।
यह एजेंट टीमों के लिए विशेष रूप से प्रासंगिक है। एजेंट जो संपत्ति उत्पन्न करते हैं, दृश्यों का निरीक्षण करते हैं, या पर्यावरण के व्यवहार का मूल्यांकन करते हैं, वे बहुत महंगे हो सकते हैं जब हर छोटा परिवर्तन एक दूरस्थ मॉडल पर पड़ता है। एक स्थानीय स्तर एक बजट वाल्व बनाता है: पास में तेजी से रफ काम, महँगा तर्क केवल तभी जब कलाकृति आगे बढ़ने लायक हो।
बिल्डरों को आगे क्या करना चाहिए
ब्राउज़र डेमो या स्थानीय बायोम रूट आज़माएं, फिर तीन चीजों को मापें: प्रति इंटरैक्शन विलंबता, जीपीयू मेमोरी दबाव, और क्या आउटपुट गुणवत्ता आपके वास्तविक प्रोटोटाइप लूप के लिए पर्याप्त है। केवल सर्वोत्तम फ़्रेम को बेंचमार्क न करें. शीघ्र या नियंत्रण इनपुट से प्रयोग योग्य निर्णय तक पूर्ण लूप को बेंचमार्क करें।
यदि स्थानीय पथ पर्याप्त अच्छा है, तो इसे प्रथम-पास सिम्युलेटर के रूप में अपने वर्कफ़्लो में लिखें। यदि यह अभी भी पर्याप्त अच्छा नहीं है, तो इसे निगरानी सूची में रखें। दिशा अभी भी महत्वपूर्ण है: विश्व मॉडल इंटरैक्टिव स्थानीय निष्पादन की ओर बढ़ रहे हैं, और यह बदलता है कि बिल्डरों को एआई बुनियादी ढांचे के खर्च के बारे में कैसे सोचना चाहिए।