Hugging Face20 अप्रैल, 20267 मिनट

वेपॉइंट-1.5 वास्तविक समय के विश्व मॉडल को स्थानीय एजेंट वर्कफ़्लो के करीब लाता है

Hugging Face का वेपॉइंट-1.5 पोस्ट जेनरेटिव दुनिया के बारे में है, लेकिन बड़ा बिल्डर सिग्नल स्थानीय इंटरैक्टिविटी है: अधिक एआई वर्कलोड क्लाउड डेमो से हार्डवेयर की ओर बढ़ रहा है जिसे लोग वास्तव में चला सकते हैं।

क्या हुआओवरवर्ल्ड ने Hugging Face पर वेप्वाइंट-1.5 वेट जारी किया, जिसमें हाई-एंड RTX GPU पर 720p सपोर्ट और व्यापक उपभोक्ता हार्डवेयर के लिए 360p टियर है।

बिल्डरों को इसकी परवाह क्यों है?इंटरैक्टिव विश्व मॉडल स्थानीय स्तर पर चलने पर सिमुलेशन, रचनात्मक टूलींग, गेम प्रोटोटाइप और एजेंट परीक्षण वातावरण बन सकते हैं।

TRH कार्रवाईप्रत्येक दृश्य या सिमुलेशन लूप को क्लाउड अनुमान पर भेजने से पहले स्थानीय विलंबता और जीपीयू लागत को बेंचमार्क करें।

क्या भेजा गया

वेपॉइंट-1.5 ओवरवर्ल्ड का अगला वास्तविक समय वीडियो वर्ल्ड मॉडल है। Hugging Face रिलीज़ का कहना है कि मॉडल केवल डेटासेंटर-स्केल डेमो के लिए ही नहीं, बल्कि हार्डवेयर लोगों के स्वामित्व वाले इंटरैक्टिव जेनरेटिव वातावरण के लिए बनाया गया है। इसमें RTX 3090 से 5090 जैसे GPU के लिए 720p टियर और गेमिंग लैपटॉप और भविष्य के Apple सिलिकॉन समर्थन सहित व्यापक मशीनों के लिए 360p टियर शामिल है।

अपडेट में यह भी कहा गया है कि मॉडल को पहले वेपॉइंट रिलीज की तुलना में लगभग 100 गुना अधिक डेटा पर प्रशिक्षित किया गया था और फ्रेम में अनावश्यक गणना को कम करने के लिए अधिक कुशल वीडियो मॉडलिंग तकनीकों का उपयोग किया गया है। यह मायने रखता है क्योंकि विश्व मॉडल को प्रतिक्रिया समय और सुसंगतता के आधार पर आंका जाता है, न कि केवल अलग-अलग फ्रेम गुणवत्ता के आधार पर।

यह गेमिंग से परे क्यों मायने रखता है?

वास्तविक समय में उत्पन्न वातावरण की चर्चा आमतौर पर मनोरंजन के रूप में की जाती है। बिल्डरों को विज्ञप्ति को अधिक व्यापक रूप से पढ़ना चाहिए। एक स्थानीय विश्व मॉडल उन एजेंटों के लिए एक सस्ता सिमुलेशन हार्नेस, एक सिंथेटिक क्यूए सतह, एक उत्पाद मॉकअप लैब या एक विज़ुअल सैंडबॉक्स बन सकता है, जिन्हें स्थानिक स्थिति पर तर्क करने की आवश्यकता होती है।

उपयोगी प्रश्न यह नहीं है कि वेपॉइंट-1.5 गेम इंजन को प्रतिस्थापित करता है या नहीं। इसकी जरूरत नहीं है. उपयोगी प्रश्न यह है कि क्या एक स्थानीय इंटरैक्टिव मॉडल किसी डिज़ाइन का पता लगाने, किसी व्यवहार का परीक्षण करने या एक संकीर्ण प्रशिक्षण वातावरण उत्पन्न करने के लिए आवश्यक क्लाउड कॉल की संख्या को कम कर सकता है।

TRH कोण: स्थानीय लूप खर्च की वसूली कर सकते हैं

Token Robin Hood टेक्स्ट, कोडिंग और मल्टीमॉडल कार्यों में समान पैटर्न की परवाह करता है: महंगे रिमोट लूप को उन क्षणों के लिए आरक्षित किया जाना चाहिए जिनकी उन्हें आवश्यकता है। यदि कोई बिल्डर स्थानीय स्तर पर प्रारंभिक अन्वेषण कर सकता है, तो भुगतान किए गए फ्रंटियर मॉडल का उपयोग प्रत्येक पुनरावृत्ति के बजाय उच्च-लीवरेज निर्णयों के लिए किया जा सकता है।

यह एजेंट टीमों के लिए विशेष रूप से प्रासंगिक है। एजेंट जो संपत्ति उत्पन्न करते हैं, दृश्यों का निरीक्षण करते हैं, या पर्यावरण के व्यवहार का मूल्यांकन करते हैं, वे बहुत महंगे हो सकते हैं जब हर छोटा परिवर्तन एक दूरस्थ मॉडल पर पड़ता है। एक स्थानीय स्तर एक बजट वाल्व बनाता है: पास में तेजी से रफ काम, महँगा तर्क केवल तभी जब कलाकृति आगे बढ़ने लायक हो।

बिल्डरों को आगे क्या करना चाहिए

ब्राउज़र डेमो या स्थानीय बायोम रूट आज़माएं, फिर तीन चीजों को मापें: प्रति इंटरैक्शन विलंबता, जीपीयू मेमोरी दबाव, और क्या आउटपुट गुणवत्ता आपके वास्तविक प्रोटोटाइप लूप के लिए पर्याप्त है। केवल सर्वोत्तम फ़्रेम को बेंचमार्क न करें. शीघ्र या नियंत्रण इनपुट से प्रयोग योग्य निर्णय तक पूर्ण लूप को बेंचमार्क करें।

यदि स्थानीय पथ पर्याप्त अच्छा है, तो इसे प्रथम-पास सिम्युलेटर के रूप में अपने वर्कफ़्लो में लिखें। यदि यह अभी भी पर्याप्त अच्छा नहीं है, तो इसे निगरानी सूची में रखें। दिशा अभी भी महत्वपूर्ण है: विश्व मॉडल इंटरैक्टिव स्थानीय निष्पादन की ओर बढ़ रहे हैं, और यह बदलता है कि बिल्डरों को एआई बुनियादी ढांचे के खर्च के बारे में कैसे सोचना चाहिए।