Runway Research
रनवे रिसर्च: मल्टीमॉडल एआई और वीडियो जनरेशन
फेनाकी एक उन्नत एआई मॉडल है जो बदलते टेक्स्ट प्रॉम्प्ट से यथार्थवादी, लंबे वीडियो बनाता है। साधारण विवरणों से गतिशील दृश्य कहानियाँ, एनिमेशन और दृश्य बनाएँ।
फेनाकी एक अत्याधुनिक वीडियो निर्माण मॉडल है जो टेक्स्ट प्रॉम्प्ट के अनुक्रमों को लंबे वीडियो में बदल देता है। पारंपरिक वीडियो संश्लेषण उपकरणों के विपरीत, जो फ्रेम-दर-फ्रेम काम करते हैं या स्थिर इनपुट का उपयोग करते हैं, फेनाकी को बदलते कथानक को संभालने के लिए डिज़ाइन किया गया है। यह उच्च-गुणवत्ता वाले, सुसंगत वीडियो बना सकता है जो कई मिनटों तक चलते हैं—प्रॉम्प्ट बदलते ही दृश्यों और संदर्भों के बीच सहजता से संक्रमण करते हैं।
फेनाकी असतत टोकन और कारणात्मक लौकिक ध्यान पर आधारित एक नवीन वीडियो प्रतिनिधित्व प्रणाली का उपयोग करता है। यह दृष्टिकोण इसे स्थानिक और लौकिक सुसंगतता बनाए रखते हुए परिवर्तनशील लंबाई के वीडियो के साथ काम करने की अनुमति देता है। यह उन शुरुआती मॉडलों में से एक है जो टेक्स्ट इनपुट की एक गतिशील श्रृंखला के आधार पर निरंतर वीडियो बनाने में सक्षम है, जो इसे कहानी कहने और एनिमेटेड सामग्री निर्माण के लिए आदर्श बनाता है।
यह प्रक्रिया एक टेक्स्ट प्रॉम्प्ट या समय के साथ प्रॉम्प्ट के एक क्रम से शुरू होती है। इन्हें टेक्स्ट टोकन में परिवर्तित किया जाता है, जो एक मास्क्ड ट्रांसफॉर्मर मॉडल को कंडीशन करते हैं। ट्रांसफॉर्मर संपीड़ित वीडियो टोकन आउटपुट करता है, जिन्हें फिर एक पूर्ण-रिज़ॉल्यूशन वीडियो में डिकोड किया जाता है।
फेनाकी समय के साथ विकसित होने वाले प्रॉम्प्ट सीक्वेंस को सपोर्ट करके अपनी अलग पहचान बनाता है। इससे बिना किसी मैन्युअल वीडियो एडिटिंग के कहानियाँ या सीन ट्रांज़िशन बनाना संभव हो जाता है। उदाहरण के लिए, एक वीडियो «एक टेडी बियर तैरते हुए» से शुरू हो सकता है, फिर «भालू समुद्र तट पर टहलता है» पर जा सकता है, और «भालू कैम्प फायर के पास» पर खत्म हो सकता है—ये सब एक ही क्लिप में।
एक विशेष वीडियो एनकोडर समय के साथ कारणात्मक ध्यान का उपयोग करके प्रत्येक दृश्य को टोकन में संपीड़ित करता है। यह संपीड़न विधि वीडियो की गुणवत्ता को बनाए रखते हुए कम्प्यूटेशनल लोड को महत्वपूर्ण रूप से कम करती है, जिससे लंबी और अधिक विस्तृत पीढ़ी संभव होती है।
फेनाकी उन कलाकारों, लेखकों और एनिमेटरों के लिए आदर्श है जो कहानियों को जीवंत बनाना चाहते हैं। विकसित होते पाठ से जटिल दृश्यों को गढ़ने की क्षमता इसे कॉन्सेप्ट वीडियो, प्रयोगात्मक फिल्मों और कथात्मक कलाकृतियों के लिए उपयुक्त बनाती है।
शिक्षक सीखने के परिदृश्यों का वर्णन कर सकते हैं — जैसे वैज्ञानिक सिमुलेशन, ऐतिहासिक पुनर्रचना, या एनिमेटेड प्रदर्शन — और तुरंत प्रासंगिक वीडियो तैयार कर सकते हैं जो छात्रों की सहभागिता को बढ़ाते हैं।
फ़िल्म स्टूडियो और कंटेंट निर्माता, स्टोरीबोर्ड और विज़ुअल सीक्वेंस के प्रोटोटाइप बनाने के लिए फेनाकी का इस्तेमाल कर सकते हैं। स्केच या मॉकअप पर घंटों समय बिताने के बजाय, निर्माता सीधे स्क्रिप्ट से ही अपनी अवधारणाओं को साकार कर सकते हैं।
फेनाकी कई मिनट की कहानियाँ रच सकते हैं: भविष्य के शहर के ट्रैफ़िक जाम से लेकर → एक एलियन अंतरिक्ष यान के आगमन तक → एक नीले कमरे में एक अंतरिक्ष यात्री तक → और एक ऊँची इमारत वाले कार्यालय में सूट पहने एक शेर के साथ समाप्त होने तक
फेनाकी स्थिर छवि और पाठ संकेत से भी सृजन की अनुमति देता है, तथा दिए गए फ्रेम से निरंतर अग्रगामी गति उत्पन्न करता है।
यह मॉडल एक टेम्पोरल-अवेयर एनकोडर का उपयोग करके वीडियो डेटा को असतत टोकन में संपीड़ित करता है। इससे हार्डवेयर आवश्यकताओं को कम करते हुए लंबी क्लिप को प्रोसेस करना संभव हो जाता है।
फेनाकी को छवि-पाठ और वीडियो-पाठ, दोनों युग्मों का उपयोग करके प्रशिक्षित किया गया था। यह हाइब्रिड डेटासेट डिज़ाइन सामान्यीकरण को बेहतर बनाता है और मॉडल को सीमित वीडियो डेटा के साथ भी, विभिन्न परिदृश्यों में सामग्री उत्पन्न करने में सक्षम बनाता है।
फेनाकी मौजूदा मॉडलों की तुलना में बेहतर टेम्पोरल और स्थानिक गुणवत्ता प्राप्त करता है। इसकी ट्रांसफॉर्मर-आधारित वास्तुकला और कुशल टोकनाइज़र डिज़ाइन, फ़्रेमों में सुसंगतता में सुधार करते हुए, आर्टिफैक्ट्स को कम करने में मदद करते हैं।
हालाँकि वर्तमान में इसे एक शोध पूर्वावलोकन के रूप में प्रस्तुत किया गया है, फेनाकी ओपन-डोमेन वीडियो निर्माण के भविष्य को दर्शाता है। भविष्य के संस्करण सार्वजनिक पहुँच या डेवलपर टूल्स की अनुमति दे सकते हैं ताकि इसकी क्षमताओं को रचनात्मक वर्कफ़्लो में एकीकृत किया जा सके।
उत्पन्न वीडियो देखने और संपूर्ण शोध पत्र पढ़ने के लिए phenaki.video पर जाएं।