Phenaki

फेनाकी एक उन्नत एआई मॉडल है जो बदलते टेक्स्ट प्रॉम्प्ट से यथार्थवादी, लंबे वीडियो बनाता है। साधारण विवरणों से गतिशील दृश्य कहानियाँ, एनिमेशन और दृश्य बनाएँ।

एआई पर जाएं
Phenaki cover

फेनाकी के बारे में

फेनाकी क्या है?

फेनाकी एक अत्याधुनिक वीडियो निर्माण मॉडल है जो टेक्स्ट प्रॉम्प्ट के अनुक्रमों को लंबे वीडियो में बदल देता है। पारंपरिक वीडियो संश्लेषण उपकरणों के विपरीत, जो फ्रेम-दर-फ्रेम काम करते हैं या स्थिर इनपुट का उपयोग करते हैं, फेनाकी को बदलते कथानक को संभालने के लिए डिज़ाइन किया गया है। यह उच्च-गुणवत्ता वाले, सुसंगत वीडियो बना सकता है जो कई मिनटों तक चलते हैं—प्रॉम्प्ट बदलते ही दृश्यों और संदर्भों के बीच सहजता से संक्रमण करते हैं।

यह अनोखा क्यों है

फेनाकी असतत टोकन और कारणात्मक लौकिक ध्यान पर आधारित एक नवीन वीडियो प्रतिनिधित्व प्रणाली का उपयोग करता है। यह दृष्टिकोण इसे स्थानिक और लौकिक सुसंगतता बनाए रखते हुए परिवर्तनशील लंबाई के वीडियो के साथ काम करने की अनुमति देता है। यह उन शुरुआती मॉडलों में से एक है जो टेक्स्ट इनपुट की एक गतिशील श्रृंखला के आधार पर निरंतर वीडियो बनाने में सक्षम है, जो इसे कहानी कहने और एनिमेटेड सामग्री निर्माण के लिए आदर्श बनाता है।

फेनाकी कैसे काम करता है

टेक्स्ट-टू-वीडियो पाइपलाइन

यह प्रक्रिया एक टेक्स्ट प्रॉम्प्ट या समय के साथ प्रॉम्प्ट के एक क्रम से शुरू होती है। इन्हें टेक्स्ट टोकन में परिवर्तित किया जाता है, जो एक मास्क्ड ट्रांसफॉर्मर मॉडल को कंडीशन करते हैं। ट्रांसफॉर्मर संपीड़ित वीडियो टोकन आउटपुट करता है, जिन्हें फिर एक पूर्ण-रिज़ॉल्यूशन वीडियो में डिकोड किया जाता है।

समय-परिवर्तनीय संकेतों को संभालना

फेनाकी समय के साथ विकसित होने वाले प्रॉम्प्ट सीक्वेंस को सपोर्ट करके अपनी अलग पहचान बनाता है। इससे बिना किसी मैन्युअल वीडियो एडिटिंग के कहानियाँ या सीन ट्रांज़िशन बनाना संभव हो जाता है। उदाहरण के लिए, एक वीडियो «एक टेडी बियर तैरते हुए» से शुरू हो सकता है, फिर «भालू समुद्र तट पर टहलता है» पर जा सकता है, और «भालू कैम्प फायर के पास» पर खत्म हो सकता है—ये सब एक ही क्लिप में।

कुशल वीडियो एन्कोडिंग

एक विशेष वीडियो एनकोडर समय के साथ कारणात्मक ध्यान का उपयोग करके प्रत्येक दृश्य को टोकन में संपीड़ित करता है। यह संपीड़न विधि वीडियो की गुणवत्ता को बनाए रखते हुए कम्प्यूटेशनल लोड को महत्वपूर्ण रूप से कम करती है, जिससे लंबी और अधिक विस्तृत पीढ़ी संभव होती है।

फेनाकी के उपयोग के मामले

रचनात्मक कहानी सुनाना

फेनाकी उन कलाकारों, लेखकों और एनिमेटरों के लिए आदर्श है जो कहानियों को जीवंत बनाना चाहते हैं। विकसित होते पाठ से जटिल दृश्यों को गढ़ने की क्षमता इसे कॉन्सेप्ट वीडियो, प्रयोगात्मक फिल्मों और कथात्मक कलाकृतियों के लिए उपयुक्त बनाती है।

शैक्षिक सामग्री

शिक्षक सीखने के परिदृश्यों का वर्णन कर सकते हैं — जैसे वैज्ञानिक सिमुलेशन, ऐतिहासिक पुनर्रचना, या एनिमेटेड प्रदर्शन — और तुरंत प्रासंगिक वीडियो तैयार कर सकते हैं जो छात्रों की सहभागिता को बढ़ाते हैं।

फिल्म निर्माताओं के लिए रैपिड प्रोटोटाइपिंग

फ़िल्म स्टूडियो और कंटेंट निर्माता, स्टोरीबोर्ड और विज़ुअल सीक्वेंस के प्रोटोटाइप बनाने के लिए फेनाकी का इस्तेमाल कर सकते हैं। स्केच या मॉकअप पर घंटों समय बिताने के बजाय, निर्माता सीधे स्क्रिप्ट से ही अपनी अवधारणाओं को साकार कर सकते हैं।

क्रिया में फेनाकी के उदाहरण

दृश्य-आधारित वीडियो निर्माण

  • A teddy bear swims through the ocean → dives underwater → walks onto the beach → sits by a campfire
  • An astronaut walks on Mars → dances → walks a dog → watches fireworks with the dog

दीर्घ-रूप कथा उदाहरण

फेनाकी कई मिनट की कहानियाँ रच सकते हैं: भविष्य के शहर के ट्रैफ़िक जाम से लेकर → एक एलियन अंतरिक्ष यान के आगमन तक → एक नीले कमरे में एक अंतरिक्ष यात्री तक → और एक ऊँची इमारत वाले कार्यालय में सूट पहने एक शेर के साथ समाप्त होने तक

स्थिर फ़्रेम + प्रॉम्प्ट

फेनाकी स्थिर छवि और पाठ संकेत से भी सृजन की अनुमति देता है, तथा दिए गए फ्रेम से निरंतर अग्रगामी गति उत्पन्न करता है।

फेनाकी के पीछे अनुसंधान

वीडियो टोकनीकरण

यह मॉडल एक टेम्पोरल-अवेयर एनकोडर का उपयोग करके वीडियो डेटा को असतत टोकन में संपीड़ित करता है। इससे हार्डवेयर आवश्यकताओं को कम करते हुए लंबी क्लिप को प्रोसेस करना संभव हो जाता है।

संयुक्त प्रशिक्षण दृष्टिकोण

फेनाकी को छवि-पाठ और वीडियो-पाठ, दोनों युग्मों का उपयोग करके प्रशिक्षित किया गया था। यह हाइब्रिड डेटासेट डिज़ाइन सामान्यीकरण को बेहतर बनाता है और मॉडल को सीमित वीडियो डेटा के साथ भी, विभिन्न परिदृश्यों में सामग्री उत्पन्न करने में सक्षम बनाता है।

प्रदर्शन

फेनाकी मौजूदा मॉडलों की तुलना में बेहतर टेम्पोरल और स्थानिक गुणवत्ता प्राप्त करता है। इसकी ट्रांसफॉर्मर-आधारित वास्तुकला और कुशल टोकनाइज़र डिज़ाइन, फ़्रेमों में सुसंगतता में सुधार करते हुए, आर्टिफैक्ट्स को कम करने में मदद करते हैं।

फेनाकी का प्रयास करें

हालाँकि वर्तमान में इसे एक शोध पूर्वावलोकन के रूप में प्रस्तुत किया गया है, फेनाकी ओपन-डोमेन वीडियो निर्माण के भविष्य को दर्शाता है। भविष्य के संस्करण सार्वजनिक पहुँच या डेवलपर टूल्स की अनुमति दे सकते हैं ताकि इसकी क्षमताओं को रचनात्मक वर्कफ़्लो में एकीकृत किया जा सके।

उत्पन्न वीडियो देखने और संपूर्ण शोध पत्र पढ़ने के लिए phenaki.video पर जाएं।

वैकल्पिक उपकरण