Runway Research
Runway Research: Multimodal AI and Video Generation
फेनाकी एक उन्नत AI मॉडल है जो बदलते टेक्स्ट प्रॉम्प्ट से यथार्थवादी, लंबे-फ़ॉर्म वीडियो बनाता है। सादे विवरण से गतिशील दृश्य कहानियाँ, एनिमेशन और दृश्य बनाएँ।
फेनाकी एक अत्याधुनिक वीडियो जेनरेशन मॉडल है जो टेक्स्ट प्रॉम्प्ट के अनुक्रमों को लंबे-फ़ॉर्म वीडियो में बदल देता है। पारंपरिक वीडियो संश्लेषण उपकरणों के विपरीत जो फ्रेम-दर-फ्रेम काम करते हैं या स्थिर इनपुट का उपयोग करते हैं, फेनाकी को विकसित होने वाले आख्यानों को संभालने के लिए डिज़ाइन किया गया है। यह उच्च-गुणवत्ता वाले, सुसंगत वीडियो बना सकता है जो कई मिनट तक चलते हैं — प्रॉम्प्ट बदलते ही दृश्यों और संदर्भों के बीच सहजता से संक्रमण करते हैं।
Phenaki uses a novel video representation system based on discrete tokens and causal temporal attention. This approach allows it to work with videos of variable length while preserving both spatial and temporal coherence. It is one of the first models capable of creating continuous videos based on a dynamic series of text inputs, making it ideal for storytelling and animated content creation.
The process begins with a text prompt or a sequence of prompts over time. These are converted into text tokens, which condition a masked transformer model. The transformer outputs compressed video tokens that are then decoded into a full-resolution video.
फेनाकी समय के साथ विकसित होने वाले प्रॉम्प्ट सीक्वेंस का समर्थन करके अलग पहचान रखता है। यह मैन्युअल वीडियो संपादन की आवश्यकता के बिना कहानियों या दृश्य संक्रमणों के निर्माण को सक्षम बनाता है। उदाहरण के लिए, एक वीडियो «एक टेडी बियर तैराकी» से शुरू हो सकता है, फिर «भालू समुद्र तट पर चलता है» पर स्थानांतरित हो सकता है, और «भालू कैम्प फायर के पास» के साथ समाप्त हो सकता है — ये सभी एक ही क्लिप के भीतर।
A specialized video encoder compresses each scene into tokens using causal attention over time. This compression method significantly reduces computational load while preserving video quality, enabling longer and more detailed generations.
Phenaki is ideal for artists, writers, and animators looking to bring stories to life. The ability to craft complex sequences from evolving text makes it suitable for concept videos, experimental films, and narrative art pieces.
Educators can describe learning scenarios—like scientific simulations, historical reenactments, or animated demonstrations—and instantly generate relevant videos that enhance student engagement.
फिल्म स्टूडियो और कंटेंट क्रिएटर फेनाकी का इस्तेमाल स्टोरीबोर्ड और विज़ुअल सीक्वेंस को जल्दी से प्रोटोटाइप करने के लिए कर सकते हैं। स्केच या मॉकअप पर घंटों बिताने के बजाय, क्रिएटर सीधे स्क्रिप्ट से अपनी अवधारणाएँ विज़ुअलाइज़ कर सकते हैं।
Phenaki can generate multi-minute stories: From a futuristic city traffic jam → to an alien spaceship arrival → to an astronaut in a blue room → and ending with a lion in a suit in a high-rise office
फेनाकी स्थिर छवि और पाठ संकेत से भी उत्पादन की अनुमति देता है, तथा दिए गए फ्रेम से लगातार आगे की ओर गति उत्पन्न करता है।
The model compresses video data into discrete tokens using a temporal-aware encoder. This enables the processing of longer clips while reducing hardware requirements.
Phenaki was trained using both image-text and video-text pairs. This hybrid dataset design improves generalization and makes the model capable of generating content across a broad range of scenarios, even with limited video data.
Phenaki achieves better temporal and spatial quality than existing models. Its transformer-based architecture and efficient tokenizer design help reduce artifacts while improving coherence across frames.
हालाँकि वर्तमान में इसे एक शोध पूर्वावलोकन के रूप में प्रस्तुत किया गया है, फेनाकी ओपन-डोमेन वीडियो निर्माण के भविष्य को प्रदर्शित करता है। भविष्य के संस्करण रचनात्मक वर्कफ़्लो में अपनी क्षमताओं को एकीकृत करने के लिए सार्वजनिक पहुँच या डेवलपर टूल की अनुमति दे सकते हैं।
निर्मित वीडियो देखने और संपूर्ण शोध पत्र पढ़ने के लिए phenaki.video पर जाएं।