Phenaki

5.0 (1 Отзывы)

Phenaki — это усовершенствованная модель ИИ, которая генерирует реалистичные длинные видео из меняющихся текстовых подсказок. Создавайте динамичные визуальные истории, анимации и сцены из простых описаний.

Перейти к ИИ
Phenaki cover

О Фенаки

What Is Phenaki?

Phenaki — это передовая модель генерации видео, которая преобразует последовательности текстовых подсказок в длинные видео. В отличие от традиционных инструментов синтеза видео, которые работают покадрово или используют статический ввод, Phenaki разработан для обработки развивающихся повествований. Он может генерировать высококачественные, связные видео, которые длятся несколько минут, плавно переходя между сценами и контекстами по мере изменения подсказки.

Why It’s Unique

Phenaki uses a novel video representation system based on discrete tokens and causal temporal attention. This approach allows it to work with videos of variable length while preserving both spatial and temporal coherence. It is one of the first models capable of creating continuous videos based on a dynamic series of text inputs, making it ideal for storytelling and animated content creation.

How Phenaki Works

Text-to-Video Pipeline

The process begins with a text prompt or a sequence of prompts over time. These are converted into text tokens, which condition a masked transformer model. The transformer outputs compressed video tokens that are then decoded into a full-resolution video.

Handling Time-Variable Prompts

Phenaki выделяется поддержкой последовательностей подсказок, которые развиваются со временем. Это позволяет создавать истории или переходы между сценами без необходимости ручного редактирования видео. Например, видео может начинаться с «плюшевого мишки, который плывет», затем переходить к «медведю, идущему по пляжу», и заканчиваться «медведем у костра» — все в одном клипе.

Эффективное кодирование видео

A specialized video encoder compresses each scene into tokens using causal attention over time. This compression method significantly reduces computational load while preserving video quality, enabling longer and more detailed generations.

Варианты использования Phenaki

Creative Storytelling

Phenaki is ideal for artists, writers, and animators looking to bring stories to life. The ability to craft complex sequences from evolving text makes it suitable for concept videos, experimental films, and narrative art pieces.

Educational Content

Educators can describe learning scenarios—like scientific simulations, historical reenactments, or animated demonstrations—and instantly generate relevant videos that enhance student engagement.

Быстрое прототипирование для кинематографистов

Киностудии и создатели контента могут использовать Phenaki для быстрого создания прототипов раскадровок и визуальных последовательностей. Вместо того, чтобы тратить часы на эскизы или макеты, создатели могут визуализировать свои концепции прямо из сценария.

Examples of Phenaki in Action

Scene-Based Video Generation

  • Плюшевый медведь плывет по океану → ныряет под воду → выходит на пляж → сидит у костра
  • An astronaut walks on Mars → dances → walks a dog → watches fireworks with the dog

Long-Form Narrative Example

Phenaki can generate multi-minute stories: From a futuristic city traffic jam → to an alien spaceship arrival → to an astronaut in a blue room → and ending with a lion in a suit in a high-rise office

Still Frame + Prompt

Phenaki также позволяет генерировать данные из статичного изображения и текстовой подсказки, создавая последовательное движение вперед от заданного кадра.

Research Behind Phenaki

Токенизация видео

The model compresses video data into discrete tokens using a temporal-aware encoder. This enables the processing of longer clips while reducing hardware requirements.

Совместный подход к обучению

Phenaki was trained using both image-text and video-text pairs. This hybrid dataset design improves generalization and makes the model capable of generating content across a broad range of scenarios, even with limited video data.

Производительность

Phenaki achieves better temporal and spatial quality than existing models. Its transformer-based architecture and efficient tokenizer design help reduce artifacts while improving coherence across frames.

Try Phenaki

Хотя в настоящее время Phenaki представлен как исследовательский предварительный просмотр, он демонстрирует будущее генерации видео с открытым доменом. Будущие версии могут позволить публичный доступ или инструменты разработчика для интеграции его возможностей в творческие рабочие процессы.

Посетите сайт phenaki.video, чтобы просмотреть созданные видеоролики и прочитать полную версию исследовательской работы.

Альтернативные инструменты