Phenaki

Phenaki — это продвинутая модель искусственного интеллекта, которая генерирует реалистичные длинные видеоролики на основе меняющихся текстовых подсказок. Создавайте динамичные визуальные истории, анимации и сцены на основе простых описаний.

Перейти к ИИ
Phenaki cover

О Фенаки

Что такое Фенаки?

Phenaki — это передовая модель генерации видео, которая преобразует последовательности текстовых подсказок в длинные видеоролики. В отличие от традиционных инструментов синтеза видео, работающих покадрово или использующих статические входные данные, Phenaki разработана для работы с динамично развивающимися сюжетами. Она может создавать высококачественные, связные видео длительностью в несколько минут, плавно переходя между сценами и контекстами при смене подсказок.

Почему это уникально

Phenaki использует новую систему представления видео, основанную на дискретных токенах и каузальном временном внимании. Этот подход позволяет работать с видео переменной длительности, сохраняя как пространственную, так и временную когерентность. Это одна из первых моделей, способных создавать непрерывные видео на основе динамической последовательности текстовых входных данных, что делает её идеальной для создания историй и анимированного контента.

Как работает Фенаки

Конвейер преобразования текста в видео

Процесс начинается с текстовой подсказки или последовательности подсказок, повторяющихся с течением времени. Они преобразуются в текстовые токены, которые обуславливают маскированную модель трансформера. Трансформер выводит сжатые видеотокены, которые затем декодируются в видео с полным разрешением.

Обработка подсказок, изменяющихся во времени

Phenaki выделяется поддержкой сцен-подсказок, которые развиваются во времени. Это позволяет создавать истории или переходы между сценами без необходимости ручного видеомонтажа. Например, видео может начинаться с фразы «плюшевый мишка плывёт», затем перейти к фразе «медведь идёт по пляжу» и закончиться фразой «медведь у костра» — и всё это в одном клипе.

Эффективное кодирование видео

Специализированный видеокодер сжимает каждую сцену в токены, используя каузальное внимание с течением времени. Этот метод сжатия значительно снижает вычислительную нагрузку, сохраняя при этом качество видео, что позволяет генерировать более длинные и детальные кадры.

Примеры использования Phenaki

Творческое повествование

Phenaki идеально подходит для художников, писателей и аниматоров, стремящихся оживить истории. Возможность создавать сложные последовательности из меняющегося текста делает его подходящим для создания концептуальных видеороликов, экспериментальных фильмов и повествовательных произведений искусства.

Образовательный контент

Преподаватели могут описывать учебные сценарии — например, научные симуляции, исторические реконструкции или анимированные демонстрации — и мгновенно создавать соответствующие видеоролики, которые повышают вовлеченность учащихся.

Быстрое прототипирование для кинематографистов

Киностудии и создатели контента могут использовать Phenaki для быстрого создания прототипов раскадровок и визуальных сцен. Вместо того, чтобы тратить часы на эскизы и макеты, создатели могут визуализировать свои концепции прямо из сценария.

Примеры использования Фенаки

Генерация видео на основе сцен

  • A teddy bear swims through the ocean → dives underwater → walks onto the beach → sits by a campfire
  • An astronaut walks on Mars → dances → walks a dog → watches fireworks with the dog

Пример длинного повествования

Фенаки может создавать многоминутные истории: От пробки в футуристическом городе → до прибытия инопланетного космического корабля → до астронавта в синей комнате → и заканчивая львом в костюме в высотном офисе.

Неподвижный кадр + подсказка

Phenaki также позволяет генерировать данные из статичного изображения и текстовой подсказки, создавая последовательное движение вперед от заданного кадра.

Исследования, лежащие в основе Фенаки

Токенизация видео

Модель сжимает видеоданные в дискретные токены с помощью кодера, учитывающего временные параметры. Это позволяет обрабатывать более длинные клипы, снижая при этом требования к оборудованию.

Совместный подход к обучению

Обучение Phenaki проводилось с использованием пар «изображение-текст» и «видео-текст». Гибридный дизайн набора данных улучшает обобщение и позволяет модели генерировать контент в широком диапазоне сценариев, даже при ограниченном объёме видеоданных.

Производительность

Phenaki обеспечивает лучшее временное и пространственное качество по сравнению с существующими моделями. Его архитектура на основе трансформатора и эффективная конструкция токенизатора помогают уменьшить количество артефактов и улучшить согласованность между кадрами.

Попробуйте Фенаки

Хотя Phenaki пока представлен в виде исследовательского предварительного обзора, он демонстрирует будущее создания видео в открытом доступе. В будущих версиях, возможно, будет доступен публичный доступ или инструменты для разработчиков для интеграции его возможностей в творческие рабочие процессы.

Посетите сайт phenaki.video, чтобы просмотреть созданные видеоролики и прочитать полную версию исследовательской работы.

Альтернативные инструменты