Runway Research
Исследования взлетно-посадочной полосы: мультимодальный ИИ и генерация видео
Phenaki — это продвинутая модель искусственного интеллекта, которая генерирует реалистичные длинные видеоролики на основе меняющихся текстовых подсказок. Создавайте динамичные визуальные истории, анимации и сцены на основе простых описаний.
Phenaki — это передовая модель генерации видео, которая преобразует последовательности текстовых подсказок в длинные видеоролики. В отличие от традиционных инструментов синтеза видео, работающих покадрово или использующих статические входные данные, Phenaki разработана для работы с динамично развивающимися сюжетами. Она может создавать высококачественные, связные видео длительностью в несколько минут, плавно переходя между сценами и контекстами при смене подсказок.
Phenaki использует новую систему представления видео, основанную на дискретных токенах и каузальном временном внимании. Этот подход позволяет работать с видео переменной длительности, сохраняя как пространственную, так и временную когерентность. Это одна из первых моделей, способных создавать непрерывные видео на основе динамической последовательности текстовых входных данных, что делает её идеальной для создания историй и анимированного контента.
Процесс начинается с текстовой подсказки или последовательности подсказок, повторяющихся с течением времени. Они преобразуются в текстовые токены, которые обуславливают маскированную модель трансформера. Трансформер выводит сжатые видеотокены, которые затем декодируются в видео с полным разрешением.
Phenaki выделяется поддержкой сцен-подсказок, которые развиваются во времени. Это позволяет создавать истории или переходы между сценами без необходимости ручного видеомонтажа. Например, видео может начинаться с фразы «плюшевый мишка плывёт», затем перейти к фразе «медведь идёт по пляжу» и закончиться фразой «медведь у костра» — и всё это в одном клипе.
Специализированный видеокодер сжимает каждую сцену в токены, используя каузальное внимание с течением времени. Этот метод сжатия значительно снижает вычислительную нагрузку, сохраняя при этом качество видео, что позволяет генерировать более длинные и детальные кадры.
Phenaki идеально подходит для художников, писателей и аниматоров, стремящихся оживить истории. Возможность создавать сложные последовательности из меняющегося текста делает его подходящим для создания концептуальных видеороликов, экспериментальных фильмов и повествовательных произведений искусства.
Преподаватели могут описывать учебные сценарии — например, научные симуляции, исторические реконструкции или анимированные демонстрации — и мгновенно создавать соответствующие видеоролики, которые повышают вовлеченность учащихся.
Киностудии и создатели контента могут использовать Phenaki для быстрого создания прототипов раскадровок и визуальных сцен. Вместо того, чтобы тратить часы на эскизы и макеты, создатели могут визуализировать свои концепции прямо из сценария.
Фенаки может создавать многоминутные истории: От пробки в футуристическом городе → до прибытия инопланетного космического корабля → до астронавта в синей комнате → и заканчивая львом в костюме в высотном офисе.
Phenaki также позволяет генерировать данные из статичного изображения и текстовой подсказки, создавая последовательное движение вперед от заданного кадра.
Модель сжимает видеоданные в дискретные токены с помощью кодера, учитывающего временные параметры. Это позволяет обрабатывать более длинные клипы, снижая при этом требования к оборудованию.
Обучение Phenaki проводилось с использованием пар «изображение-текст» и «видео-текст». Гибридный дизайн набора данных улучшает обобщение и позволяет модели генерировать контент в широком диапазоне сценариев, даже при ограниченном объёме видеоданных.
Phenaki обеспечивает лучшее временное и пространственное качество по сравнению с существующими моделями. Его архитектура на основе трансформатора и эффективная конструкция токенизатора помогают уменьшить количество артефактов и улучшить согласованность между кадрами.
Хотя Phenaki пока представлен в виде исследовательского предварительного обзора, он демонстрирует будущее создания видео в открытом доступе. В будущих версиях, возможно, будет доступен публичный доступ или инструменты для разработчиков для интеграции его возможностей в творческие рабочие процессы.
Посетите сайт phenaki.video, чтобы просмотреть созданные видеоролики и прочитать полную версию исследовательской работы.