Phenaki

Phenaki es un modelo avanzado de IA que genera videos realistas y de larga duración a partir de indicaciones de texto cambiantes. Crea historias visuales dinámicas, animaciones y escenas a partir de descripciones sencillas.

Ir a la IA
Phenaki cover

Acerca de Phenaki

¿Qué es Phenaki?

Phenaki es un modelo de generación de video de vanguardia que transforma secuencias de texto en videos de larga duración. A diferencia de las herramientas tradicionales de síntesis de video, que funcionan fotograma a fotograma o utilizan entradas estáticas, Phenaki está diseñado para gestionar narrativas en constante evolución. Puede generar videos coherentes y de alta calidad de varios minutos de duración, con transiciones fluidas entre escenas y contextos a medida que cambia el texto.

Por qué es único

Phenaki utiliza un novedoso sistema de representación de video basado en tokens discretos y atención temporal causal. Este enfoque le permite trabajar con videos de duración variable, preservando la coherencia espacial y temporal. Es uno de los primeros modelos capaces de crear videos continuos basados ​​en una serie dinámica de entradas de texto, lo que lo hace ideal para la narración y la creación de contenido animado.

Cómo funciona Phenaki

Canalización de texto a vídeo

El proceso comienza con una indicación de texto o una secuencia de indicaciones a lo largo del tiempo. Estas se convierten en tokens de texto, que condicionan un modelo de transformador enmascarado. El transformador genera tokens de vídeo comprimidos que luego se decodifican en un vídeo de alta resolución.

Manejo de indicaciones con variables de tiempo

Phenaki destaca por su compatibilidad con secuencias de indicaciones que evolucionan con el tiempo. Esto permite crear historias o transiciones entre escenas sin necesidad de edición manual. Por ejemplo, un vídeo podría comenzar con «un oso de peluche nadando», luego pasar a «el oso camina por la playa» y terminar con «el oso junto a la fogata», todo dentro del mismo clip.

Codificación de vídeo eficiente

Un codificador de video especializado comprime cada escena en tokens mediante la atención causal a lo largo del tiempo. Este método de compresión reduce significativamente la carga computacional, preservando la calidad del video y permitiendo generaciones más largas y detalladas.

Casos de uso de Phenaki

Narración creativa

Phenaki es ideal para artistas, escritores y animadores que buscan dar vida a sus historias. Su capacidad para crear secuencias complejas a partir de texto en constante evolución lo hace ideal para vídeos conceptuales, películas experimentales y obras de arte narrativas.

Contenido educativo

Los educadores pueden describir escenarios de aprendizaje (como simulaciones científicas, recreaciones históricas o demostraciones animadas) y generar instantáneamente videos relevantes que mejoren la participación de los estudiantes.

Prototipado rápido para cineastas

Los estudios cinematográficos y los creadores de contenido pueden usar Phenaki para prototipar guiones gráficos y secuencias visuales rápidamente. En lugar de dedicar horas a bocetos o maquetas, los creadores pueden visualizar sus conceptos directamente desde el guion.

Ejemplos de Phenaki en acción

Generación de vídeo basada en escenas

  • A teddy bear swims through the ocean → dives underwater → walks onto the beach → sits by a campfire
  • An astronaut walks on Mars → dances → walks a dog → watches fireworks with the dog

Ejemplo de narrativa de formato largo

Phenaki puede generar historias de varios minutos: desde un atasco de tráfico en una ciudad futurista hasta la llegada de una nave extraterrestre, pasando por un astronauta en una habitación azul y terminando con un león con traje en una oficina de gran altura.

Fotograma fijo + mensaje

Phenaki también permite la generación a partir de una imagen estática y un mensaje de texto, produciendo un movimiento hacia adelante consistente a partir del cuadro dado.

La investigación detrás de Phenaki

Tokenización de vídeo

El modelo comprime los datos de vídeo en tokens discretos mediante un codificador con reconocimiento temporal. Esto permite procesar clips más largos y reduce los requisitos de hardware.

Enfoque de formación conjunta

Phenaki se entrenó utilizando pares imagen-texto y video-texto. Este diseño de conjunto de datos híbrido mejora la generalización y permite al modelo generar contenido en una amplia gama de escenarios, incluso con datos de video limitados.

Actuación

Phenaki logra una mejor calidad temporal y espacial que los modelos existentes. Su arquitectura basada en transformadores y el eficiente diseño de tokenizadores ayudan a reducir los artefactos y a mejorar la coherencia entre fotogramas.

Prueba Phenaki

Aunque actualmente se presenta como un avance de investigación, Phenaki demuestra el futuro de la generación de video de dominio abierto. Es posible que futuras versiones permitan el acceso público o herramientas para desarrolladores que permitan integrar sus capacidades en flujos de trabajo creativos.

Visita phenaki.video para explorar los videos generados y leer el artículo de investigación completo.

Herramientas Alternativas