Runway Research
Recherche sur les pistes: IA multimodale et génération vidéo
Phenaki est un modèle d'IA avancé qui génère des vidéos réalistes et longues à partir de simples descriptions textuelles. Créez des récits visuels dynamiques, des animations et des scènes à partir de descriptions simples.
Phenaki est un modèle de génération vidéo de pointe qui transforme des séquences de texte en vidéos longues. Contrairement aux outils de synthèse vidéo traditionnels qui fonctionnent image par image ou utilisent des entrées statiques, Phenaki est conçu pour gérer des récits évolutifs. Il peut générer des vidéos cohérentes et de haute qualité d'une durée de plusieurs minutes, en assurant une transition fluide entre les scènes et les contextes au gré des changements de texte.
Phenaki utilise un système de représentation vidéo novateur, basé sur des jetons discrets et une attention temporelle causale. Cette approche lui permet de traiter des vidéos de longueur variable tout en préservant leur cohérence spatiale et temporelle. Figurant parmi les premiers modèles capables de créer des vidéos continues à partir d'une série dynamique d'entrées textuelles, il est idéal pour la narration et la création de contenus animés.
Le processus débute par l'affichage d'une invite textuelle ou d'une série d'invites. Celles-ci sont converties en jetons textuels, qui conditionnent un modèle de transformateur masqué. Ce transformateur génère des jetons vidéo compressés, lesquels sont ensuite décodés en une vidéo en pleine résolution.
Phenaki se distingue par sa capacité à gérer des séquences d'images évolutives. Ceci permet de créer des histoires ou des transitions de scènes sans montage vidéo manuel. Par exemple, une vidéo pourrait commencer par « un ours en peluche qui nage „, puis passer à „ l'ours qui marche sur la plage „, et se terminer par „ l'ours près du feu de camp „, le tout dans un même clip.
Un encodeur vidéo spécialisé compresse chaque scène en jetons grâce à une attention causale temporelle. Cette méthode de compression réduit considérablement la charge de calcul tout en préservant la qualité vidéo, permettant ainsi des générations plus longues et plus détaillées.
Phenaki est idéal pour les artistes, les écrivains et les animateurs qui souhaitent donner vie à leurs histoires. Sa capacité à créer des séquences complexes à partir d'un texte évolutif le rend particulièrement adapté aux vidéos conceptuelles, aux films expérimentaux et aux œuvres narratives.
Les enseignants peuvent décrire des scénarios d'apprentissage (simulations scientifiques, reconstitutions historiques ou démonstrations animées) et générer instantanément des vidéos pertinentes qui renforcent l'engagement des élèves.
Les studios de cinéma et les créateurs de contenu peuvent utiliser Phenaki pour prototyper rapidement des storyboards et des séquences visuelles. Au lieu de passer des heures sur des croquis ou des maquettes, ils peuvent visualiser leurs concepts directement à partir du scénario.
Phenaki peut générer des histoires de plusieurs minutes : D'un embouteillage futuriste dans une ville → à l'arrivée d'un vaisseau spatial extraterrestre → à un astronaute dans une pièce bleue → pour finir avec un lion en costume dans un immeuble de bureaux.
Phenaki permet également la génération à partir d'une image statique et d'une invite textuelle, produisant un mouvement fluide et continu vers l'avant à partir de l'image donnée.
Le modèle compresse les données vidéo en jetons discrets à l'aide d'un encodeur prenant en compte le facteur temps. Cela permet de traiter des clips plus longs tout en réduisant les besoins matériels.
Phenaki a été entraîné à l'aide de paires image-texte et vidéo-texte. Cette conception hybride de l'ensemble de données améliore la généralisation et permet au modèle de générer du contenu pour une grande variété de scénarios, même avec des données vidéo limitées.
Phenaki offre une meilleure qualité temporelle et spatiale que les modèles existants. Son architecture basée sur des transformateurs et la conception efficace de son tokenizer contribuent à réduire les artefacts tout en améliorant la cohérence entre les images.
Bien que présenté actuellement comme une version préliminaire pour la recherche, Phenaki illustre l'avenir de la génération vidéo en accès libre. Les versions futures pourraient proposer un accès public ou des outils de développement pour intégrer ses fonctionnalités aux processus créatifs.
Rendez-vous sur phenaki.video pour découvrir les vidéos générées et lire l'article de recherche complet.