Phenaki

Phenaki est un modèle d'IA avancé qui génère des vidéos réalistes et longues à partir de simples descriptions textuelles. Créez des récits visuels dynamiques, des animations et des scènes à partir de descriptions simples.

Aller à l'IA
Phenaki cover

À propos de Phenaki

Qu'est-ce que Phenaki?

Phenaki est un modèle de génération vidéo de pointe qui transforme des séquences de texte en vidéos longues. Contrairement aux outils de synthèse vidéo traditionnels qui fonctionnent image par image ou utilisent des entrées statiques, Phenaki est conçu pour gérer des récits évolutifs. Il peut générer des vidéos cohérentes et de haute qualité d'une durée de plusieurs minutes, en assurant une transition fluide entre les scènes et les contextes au gré des changements de texte.

Pourquoi c'est unique

Phenaki utilise un système de représentation vidéo novateur, basé sur des jetons discrets et une attention temporelle causale. Cette approche lui permet de traiter des vidéos de longueur variable tout en préservant leur cohérence spatiale et temporelle. Figurant parmi les premiers modèles capables de créer des vidéos continues à partir d'une série dynamique d'entrées textuelles, il est idéal pour la narration et la création de contenus animés.

Comment fonctionne Phenaki

Pipeline texte-vidéo

Le processus débute par l'affichage d'une invite textuelle ou d'une série d'invites. Celles-ci sont converties en jetons textuels, qui conditionnent un modèle de transformateur masqué. Ce transformateur génère des jetons vidéo compressés, lesquels sont ensuite décodés en une vidéo en pleine résolution.

Gestion des invites à durée variable

Phenaki se distingue par sa capacité à gérer des séquences d'images évolutives. Ceci permet de créer des histoires ou des transitions de scènes sans montage vidéo manuel. Par exemple, une vidéo pourrait commencer par « un ours en peluche qui nage „, puis passer à „ l'ours qui marche sur la plage „, et se terminer par „ l'ours près du feu de camp „, le tout dans un même clip.

Encodage vidéo efficace

Un encodeur vidéo spécialisé compresse chaque scène en jetons grâce à une attention causale temporelle. Cette méthode de compression réduit considérablement la charge de calcul tout en préservant la qualité vidéo, permettant ainsi des générations plus longues et plus détaillées.

Cas d'utilisation de Phenaki

narration créative

Phenaki est idéal pour les artistes, les écrivains et les animateurs qui souhaitent donner vie à leurs histoires. Sa capacité à créer des séquences complexes à partir d'un texte évolutif le rend particulièrement adapté aux vidéos conceptuelles, aux films expérimentaux et aux œuvres narratives.

Contenu éducatif

Les enseignants peuvent décrire des scénarios d'apprentissage (simulations scientifiques, reconstitutions historiques ou démonstrations animées) et générer instantanément des vidéos pertinentes qui renforcent l'engagement des élèves.

Prototypage rapide pour les cinéastes

Les studios de cinéma et les créateurs de contenu peuvent utiliser Phenaki pour prototyper rapidement des storyboards et des séquences visuelles. Au lieu de passer des heures sur des croquis ou des maquettes, ils peuvent visualiser leurs concepts directement à partir du scénario.

Exemples de Phenaki en action

Génération vidéo basée sur des scènes

  • A teddy bear swims through the ocean → dives underwater → walks onto the beach → sits by a campfire
  • An astronaut walks on Mars → dances → walks a dog → watches fireworks with the dog

Exemple de récit long

Phenaki peut générer des histoires de plusieurs minutes : D'un embouteillage futuriste dans une ville → à l'arrivée d'un vaisseau spatial extraterrestre → à un astronaute dans une pièce bleue → pour finir avec un lion en costume dans un immeuble de bureaux.

Image fixe + Invite

Phenaki permet également la génération à partir d'une image statique et d'une invite textuelle, produisant un mouvement fluide et continu vers l'avant à partir de l'image donnée.

Recherche sur Phenaki

Tokenisation vidéo

Le modèle compresse les données vidéo en jetons discrets à l'aide d'un encodeur prenant en compte le facteur temps. Cela permet de traiter des clips plus longs tout en réduisant les besoins matériels.

Approche de formation conjointe

Phenaki a été entraîné à l'aide de paires image-texte et vidéo-texte. Cette conception hybride de l'ensemble de données améliore la généralisation et permet au modèle de générer du contenu pour une grande variété de scénarios, même avec des données vidéo limitées.

Performance

Phenaki offre une meilleure qualité temporelle et spatiale que les modèles existants. Son architecture basée sur des transformateurs et la conception efficace de son tokenizer contribuent à réduire les artefacts tout en améliorant la cohérence entre les images.

Essayez Phenaki

Bien que présenté actuellement comme une version préliminaire pour la recherche, Phenaki illustre l'avenir de la génération vidéo en accès libre. Les versions futures pourraient proposer un accès public ou des outils de développement pour intégrer ses fonctionnalités aux processus créatifs.

Rendez-vous sur phenaki.video pour découvrir les vidéos générées et lire l'article de recherche complet.

Outils Alternatifs