Phenaki
Phenaki : Génération de vidéos à partir de texte avec invites dynamiques
Explorez les travaux de pointe de Runway Research en IA multimodale, notamment la génération vidéo de quatrième génération, le splatting gaussien 3D et la généralisation de domaine. Découvrez comment Runway façonne l'avenir de la simulation et de la créativité.
Runway Research se consacre au développement de systèmes d'IA multimodaux capables de comprendre et de simuler la dynamique du monde réel. Ses travaux s'appuient sur la vidéo comme principale source d'entrée et de sortie, enrichie par des modalités telles que l'audio et le texte afin de créer des modèles plus complets. Ces simulateurs polyvalents visent à alimenter la prochaine génération d'outils créatifs et analytiques.
L'équipe de Runway est convaincue que la vidéo, de par sa complexité et sa structure temporelle, constitue le support idéal pour entraîner une IA capable d'imiter la perception et la compréhension humaines. En s'appuyant sur des données vidéo riches, elle ambitionne de développer des applications dans le cinéma, le design et les expériences interactives.
Les chercheurs de Runway ont mis au point une méthode appelée StochasticSplats qui améliore les techniques de projection gaussiennes 3D existantes en éliminant le besoin de tri par profondeur. Cette approche de rastérisation stochastique offre un meilleur contrôle sur les coûts de rendu et la fidélité visuelle, améliorant ainsi les résultats des applications 3D.
La méthode SCoPE affine l'interprétation des consignes complexes par les modèles génératifs. En décomposant les consignes en couches allant du plus grossier au plus fin, le système garantit des représentations visuelles plus précises et une meilleure adéquation entre les descriptions d'entrée et les images générées.
Le modèle Gen-4 de Runway représente une avancée majeure dans la génération de vidéos à partir de texte. Offrant un contrôle accru et une fidélité supérieure aux versions précédentes, Gen-4 permet aux utilisateurs de créer des visuels cinématographiques à partir d'un minimum d'éléments, repoussant ainsi les limites de la créativité dans la réalisation de films et l'animation.
En complément de Gen-4, des outils comme Act-One et Frames sont conçus pour la création de contenu interactif. Ces plateformes permettent aux utilisateurs de manipuler en temps réel du contenu généré par l'IA, offrant ainsi flexibilité et précision dans l'élaboration de récits visuels.
Les recherches de Runway sur la généralisation de domaine explorent comment les caractéristiques des modèles de diffusion peuvent distinguer des domaines inconnus sans recourir à des données étiquetées. Cette méthode permet de créer des systèmes d'IA plus adaptables, notamment dans des environnements aux entrées imprévisibles ou diversifiées.
En identifiant les structures de domaine latent, Runway enrichit les classificateurs existants de représentations supplémentaires. Ceci permet aux modèles d'être plus performants dans différents domaines, les rendant ainsi utiles pour un déploiement en conditions réelles où la variabilité des données est la norme.
Runway étend son impact en matière de recherche grâce aux RNA Sessions, une série d'événements explorant les intersections entre l'IA, l'art et l'innovation. Ces événements invitent des experts à discuter des avancées majeures et des orientations futures des médias génératifs.
Les collaborations avec des entités comme Lionsgate et le Festival de Tribeca témoignent de l’engagement de Runway en faveur d’une intégration concrète et pratique des outils d’IA. Ces partenariats contribuent à favoriser l’adoption des technologies génératives dans les processus créatifs professionnels.