Runway Research
Runway Research: Multimodale KI und Videogenerierung
Phenaki ist ein fortschrittliches KI-Modell, das aus veränderlichen Textvorgaben realistische, längere Videos generiert. Erstellen Sie dynamische visuelle Geschichten, Animationen und Szenen aus einfachen Beschreibungen.
Phenaki ist ein hochmodernes Videogenerierungsmodell, das Textsequenzen in längere Videos umwandelt. Im Gegensatz zu herkömmlichen Videosynthese-Tools, die Bild für Bild arbeiten oder statische Eingaben verwenden, ist Phenaki für die Verarbeitung sich entwickelnder Erzählungen konzipiert. Es kann qualitativ hochwertige, zusammenhängende Videos von mehreren Minuten Länge generieren — mit nahtlosen Übergängen zwischen Szenen und Kontexten, wenn sich die Eingabe ändert.
Phenaki verwendet ein neuartiges Videodarstellungssystem, das auf diskreten Token und kausaler zeitlicher Aufmerksamkeit basiert. Dieser Ansatz ermöglicht die Verarbeitung von Videos variabler Länge unter Beibehaltung der räumlichen und zeitlichen Kohärenz. Es ist eines der ersten Modelle, das kontinuierliche Videos auf Basis dynamischer Texteingaben erzeugen kann und sich daher ideal für Storytelling und die Erstellung animierter Inhalte eignet.
Der Prozess beginnt mit einer Texteingabe oder einer zeitlich abgestimmten Eingabefolge. Diese werden in Textbausteine umgewandelt, die ein maskiertes Transformer-Modell steuern. Der Transformer gibt komprimierte Videobausteine aus, die anschließend zu einem Video in voller Auflösung dekodiert werden.
Phenaki zeichnet sich durch die Unterstützung von sich im Zeitverlauf entwickelnden Sequenzen aus. Dies ermöglicht die Erstellung von Geschichten oder Szenenübergängen ohne manuelle Videobearbeitung. Beispielsweise könnte ein Video mit «einem schwimmenden Teddybären» beginnen, dann zu «der Bär läuft am Strand» übergehen und mit «dem Bären am Lagerfeuer» enden — alles innerhalb desselben Clips.
Ein spezieller Video-Encoder komprimiert jede Szene mithilfe von kausaler Aufmerksamkeit über die Zeit in Tokens. Dieses Komprimierungsverfahren reduziert den Rechenaufwand erheblich und erhält gleichzeitig die Videoqualität, wodurch längere und detailliertere Sequenzen ermöglicht werden.
Phenaki ist ideal für Künstler, Autoren und Animatoren, die Geschichten zum Leben erwecken möchten. Die Möglichkeit, komplexe Sequenzen aus sich entwickelndem Text zu erstellen, macht es geeignet für Konzeptvideos, Experimentalfilme und narrative Kunstwerke.
Pädagogen können Lernszenarien beschreiben — wie wissenschaftliche Simulationen, historische Nachstellungen oder animierte Demonstrationen — und sofort relevante Videos generieren, die das Engagement der Schüler steigern.
Filmstudios und Content-Ersteller können Phenaki nutzen, um schnell Storyboards und visuelle Sequenzen zu prototypisieren. Anstatt Stunden mit Skizzen oder Modellen zu verbringen, können Kreative ihre Konzepte direkt aus dem Drehbuch visualisieren.
Phenaki kann mehrminütige Geschichten generieren: Von einem futuristischen Stadtstau → über die Ankunft eines außerirdischen Raumschiffs → bis hin zu einem Astronauten in einem blauen Raum → und schließlich einem Löwen im Kostüm in einem Hochhausbüro
Phenaki ermöglicht außerdem die Generierung von Bewegungen aus einem statischen Bild und einer Texteingabe, wodurch eine gleichmäßige Vorwärtsbewegung ausgehend vom jeweiligen Frame erzeugt wird.
Das Modell komprimiert Videodaten mithilfe eines zeitbasierten Encoders in diskrete Tokens. Dies ermöglicht die Verarbeitung längerer Clips bei gleichzeitig reduziertem Hardwareaufwand.
Phenaki wurde sowohl mit Bild-Text- als auch mit Video-Text-Paaren trainiert. Dieses hybride Datensatzdesign verbessert die Generalisierungsfähigkeit und ermöglicht es dem Modell, Inhalte für ein breites Spektrum an Szenarien zu generieren, selbst bei begrenzten Videodaten.
Phenaki erzielt eine bessere zeitliche und räumliche Qualität als bestehende Modelle. Seine transformatorbasierte Architektur und das effiziente Tokenisierungsdesign tragen dazu bei, Artefakte zu reduzieren und gleichzeitig die Kohärenz zwischen den Frames zu verbessern.
Obwohl Phenaki derzeit als Forschungsvorschau präsentiert wird, demonstriert es die Zukunft der Open-Domain-Videogenerierung. Zukünftige Versionen könnten den öffentlichen Zugriff ermöglichen oder Entwicklerwerkzeuge zur Integration seiner Funktionen in kreative Arbeitsabläufe bereitstellen.
Besuchen Sie phenaki.video, um die generierten Videos anzusehen und die vollständige Forschungsarbeit zu lesen.