Runway Research
Pist Araştırması: Çok Modlu Yapay Zeka ve Video Üretimi
Phenaki, değişen metin komutlarıyla gerçekçi, uzun videolar üreten gelişmiş bir yapay zeka modelidir. Basit açıklamalardan dinamik görsel hikayeler, animasyonlar ve sahneler oluşturun.
Phenaki, metin komut dizilerini uzun videolara dönüştüren son teknoloji bir video üretim modelidir. Kare kare çalışan veya statik girdi kullanan geleneksel video sentezleme araçlarının aksine, Phenaki gelişen anlatıları ele almak üzere tasarlanmıştır. Birkaç dakika süren, yüksek kaliteli ve tutarlı videolar üretebilir ve komut değiştikçe sahneler ve bağlamlar arasında sorunsuz geçiş yapabilir.
Phenaki, ayrık belirteçlere ve nedensel zamansal dikkate dayalı yeni bir video temsil sistemi kullanır. Bu yaklaşım, hem uzamsal hem de zamansal tutarlılığı koruyarak değişken uzunluktaki videolarla çalışmasına olanak tanır. Dinamik bir metin girişi serisine dayalı sürekli videolar oluşturabilen ilk modellerden biri olması, onu hikaye anlatımı ve animasyonlu içerik üretimi için ideal hale getirir.
Süreç, bir metin istemi veya zaman içinde bir dizi istemle başlar. Bunlar, maskelenmiş bir dönüştürücü modelini koşullandıran metin belirteçlerine dönüştürülür. Dönüştürücü, daha sonra tam çözünürlüklü bir videoya dönüştürülen sıkıştırılmış video belirteçleri üretir.
Phenaki, zaman içinde gelişen hızlı sahneleri desteklemesiyle öne çıkıyor. Bu, manuel video düzenlemesine gerek kalmadan hikaye veya sahne geçişleri oluşturmayı mümkün kılıyor. Örneğin, bir video «yüzen bir oyuncak ayı» ile başlayıp «ayı sahilde yürüyor"a geçebilir ve «kamp ateşinin başında ayı» ile bitebilir; hepsi aynı klip içinde.
Özel bir video kodlayıcı, her sahneyi zaman içindeki nedensel dikkati kullanarak tokenlere sıkıştırır. Bu sıkıştırma yöntemi, video kalitesini korurken hesaplama yükünü önemli ölçüde azaltır ve daha uzun ve daha ayrıntılı üretimlere olanak tanır.
Phenaki, hikayeleri hayata geçirmek isteyen sanatçılar, yazarlar ve animatörler için idealdir. Gelişen metinlerden karmaşık sekanslar oluşturma yeteneği, onu konsept videoları, deneysel filmler ve anlatısal sanat eserleri için uygun hale getirir.
Eğitimciler, bilimsel simülasyonlar, tarihi canlandırma veya animasyonlu gösterimler gibi öğrenme senaryolarını tanımlayabilir ve öğrenci katılımını artıran ilgili videoları anında oluşturabilirler.
Film stüdyoları ve içerik üreticileri, Phenaki'yi kullanarak senaryo taslaklarını ve görsel sahneleri hızla prototipleyebilirler. Eskizler veya maketler üzerinde saatler harcamak yerine, içerik üreticileri konseptlerini doğrudan senaryodan görselleştirebilirler.
Phenaki, dakikalarca süren hikayeler üretebilir: Fütüristik bir şehir trafiğinden → bir uzay gemisinin gelişine → mavi bir odadaki bir astronota → ve yüksek bir ofiste takım elbiseli bir aslanla biten hikayelere kadar
Phenaki ayrıca statik bir görüntüden ve metin isteminden üretim yapılmasına olanak vererek verilen kareden tutarlı bir ileri hareket üretilmesini sağlar.
Model, zamansal duyarlı bir kodlayıcı kullanarak video verilerini ayrık tokenlere sıkıştırır. Bu sayede, donanım gereksinimlerini azaltırken daha uzun kliplerin işlenmesi mümkün olur.
Phenaki, hem görüntü-metin hem de video-metin çiftleri kullanılarak eğitildi. Bu hibrit veri seti tasarımı, genellemeyi iyileştirir ve modelin sınırlı video verileriyle bile geniş bir senaryo yelpazesinde içerik üretebilmesini sağlar.
Phenaki, mevcut modellerden daha iyi zamansal ve mekansal kaliteye ulaşır. Transformatör tabanlı mimarisi ve verimli belirteç ayırıcı tasarımı, çerçeveler arası tutarlılığı artırırken hataları azaltmaya yardımcı olur.
Şu anda bir araştırma önizlemesi olarak sunulmasına rağmen, Phenaki açık alan video üretiminin geleceğini gözler önüne seriyor. Gelecekteki sürümler, yeteneklerinin yaratıcı iş akışlarına entegre edilmesi için genel erişime veya geliştirici araçlarına olanak tanıyabilir.
Oluşturulan videoları incelemek ve araştırma makalesinin tamamını okumak için phenaki.video adresini ziyaret edin.