Runway Research
Pesquisa de pista de corrida: IA multimodal e geração de vídeo
Phenaki é um modelo avançado de IA que gera vídeos realistas e de longa duração a partir de textos explicativos variáveis. Crie histórias visuais dinâmicas, animações e cenas a partir de descrições simples.
Phenaki é um modelo de geração de vídeo de ponta que transforma sequências de instruções de texto em vídeos de longa duração. Ao contrário das ferramentas tradicionais de síntese de vídeo que funcionam quadro a quadro ou usam entradas estáticas, o Phenaki foi projetado para lidar com narrativas em constante evolução. Ele pode gerar vídeos coerentes e de alta qualidade que duram vários minutos, com transições perfeitas entre cenas e contextos à medida que a instrução muda.
Phenaki utiliza um sistema inovador de representação de vídeo baseado em tokens discretos e atenção temporal causal. Essa abordagem permite trabalhar com vídeos de duração variável, preservando a coerência espacial e temporal. É um dos primeiros modelos capazes de criar vídeos contínuos a partir de uma série dinâmica de entradas de texto, tornando-o ideal para narrativas e criação de conteúdo animado.
O processo começa com uma mensagem de texto ou uma sequência de mensagens ao longo do tempo. Estas são convertidas em tokens de texto, que condicionam um modelo de transformador mascarado. O transformador gera tokens de vídeo comprimidos que são então decodificados em um vídeo de resolução total.
O Phenaki se destaca por suportar sequências de comandos que evoluem ao longo do tempo. Isso permite a criação de histórias ou transições de cena sem a necessidade de edição manual de vídeo. Por exemplo, um vídeo pode começar com «um ursinho de pelúcia nadando», depois mudar para «o urso caminhando na praia» e terminar com «o urso perto da fogueira» — tudo dentro do mesmo clipe.
Um codificador de vídeo especializado comprime cada cena em tokens usando atenção causal ao longo do tempo. Esse método de compressão reduz significativamente a carga computacional, preservando a qualidade do vídeo e permitindo gerações mais longas e detalhadas.
Phenaki é ideal para artistas, escritores e animadores que desejam dar vida a histórias. A capacidade de criar sequências complexas a partir de textos em constante evolução o torna adequado para vídeos conceituais, filmes experimentais e obras de arte narrativas.
Os educadores podem descrever cenários de aprendizagem — como simulações científicas, reconstituições históricas ou demonstrações animadas — e gerar instantaneamente vídeos relevantes que aumentam o envolvimento dos alunos.
Estúdios de cinema e criadores de conteúdo podem usar o Phenaki para prototipar storyboards e sequências visuais rapidamente. Em vez de gastar horas em esboços ou maquetes, os criadores podem visualizar seus conceitos diretamente do roteiro.
Phenaki consegue gerar histórias de vários minutos: De um engarrafamento futurista numa cidade → à chegada de uma nave espacial alienígena → a um astronauta numa sala azul → e terminando com um leão de fato num escritório de arranha-céus.
O Phenaki também permite a geração a partir de uma imagem estática e um texto de entrada, produzindo um movimento consistente para a frente a partir do quadro fornecido.
O modelo comprime dados de vídeo em tokens discretos usando um codificador com reconhecimento temporal. Isso permite o processamento de clipes mais longos, reduzindo os requisitos de hardware.
O modelo Phenaki foi treinado usando pares de imagem-texto e vídeo-texto. Esse design de conjunto de dados híbrido melhora a generalização e torna o modelo capaz de gerar conteúdo em uma ampla gama de cenários, mesmo com dados de vídeo limitados.
O Phenaki alcança melhor qualidade temporal e espacial do que os modelos existentes. Sua arquitetura baseada em transformadores e o design eficiente do tokenizador ajudam a reduzir artefatos e, ao mesmo tempo, a melhorar a coerência entre os quadros.
Embora atualmente apresentado como uma prévia de pesquisa, o Phenaki demonstra o futuro da geração de vídeo em domínio aberto. Versões futuras poderão permitir acesso público ou ferramentas de desenvolvimento para integrar suas funcionalidades em fluxos de trabalho criativos.
Acesse phenaki.video para explorar os vídeos gerados e ler o artigo de pesquisa completo.