Phenaki

Phenaki é um modelo avançado de IA que gera vídeos realistas e de longa duração a partir de textos explicativos variáveis. Crie histórias visuais dinâmicas, animações e cenas a partir de descrições simples.

Ir para a IA
Phenaki cover

Sobre Phenaki

O que é Phenaki?

Phenaki é um modelo de geração de vídeo de ponta que transforma sequências de instruções de texto em vídeos de longa duração. Ao contrário das ferramentas tradicionais de síntese de vídeo que funcionam quadro a quadro ou usam entradas estáticas, o Phenaki foi projetado para lidar com narrativas em constante evolução. Ele pode gerar vídeos coerentes e de alta qualidade que duram vários minutos, com transições perfeitas entre cenas e contextos à medida que a instrução muda.

Por que é único

Phenaki utiliza um sistema inovador de representação de vídeo baseado em tokens discretos e atenção temporal causal. Essa abordagem permite trabalhar com vídeos de duração variável, preservando a coerência espacial e temporal. É um dos primeiros modelos capazes de criar vídeos contínuos a partir de uma série dinâmica de entradas de texto, tornando-o ideal para narrativas e criação de conteúdo animado.

Como funciona o Phenaki

Canal de conversão de texto em vídeo

O processo começa com uma mensagem de texto ou uma sequência de mensagens ao longo do tempo. Estas são convertidas em tokens de texto, que condicionam um modelo de transformador mascarado. O transformador gera tokens de vídeo comprimidos que são então decodificados em um vídeo de resolução total.

Lidando com instruções de tempo variável

O Phenaki se destaca por suportar sequências de comandos que evoluem ao longo do tempo. Isso permite a criação de histórias ou transições de cena sem a necessidade de edição manual de vídeo. Por exemplo, um vídeo pode começar com «um ursinho de pelúcia nadando», depois mudar para «o urso caminhando na praia» e terminar com «o urso perto da fogueira» — tudo dentro do mesmo clipe.

Codificação de vídeo eficiente

Um codificador de vídeo especializado comprime cada cena em tokens usando atenção causal ao longo do tempo. Esse método de compressão reduz significativamente a carga computacional, preservando a qualidade do vídeo e permitindo gerações mais longas e detalhadas.

Casos de uso para Phenaki

Narrativa Criativa

Phenaki é ideal para artistas, escritores e animadores que desejam dar vida a histórias. A capacidade de criar sequências complexas a partir de textos em constante evolução o torna adequado para vídeos conceituais, filmes experimentais e obras de arte narrativas.

Conteúdo Educacional

Os educadores podem descrever cenários de aprendizagem — como simulações científicas, reconstituições históricas ou demonstrações animadas — e gerar instantaneamente vídeos relevantes que aumentam o envolvimento dos alunos.

Prototipagem rápida para cineastas

Estúdios de cinema e criadores de conteúdo podem usar o Phenaki para prototipar storyboards e sequências visuais rapidamente. Em vez de gastar horas em esboços ou maquetes, os criadores podem visualizar seus conceitos diretamente do roteiro.

Exemplos de Fenaki em ação

Geração de vídeo baseada em cenas

  • A teddy bear swims through the ocean → dives underwater → walks onto the beach → sits by a campfire
  • An astronaut walks on Mars → dances → walks a dog → watches fireworks with the dog

Exemplo de narrativa longa

Phenaki consegue gerar histórias de vários minutos: De um engarrafamento futurista numa cidade → à chegada de uma nave espacial alienígena → a um astronauta numa sala azul → e terminando com um leão de fato num escritório de arranha-céus.

Quadro estático + instrução

O Phenaki também permite a geração a partir de uma imagem estática e um texto de entrada, produzindo um movimento consistente para a frente a partir do quadro fornecido.

Pesquisa por trás de Phenaki

Tokenização de vídeo

O modelo comprime dados de vídeo em tokens discretos usando um codificador com reconhecimento temporal. Isso permite o processamento de clipes mais longos, reduzindo os requisitos de hardware.

Abordagem de Treinamento Conjunto

O modelo Phenaki foi treinado usando pares de imagem-texto e vídeo-texto. Esse design de conjunto de dados híbrido melhora a generalização e torna o modelo capaz de gerar conteúdo em uma ampla gama de cenários, mesmo com dados de vídeo limitados.

Desempenho

O Phenaki alcança melhor qualidade temporal e espacial do que os modelos existentes. Sua arquitetura baseada em transformadores e o design eficiente do tokenizador ajudam a reduzir artefatos e, ao mesmo tempo, a melhorar a coerência entre os quadros.

Experimente Phenaki

Embora atualmente apresentado como uma prévia de pesquisa, o Phenaki demonstra o futuro da geração de vídeo em domínio aberto. Versões futuras poderão permitir acesso público ou ferramentas de desenvolvimento para integrar suas funcionalidades em fluxos de trabalho criativos.

Acesse phenaki.video para explorar os vídeos gerados e ler o artigo de pesquisa completo.

Ferramentas Alternativas