Phenaki
Phenaki: Geração de texto para vídeo com prompts dinâmicos
Explore o trabalho de ponta da Runway Research em IA multimodal, incluindo geração de vídeo de quarta geração, splatting gaussiano 3D e generalização de domínio. Descubra como a Runway está moldando o futuro da simulação e da criatividade.
A Runway Research concentra-se no desenvolvimento de sistemas de IA multimodais que compreendem e simulam a dinâmica do mundo real. Seu trabalho utiliza vídeo como entrada e saída principal, complementado por modalidades como áudio e texto para criar modelos mais abrangentes. Esses simuladores de uso geral visam impulsionar a próxima geração de ferramentas criativas e analíticas.
A equipe da Runway acredita que o vídeo, devido à sua complexidade e estrutura temporal, oferece a base mais sólida para o treinamento de IA capaz de imitar a percepção e a compreensão humanas. Ao fundamentar os modelos em dados de vídeo ricos, eles visam desbloquear aplicações em cinema, design e experiências interativas.
Pesquisadores da Runway apresentaram um método chamado StochasticSplats que aprimora as técnicas existentes de splatting gaussiano 3D, eliminando a necessidade de ordenação por profundidade. Essa abordagem de rasterização estocástica oferece maior controle sobre os custos de renderização e a fidelidade visual, melhorando os resultados em aplicações 3D.
O método SCoPE aprimora a forma como os modelos generativos interpretam instruções complexas. Ao decompor as instruções em camadas que vão do geral ao específico, o sistema garante representações visuais mais precisas e melhor alinhamento entre as descrições de entrada e as imagens geradas.
O modelo Gen-4 da Runway representa um avanço significativo na geração de vídeo a partir de texto. Com mais controle e maior fidelidade do que as versões anteriores, o Gen-4 ajuda os usuários a criar visuais cinematográficos com o mínimo de informações, expandindo os limites da criatividade na produção de filmes e animações.
Complementando a quarta geração, ferramentas como Act-One e Frames são projetadas para a criação de conteúdo interativo. Essas plataformas permitem que os usuários manipulem conteúdo gerado por IA em tempo real, oferecendo flexibilidade e precisão na criação de narrativas visuais.
A pesquisa da Runway sobre generalização de domínio explora como os recursos do modelo de difusão podem separar domínios não vistos sem depender de dados rotulados. Esse método permite sistemas de IA mais adaptáveis, principalmente em ambientes com entradas imprevisíveis ou diversas.
Ao identificar estruturas de domínio latentes, o Runway aprimora os classificadores existentes com representações adicionais. Isso ajuda os modelos a terem um desempenho mais confiável em diferentes domínios, tornando-os úteis para implantação no mundo real, onde a variabilidade dos dados é a norma.
A Runway amplia o impacto de sua pesquisa por meio das RNA Sessions — uma série contínua que explora as interseções entre IA, arte e inovação. Esses eventos convidam líderes de pensamento para discutir avanços e direções futuras em mídia generativa.
As colaborações com entidades como a Lionsgate e o Tribeca Festival destacam o compromisso da Runway com a integração prática e concreta de ferramentas de IA. Essas parcerias ajudam a impulsionar a adoção de tecnologias generativas em fluxos de trabalho criativos profissionais.