Phenaki

페나키는 변화하는 텍스트 프롬프트를 기반으로 사실적이고 긴 형식의 비디오를 생성하는 고급 AI 모델입니다. 간단한 설명으로 역동적인 시각적 스토리, 애니메이션, 장면을 만들어 보세요.

AI로 이동
Phenaki cover

페나키 소개

페나키란 무엇인가?

페나키(Phenaki)는 일련의 텍스트 프롬프트를 장편 영상으로 변환하는 최첨단 영상 생성 모델입니다. 프레임 단위로 작업하거나 정적인 입력을 사용하는 기존 영상 합성 도구와 달리, 페나키는 변화하는 내러티브를 처리하도록 설계되었습니다. 프롬프트의 변화에 ​​따라 장면과 맥락을 매끄럽게 전환하며, 몇 분 분량의 고품질의 일관된 영상을 생성할 수 있습니다.

왜 독특한가

페나키는 이산 토큰과 인과적 시간적 주의에 기반한 새로운 비디오 표현 시스템을 사용합니다. 이 접근 방식을 통해 공간적 및 시간적 일관성을 유지하면서 가변 길이의 비디오를 처리할 수 있습니다. 일련의 동적인 텍스트 입력을 기반으로 연속적인 비디오를 생성할 수 있는 최초의 모델 중 하나로, 스토리텔링 및 애니메이션 콘텐츠 제작에 이상적입니다.

페나키의 작동 원리

텍스트-비디오 파이프라인

이 과정은 텍스트 프롬프트 또는 시간 경과에 따른 일련의 프롬프트로 시작됩니다. 이러한 프롬프트는 텍스트 토큰으로 변환되고, 이 토큰은 마스크된 변환기 모델을 조건화합니다. 변환기는 압축된 비디오 토큰을 출력하고, 이 토큰은 전체 해상도 비디오로 디코딩됩니다.

시간 변수 프롬프트 처리

페나키는 시간에 따라 전개되는 즉흥적인 시퀀스를 지원한다는 점이 특징입니다. 이를 통해 수동 비디오 편집 없이도 스토리나 장면 전환을 제작할 수 있습니다. 예를 들어, «테디베어 수영"으로 시작한 후 «곰이 해변을 걷는 모습"으로 전환하고 «모닥불 옆의 곰"으로 끝나는 이 모든 장면을 하나의 클립 안에 담을 수 있습니다.

효율적인 비디오 인코딩

특수 비디오 인코더는 시간 경과에 따른 인과적 주의(causal attention)를 사용하여 각 장면을 토큰으로 압축합니다. 이 압축 방식은 비디오 품질을 유지하면서도 연산 부하를 크게 줄여 더 길고 세부적인 생성을 가능하게 합니다.

페나키 사용 사례

창의적인 스토리텔링

페나키는 이야기에 생동감을 불어넣고자 하는 아티스트, 작가, 애니메이터에게 이상적입니다. 끊임없이 변화하는 텍스트에서 복잡한 시퀀스를 만들어낼 수 있어 컨셉 영상, 실험 영화, 내러티브 예술 작품 제작에 적합합니다.

교육 콘텐츠

교육자는 과학적 시뮬레이션, 역사 재연, 애니메이션 시연 등의 학습 시나리오를 설명하고 학생 참여를 강화하는 관련 비디오를 즉시 제작할 수 있습니다.

영화 제작자를 위한 신속한 프로토타입 제작

영화 스튜디오와 콘텐츠 제작자는 Phenaki를 사용하여 스토리보드와 비주얼 시퀀스의 프로토타입을 빠르게 제작할 수 있습니다. 스케치나 목업에 시간을 허비하는 대신, 제작자는 대본에서 바로 콘셉트를 시각화할 수 있습니다.

페나키의 실제 활용 사례

장면 기반 비디오 생성

  • A teddy bear swims through the ocean → dives underwater → walks onto the beach → sits by a campfire
  • An astronaut walks on Mars → dances → walks a dog → watches fireworks with the dog

장편 서사 예시

페나키는 몇 분 분량의 스토리를 만들어낼 수 있습니다. 미래 도시의 교통 체증부터 → 외계 우주선 도착 → 파란 방의 우주인 → 그리고 고층 사무실에 정장을 입은 사자까지

정지 프레임 + 프롬프트

페나키는 정적 이미지와 텍스트 프롬프트에서 생성을 허용하여 주어진 프레임에서 일관된 전방 동작을 생성합니다.

페나키 연구

비디오 토큰화

이 모델은 시간 인식 인코더를 사용하여 비디오 데이터를 개별 토큰으로 압축합니다. 이를 통해 하드웨어 요구 사항을 줄이면서 긴 클립을 처리할 수 있습니다.

공동 훈련 접근 방식

페나키는 이미지-텍스트와 비디오-텍스트 쌍을 모두 사용하여 학습되었습니다. 이러한 하이브리드 데이터셋 설계는 일반화를 향상시키고, 제한된 비디오 데이터로도 광범위한 시나리오에서 콘텐츠를 생성할 수 있도록 합니다.

성능

페나키는 기존 모델보다 더 나은 시간적, 공간적 품질을 구현합니다. 트랜스포머 기반 아키텍처와 효율적인 토크나이저 설계는 프레임 간 일관성을 향상하는 동시에 아티팩트를 줄이는 데 도움이 됩니다.

페나키를 먹어보세요

현재는 연구 미리보기로 제공되고 있지만, 페나키는 오픈 도메인 비디오 생성의 미래를 보여줍니다. 향후 버전에서는 해당 기능을 크리에이티브 워크플로에 통합하기 위한 공개 접근 또는 개발자 도구가 제공될 수 있습니다.

phenaki.video를 방문하여 생성된 비디오를 살펴보고 전체 연구 논문을 읽어보세요.

대안 도구