Runway Research
ランウェイリサーチ:マルチモーダルAIとビデオ生成
Phenakiは、変化するテキストプロンプトからリアルな長編動画を生成する高度なAIモデルです。シンプルな説明から、ダイナミックなビジュアルストーリー、アニメーション、シーンを作成できます。

Phenakiは、一連のテキストプロンプトを長編動画に変換する最先端の動画生成モデルです。フレームごとに処理したり、静的な入力を使用する従来の動画合成ツールとは異なり、Phenakiは変化する物語を扱えるように設計されています。プロンプトの変化に合わせてシーンやコンテキストをシームレスに遷移させ、数分にわたる高品質で一貫性のある動画を生成できます。
Phenakiは、離散トークンと因果的な時間的注意に基づく革新的な動画表現システムを採用しています。このアプローチにより、空間的および時間的な一貫性を維持しながら、長さの異なる動画を扱うことができます。Phenakiは、動的な一連のテキスト入力に基づいて連続的な動画を作成できる最初のモデルの一つであり、ストーリーテリングやアニメーションコンテンツの作成に最適です。
このプロセスは、テキストプロンプト、または時間経過に伴う一連のプロンプトから始まります。これらはテキストトークンに変換され、マスクされたトランスフォーマーモデルを条件付けます。トランスフォーマーは圧縮されたビデオトークンを出力し、フル解像度のビデオにデコードされます。
Phenakiは、時間経過とともに展開するプロンプトシーケンスをサポートしている点が特長です。これにより、手作業による動画編集を必要とせずに、ストーリーやシーンの切り替えを作成できます。例えば、動画は「テディベアが泳いでいる」シーンから始まり、「クマがビーチを歩いている」シーンに切り替わり、「クマがキャンプファイヤーのそばにいる」シーンで終わるといった、すべてを同じクリップ内で再現できます。
専用のビデオエンコーダは、時間経過に伴う因果関係に注目し、各シーンをトークンに圧縮します。この圧縮手法により、ビデオ品質を維持しながら計算負荷を大幅に軽減し、より長く詳細な映像生成が可能になります。
Phenakiは、物語に命を吹き込みたいアーティスト、作家、アニメーターにとって理想的なツールです。変化するテキストから複雑なシーケンスを作成できるため、コンセプトビデオ、実験映画、物語アート作品などに最適です。
教育者は、科学的シミュレーション、歴史の再現、アニメーションによるデモンストレーションなどの学習シナリオを説明し、生徒の関与を高める関連ビデオを即座に生成できます。
映画スタジオやコンテンツクリエイターは、Phenaki を使ってストーリーボードやビジュアルシーケンスのプロトタイプを迅速に作成できます。スケッチやモックアップに何時間も費やす代わりに、クリエイターは脚本から直接コンセプトを視覚化できます。
Phenakiは、数分間の物語を生成できます。 未来都市の交通渋滞から、エイリアンの宇宙船の到着、青い部屋にいる宇宙飛行士、そして高層オフィスにいるスーツを着たライオンで終わります。
Phenaki では、静止画像とテキスト プロンプトから生成することもでき、指定されたフレームから一貫した前進動作を生成します。
このモデルは、時間を考慮したエンコーダを用いてビデオデータを離散的なトークンに圧縮します。これにより、ハードウェア要件を削減しながら、より長いクリップの処理が可能になります。
Phenakiは、画像とテキスト、および動画とテキストの両方のペアを用いて学習されました。このハイブリッドデータセット設計により、汎化能力が向上し、限られた動画データであっても、幅広いシナリオに対応したコンテンツを生成できるようになります。
Phenakiは、既存のモデルよりも優れた時間的・空間的品質を実現します。トランスフォーマーベースのアーキテクチャと効率的なトークナイザー設計により、アーティファクトを削減しながら、フレーム間の一貫性を向上させます。
Phenakiは現在研究プレビューとして公開されていますが、オープンドメイン動画生成の未来を示しています。将来のバージョンでは、一般公開や、クリエイティブワークフローに機能を統合するための開発者ツールの提供が開始される可能性があります。
phenaki.video にアクセスして、生成されたビデオを閲覧し、完全な研究論文をお読みください。