MusicLM

Google MusicLM は、シンプルなテキストプロンプトから高品質でリアルな音楽を生成します。AI があなたの言葉を表現力豊かで多様なジャンルのオーディオ作品へと変換する様子を、例を通してご覧ください。

MusicLMについて

AIを活用したテキストからの音楽生成

MusicLMは、Google Researchが開発した強力な音楽生成モデルで、自然言語による記述を高忠実度の音楽に変換します。落ち着いたピアノのメロディー、エネルギッシュなテクノビート、あるいはジャズトリオによる息の合ったジャムセッションなど、MusicLMはあなたのアイデアを解釈し、オリジナルオーディオに変換します。

階層的シーケンスツーシーケンスモデリング

このモデルは階層構造を用いて音楽生成にアプローチし、24kHzで長く一貫性のあるオーディオクリップを生成します。これにより、数分間にわたる再生でも明瞭性と音楽の連続性を確保します。

MusicLMの仕組み

テキストベースの構成

ユーザーは「ピアノと柔らかなドラムが奏でる、リラックスできるジャズ」など、詳細なテキストまたは簡単なテキストによる説明を入力すると、MusicLMは、説明されたジャンルと感情的なトーンの両方に一致する音楽を作曲します。スタイル、テンポ、楽器、ムードのニュアンスを認識し、再現します。

二重条件付け：テキストとメロディー

MusicLMは、テキストプロンプトに加えて、メロディーの調整機能も組み込んでいます。つまり、ハミングや口笛で曲を歌えば、入力したテキストに基づいて、その曲に合ったスタイルで楽曲に変換されます。

MusicLMの機能

長編世代

MusicLMは、数分間にわたってテーマとハーモニーの一貫性を保ちながら、長編楽曲の作成に優れています。BGM、ストーリーテリング、アンビエント環境などに最適です。

ストーリーモード

一連のプロンプトを使用することで、ユーザーは時間の経過とともに変化する音声を生成できます。例えば、瞑想的なサウンドトラックから始まり、徐々にエネルギッシュなワークアウトビートへと移行し、物語や体験の各段階を反映します。

MusicLMのユースケース

クリエイティブプロジェクト

作曲家、映画製作者、そしてクリエイターは、従来の制作ツールを使わずに、自らのビジョンに合った音楽を制作できます。シーンを描写するだけで、MusicLMがぴったりのサウンドトラックを作成します。

音楽実験

アーティストは新しいジャンルを探求したり、楽器を組み合わせたり、同じアイデアのバリエーションを生み出したりして、予期せぬインスピレーションを得ることができます。

教育および研究アプリケーション

MusicLM は、5,500 の音楽とテキストのペアからなる MusicCaps データセットを公開しており、音楽生成と機械学習に関する学術研究もサポートしています。

MusicLMが生成できるものの例

説明から

«A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound.»
«Slow tempo, bass-and-drums-led reggae with relaxed vocals and sustained electric guitar.»

画像からインスピレーションを得たキャプション

The Persistence of Memory by Salvador Dalí becomes an eerie, surreal soundscape.
Dance by Henri Matisse inspires upbeat, joyful rhythms with collective energy.

楽器やジャンルから

Generate solo compositions based on instruments like cello, flute, or electric guitar.
Choose from genres such as ambient, 8-bit, big beat, or 90s house.

技術的なハイライト

24 kHz Audio Output: Professional-quality audio generation.
Multi-minute Duration: Capable of maintaining structure and theme.
Melody Conditioning: Hummed or whistled melodies guide the output.
Diversity Testing: Generates multiple variations from the same prompt to show creative range.