Poe
テキスト、画像、音声に最適な AI モデルを探る
SunoによるBarkは、複数の言語でリアルな音声、音楽、効果音を生成できる強力なオープンソースのテキスト音声変換モデルです。MITライセンスに基づき、商用利用が可能です。

Barkは、従来のテキスト読み上げ技術を凌駕する、完全生成型のテキスト音声モデルです。Suno社によって開発されたBarkは、自然な音声だけでなく、音楽、環境音、そして笑い声やため息といった表現力豊かな非言語音も生成できます。音素変換に頼ることなく、よりクリエイティブで柔軟な音声出力を実現します。
MITライセンスの下でリリースされたBarkは、研究用途と商用用途の両方で自由にご利用いただけます。コードベースはGitHubでホストされており、直接推論に使用できる事前学習済みモデルが提供されています。これにより、高度ですぐに使える音声生成ツールを求める開発者、研究者、クリエイターにとって、Barkはアクセスしやすいツールとなっています。
Barkは、AudioLMやVall-Eなどのモデルに着想を得たトランスフォーマーアーキテクチャを採用しています。量子化された音声表現を用いて、生のテキストプロンプトを直接音声波形に変換します。その結果、事前定義された音声規則なしに、言語や音声の種類を問わず一般化できるモデルが実現します。
従来のTTSシステムとは異なり、Barkは幅広い音声出力を生成できます。会話の台本作成、シンプルなメロディーの作成、アンビエント効果の追加など、Barkはテキストプロンプトを柔軟に解釈し、表現力豊かな音声を生成します。さらに、特殊なトークンを介して楽譜もサポートしており、ユーザーは歌詞やメロディーを自由に作成できます。
Barkは、英語、ドイツ語、スペイン語、韓国語、中国語など12以上の言語に対応しています。言語を自動的に検出し、切り替えることで、必要に応じて地域アクセントも維持します。また、内蔵の音声プリセットを使用して感情や話し方を模倣し、キャラクターやトーンを強調することもできます。
Barkには、様々なトーン、アクセント、ペルソナに対応したスピーカープリセットのライブラリが含まれています。また、「笑い」や「ため息」といったアクショントークンや、音声出力をガイドする「♪」などの音楽キューもサポートしています。これらの機能は、ダイナミックで個性豊かな音声コンテンツの作成に最適です。
BarkはPythonで直接、またはHugging Face Transformersライブラリを介して使用できます。プリロードされたモデルにより、開発者はテキスト入力から音声ファイルを迅速に生成・保存できます。ノートブックとチュートリアルは、ユーザーが長編音声の生成、音声のカスタマイズ、速度の最適化を始めるのに役立ちます。
Bark をフルパフォーマンスで実行するには約 12 GB の GPU メモリが必要ですが、より軽量な構成であれば、わずか 2 GB の VRAM を搭載したシステムでも使用できます。CPU と GPU の両方の推論がサポートされており、リソースが制限された環境ではパフォーマンスを微調整できます。
Barkは、ポッドキャストやストーリーテリングからアクセシビリティツールやクリエイティブメディアまで、音声ベースのアプリケーションに新たな可能性をもたらします。柔軟なアーキテクチャにより、開発者は、ユニークでリアルな方法で話したり、歌ったり、プロンプトに応答したりするツールを構築できます。
Sunoは、サポートフォーラムやDiscordのプロンプト共有グループなど、Barkを中心とした活発なコミュニティを維持しています。このモデルが進化し続けるにつれて、新しい機能、最適化、そして言語の追加によって、そのリーチと使いやすさがさらに拡大することが期待されます。