Poe
Poe: Explore os melhores modelos de IA para texto, imagem e áudio.
Explore o Bark, da Suno, um poderoso modelo de texto para áudio de código aberto que gera fala, música e efeitos sonoros realistas em vários idiomas. Agora disponível para uso comercial sob a licença MIT.
O Bark é um modelo de texto para áudio totalmente generativo que vai além da tradicional conversão de texto em fala. Desenvolvido pela Suno, ele pode produzir não apenas fala com som natural, mas também música, ruído ambiente e sons não verbais expressivos, como risos e suspiros. Ele faz isso sem depender da conversão de fonemas, possibilitando saídas de áudio mais criativas e flexíveis.
Distribuído sob a licença MIT, o Bark está disponível gratuitamente para aplicações comerciais e de pesquisa. O código-fonte está hospedado no GitHub, com modelos pré-treinados fornecidos para inferência direta. Isso o torna acessível a desenvolvedores, pesquisadores e criadores que buscam uma ferramenta avançada e pronta para uso na geração de áudio.
O Bark utiliza uma arquitetura de transformadores inspirada em modelos como AudioLM e Vall-E. Ele processa prompts de texto brutos diretamente em formas de onda de áudio usando uma representação de áudio quantizada. O resultado é um modelo que pode ser generalizado entre idiomas e tipos de áudio sem regras fonéticas predefinidas.
Ao contrário dos sistemas TTS convencionais, o Bark pode gerar uma ampla gama de saídas de áudio. Seja para escrever diálogos, compor melodias simples ou adicionar efeitos sonoros ambientes, o Bark interpreta os comandos de texto de forma flexível para produzir resultados expressivos. Ele suporta até mesmo notação musical por meio de tokens especiais, permitindo que os usuários criem letras e melodias cantadas.
O Bark é compatível com mais de uma dúzia de idiomas, incluindo inglês, alemão, espanhol, coreano e mandarim. Ele consegue detectar e alternar entre idiomas automaticamente, preservando os sotaques regionais quando aplicável. O modelo também pode imitar emoções e estilos de fala por meio de predefinições de voz integradas, aprimorando a personalidade e o tom.
O Bark inclui uma biblioteca de predefinições de locutores para diferentes tons, sotaques e personalidades. Ele também suporta marcadores para ações como [risos], [suspiros] ou até mesmo dicas musicais como ♪ para guiar a saída de áudio. Esses recursos o tornam ideal para criar conteúdo de voz dinâmico e rico em personalidade.
O Bark pode ser usado diretamente em Python ou através da biblioteca Hugging Face Transformers. Modelos pré-carregados permitem que desenvolvedores gerem e salvem arquivos de áudio rapidamente a partir de entradas de texto. Notebooks e tutoriais ajudam os usuários a começar a gerar áudio de longa duração, personalizar a voz e otimizar a velocidade.
Para obter o máximo desempenho, o Bark requer cerca de 12 GB de memória de GPU, mas configurações mais leves permitem o uso em sistemas com apenas 2 GB de VRAM. A inferência por CPU e GPU é suportada, com ajustes de desempenho disponíveis para ambientes com recursos limitados.
O Bark abre novas possibilidades em aplicativos baseados em voz — de podcasts e narração de histórias a ferramentas de acessibilidade e mídia criativa. Com sua arquitetura flexível, os desenvolvedores podem criar ferramentas que falam, cantam ou respondem a comandos de maneiras únicas e realistas.
Suno mantém uma comunidade ativa em torno do Bark, incluindo fóruns de suporte e grupos de compartilhamento de prompts no Discord. À medida que o modelo continua a evoluir, espera-se que novos recursos, otimizações e linguagens expandam seu alcance e usabilidade.