Meta apresenta Voicebox, um modelo generativo de IA para aplicações de áudio

A Meta apresentou sua mais recente empreitada no campo da inteligência artificial com o Voicebox, um modelo de IA generativo projetado para aplicações de áudio. Construindo sobre o sucesso de sua tecnologia de voz de IA capaz de reconhecer mais de 4.000 idiomas, o Voicebox da Meta eleva as capacidades vocais a novos patamares. Essa nova tecnologia é um modelo generativo, semelhante a um sistema de texto para fala (TTS), mas mais capaz e versátil.

O Voicebox oferece uma variedade de recursos, incluindo a geração, edição e amostragem de áudio. Ele visa criar vozes naturais para assistentes virtuais e personagens do metaverso, além de melhorar a síntese de áudio para pessoas com deficiência visual ou criadores de conteúdo. Ao contrário de modelos focados em texto e imagem como o ChatGPT ou Dall-E, o Voicebox opera produzindo arquivos de áudio com base no texto fornecido pelo usuário.

O que diferencia o Voicebox de outros modelos de síntese de fala é seu processo de treinamento notavelmente eficiente. A Meta aproveitou gravações de áudio e transcrições de audiolivros não especializados em inglês, francês, espanhol, alemão, polonês e português. Apesar dessa abordagem não convencional de treinamento, as sínteses vocais resultantes geradas pelo Voicebox provaram ser altamente eficazes e diretas em comparação com soluções existentes como o Vall-E da Microsoft.