Voicebox, la inteligencia artificial de audio de Meta que aprende como ChatGPT

Voicebox

Merca20.com publica que Meta presentó Voicebox, herramienta que, asegura, es la primera IA capaz de llevar texto a voz tan rápido como lo hace ChatGPT. Ideal para crear anuncios publicitarios.

Meta presentó este viernes 16 de junio una herramienta que califica como “revolucionaria”: un generador de texto a voz (TTS) que, según asegura la compañía de Mark Zuckerberg, genera resultados 20 veces más rápido que los modelos de IA actuales en el mismo campo.

Según se puede ver en los videos de promoción, el sistema, llamado Voicebox, no usa arquitectura TTS tradicional, sino modelos más parecidos a ChatGPT, de Open-AI, o Bard de Alphabet.

La principal diferencia entre Voicebox y otros modelos TTS ya lanzados hasta ahora, como Eleven Labs Prime Voice-AI, es que la herramienta de Meta Platforms es capaz de generalizar por medio de aprendizaje en medio de un contexto.

Este nueva herramienta puede ser realmente muy útil para agencias de publicidad o para diseñadores gráficos que ahora podrán adentrarse en la producción de anuncios de radio sin la necesidad de contratar locutores o tener costosos sistemas de edición de audio.

De la misma manera que lo hace ChatGPT, Voicebox usa un conjunto de datos de entrenamiento de “megaescala”.

Hasta ahora, los sistemas para llevar texto a audio usan bases de datos acotadas y seleccionadas porque los grandes volúmenes generaban voces imperfectas y poco fiables.

Meta dice que con Voicebox esta limitación ya no existe a partir de un nuevo sistema de entrenamiento que no necesita de etiquetas ni de curación porque la arquitectura del software “rellena” la información de audio.

En una publicación en el blog de Meta AI de este viernes 16 de junio, la compañía dice que Voicebox es el “primer modelo que puede generalizar tareas de producción de voces para las que no ha sido entrenado de forma específica con un rendimiento inédito”.

Así, Voicebox puede convertir textos a voces, eliminar sonidos no deseados sintetizando voz de sustitución e incluso aplicar la voz de un mismo locutor con salida a diferentes idiomas.

Si bien Voicebox no es el primer desarrollo de esta clase, sí parece ser uno de los más sólidos.

En paralelo, Meta dice que creó herramientas para saber si los audios han sido generados por Voicebox o son auténticos. Meta AI asegura que es posible “detectar trivialmente” las diferencias entre audios reales y falsos.

Así lo explica en el blog: “De la misma manera en que lo hacemos con otras potentes innovaciones de inteligencia artificial, sabemos que estas tecnologías conllevan una potencial utilización indebida y dañina. Por eso, en este documento, explicamos la manera en que hemos construido un clasificador muy eficaz que puede distinguir muy fácilmente entre voces auténticas y audios generados con Voicebox, con la idea de mitigar este posible riesgo”.

76997