Investigadores de Amazon han desarrollado un nuevo sistema de conversión de texto a voz, denominado BASE TTS, que promete un realismo superior, en tono y naturalidad, a los sistemas existentes a la fecha. Amazon afirma que el nuevo sistema es capaz de imitar elementos complejos en el habla, como las emociones, las largas frases, las palabras extranjeras, una fonética adaptada al contexto o la interpretación de los signos de puntuación.
BASE es el acrónimo de Big Adaptative Streamable. Los detalles de la técnica involucrada pueden leerse en el artículo técnico publicado por el grupo de investigación.
Se trata de una red neuronal que ha sido entrenada con unas 100.000 horas de audio y, en su versión más avanzada, maneja casi 1000 millones de parámetros. La red neuronal, como ya es habitual hoy en día en el tratamiento de grandes modelos de lenguaje, es un transformer del tipo auto regresivo.
Como se explica en el artículo técnico, se parte de un conjunto de datos D = {xi, , yi} con i variando entre 0 y N, donde y es una muestra de audio y x = {x1, - - , xT } es la transcripción del texto correspondiente. El audio y = {y1, - - - , yS} se representa mediante una secuencia de S símbolos discretos (códigos de voz, tokens, o speechcodes en su terminología inglesa), aprendidos en el entrenamiento con un tokenizador de voz entrenado por separado. Se utiliza una red autorregresiva basada en transformadores con parámetros ϕ para calcular la probabilidad conjunta de las secuencias de texto y audio.
La mayoría de las grabaciones usadas, hasta un 90%, lo han sido en inglés, con pequeñas porciones de español, holandés y algún otro idioma.
El sistema convierte el texto sin formatear en códigos de voz que, mediante un sintetizador, basado en un decodificador convolucional de transmisión, se convierten en sonido. Además, dispone de un nuevo "tokenizador"
0 comentarios :
Publicar un comentario