15/10/24

Creación de audiolibros con inteligencia artificial

 


Ya hemos hablado en alguna entrada anterior sobre las aplicaciones de la IA en la creación de audiolibros, como por ejemplo en esta.

La generación de un audiolibro de calidad con actores humanos es un trabajo largo, costoso y que requiere expertos en mezclas, grabación y dicción. Así, la producción es obligatoriamente lenta y cara.

Brendan Walsh y colaboradores han publicado hace unos meses un artículo científico en el que se describe un método, basado en redes neuronales, para automatizar la creación de audiolibros a partir de un texto digital. En colaboración con el proyecto Project Gutenberg, se han generado unos 5000 audiolibros de fuentes de dominio público en un tiempo récord y con coste mínimo.

Hay que hacer notar que la nueva aplicación neuronal permite distinguir qué partes deben ser leídas y qué partes no. Por ejemplo, si se trata de un libro técnico, pueden existir tablas o estadísticas o fórmulas que no pueden ser verbalizadas como si se trataran de un párrafo cualquiera de texto. O, por ejemplo, el número de página o la cabecera que se repite en cada hoja eventualmente. El sistema debe reconocer que esos elementos no deben leerse y saltárselos.

El sistema combina redes neuronales especializadas en la  conversión neural de texto a voz, la lectura emotiva, la computación escalable y la detección automática de palabras. 

El proyecto se ha basado en libros digitales en formato HTML. Primero, se caracterizó  el árbol del Modelo de Objetos del Documento HTML Así, el modelo de Objetos del Documento (DOM), una combinación de funciones HTML automatizadas (la estadística TF-IDF de los libros digitales) y características HTML elaboradas a mano.  Esto permitió encontrar estructuras comunes entre todos los libros que querían pasarse a audio y determinar los estándares.

Cada audiolibro requiere un estilo de lectura diferente, una entonación y un sentimiento diferentes. Una obra técnica o económica debe tener una voz neutra y académica. Una novela debe dotarse a la voz de emoción y teatralidad. Para reproducir digitalmente las voces se partió de grabaciones breves de cada obra y se extrajeron las características para extrapolarlas al resto de la "lectura". Esto permite generar el audio completo de un largo libro a partir de un subconjunto de un par de páginas grabadas. 

Para crear una lectura emotiva del texto, utilizaron un sistema automático de detección de diálogos y narradores, añadiendo entonaciones al estilo de base.

El artículo completo puede leerse en este enlace.



 



No hay comentarios:

Publicar un comentario