31/7/23

Audiolibros e Inteligencia artifical

 


Los audiolibros han tenido un importante auge en los últimos años y su calidad ha aumentado notablemente, especialmente porque los narradores son profesionales humanos capaces, no sólo de leer el texto, sino de dotarlo de sentimiento, dinámica, cadencia, modulación e interés. Nada que ver con esas versiones que utilizan sistemas automáticos de conversión texto a voz.

Esta necesidad de profesionales especializados ha generado, asimismo, un mercado con significativos volúmenes de negocio y de puestos de trabajo.

Sin embargo, ahora, los avances de los generadores de texto, imagen y voz, basados en redes neuronales, permiten vislumbrar que la calidad de la conversión texto a vez será cada vez más similar a la del ser humano. Si el sistema puede "comprender" el contexto de la narración, los sentimientos involucrados y, por otro lado, la simulación del discurso oral es convincente, los audiolibros pueden entrar en una nueva fase que hará cambiar ese mercado.

El que el discurso oral "suene" humano es algo que es técnicamente posible utilizando, por ejemplo, la técnica de los samples que se usa en la composición musical por ordenador con DAWs y librerías. En composición musical, la dinámica se logra con las indicaciones escritas en la propia partitura (tempos, dinámicas, crescendos, ritardandos, rubatos, ritmos, stacattos, calandos, morendos, etc., etc.) que no existen en los textos literarios. Pero es aquí, donde una red neuronal convenientemente programada puede lograr aportar esos metadatas al generador sonoro de las palabras para conseguir una dicción adecuada y sentida.

Por un lado, estos avances técnicos suponen un cambio del modelo de negocio y un riesgo de pérdida de puestos de trabajo (narradores, actores, editores, expertos en mezclas, etc.). Por otro lado, pueden favorecer una explosión en la creación de audiolibros a coste muy bajo y de alta calidad.

También, existen problemas éticos que han de ser abordados legalmente. Si se utilizan samples, estas no son sino grabaciones de voces reales pronunciando la palabra en diferentes contextos, velocidades, intensidades y emociones. Pero estas palabras, constituido ya un corpus sonoro completo del idioma, pueden usarse para cualquier otro uso, más allá de crear audiolibros. Por así decirlo, la voz del orador puede ser mal usada para fines que no fueron los previstos. Es más, puede simularse que es algo dicho por él mismo, de manera fraudulenta ¿Debe entonces tratarse de una licencia en la que los oradores que han sido grabados deben dar su acuerdo para cada caso y cobrar por cada uso? ¿O se vende el conjunto de palabras grabadas de una vez y para siempre? Hasta ahora, muchos de los creadores de programas IA basados en redes neuronales toman toda la información sin consentimiento o contratos. Este hecho es particularmente delicado cuando tratamos de usar voces que corresponden a personas reales.

Podría pensarse que estas voces pueden ser generadas desde cero, creando la forma de onda necesaria. También se pensó en hacerlo así en la composición musical. Los matices son tantos y las dificultades técnicas tan grandes que la solución vía samples - en realidad, pura fuerza bruta - parece más realista. Basta escuchar los muchos conversores texto a voz basados en generación de ondas que suenan mecánicos y robóticos, sin alma.

Cualquiera que sea el caso, el futuro de la IA va a deparar cambios y avances profundos en el audiolibro.




No hay comentarios:

Publicar un comentario