28/4/24

VASA-1: Generador de rostros hablantes

 


Conocemos ya la capacidad de los grandes modelos de lenguaje (LLM) de generar texto en tiempo real, manteniendo el contexto.

Conocemos también los conversores de texto a voz que, especialmente en inglés, han progresado mucho aun cuando todavía adolezcan de poca expresividad y suenen algo mecánicos.

VASA-1 es un software especializado que une ambos aspectos con un  generador de rostros que moverán la cabeza, ojos y boca en función de lo que se esté diciendo. Dado que este generador de rostros trabaja también tiempo real, es posible crear avatares, videoclips o robots de ayuda que se asemejen a una interacción humana.

Asimismo, cabe imaginar que podemos `programar dos o más avatares para que actúen como personajes de una obra literaria digital, una especie de video libro, un audiolibro en el que vemos una cara recitando.

Este software es un desarrollo de una de las filiales asiáticas de Microsoft. Según los autores, los labios se sincronizan con precisión con las palabras que son emitidas y pueden controlarse numerosos matices tanto sonoros como faciales para dotar de realismo a la interacción.

Para evitar problemas de intromisión en la vida privada, los rostros que la aplicación utiliza son también digitales, creados con StyleGAN2 o DALL·E-3.

Es capaz de manejar idiomas diferentes del inglés siempre que esos idiomas estén entre los utilizados para entrenar a la red neuronal.

El sistema genera vídeo de 512x512 píxeles a 45 fps. No pasará mucho tiempo hasta conseguir resultados similares en alta resolución y pantalla TV HQ. Al fin y al cabo, esto ya depende sobre todo de la potencia del hardware más que del concepto de programación.

Más información en este enlace.





0 comentarios :