En este blog se ha hablado en varias ocasiones de la holosala, el "holodeck" que popularizó la serie Star Trek: The Next Generation, un teatro virtual en el que se recrea una escena 3D con total realismo, y en donde uno puede entrar, deambular, interaccionar con otros personajes también recreados en 3D, y convertirse en un actor más de la historia. Por ejemplo, en este, este y este otro enlace.
Sin duda, alcanzar este reto está aún muy lejos de la tecnología actual aunque para situaciones definidas y controladas existen ya sistemas de simulación industriales que se utilizan habitualmente en el entrenamiento militar, el entrenamiento de pilotos de aviación o en dominar el uso de equipos industriales complejos. En general, estos sistemas de simulación, sin embargo, visualizan el entorno en pantallas que pueden rodear al usuario pero que no dejan "entrar" en ellas. Son, además, sistemas que requieren ordenadores muy potentes para renderizar las imágenes en tiempo real y millones de horas de programación para implementar todas las acciones posibles por parte del usuario.
Investigadores de la University of Pennsylvania School of Engineering and Applied Science, de la Universidad de Stanford, de la de Washington y del Allen Institute han propuesto un nuevo sistema para generar holosalas, basado en inteligencia artificial. No se trata de las salas hiper realistas por las que uno puede caminar e interactuar (que, como se indicó antes, está muy lejos de las posibilidades técnicas de este siglo) pero si de entornos virtuales en los que mediante proyección o mediante gafas 3D podemos integrarnos.
El objetivo no es tanto el entretenimiento sino ayudar a la simulación industrial o militar. Si, en un futuro, queremos disponer de redes neuronales que simulen entornos 3D, del mismo modo que empezamos a tener redes que simulan conversaciones, como ChatGPT, o que generan imágenes de alta calidad, como DALL-E, o vídeos, será necesario disponer de miles de millones de datos para su entrenamiento. En textos, tenemos estos millones de datos; en imágenes también, pero no los tenemos en escenarios 3D modelizados. De estos, en el mundo, hay sólo un numero del orden de decenas de miles. Aún no podemos entrenar una red neuronal especializada.
El nuevo sistema busca generar escenarios 3D renderizados, modelizados y parametrizados según lo que se pueda o no hacer para, con ellos, y una vez que se tenga el volumen adecuado, poder entrenar una red neuronal adaptada a la generación 3D.
Tras ese paso, y mucho más allá en el tiempo, podría llegar la posibilidad de crear holosalas literarias.
El sistema permite generar entornos 3D mediante un diálogo con un LLM de modo que, en vez de tener que dedicar miles de horas a programar una pequeña cosa, sea posible "decir" y "pedir" lo que se desea en lenguaje natural, dejando que sea la IA la que genere todo el cuerpo de código. No es lo mismo ponerse delante de la pantalla a programar miles de líneas en C++ para "crear" una mesa, una silla, una ventana o una sala, que escribir una frase como "crea una sala virtual de 20 m2 con una mesa, dos sillas, una televisión, una alfombra azul en el suelo y dos ventanas".
Para lograrlo, proponen un modelo de lenguaje LLM que interpreta la petición y va generando, paso a paso, los elementos requeridos. Utiliza, en esa fase, la librería Objaverse, un enorme conjunto de objetos cotidianos digitalizados. Se entiende, pues, que la sala generada no podrá ser "cualquiera" sino que su estilo, color, forma, etc. se ajustará a lo que exista en Objaverse.
En las pruebas, se han creado 120 escenas con el nuevo sistema y, simultáneamente, con otro software de renderizado llamado ProcTHOR y se ha valorado su calidad relativa. En general, los resultados han sido positivos.
El artículo técnico completo puede leerse desde este enlace.
No hay comentarios:
Publicar un comentario